使用C#開發(fā)搜索引擎

出版時間:2011-11-18  出版社:清華大學(xué)出版社  作者:羅剛  
Tag標(biāo)簽:無  

內(nèi)容概要

介紹如何以C#作為工具開發(fā)搜索引擎。
全書以完成一個網(wǎng)站搜索\垂直搜索作為目標(biāo)。從網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)開始,然后到中文分詞、文本排重等文本挖掘技術(shù)和搜索結(jié)果展現(xiàn)。本書是唯一介紹業(yè)界熱門的Lucene.Net、使用WebBrowser做爬蟲以及結(jié)合Solr開發(fā)ASP.NET搜索的書籍。從C#基礎(chǔ)開始,逐漸深入,是學(xué)習(xí)搜索引擎開發(fā)的首選。
對于學(xué)習(xí)復(fù)雜數(shù)據(jù)結(jié)構(gòu)和應(yīng)用動態(tài)規(guī)劃等常用算法也有參考價值。

作者簡介

羅剛,獵兔搜索(http://www.lietu.com)創(chuàng)始人。創(chuàng)建包括旅游搜索和輿情監(jiān)測在內(nèi)的多個技術(shù)開發(fā)團隊。有多年軟件培訓(xùn)經(jīng)驗,相關(guān)學(xué)員已經(jīng)在京東商城、UCWeb、MadeInChina等多家公司從事技術(shù)開發(fā)。出版過的相關(guān)書籍包括《自己動手寫搜索引擎》、《自己動手寫網(wǎng)絡(luò)爬蟲》、《解密搜索引擎技術(shù)實戰(zhàn)》以及視頻教程《Lucene構(gòu)建網(wǎng)站搜索系統(tǒng)》。

書籍目錄

使用C#開發(fā)搜索引擎	1
第1章 使用C#開發(fā)搜索引擎快速入門 2
1.1 各種搜索引擎 2
1.1.1 通用搜索 2
1.1.2 垂直搜索 3
1.1.3 站內(nèi)搜索 4
1.2 搜索引擎整體結(jié)構(gòu) 4
1.3 搜索引擎基本技術(shù) 5
1.3.1 網(wǎng)絡(luò)爬蟲 5
1.3.2 文本挖掘 6
1.3.3 全文索引 6
1.3.4 搜索語法介紹 10
1.3.5 搜索用戶界面 11
1.4 C#開發(fā)快速入門 13
1.4.1 準(zhǔn)備開發(fā)環(huán)境 13
1.4.2 基本語法 13
1.4.3 多維數(shù)組 15
1.4.4 位運算 15
1.4.5 枚舉類型 16
1.4.6 面向?qū)ο?17
1.4.7 集合類 19
1.4.8 泛型 21
1.4.9 委托和事件 21
1.4.10 類庫 24
1.5 本章小結(jié) 24
1.6 術(shù)語表 25
第2章 使用C#開發(fā)網(wǎng)絡(luò)爬蟲 26
2.1 網(wǎng)絡(luò)爬蟲抓取原理 26
2.2 爬蟲架構(gòu) 29
2.2.1 基本架構(gòu) 29
2.2.2 分布式爬蟲架構(gòu) 31
2.2.3 垂直爬蟲架構(gòu) 32
2.3 下載網(wǎng)頁 33
2.3.1 HTTP協(xié)議 33
2.3.2 下載靜態(tài)網(wǎng)頁 37
2.3.3 下載動態(tài)網(wǎng)頁 41
2.4 網(wǎng)絡(luò)爬蟲遍歷與實現(xiàn) 49
2.5 網(wǎng)站地圖 51
2.6 連接池 52
2.7 URL地址查新 53
2.7.1 嵌入式數(shù)據(jù)庫 54
2.7.2 布隆過濾器 56
2.8 抓取RSS 59
2.9 解析相對地址 61
2.10 網(wǎng)頁更新 62
2.11 信息過濾 64
2.12 垂直行業(yè)抓取 70
2.13 抓取限制應(yīng)對方法 70
2.13.1 更換IP地址 70
2.13.2 抓取需要登陸的網(wǎng)頁 73
2.13.3 抓取ASP.NET網(wǎng)頁 76
2.14 保存信息 79
2.14.1 存入數(shù)據(jù)庫 79
2.14.2 存成圖像 80
2.15 日志 81
2.16 本章小結(jié) 84
2.17 術(shù)語表 85
第3章 索引各種格式文檔 89
3.1 從HTML文件中提取信息 89
3.1.1 識別網(wǎng)頁的編碼 89
3.1.2 正則表達式 91
3.1.3 Html Agility Pack介紹 96
3.1.4 網(wǎng)頁正文提取 100
3.1.5 結(jié)構(gòu)化信息提取 113
3.1.6 查看網(wǎng)頁的DOM結(jié)構(gòu) 117
3.1.7 網(wǎng)頁結(jié)構(gòu)相似度計算 119
3.2 從非HTML文件中提取文本 122
3.2.1 TEXT文件 122
3.2.2 PDF文件 123
3.2.3 Office文件 125
3.2.4 Rtf文件 126
3.3 本章小結(jié) 128
3.4 術(shù)語表 128
第4章 自然語言處理 129
4.1 統(tǒng)計機器學(xué)習(xí) 129
4.1.1 協(xié)同推薦 130
4.2 文檔排重 136
4.3 中文關(guān)鍵詞提取 145
4.3.1 關(guān)鍵詞提取的基本方法 146
4.3.2 從網(wǎng)頁中提取關(guān)鍵詞 149
4.4 相關(guān)搜索 149
4.5 拼寫檢查 150
4.5.1 拼寫檢查的概率模型 151
4.5.2 模糊匹配問題 152
4.5.3 英文拼寫檢查 156
4.5.4 中文拼寫檢查 159
4.6 文本摘要 160
4.6.1 文本摘要的設(shè)計 160
4.6.2 實現(xiàn)文本摘要技術(shù) 161
4.6.3 Lucene.Net中的動態(tài)摘要 167
4.7 文本分類 168
4.7.1 自動分類的接口定義 168
4.7.2 自動分類的實現(xiàn) 169
4.8 自動聚類 170
4.8.1 文檔相似度 171
4.8.2 K均值聚類方法 174
4.8.3 K均值實現(xiàn) 176
4.9 拼音轉(zhuǎn)換 178
4.10 句法分析樹 178
4.11 信息提取 187
4.12 本章小結(jié) 194
4.13 術(shù)語表 196
第5章 用C#實現(xiàn)中文分詞 197
5.1 漢語中的詞 197
5.2 文本切分的基本方法 197
5.3 有限狀態(tài)機 199
5.4 查找詞典算法 201
5.4.1 標(biāo)準(zhǔn)Trie樹 202
5.4.2 三叉Trie樹 208
5.5 中文分詞的原理 213
5.6 中文分詞流程與結(jié)構(gòu) 217
5.7 切分詞圖 219
5.7.1 保存切分詞圖 220
5.7.2 生成全切分詞圖 224
5.8 概率語言模型的分詞方法 227
5.8.1 一元模型 228
5.8.2 N元模型 231
5.9 最大熵 237
5.10 未登錄詞識別 238
5.11 詞性標(biāo)注 239
5.12 地名切分 252
5.12.1 地址類性標(biāo)注 252
5.12.2 未登錄詞識別 253
5.13 本章小結(jié) 254
5.14 術(shù)語表 255
第6章 Lucene.Net原理與應(yīng)用 256
6.1 Lucene.Net快速入門 256
6.1.1 索引文檔 257
6.1.2 搜索文檔 258
6.1.3 Lucene.Net結(jié)構(gòu) 260
6.2 Lucene.Net深入介紹 260
6.2.1 索引原理 261
6.2.2 分析文本 263
6.2.3 遍歷索引庫 267
6.2.4 檢索模型 268
6.2.5 收集最相關(guān)的文檔 270
6.3 索引中的壓縮算法 275
6.3.1 變長壓縮 276
6.3.2 差分編碼 278
6.4 創(chuàng)建和維護索引庫 278
6.4.1 設(shè)計一個簡單的索引庫 279
6.4.2 創(chuàng)建索引庫 280
6.4.3 向索引庫中添加索引文檔 280
6.4.4 刪除索引庫中的索引文檔 283
6.4.5 更新索引庫中的索引文檔 284
6.4.6 索引的優(yōu)化與合并 284
6.5 查找索引庫 285
6.5.1 布爾查詢 286
6.5.2 同時查詢多列 289
6.5.3 跨度查詢 290
6.5.4 通配符查詢 294
6.5.5 過濾 294
6.5.6 按指定列排序 295
6.5.7 查詢大容量索引 300
6.5.8 函數(shù)查詢 302
6.5.9 定制相似性 305
6.5.10 評價搜索結(jié)果 307
6.6 中文信息檢索 308
6.6.1 Lucene.Net中的中文處理 308
6.6.2 Lietu中文分詞的使用 309
6.6.3 定制Tokenizer 310
6.6.4 解析查詢串 312
6.6.5 實現(xiàn)字詞混合索引 315
6.7 抓取數(shù)據(jù)庫中的內(nèi)容 319
6.7.1 讀取數(shù)據(jù) 319
6.7.2 數(shù)據(jù)同步 321
6.8 概念搜索 321
6.9 本章小結(jié) 324
6.10 術(shù)語表 325
第7章 實現(xiàn)搜索用戶界面 327
7.1 搜索頁面設(shè)計 327
7.1.1 用于顯示搜索結(jié)果的ASP.NET 327
7.1.2 搜索結(jié)果分頁 330
7.1.3 設(shè)計一個簡單的搜索頁面 331
7.2 實現(xiàn)搜索接口 331
7.2.1 Lucene.Net搜索接口 331
7.2.2 指定范圍搜索 336
7.2.3 搜索頁面的索引緩存與更新 337
7.3 實現(xiàn)關(guān)鍵詞高亮顯示 340
7.4 實現(xiàn)分類統(tǒng)計視圖 341
7.4.1 搜索結(jié)果分類統(tǒng)計與導(dǎo)航 341
7.4.2 層次樹 345
7.5 相關(guān)搜索詞 348
7.6 實現(xiàn)AJAX自動完成 349
7.6.1 總體結(jié)構(gòu) 349
7.6.2 服務(wù)器端處理 350
7.6.3 瀏覽器端處理 350
7.7 集成其他功能 353
7.7.1 拼寫檢查 353
7.7.2 再次查找 353
7.7.3 黑名單 354
7.7.4 搜索日志 355
7.8 本章小結(jié) 356
第8章 使用Solr開發(fā)網(wǎng)站搜索 357
8.1 搜索服務(wù)器端 357
8.1.1 Solr結(jié)構(gòu) 358
8.1.2 啟動Solr服務(wù)器 359
8.1.3 配置支持中文的Solr 362
8.1.4 索引數(shù)據(jù) 366
8.1.5 查詢功能 367
8.1.6 高亮 370
8.2 Solr的.NET客戶端 371
8.2.1 使用SolrNet 372
8.2.2 實現(xiàn)多分類 380
8.3 查詢語法 382
8.3.1 對空格的支持 382
8.3.2 日期加權(quán) 382
8.4 索引分布 385
8.5 本章小結(jié) 387

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    使用C#開發(fā)搜索引擎 PDF格式下載


用戶評論 (總計0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7