解密搜索引擎技術(shù)實(shí)戰(zhàn)

出版時(shí)間:2011-6  出版社:電子工業(yè)出版社  作者:羅剛  頁(yè)數(shù):548  
Tag標(biāo)簽:無(wú)  

內(nèi)容概要

  本書(shū)是獵兔搜索開(kāi)發(fā)團(tuán)隊(duì)的軟件研發(fā)和教學(xué)實(shí)踐的經(jīng)驗(yàn)匯總。
  本書(shū)總結(jié)搜索引擎相關(guān)理論與實(shí)際解決方案,并給出了Java實(shí)現(xiàn),其中利用了流行的開(kāi)源項(xiàng)目Lucene和Solr,而且還包括原創(chuàng)的實(shí)現(xiàn)。
  本書(shū)主要包括總體介紹部分、爬蟲(chóng)部分、自然語(yǔ)言處理部分、全文檢索部分以及相關(guān)案例分析。爬蟲(chóng)部分介紹了網(wǎng)頁(yè)遍歷方法和如何實(shí)現(xiàn)增量抓取,并介紹了從網(wǎng)頁(yè)等各種格式的文檔中提取主要內(nèi)容的方法。自然語(yǔ)言處理部分從統(tǒng)計(jì)機(jī)器學(xué)習(xí)的原理出發(fā),包括了中文分詞與詞性標(biāo)注的理論與實(shí)現(xiàn)以及在搜索引擎中的實(shí)用等細(xì)節(jié),同時(shí)對(duì)文檔排重、文本分類(lèi)、自動(dòng)聚類(lèi)、句法分析樹(shù)、拼寫(xiě)檢查等自然語(yǔ)言處理領(lǐng)域的經(jīng)典問(wèn)題進(jìn)行了深入淺出的介紹并總結(jié)了實(shí)現(xiàn)方法。在全文檢索部分,結(jié)合Lucene
3.0介紹了搜索引擎的原理與進(jìn)展。用簡(jiǎn)單的例子介紹了Lucene的最新應(yīng)用方法。包括完整的搜索實(shí)現(xiàn)過(guò)程:從完成索引到搜索用戶界面的實(shí)現(xiàn)。本書(shū)還進(jìn)一步介紹了實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)搜索的方法,展示了Solr
1.4版本的用法以及實(shí)現(xiàn)分布式搜索服務(wù)集群的方法。最后介紹了在地理信息系統(tǒng)領(lǐng)域和戶外活動(dòng)搜索領(lǐng)域的應(yīng)用。

書(shū)籍目錄

第1章 搜索引擎總體結(jié)構(gòu)
1.1 搜索引擎基本模塊
1.2 開(kāi)發(fā)環(huán)境
1.3 搜索引擎工作原理
1.3.1 網(wǎng)絡(luò)爬蟲(chóng)
1.3.2 全文索引結(jié)構(gòu)與Lucene實(shí)現(xiàn)
1.3.3 搜索用戶界面
1.3.4 計(jì)算框架
1.3.5 文本挖掘
1.4 本章小結(jié)
第2章 網(wǎng)絡(luò)爬蟲(chóng)的原理與應(yīng)用
2.1 爬蟲(chóng)的基本原理
2.2 爬蟲(chóng)架構(gòu)
2.2.1 基本架構(gòu)
2.2.2 分布式爬蟲(chóng)架構(gòu)
2.2.3 垂直爬蟲(chóng)架構(gòu)
2.3 抓取網(wǎng)頁(yè)
2.3.1 下載網(wǎng)頁(yè)的基本方法
2.3.2 網(wǎng)頁(yè)更新
2.3.3 抓取限制應(yīng)對(duì)方法
2.3.4 URL地址提取
2.3.5 抓取JavaScript動(dòng)態(tài)頁(yè)面
2.3.6 抓取即時(shí)信息
2.3.7 抓取暗網(wǎng)
2.3.8 信息過(guò)濾
2.3.9 最好優(yōu)先遍歷
2.4 存儲(chǔ)URL地址
2.4.1 BerkeleyDB
2.4.2 布隆過(guò)濾器
2.5 并行抓取
2.5.1 多線程爬蟲(chóng)
2.5.2 垂直搜索的多線程爬蟲(chóng)
2.5.3 異步I/O
2.6 RSS抓取
2.7 抓取FTP
2.8 下載圖片
2.9 圖像的OCR識(shí)別
2.9.1 圖像二值化
2.9.2 切分圖像
2.9.3 SVM分類(lèi)
2.10 Web結(jié)構(gòu)挖掘
2.10.1 存儲(chǔ)Web圖
2.10.2 PageRank算法
2.10.3 HITs算法
2.10.4 主題相關(guān)的PageRank
2.11 部署爬蟲(chóng)
2.12 本章小結(jié)
第3章 索引內(nèi)容提取
3.1 從HTML文件中提取文本
3.1.1 字符集編碼
3.1.2 識(shí)別網(wǎng)頁(yè)的編碼
3.1.3 網(wǎng)頁(yè)編碼轉(zhuǎn)換為字符串編碼
3.1.4 使用HTMLParser實(shí)現(xiàn)定向抓取
3.1.5 使用正則表達(dá)式提取數(shù)據(jù)
3.1.6 結(jié)構(gòu)化信息提取
3.1.7 網(wǎng)頁(yè)的DOM結(jié)構(gòu)
3.1.8 使用NekoHTML提取信息
3.1.9 網(wǎng)頁(yè)去噪
3.1.10 網(wǎng)頁(yè)結(jié)構(gòu)相似度計(jì)算
3.1.11 提取標(biāo)題
3.1.12 提取日期
3.2 從非HTML文件中提取文本
3.2.1 提取標(biāo)題的一般方法
3.2.2 PDF文件
3.2.3 Word文件
3.2.4 Rtf文件
3.2.5 Excel文件
3.2.6 PowerPoint文件
3.3 提取垂直行業(yè)信息
3.3.1 醫(yī)療行業(yè)
3.3.2 旅游行業(yè)
3.4 流媒體內(nèi)容提取
3.4.1 音頻流內(nèi)容提取
3.4.2 視頻流內(nèi)容提取
3.5 存儲(chǔ)提取內(nèi)容
3.6 本章小結(jié)
第4章 中文分詞原理與實(shí)現(xiàn)
4.1 Lucene中的中文分詞
4.1.1 Lucene切分原理
4.1.2 Lucene中的Analyzer
4.1.3 自己寫(xiě)Analyzer
4.1.4 Lietu中文分詞
4.2 查找詞典算法
4.2.1 標(biāo)準(zhǔn)Trie樹(shù)
4.2.2 三叉Trie樹(shù)
4.3 中文分詞的原理
4.4 中文分詞流程與結(jié)構(gòu)
4.5 形成切分詞圖
4.6 概率語(yǔ)言模型的分詞方法
4.7 N元分詞方法
4.8 新詞發(fā)現(xiàn)
4.9 未登錄詞識(shí)別
4.10 詞性標(biāo)注
4.10.1 隱馬爾可夫模型
4.10.2 基于轉(zhuǎn)換的錯(cuò)誤學(xué)習(xí)方法
4.11 平滑算法
4.12 機(jī)器學(xué)習(xí)的方法
4.12.1 最大熵
4.12.2 條件隨機(jī)場(chǎng)
4.13 有限狀態(tài)機(jī)
4.14 本章小結(jié)
第5章 讓搜索引擎理解自然語(yǔ)言
5.1 停用詞表
5.2 句法分析樹(shù)
5.3 相似度計(jì)算
5.4 文檔排重
5.4.1 語(yǔ)義指紋
5.4.2 SimHash
5.4.3 分布式文檔排重
5.5 中文關(guān)鍵詞提取
5.5.1 關(guān)鍵詞提取的基本方法
5.5.2 HITS算法應(yīng)用于關(guān)鍵詞提取
5.5.3 從網(wǎng)頁(yè)中提取關(guān)鍵詞
5.6 相關(guān)搜索詞
5.6.1 挖掘相關(guān)搜索詞
5.6.2 使用多線程計(jì)算相關(guān)搜索詞
5.7 信息提取
5.8 拼寫(xiě)檢查與建議
5.8.1 模糊匹配問(wèn)題
5.8.2 英文拼寫(xiě)檢查
5.8.3 中文拼寫(xiě)檢查
5.9 自動(dòng)摘要
5.9.1 自動(dòng)摘要技術(shù)
5.9.2 自動(dòng)摘要的設(shè)計(jì)
5.9.3 基于篇章結(jié)構(gòu)的自動(dòng)摘要
5.9.4 Lucene中的動(dòng)態(tài)摘要
5.10 文本分類(lèi)
5.10.1 特征提取
5.10.2 中心向量法
5.10.3 樸素貝葉斯
5.10.4 支持向量機(jī)
5.10.5 多級(jí)分類(lèi)
5.10.6 規(guī)則方法
5.10.7 網(wǎng)頁(yè)分類(lèi)
5.11 自動(dòng)聚類(lèi)
5.11.1 聚類(lèi)的定義
5.11.2 K均值聚類(lèi)方法
5.11.3 K均值實(shí)現(xiàn)
5.11.4 深入理解DBScan算法
5.11.5 使用DBScan算法聚類(lèi)實(shí)例
5.12 拼音轉(zhuǎn)換
5.13 概念搜索
5.14 多語(yǔ)言搜索
5.15 跨語(yǔ)言搜索
5.16 情感識(shí)別
5.16.1 確定詞語(yǔ)的褒貶傾向
5.16.2 實(shí)現(xiàn)情感識(shí)別
5.16.3 用戶協(xié)同過(guò)濾
5.17 本章小結(jié)
第6章 Lucene原理與應(yīng)用
6.1 Lucene深入介紹
6.1.1 常用查詢
6.1.2 查詢語(yǔ)法與解析
6.1.3 查詢?cè)?br />6.1.4 使用Filter篩選搜索結(jié)果
6.1.5 遍歷索引庫(kù)
6.1.6 索引數(shù)值列
6.2 Lucene中的壓縮算法
6.2.1 變長(zhǎng)壓縮
6.2.2 PForDelta
6.2.3 前綴壓縮
6.2.4 差分編碼
6.2.5 設(shè)計(jì)索引庫(kù)結(jié)構(gòu)
6.3 創(chuàng)建和維護(hù)索引庫(kù)
6.3.1 創(chuàng)建索引庫(kù)
6.3.2 向索引庫(kù)中添加索引文檔
6.3.3 刪除索引庫(kù)中的索引文檔
6.3.4 更新索引庫(kù)中的索引文檔
6.3.5 索引的合并
6.3.6 索引文件格式
6.3.7 分發(fā)索引
6.3.8 修復(fù)索引
6.4 查找索引庫(kù)
6.5 讀寫(xiě)并發(fā)控制
6.6 優(yōu)化使用Lucene
6.6.1 索引優(yōu)化
6.6.2 查詢優(yōu)化
6.6.3 實(shí)現(xiàn)時(shí)間加權(quán)排序
6.6.4 實(shí)現(xiàn)字詞混合索引
6.6.5 重用Tokenizer
6.6.6 定制Tokenizer
6.7 檢索模型
6.7.1 向量空間模型
6.7.2 BM25概率模型
6.7.3 統(tǒng)計(jì)語(yǔ)言模型
6.8 查詢大容量索引
6.9 實(shí)時(shí)搜索
6.10 本章小結(jié)
第7章 搜索引擎用戶界面
7.1 實(shí)現(xiàn)Lucene搜索
7.2 搜索頁(yè)面設(shè)計(jì)
7.2.1 Struts2實(shí)現(xiàn)的搜索界面
7.2.2 翻頁(yè)組件
7.3 實(shí)現(xiàn)搜索接口
7.3.1 編碼識(shí)別
7.3.2 布爾搜索
7.3.3 指定范圍搜索
7.3.4 搜索結(jié)果排序
7.3.5 搜索頁(yè)面的索引緩存與更新
7.4 歷史搜索詞記錄
7.5 實(shí)現(xiàn)關(guān)鍵詞高亮顯示
7.6 實(shí)現(xiàn)分類(lèi)統(tǒng)計(jì)視圖
7.7 實(shí)現(xiàn)相似文檔搜索
7.8 實(shí)現(xiàn)AJAX搜索聯(lián)想詞
7.8.1 估計(jì)查詢?cè)~的文檔頻率
7.8.2 搜索聯(lián)想詞總體結(jié)構(gòu)
7.8.3 服務(wù)器端處理
7.8.4 瀏覽器端處理
7.8.5 服務(wù)器端改進(jìn)
7.8.6 拼音提示
7.8.7 部署總結(jié)
7.9 集成其他功能
7.9.1 拼寫(xiě)檢查
7.9.2 分類(lèi)統(tǒng)計(jì)
7.9.3 相關(guān)搜索
7.9.4 再次查找
7.9.5 搜索日志
7.10 搜索日志分析
7.10.1 日志信息過(guò)濾
7.10.2 信息統(tǒng)計(jì)
7.10.3 挖掘日志信息
7.11 本章小結(jié)
第8章 使用Solr實(shí)現(xiàn)企業(yè)搜索
8.1 Solr簡(jiǎn)介
8.2 Solr基本用法
8.2.1 Solr服務(wù)器端的配置與中文支持

圖書(shū)封面

圖書(shū)標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載


    解密搜索引擎技術(shù)實(shí)戰(zhàn) PDF格式下載


用戶評(píng)論 (總計(jì)26條)

 
 

  •   書(shū)的質(zhì)量很好,拿在手里有一種厚重的感覺(jué)!買(mǎi)來(lái)中午翻了兩章,感覺(jué)很不錯(cuò)。提到的技術(shù)很廣很全。個(gè)人感覺(jué)有點(diǎn)偏理論,比如:書(shū)中提到了信息抽取的GATE等自然語(yǔ)言處理的知識(shí)……
  •   自己畢設(shè)做的搜索引擎參考
  •   送貨夠快,送貨員服務(wù)質(zhì)量高
  •   這是第一次接觸這個(gè)技術(shù),感覺(jué)好新奇呢,不過(guò)再已有的基礎(chǔ)上看起來(lái)還是很輕松的,內(nèi)容寫(xiě)得也不錯(cuò),支持哦?。?!
  •   內(nèi)容俺沒(méi)看,就不發(fā)表評(píng)論了,不過(guò)書(shū)是正版,嘿嘿
  •   內(nèi)容還算不錯(cuò)。
  •   看起來(lái)好像不錯(cuò)的樣子
  •   買(mǎi)到現(xiàn)在一直愛(ài)看,很好很有用
  •   同學(xué)沒(méi)怎么表態(tài),不是很差吧
  •   算是以前l(fā)ucene2.x的升級(jí)版本,還是不錯(cuò)的,對(duì)于專(zhuān)門(mén)研究這個(gè)的人來(lái)說(shuō)有點(diǎn)淺,對(duì)于普通人而言,還是夠了
  •   羅剛的書(shū)寫(xiě)的很快,重點(diǎn)難點(diǎn)部分寫(xiě)的不是很深入,感覺(jué)像是直接粘貼的
  •   書(shū)寫(xiě)的很好,也很實(shí)用,值得看。就是到的時(shí)候書(shū)有點(diǎn)臟
  •   還不錯(cuò),只看2章
  •   挺滿意的,是我想找的東西
  •   昨天拿到書(shū),正看到第四章,說(shuō)一下到現(xiàn)在為止的感受:
    1.就像我標(biāo)題寫(xiě)的,這本書(shū)試圖面面俱到,但是每個(gè)點(diǎn)幾乎都是淺嘗輒止。而且往往是晦澀的數(shù)學(xué)化的原理加大段的代碼,代碼給出后也沒(méi)有任何的分析解釋。
    2.語(yǔ)言生硬甚至有時(shí)很奇怪。比如183頁(yè),在最后一個(gè)段落中,前一句話還在講正向最大匹配對(duì)于散列的優(yōu)勢(shì),后一句對(duì)“有意見(jiàn)分歧”這個(gè)短句的分詞的例子講的卻是逆向?qū)φ虻膬?yōu)點(diǎn),那這個(gè)“例如”究竟是例如的誰(shuí)?是不是中間根本少了一句甚至一段話?
    3.這本書(shū)給人的感覺(jué),不是一塊敲門(mén)磚,而是一把門(mén)鎖。我想除非一直在科研院校研究課題或者畢業(yè)之后長(zhǎng)期從事算法研究的人,否則工作若干年之后絕大部分?jǐn)?shù)學(xué)理論都已經(jīng)荒廢了。而看這本書(shū)的時(shí)候我恨不得把當(dāng)年離散數(shù)學(xué)線性代數(shù)概率論什么的都翻出來(lái),好看明白這個(gè)算法究竟是什么意思。其實(shí)所有的算法,都有自己的核心思想,工程人員可以不了解算法的推導(dǎo)過(guò)程,但應(yīng)該明白算法的作用。但在這本書(shū)里我看到最多的卻是對(duì)思想的數(shù)學(xué)化表達(dá),明明一句話可以表達(dá)的意思,卻一定要通過(guò)一組變量序列來(lái)表達(dá)。這樣看貌似嚴(yán)謹(jǐn),其實(shí)是把自己隔絕在了理論維度,失去了活力和應(yīng)用性。
    當(dāng)然不可否認(rèn),我會(huì)有這種感覺(jué)很可能跟我個(gè)人水平有限有關(guān)。誠(chéng)然如果你是在寫(xiě)一本想面面俱到的書(shū),就不可避免的要介紹算法,但是既然你介紹了算法就應(yīng)該要介紹透徹,讓人理解,否則只會(huì)適得其反。
  •   最后那個(gè)旅游搜索項(xiàng)目,故意把大批jar文件移除,致使根本看不了。書(shū)本上許多地方重要的不注釋?zhuān)赐蝗幻俺鰝€(gè)東西。不建議新手買(mǎi),中等水平看看還行吧
  •   很實(shí)用,但好象與作者的其它一本書(shū)《自己動(dòng)手寫(xiě)搜索引擎》重復(fù)的內(nèi)容多了一點(diǎn),貎似不太厚道
  •   這本書(shū)整體上不錯(cuò) 但是有些深 建議假如是初學(xué)者還是從簡(jiǎn)單的開(kāi)始。
  •   書(shū)要么深,要么淺,該淺的沒(méi)淺,該深的又沒(méi)深,這不深不淺的很糾結(jié)!

    畢竟作者是花了不少時(shí)間寫(xiě)書(shū)的,可能因?yàn)槿狈χ鴷?shū)的經(jīng)驗(yàn),邏輯性還有很大提深空間!

    寫(xiě)書(shū)應(yīng)該還是要細(xì)細(xì)雕琢出來(lái)的,感覺(jué)這書(shū)還是有點(diǎn)浮了!
  •   還行吧,不過(guò)條理有些亂,不夠深入
  •   no follow
  •   書(shū)還可以,但有些章節(jié)寫(xiě)得不夠深入具體,看起來(lái)有些費(fèi)勁。
  •   全書(shū)分的章節(jié)不少,涉及的東西很多,但總感覺(jué)是泛泛而談,不是十分滿意
  •   書(shū)不是想像中的那么好
  •   內(nèi)容很多,需要不少時(shí)間研究,還沒(méi)空看
  •   送貸速度很快的
 

250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7