迅速搭建全文搜索平臺

出版時間:2007-10  出版社:清華大學(xué)  作者:于天恩  頁數(shù):287  
Tag標(biāo)簽:無  

前言

說說搜索引擎搜索引擎這幾年熱起來了。作為世界上最大、最出名的搜索引擎,GOOgle在很多方面都發(fā)揮了重要的作用。但是,當(dāng)手中沒有G00gle的搜索代碼時,該如何搭建一個自己的搜索引擎呢?業(yè)界的人士說,全新開發(fā)一套完備的企業(yè)級搜索引擎要五年的時間。誠然,許多“業(yè)界”人士的話并不可信,不過,在搜索引擎這一塊,真想要做好確實(shí)是不容易。開發(fā)搜索引擎要耗費(fèi)大量的時間和精力,所以有一些人開始研發(fā)獨(dú)立的搜索引擎模塊,并將其源代碼開放,這樣就可以給其他需要建立自己的搜索引擎的人提供一個基礎(chǔ)平臺。在這些開源搜索引擎模塊的基礎(chǔ)上做開發(fā),可以節(jié)約非常多的時間和精力,大大減少了開發(fā)成本,縮短了產(chǎn)品投入市場的周期。而且,由于這些平臺是開源的,可以親自檢查每一行代碼,修改算法和顯示格式等內(nèi)容,這樣的搜索引擎就相當(dāng)于自己寫的,用起來放心。有時使用某些商業(yè)搜索模塊,盡管搜索效果也很好,但是很難知道在單擊“搜索”按鈕的瞬間自己是否做了一些自己并不想做的事情,比如:給某個陌生人發(fā)送了一個特洛伊木馬。寫這本書的動機(jī)開源搜索引擎對解決企業(yè)搜索等問題提供了可靠的二次開發(fā)平臺(有的甚至不需要二次開發(fā)),大大提高了開發(fā)搜索引擎的效率,縮減了成本,好處多多。所以,需要有一些書來介紹如何使用開源搜索模塊來提供搜索服務(wù),而目前市面上這類書籍并不多。我編寫的這本書——《迅速搭建全文搜索平臺——開源搜索引擎實(shí)戰(zhàn)教程》(以下簡稱《實(shí)戰(zhàn)教程》),是《做自己的搜索引擎——搜索引擎精解案例教程》(以下簡稱《案例教程》)的兄弟篇,用以介紹開源搜索引擎的架構(gòu)和實(shí)現(xiàn)?!栋咐坛獭泛汀秾?shí)戰(zhàn)教程》這兩本書是非常有意義的,前者介紹搜索引擎的理論和基本應(yīng)用,后者介紹在開源搜索引擎領(lǐng)域中如何實(shí)現(xiàn)搜索引擎的搭建。有了這兩本書,一個普通的程序員就可以順利并且十分容易地掌握與搜索引擎相關(guān)的核心知識??催^這兩本書之后,就有能力深入地研究主流的開源搜索引擎的代碼,之后,就成為優(yōu)秀的搜索引擎工程師。按照普通人的觀點(diǎn),從普通的程序員到搜索引擎工程師,這兩者之間是有三級臺階的。第一級:了解搜索引擎的原理和相關(guān)術(shù)語等基礎(chǔ)知識。第二級:了解現(xiàn)存的搜索引擎是如何運(yùn)行的,懂得如何應(yīng)用搜索引擎的原理去搭建搜索引擎。第三級:認(rèn)真研究一種或幾種開源搜索引擎的源代碼,深刻地理解其架構(gòu),從而使之成為相當(dāng)于自己開發(fā)的搜索引擎。

內(nèi)容概要

本書作為有心進(jìn)入搜索引擎業(yè)的讀者的第二本基礎(chǔ)書籍,承接其兄弟篇,講解了開源搜索引擎的搭建過程中所要解決的基本問題,將搜索引擎這一高起點(diǎn)的技術(shù)講解得清晰透徹,使其變得極為好學(xué),沒有任何神秘可言。本書共包括5章,可以分成兩個部分。    第一部分(第1章):建立搜索引擎的方案。這部分用數(shù)少的文字總結(jié)建立搜索引擎的主要方案,即:常規(guī)的數(shù)據(jù)庫搜索、文件搜索,基于數(shù)據(jù)庫全文索引機(jī)制的搜索,利用外部非開源web搜索服務(wù)進(jìn)行的搜索,以及利用開源搜索引擎實(shí)現(xiàn)的搜索。    第二部分(第2--5章):架設(shè)網(wǎng)絡(luò)搜索引擎。從第2章起,陸續(xù)介紹數(shù)據(jù)抓取、數(shù)據(jù)解析、建立索引和執(zhí)行搜索這四項(xiàng)內(nèi)容,它們是創(chuàng)建網(wǎng)絡(luò)搜索平臺所要解決的基本問題;第5章,介紹基于Hyper EStraier搜索引擎框架來搭建桌面搜索引擎和Web搜索引擎的方法,給出了相關(guān)的案例。

書籍目錄

第一部 分建立搜索引擎的方案 第1章 建立搜索引擎的方案    1.1 建立搜索引擎的基本方案     1.1.1 常規(guī)的數(shù)據(jù)庫搜索     1.1.2 常規(guī)的文件搜索     1.1.3 基于數(shù)據(jù)庫全文搜索功能的搜索     1.1.4 基于windows索引服務(wù)的全文搜索     1.1.5 四種基本方案的總結(jié)   1.2 利用商業(yè)搜索引擎接口實(shí)現(xiàn)的全文搜索     1.2.1 第一種基于GOogle Search API的搜索     1.2.2 第二種基于goode Search API的搜索   1.3 利用開源搜索引擎框架實(shí)現(xiàn)的全文搜索   小結(jié)   思考與練習(xí)第二部分 架設(shè)網(wǎng)絡(luò)搜索引擎 第2章 數(shù)據(jù)抓取   2.1 WebLech       2.1.1 關(guān)于webLech     2.1.2 下載webLech     2.1.3 webLech的使用方法     2.1.4 使用webLech    2.2  WebSPHINX     2.2.1 關(guān)于webSPHINX     2.2.2 下載webSPHINX     2.2.3 使用websPHINx    2.3 J—Spider     2.3.1 關(guān)于J—Spider     2.3.2 下載J—spider     2.3.3 使用J—SDider   小結(jié)   思考與練習(xí) 第3章 數(shù)據(jù)解析   3.1 解析PDF文檔     3.1.1 使用PDFBox解析PDF文檔     3.1.2 使用Xpdf解析PDF文檔   3.2 JACOB組件的使用     3.2.1 下載JACOB組件     3.2.2 JACOB的基本用法   3.3 解析word文檔     3.3.1 使用textmining組件解析word文檔     3.3.2 使用Java2Word組件解析Word文檔     3.3.3 使用JACOB組件解析Word文檔   3.4 解析Excel文檔     3.4.1 使用JDBC訪問Excel文檔     3.4.2 使用POI組件解析Excel文檔     3.4.3 使用Java Excel API解析Excel文檔   3.5 解析Powerpoint,Outlook和Access等文檔   3.6 解析XML文檔     3.6.1 使用DOM解析XML文檔     3.6.2 使用SAX解析XML文檔     3.6.3 使用JDOM解析XML文檔     3.6.4 使用DOM4J解析XML文檔     3.6.5 把XML文檔解析成純文本   3.7 解析HTML文檔     3.7.1 下載HTMLParser組件     3.7.2 HTMLParser組件的使用     3.7.3 中文問題的提出       3.7.4 網(wǎng)頁解析的一般方法   小結(jié)   思考與練習(xí) 第4章 建立索引和執(zhí)行搜索    4.1 Hyper Estraier簡述     4.1.1 下載Hyper Estraier     4.1.2 安裝Hyper Estraier     4.1.3 初試HyperEstmier   4.2 使用Java API     4.2.1 初試Java API     4.2.2 再試Java API   4.3 基于Hyper Estraier的應(yīng)用     4.3.1 基于Hyper Estraier的桌面搜索應(yīng)用     4.3.2 基于Hyper Estraier的Web搜索應(yīng)用   4.4 Hyper Estraier的中文搜索     4.4.1 Hyper Estraier對中文的支持  ……第5章 創(chuàng)建搜索引擎

章節(jié)摘錄

插圖:第1章建立搜索引擎的方案本章要點(diǎn)本章總結(jié)了建立搜索引擎的主要方案,對開源搜索引擎的實(shí)現(xiàn)原理作了揭示。1.1建立搜索引擎的基本方案如何建立搜索引擎?基本方法有如下四種。(1)常規(guī)的數(shù)據(jù)庫搜索使用“1ike”、“Between”等謂詞,或者數(shù)據(jù)庫自帶的“instr”等字符串函數(shù)?;谶@種原理建立的搜索引擎在數(shù)據(jù)量非常小的情況下是很有效的。(2)常規(guī)的文件搜索常規(guī)的文件搜索就是對文件下的文件進(jìn)行遍歷,用搜索關(guān)鍵詞與每個文件的內(nèi)容進(jìn)行對比。這個方法可以用于少量文件的搜索。(3)基于數(shù)據(jù)庫全文搜索功能的搜索利用數(shù)據(jù)庫自帶的全文搜索功能,可以解決幾百萬條記錄的數(shù)據(jù)庫搜索問題,這樣實(shí)現(xiàn)的全文搜索引擎性能是不錯的。如果能做好軟硬件優(yōu)化,搜索的效果就會更好。(4)基于Windows索引服務(wù)的全文搜索使用Windows的索引服務(wù),可以對大量文件建立起全文索引,然后執(zhí)行快速的全文搜索??紤]到知識的系統(tǒng)性,在這里對這四種建立搜索引擎的基本方式進(jìn)行簡單的回顧。

編輯推薦

《迅速搭建全文搜索平臺:開源搜索引擎實(shí)戰(zhàn)教程》由清華大學(xué)出版社、北京交通大學(xué)出版社出版。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    迅速搭建全文搜索平臺 PDF格式下載


用戶評論 (總計6條)

 
 

  •   書收到了,質(zhì)量很不錯,服務(wù)也很好,謝謝。
  •   為了寫論文而買,市面上合適的搜索引擎書比較少
  •   一天看完
  •   這本書寫得太簡單,對技術(shù)性而言沒有什么深度。。
  •   這是我看的最垃圾的一本書了上個廁所就看完了太垃圾了都是如何下載和安裝的簡直就是騙子
  •   說明包5塊錢的運(yùn)費(fèi),竟然是平郵。還要死人那么久才能收到。最郁悶的是郵政竟然發(fā)到離收件地址非常遠(yuǎn)的點(diǎn)去發(fā)配。垃圾卓越,以后我打死都不在這破網(wǎng)書了,郁悶?。?!
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7