搜索引擎技術(shù)基礎(chǔ)

出版時間:2010  出版社:清華大學(xué)出版社  作者:劉奕群,馬少平,洪濤  頁數(shù):256  
Tag標(biāo)簽:無  

前言

面對浩瀚的萬維網(wǎng)信息海洋,人類并沒有如《莊子·秋水》中的河伯那樣望洋興嘆、徒喚奈何,這實(shí)在是拜搜索引擎之功。搜索引擎是人們從無遠(yuǎn)弗屆、無深不入的萬維網(wǎng)中獲取信息不可或缺的手段,是人們遨游于這個海洋里孜孜以求的“探海金針”。搜索技術(shù)也因此成為當(dāng)今最熱門的研究熱點(diǎn)之一,為信息檢索、數(shù)據(jù)挖掘、自然語言處理等眾多領(lǐng)域所共同關(guān)注。與世界上其他國家的發(fā)展路徑有所區(qū)別,中國搜索引擎的發(fā)展一直堅持本土化的道路,一方面,確保了數(shù)以億計的中文網(wǎng)民獲取互聯(lián)網(wǎng)信息過程的便利;另一方面,也確立了中文信息處理技術(shù)在世界范圍的影響,這是與以百度、搜狗、搜搜等為代表的一系列“國產(chǎn)”搜索引擎的技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展分不開的。技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展都需要優(yōu)秀人才的支撐。培養(yǎng)對搜索技術(shù)具有比較深刻理解的計算機(jī)專業(yè)高端人才是中文搜索引擎乃至信息處理產(chǎn)業(yè)發(fā)展的迫切需求。然而,搜索引擎屬于比較新的研究方向,其核心技術(shù)研發(fā)與知識體系演化的速度很快,如何從紛繁復(fù)雜的產(chǎn)品及其功能中凝煉出搜索引擎人才真正需要的知識與技能,是相關(guān)教學(xué)工作開展中面臨的重要問題。鑒于搜索引擎發(fā)展過程中融合了學(xué)術(shù)界與產(chǎn)業(yè)界兩方面的創(chuàng)新成果,我們認(rèn)為,解決這一問題也需要大學(xué)與搜索引擎企業(yè)的共同努力。作為這方面的一個積極探索,清華大學(xué)計算機(jī)系和百度公司從2009年春季起開始合作開設(shè)“搜索引擎技術(shù)基礎(chǔ)”課程,希望為相關(guān)人才培養(yǎng)貢獻(xiàn)綿薄之力。課程受到了清華大學(xué)同學(xué)的歡迎與好評,也激勵了不少同學(xué)嘗試開展搜索引擎方面的研究與創(chuàng)新。清華大學(xué)的劉奕群博士、馬少平教授與百度公司的洪濤先生、劉子正先生合作完成的這本書就是該課程的教材。作為為數(shù)不多的搜索引擎技術(shù)中文教科書之一,該教材系統(tǒng)評價了搜索引擎技術(shù)與產(chǎn)業(yè)發(fā)展的概況,對搜索引擎領(lǐng)域得到廣泛應(yīng)用的各種核心算法和應(yīng)用模式進(jìn)行了闡述與探討?!傍x鴦繡出從君看,更把金針度與人”。相信每一位對搜索引擎感興趣的學(xué)生和學(xué)者都能通過學(xué)習(xí)或參考此書而有所收獲。

內(nèi)容概要

這是一本關(guān)于搜索引擎的教科書,它從研究實(shí)踐者的角度介紹了搜索引擎的相關(guān)技術(shù)及其產(chǎn)業(yè),并試圖協(xié)助讀者成為搜索引擎領(lǐng)域的局內(nèi)人。與傳統(tǒng)的將搜索引擎作為信息檢索系統(tǒng)實(shí)現(xiàn)的一個特殊實(shí)例的做法不同,作者試圖把搜索引擎作為一個獨(dú)立的研究課題,從紛繁復(fù)雜的互聯(lián)網(wǎng)數(shù)據(jù)現(xiàn)象和搜索引擎工作案例中提煉知識點(diǎn),對現(xiàn)代商業(yè)搜索引擎的體系結(jié)構(gòu)、運(yùn)行原理、運(yùn)營機(jī)制和核心算法進(jìn)行總結(jié)和講解?! ”緯乔迦A大學(xué)計算機(jī)系與百度公司合作在清華大學(xué)開設(shè)的“搜索引擎技術(shù)基礎(chǔ)”課程的教材,適合作為高等院校信息科學(xué)技術(shù)、圖書館學(xué)等相關(guān)專業(yè)本科生與研究生相關(guān)課程的教材,也可作為相關(guān)領(lǐng)域技術(shù)人員與搜索引擎技術(shù)愛好者的參考資料。

作者簡介

劉奕群,2003年本科畢業(yè)于清華大學(xué)計算機(jī)系并免試推薦直接攻讀博士學(xué)位,2007年獲博士學(xué)位后留校任教至今,目前在清華大學(xué)計算機(jī)系教授“搜索引擎技術(shù)基礎(chǔ)”與“搜索引擎產(chǎn)品設(shè)計與實(shí)踐”等課程。主要從事與搜索引擎技術(shù)相關(guān)的互聯(lián)網(wǎng)應(yīng)用研究工作,包括網(wǎng)絡(luò)信息檢索、網(wǎng)絡(luò)用戶行為分析、網(wǎng)絡(luò)產(chǎn)品性能評價等。發(fā)表相關(guān)領(lǐng)域?qū)W術(shù)論文40余篇,申請專利7項,并與百度公司、搜狐公司、微軟亞洲研究院等單位開展多項搜索引擎技術(shù)方面的合作研究。馬少平,1982年本科畢業(yè)于清華大學(xué)計算機(jī)系,1984年獲清華大學(xué)計算機(jī)系碩士學(xué)位后留校任教,1991-1992年在日本學(xué)習(xí),1997年獲清華大學(xué)計算機(jī)系博士學(xué)位,1998年晉升為教授,1999年聘為博士生導(dǎo)師?,F(xiàn)任清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室主任、中國人工智能學(xué)會常務(wù)理事、知識工程專業(yè)委員會副主任、中國中文信息學(xué)會理事、信息檢索與內(nèi)容安全專業(yè)委員會副主任。主要從事智能信息處理方面的研究工作,包括漢字識別、文本信息檢索、圖像信息檢索、中文古籍的數(shù)字化與檢索等。洪濤,1986年和1989年先后獲得北京大學(xué)計算機(jī)學(xué)士學(xué)位和心理學(xué)碩士學(xué)位,1995年在紐約州立布法羅大學(xué)計算機(jī)系取得博士學(xué)位。長期從事自然語言處理、搜索引擎/信息檢索、互聯(lián)網(wǎng)廣告技術(shù)、數(shù)據(jù)挖掘、模式識別和金融數(shù)據(jù)分析建模等方面的研發(fā)工作。

書籍目錄

第1章 為什么要關(guān)注搜索引擎  1.1 互聯(lián)網(wǎng)上最重要的應(yīng)用系統(tǒng)  1.2 人類歷史上最大規(guī)模的信息集散平臺  1.3 學(xué)術(shù)界重要的技術(shù)研發(fā)平臺 1.4 經(jīng)濟(jì)領(lǐng)域能夠盈利的“生意”第2章 搜索引擎的基本概念與發(fā)展歷史 2.1 互聯(lián)網(wǎng)與萬維網(wǎng)的發(fā)展 2.2 英雄輩出: 搜索引擎的發(fā)展歷史回顧 2.3 搜索引擎的定義與運(yùn)行原理概述 2.4 總結(jié): 我們能夠從歷史中學(xué)到什么? 參考文獻(xiàn)第3章 搜索引擎性能評價 3.1 搜索引擎評價與Cranfield評價體系 3.2 查詢樣例集合構(gòu)建  3.2.1 查詢樣例集合構(gòu)建中的真實(shí)性  3.2.2 查詢樣例集合構(gòu)建中的代表性  3.2.3 查詢樣例集合構(gòu)建中信息需求表述的完整性 3.3 正確答案集合構(gòu)建 3.4 搜索引擎評價指標(biāo) 3.5 搜索引擎性能評價的新進(jìn)展 參考文獻(xiàn)第4章 搜索引擎體系結(jié)構(gòu)概述 4.1 數(shù)據(jù)抓取子系統(tǒng)的主要功能與性能需求  4.1.1 及時性  4.1.2 全面性  4.1.3 高效性 4.2 內(nèi)容索引子系統(tǒng)的主要功能與性能需求  4.2.1 內(nèi)容索引子系統(tǒng)的主要功能  4.2.2 倒排索引結(jié)構(gòu)  4.2.3 內(nèi)容索引子系統(tǒng)的性能需求 4.3 內(nèi)容檢索子系統(tǒng)的主要功能與性能需求  4.3.1 內(nèi)容檢索子系統(tǒng)與文本信息檢索系統(tǒng)  4.3.2 內(nèi)容檢索子系統(tǒng)的相關(guān)性需求  4.3.3 內(nèi)容檢索子系統(tǒng)的查詢理解需求  4.3.4 內(nèi)容檢索子系統(tǒng)的效率需求 4.4 鏈接結(jié)構(gòu)分析子系統(tǒng)的主要功能與性能需求  4.4.1 基于鏈接結(jié)構(gòu)分析評價數(shù)據(jù)質(zhì)量  4.4.2 基于鏈接結(jié)構(gòu)分析擴(kuò)展文檔描述  4.4.3 鏈接結(jié)構(gòu)分析子系統(tǒng)的效率需求 4.5 搜索引擎體系結(jié)構(gòu)設(shè)計理念 參考文獻(xiàn)第5章 數(shù)據(jù)抓取子系統(tǒng)設(shè)計及核心算法 5.1 抓取系統(tǒng)的基本架構(gòu) 5.2 數(shù)據(jù)抓取涉及的網(wǎng)絡(luò)協(xié)議  5.2.1 URL規(guī)范  5.2.2 HTTP協(xié)議  5.2.3 User-Agent  5.2.4 robots協(xié)議 5.3 網(wǎng)頁抓取技術(shù)  5.3.1 網(wǎng)頁抓取的基本過程  5.3.2 基于異步I/O模型的抓取器  5.3.3 抓取壓力控制  5.3.4 對URL重定向的支持  5.3.5 對HTTPS協(xié)議的支持 5.4 鏈接選取策略  5.4.1 爬蟲的抓取方式  5.4.2 抓取優(yōu)先級策略  5.4.3 網(wǎng)頁的重訪策略  5.4.4 鏈接去重策略 5.5 網(wǎng)頁存儲技術(shù)  5.5.1 分布式哈希存儲系統(tǒng)  5.5.2 基于BigTable 的網(wǎng)頁存儲系統(tǒng)  參考文獻(xiàn)第6章 內(nèi)容索引子系統(tǒng)設(shè)計及核心算法第7章 內(nèi)容檢索子系統(tǒng)設(shè)計及其核心算法第8章 鏈接結(jié)構(gòu)分析子系統(tǒng)設(shè)計及核心算法第9章 萬維網(wǎng)數(shù)據(jù)質(zhì)量評估第10章 萬維網(wǎng)垃圾網(wǎng)頁識別第11章 搜索引擎廣告技術(shù)第12章 中文搜索引擎的現(xiàn)狀與未來

章節(jié)摘錄

插圖:對于搜索引擎系統(tǒng)而言,內(nèi)容索引子系統(tǒng)的性能需求可以概括為:充分利用系統(tǒng)資源和高效完成索引服務(wù)。一方面,內(nèi)容索引子系統(tǒng)通常是搜索引擎中耗費(fèi)硬件資源最多的一個子系統(tǒng),前文中提到的“索引規(guī)模戰(zhàn)爭”之所以在相當(dāng)一段時間內(nèi)被作為搜索引擎系統(tǒng)性能水平的主戰(zhàn)場,也是因?yàn)樗饕?guī)模直接關(guān)系到搜索引擎系統(tǒng)軟硬件設(shè)計水平的高低。以索引規(guī)模作為搜索引擎系統(tǒng)性能的試金石盡管有些偏頗,但也不無道理;另一方面,索引服務(wù)的效率也是搜索引擎重點(diǎn)關(guān)注的性能指標(biāo),搜索引擎如果要在用戶可以接受的時間之內(nèi)返回結(jié)果,首先就需要內(nèi)容索引子系統(tǒng)能夠在盡量短的時間內(nèi)把與用戶查詢詞對應(yīng)的索引項加以返回,以便內(nèi)容檢索子系統(tǒng)進(jìn)行相似度計算使用。在提高系統(tǒng)資源的利用率方面,在內(nèi)容索引子系統(tǒng)設(shè)計中重點(diǎn)考慮如何在保存盡量多有用信息的基礎(chǔ)上減少系統(tǒng)所需的磁盤存儲資源。索引建立、更新過程中重點(diǎn)需要進(jìn)行的是磁盤寫操作,而索引查詢過程中重點(diǎn)需要進(jìn)行的是磁盤讀操作。索引建立、更新的時間效率只需要與數(shù)據(jù)抓取子系統(tǒng)的運(yùn)行效率相適應(yīng)即可,由于網(wǎng)絡(luò)帶寬低于硬盤訪問速度,因此這方面的時間效率要求相對較低。由于用戶查詢是在線實(shí)時進(jìn)行,而內(nèi)容檢索子系統(tǒng)的運(yùn)算大都在內(nèi)存中完成,因此索引查詢的時間效率要求較高,而大規(guī)模磁盤讀寫也往往成為搜索引擎提供高效在線服務(wù)的主要瓶頸。同時,由于搜索引擎需要的存儲系統(tǒng)規(guī)模異常龐大,涉及的存儲介質(zhì)同樣種類繁雜、數(shù)量龐大,這些介質(zhì)在面臨大規(guī)模讀寫時也難免會出現(xiàn)硬件問題。

編輯推薦

《搜索引擎技術(shù)基礎(chǔ)》特色:面對浩瀚的萬維網(wǎng)信息海洋,搜索引擎為人們提供了一條獲取所需信息的捷徑,而百度等中文搜索引擎在商業(yè)和技術(shù)領(lǐng)域的成功也使得越來越多的國內(nèi)讀者對搜索行業(yè)產(chǎn)生興趣。作者長期從事搜索引擎領(lǐng)域的相關(guān)研究與工程實(shí)踐,并實(shí)際參與了多個中文搜索引擎設(shè)計與實(shí)現(xiàn)的全過程,《搜索引擎技術(shù)基礎(chǔ)》從研究實(shí)踐者的角度介紹了搜索引擎的相關(guān)技術(shù)及其產(chǎn)業(yè),并引領(lǐng)讀者成為搜索引擎領(lǐng)域的局內(nèi)人?!端阉饕婕夹g(shù)基礎(chǔ)》最大的特色是將清華大學(xué)計算機(jī)系在搜索技術(shù)方面的研究成果與百度公司在搜索應(yīng)用領(lǐng)域積累的豐富經(jīng)驗(yàn)融合進(jìn)內(nèi)容中,向讀者展示大規(guī)模商用搜索引擎的工作原理、核心技術(shù)與運(yùn)營方式。清華大學(xué)計算機(jī)系主任孫茂松教授與百度公司董事長兼首席執(zhí)行官李彥宏先生分別為《搜索引擎技術(shù)基礎(chǔ)》作序。《搜索引擎技術(shù)基礎(chǔ)》也是清華大學(xué)計算機(jī)系與百度公司合作在清華大學(xué)開設(shè)的“搜索引擎技術(shù)基礎(chǔ)”課程的教材。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    搜索引擎技術(shù)基礎(chǔ) PDF格式下載


用戶評論 (總計37條)

 
 

  •   對于信息檢索、搜索引擎等教科書或者技術(shù)書籍相比,這本書從學(xué)術(shù)研究角度對商業(yè)搜索引擎的體系結(jié)構(gòu)、運(yùn)行原理、運(yùn)營機(jī)制和核心算法進(jìn)行總結(jié)和講解,深入淺出,學(xué)界和工業(yè)界都很實(shí)用。
  •   之前在書店看好的,然后才在當(dāng)當(dāng)上買的,內(nèi)容嘛自己感覺還好,因?yàn)橹耙矝]看完,所以也不好說什么,不過據(jù)說書是09年清華大學(xué)和百度聯(lián)合在清華開的關(guān)于搜索引擎課的教材,所以應(yīng)該還是不錯的。就質(zhì)量問題還是挺好的。
  •   一本深入淺出的搜索引擎入門教材。章節(jié)分配合理,講述清楚,對于搜索引擎的前世今生都有介紹??赐昃涂梢栽僬蚁嚓P(guān)具體的子系統(tǒng)去深入研究了。如果能提供一些習(xí)題和相關(guān)的練習(xí)答案就好了。
  •   這本書它很詳細(xì)地講解了那些原理,還做了很多的實(shí)例,技術(shù)書應(yīng)該都要像這樣,再加上,這個價格來說是很便宜的,我推薦大家用這本書
  •   教材教材教材
  •   一本很實(shí)用的工具書,基礎(chǔ)說的很到位!適用于初學(xué)者!
  •   比較適合初學(xué)者,很多地方解釋的很清楚,比如索引的構(gòu)造,爬蟲的抓取策略等等。
    唯一有一些不足的可能是篇幅太短了,感覺不過癮。
    另外書后沒有習(xí)題和答案。
  •   比較新的一本書,只是介紹的比較全
  •   講得非常系統(tǒng)。
  •   給先生買的,工作中用的著
  •   解讀中
  •   還沒開始看,外觀什么的都不錯
  •   正好在上劉亦群老師的課,書的理論內(nèi)容不多,大多和實(shí)際相結(jié)合,不錯
  •   全面,很不錯的書
  •   入門必備,比那些空搬理論的強(qiáng)多了。
  •   還行,不過算法介紹的不是太詳細(xì)
  •   對于搜索領(lǐng)域入門比較適用,內(nèi)容也比較全面,從爬蟲到索引到廣告排行都有。還不錯的一本搜索入門讀物。
  •   也是教材。內(nèi)容淺顯易懂,推薦
  •   很簡單的東西寫的非常復(fù)雜,不推薦
  •   知識講解具體
  •   還沒開始細(xì)讀,應(yīng)該不錯!
  •   要慢慢啃了
  •   這本書講的都是理論!沒有實(shí)例,不適合初學(xué)者!
  •   內(nèi)容講解得比較細(xì)致,比較容易入行,比較容易上手。
  •   通俗易懂,講解系統(tǒng)全面,只是總體概述,并沒有對某些重點(diǎn)深入分析,很多都是概念性的介紹!
  •   好東西,講解詳細(xì),但這本書是基于原理,動手少
  •   看了幾章節(jié),再也看不下去了
  •   封皮有一點(diǎn)折痕,看了一下開頭的幾頁,感覺是本很不錯的書
  •   還不錯,入門挺好,推薦
  •   大學(xué)的教材,作為入門還是很不錯。
  •   一般大學(xué)教材,僅能供參考
  •   如果想了解搜索引擎的工作原理的話,可以從基礎(chǔ)入門,本書可作為一本參考書。個人覺得本書挺好
  •   書還好。是正版的。服務(wù)態(tài)度也不錯。當(dāng)然了,速度不是很快。不過沒有要配送費(fèi)也就不錯了。
  •         這種技術(shù)性,又很專業(yè)的書籍,花了一個月的時間來仔細(xì)研究。對搜索引擎的基礎(chǔ)知識了解了很多。對于普通用戶來說,其實(shí)不需要了解太多的搜索引擎知識,但需要了解一些搜尋資料和處理資料,整理資料的知識,對于搜索引擎從業(yè)者和搜索引擎優(yōu)化從業(yè)者來說,都需要了解一定的搜索引擎知識,很多人做seo全憑經(jīng)驗(yàn),可搜索引擎不是人,他們的經(jīng)驗(yàn)是程序,是刻板的,是機(jī)器學(xué)習(xí),不是智能學(xué)習(xí)。所以很多經(jīng)驗(yàn)到頭來說不定會限制你的發(fā)展,限制你的思路,正道還是了解搜索引擎的基本知識。當(dāng)然不是要求你單獨(dú)搭建一個商業(yè)搜索引擎,其實(shí)利用開源搜索引擎單獨(dú)制作一個搜索引擎就可以了,了解一些基礎(chǔ)知識對基于搜索引擎行業(yè)的從業(yè)者來說都是很有好處的。
          這本書很多地方講的也不是很深入,但還是有一些高等數(shù)學(xué)公式,其實(shí)也沒必要太鉆研這些東西,了解原理就夠了。
  •     一本很教材的教材,從語言還是觀點(diǎn)都透著大學(xué)教材的味道,想看紙質(zhì)書然后去明白搜索引擎是怎么回事的這本書是很好的選擇,還有一本叫《走進(jìn)搜索引擎》的,如果不是搜索引擎開發(fā)人員,而是搜索營銷人員,這樣的書讀一本就夠了,了解一個搜索運(yùn)作的基本過程就夠了,技術(shù)類的書永遠(yuǎn)是落后于現(xiàn)實(shí)的,看完驗(yàn)證了自己一個很久前的感想,騰訊的搜搜是一個非常值得關(guān)注的搜索引擎,特別是據(jù)說今年已經(jīng)脫離了google的技術(shù)支持,搜索結(jié)果還保持的水準(zhǔn)不錯。
  •     還沒有讀過,但百度和清華大學(xué)聯(lián)手出版的書應(yīng)該不至于太差。
      非常期待,市面上還沒有看到。應(yīng)該就在7月吧。
      
  •   讀了一半了,很不錯的說!
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7