出版時間:2010 出版社:清華大學(xué)出版社 作者:劉奕群,馬少平,洪濤 頁數(shù):256
Tag標(biāo)簽:無
前言
面對浩瀚的萬維網(wǎng)信息海洋,人類并沒有如《莊子·秋水》中的河伯那樣望洋興嘆、徒喚奈何,這實(shí)在是拜搜索引擎之功。搜索引擎是人們從無遠(yuǎn)弗屆、無深不入的萬維網(wǎng)中獲取信息不可或缺的手段,是人們遨游于這個海洋里孜孜以求的“探海金針”。搜索技術(shù)也因此成為當(dāng)今最熱門的研究熱點(diǎn)之一,為信息檢索、數(shù)據(jù)挖掘、自然語言處理等眾多領(lǐng)域所共同關(guān)注。與世界上其他國家的發(fā)展路徑有所區(qū)別,中國搜索引擎的發(fā)展一直堅持本土化的道路,一方面,確保了數(shù)以億計的中文網(wǎng)民獲取互聯(lián)網(wǎng)信息過程的便利;另一方面,也確立了中文信息處理技術(shù)在世界范圍的影響,這是與以百度、搜狗、搜搜等為代表的一系列“國產(chǎn)”搜索引擎的技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展分不開的。技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展都需要優(yōu)秀人才的支撐。培養(yǎng)對搜索技術(shù)具有比較深刻理解的計算機(jī)專業(yè)高端人才是中文搜索引擎乃至信息處理產(chǎn)業(yè)發(fā)展的迫切需求。然而,搜索引擎屬于比較新的研究方向,其核心技術(shù)研發(fā)與知識體系演化的速度很快,如何從紛繁復(fù)雜的產(chǎn)品及其功能中凝煉出搜索引擎人才真正需要的知識與技能,是相關(guān)教學(xué)工作開展中面臨的重要問題。鑒于搜索引擎發(fā)展過程中融合了學(xué)術(shù)界與產(chǎn)業(yè)界兩方面的創(chuàng)新成果,我們認(rèn)為,解決這一問題也需要大學(xué)與搜索引擎企業(yè)的共同努力。作為這方面的一個積極探索,清華大學(xué)計算機(jī)系和百度公司從2009年春季起開始合作開設(shè)“搜索引擎技術(shù)基礎(chǔ)”課程,希望為相關(guān)人才培養(yǎng)貢獻(xiàn)綿薄之力。課程受到了清華大學(xué)同學(xué)的歡迎與好評,也激勵了不少同學(xué)嘗試開展搜索引擎方面的研究與創(chuàng)新。清華大學(xué)的劉奕群博士、馬少平教授與百度公司的洪濤先生、劉子正先生合作完成的這本書就是該課程的教材。作為為數(shù)不多的搜索引擎技術(shù)中文教科書之一,該教材系統(tǒng)評價了搜索引擎技術(shù)與產(chǎn)業(yè)發(fā)展的概況,對搜索引擎領(lǐng)域得到廣泛應(yīng)用的各種核心算法和應(yīng)用模式進(jìn)行了闡述與探討?!傍x鴦繡出從君看,更把金針度與人”。相信每一位對搜索引擎感興趣的學(xué)生和學(xué)者都能通過學(xué)習(xí)或參考此書而有所收獲。
內(nèi)容概要
這是一本關(guān)于搜索引擎的教科書,它從研究實(shí)踐者的角度介紹了搜索引擎的相關(guān)技術(shù)及其產(chǎn)業(yè),并試圖協(xié)助讀者成為搜索引擎領(lǐng)域的局內(nèi)人。與傳統(tǒng)的將搜索引擎作為信息檢索系統(tǒng)實(shí)現(xiàn)的一個特殊實(shí)例的做法不同,作者試圖把搜索引擎作為一個獨(dú)立的研究課題,從紛繁復(fù)雜的互聯(lián)網(wǎng)數(shù)據(jù)現(xiàn)象和搜索引擎工作案例中提煉知識點(diǎn),對現(xiàn)代商業(yè)搜索引擎的體系結(jié)構(gòu)、運(yùn)行原理、運(yùn)營機(jī)制和核心算法進(jìn)行總結(jié)和講解?! ”緯乔迦A大學(xué)計算機(jī)系與百度公司合作在清華大學(xué)開設(shè)的“搜索引擎技術(shù)基礎(chǔ)”課程的教材,適合作為高等院校信息科學(xué)技術(shù)、圖書館學(xué)等相關(guān)專業(yè)本科生與研究生相關(guān)課程的教材,也可作為相關(guān)領(lǐng)域技術(shù)人員與搜索引擎技術(shù)愛好者的參考資料。
作者簡介
劉奕群,2003年本科畢業(yè)于清華大學(xué)計算機(jī)系并免試推薦直接攻讀博士學(xué)位,2007年獲博士學(xué)位后留校任教至今,目前在清華大學(xué)計算機(jī)系教授“搜索引擎技術(shù)基礎(chǔ)”與“搜索引擎產(chǎn)品設(shè)計與實(shí)踐”等課程。主要從事與搜索引擎技術(shù)相關(guān)的互聯(lián)網(wǎng)應(yīng)用研究工作,包括網(wǎng)絡(luò)信息檢索、網(wǎng)絡(luò)用戶行為分析、網(wǎng)絡(luò)產(chǎn)品性能評價等。發(fā)表相關(guān)領(lǐng)域?qū)W術(shù)論文40余篇,申請專利7項,并與百度公司、搜狐公司、微軟亞洲研究院等單位開展多項搜索引擎技術(shù)方面的合作研究。馬少平,1982年本科畢業(yè)于清華大學(xué)計算機(jī)系,1984年獲清華大學(xué)計算機(jī)系碩士學(xué)位后留校任教,1991-1992年在日本學(xué)習(xí),1997年獲清華大學(xué)計算機(jī)系博士學(xué)位,1998年晉升為教授,1999年聘為博士生導(dǎo)師?,F(xiàn)任清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室主任、中國人工智能學(xué)會常務(wù)理事、知識工程專業(yè)委員會副主任、中國中文信息學(xué)會理事、信息檢索與內(nèi)容安全專業(yè)委員會副主任。主要從事智能信息處理方面的研究工作,包括漢字識別、文本信息檢索、圖像信息檢索、中文古籍的數(shù)字化與檢索等。洪濤,1986年和1989年先后獲得北京大學(xué)計算機(jī)學(xué)士學(xué)位和心理學(xué)碩士學(xué)位,1995年在紐約州立布法羅大學(xué)計算機(jī)系取得博士學(xué)位。長期從事自然語言處理、搜索引擎/信息檢索、互聯(lián)網(wǎng)廣告技術(shù)、數(shù)據(jù)挖掘、模式識別和金融數(shù)據(jù)分析建模等方面的研發(fā)工作。
書籍目錄
第1章 為什么要關(guān)注搜索引擎 1.1 互聯(lián)網(wǎng)上最重要的應(yīng)用系統(tǒng) 1.2 人類歷史上最大規(guī)模的信息集散平臺 1.3 學(xué)術(shù)界重要的技術(shù)研發(fā)平臺 1.4 經(jīng)濟(jì)領(lǐng)域能夠盈利的“生意”第2章 搜索引擎的基本概念與發(fā)展歷史 2.1 互聯(lián)網(wǎng)與萬維網(wǎng)的發(fā)展 2.2 英雄輩出: 搜索引擎的發(fā)展歷史回顧 2.3 搜索引擎的定義與運(yùn)行原理概述 2.4 總結(jié): 我們能夠從歷史中學(xué)到什么? 參考文獻(xiàn)第3章 搜索引擎性能評價 3.1 搜索引擎評價與Cranfield評價體系 3.2 查詢樣例集合構(gòu)建 3.2.1 查詢樣例集合構(gòu)建中的真實(shí)性 3.2.2 查詢樣例集合構(gòu)建中的代表性 3.2.3 查詢樣例集合構(gòu)建中信息需求表述的完整性 3.3 正確答案集合構(gòu)建 3.4 搜索引擎評價指標(biāo) 3.5 搜索引擎性能評價的新進(jìn)展 參考文獻(xiàn)第4章 搜索引擎體系結(jié)構(gòu)概述 4.1 數(shù)據(jù)抓取子系統(tǒng)的主要功能與性能需求 4.1.1 及時性 4.1.2 全面性 4.1.3 高效性 4.2 內(nèi)容索引子系統(tǒng)的主要功能與性能需求 4.2.1 內(nèi)容索引子系統(tǒng)的主要功能 4.2.2 倒排索引結(jié)構(gòu) 4.2.3 內(nèi)容索引子系統(tǒng)的性能需求 4.3 內(nèi)容檢索子系統(tǒng)的主要功能與性能需求 4.3.1 內(nèi)容檢索子系統(tǒng)與文本信息檢索系統(tǒng) 4.3.2 內(nèi)容檢索子系統(tǒng)的相關(guān)性需求 4.3.3 內(nèi)容檢索子系統(tǒng)的查詢理解需求 4.3.4 內(nèi)容檢索子系統(tǒng)的效率需求 4.4 鏈接結(jié)構(gòu)分析子系統(tǒng)的主要功能與性能需求 4.4.1 基于鏈接結(jié)構(gòu)分析評價數(shù)據(jù)質(zhì)量 4.4.2 基于鏈接結(jié)構(gòu)分析擴(kuò)展文檔描述 4.4.3 鏈接結(jié)構(gòu)分析子系統(tǒng)的效率需求 4.5 搜索引擎體系結(jié)構(gòu)設(shè)計理念 參考文獻(xiàn)第5章 數(shù)據(jù)抓取子系統(tǒng)設(shè)計及核心算法 5.1 抓取系統(tǒng)的基本架構(gòu) 5.2 數(shù)據(jù)抓取涉及的網(wǎng)絡(luò)協(xié)議 5.2.1 URL規(guī)范 5.2.2 HTTP協(xié)議 5.2.3 User-Agent 5.2.4 robots協(xié)議 5.3 網(wǎng)頁抓取技術(shù) 5.3.1 網(wǎng)頁抓取的基本過程 5.3.2 基于異步I/O模型的抓取器 5.3.3 抓取壓力控制 5.3.4 對URL重定向的支持 5.3.5 對HTTPS協(xié)議的支持 5.4 鏈接選取策略 5.4.1 爬蟲的抓取方式 5.4.2 抓取優(yōu)先級策略 5.4.3 網(wǎng)頁的重訪策略 5.4.4 鏈接去重策略 5.5 網(wǎng)頁存儲技術(shù) 5.5.1 分布式哈希存儲系統(tǒng) 5.5.2 基于BigTable 的網(wǎng)頁存儲系統(tǒng) 參考文獻(xiàn)第6章 內(nèi)容索引子系統(tǒng)設(shè)計及核心算法第7章 內(nèi)容檢索子系統(tǒng)設(shè)計及其核心算法第8章 鏈接結(jié)構(gòu)分析子系統(tǒng)設(shè)計及核心算法第9章 萬維網(wǎng)數(shù)據(jù)質(zhì)量評估第10章 萬維網(wǎng)垃圾網(wǎng)頁識別第11章 搜索引擎廣告技術(shù)第12章 中文搜索引擎的現(xiàn)狀與未來
章節(jié)摘錄
插圖:對于搜索引擎系統(tǒng)而言,內(nèi)容索引子系統(tǒng)的性能需求可以概括為:充分利用系統(tǒng)資源和高效完成索引服務(wù)。一方面,內(nèi)容索引子系統(tǒng)通常是搜索引擎中耗費(fèi)硬件資源最多的一個子系統(tǒng),前文中提到的“索引規(guī)模戰(zhàn)爭”之所以在相當(dāng)一段時間內(nèi)被作為搜索引擎系統(tǒng)性能水平的主戰(zhàn)場,也是因?yàn)樗饕?guī)模直接關(guān)系到搜索引擎系統(tǒng)軟硬件設(shè)計水平的高低。以索引規(guī)模作為搜索引擎系統(tǒng)性能的試金石盡管有些偏頗,但也不無道理;另一方面,索引服務(wù)的效率也是搜索引擎重點(diǎn)關(guān)注的性能指標(biāo),搜索引擎如果要在用戶可以接受的時間之內(nèi)返回結(jié)果,首先就需要內(nèi)容索引子系統(tǒng)能夠在盡量短的時間內(nèi)把與用戶查詢詞對應(yīng)的索引項加以返回,以便內(nèi)容檢索子系統(tǒng)進(jìn)行相似度計算使用。在提高系統(tǒng)資源的利用率方面,在內(nèi)容索引子系統(tǒng)設(shè)計中重點(diǎn)考慮如何在保存盡量多有用信息的基礎(chǔ)上減少系統(tǒng)所需的磁盤存儲資源。索引建立、更新過程中重點(diǎn)需要進(jìn)行的是磁盤寫操作,而索引查詢過程中重點(diǎn)需要進(jìn)行的是磁盤讀操作。索引建立、更新的時間效率只需要與數(shù)據(jù)抓取子系統(tǒng)的運(yùn)行效率相適應(yīng)即可,由于網(wǎng)絡(luò)帶寬低于硬盤訪問速度,因此這方面的時間效率要求相對較低。由于用戶查詢是在線實(shí)時進(jìn)行,而內(nèi)容檢索子系統(tǒng)的運(yùn)算大都在內(nèi)存中完成,因此索引查詢的時間效率要求較高,而大規(guī)模磁盤讀寫也往往成為搜索引擎提供高效在線服務(wù)的主要瓶頸。同時,由于搜索引擎需要的存儲系統(tǒng)規(guī)模異常龐大,涉及的存儲介質(zhì)同樣種類繁雜、數(shù)量龐大,這些介質(zhì)在面臨大規(guī)模讀寫時也難免會出現(xiàn)硬件問題。
編輯推薦
《搜索引擎技術(shù)基礎(chǔ)》特色:面對浩瀚的萬維網(wǎng)信息海洋,搜索引擎為人們提供了一條獲取所需信息的捷徑,而百度等中文搜索引擎在商業(yè)和技術(shù)領(lǐng)域的成功也使得越來越多的國內(nèi)讀者對搜索行業(yè)產(chǎn)生興趣。作者長期從事搜索引擎領(lǐng)域的相關(guān)研究與工程實(shí)踐,并實(shí)際參與了多個中文搜索引擎設(shè)計與實(shí)現(xiàn)的全過程,《搜索引擎技術(shù)基礎(chǔ)》從研究實(shí)踐者的角度介紹了搜索引擎的相關(guān)技術(shù)及其產(chǎn)業(yè),并引領(lǐng)讀者成為搜索引擎領(lǐng)域的局內(nèi)人?!端阉饕婕夹g(shù)基礎(chǔ)》最大的特色是將清華大學(xué)計算機(jī)系在搜索技術(shù)方面的研究成果與百度公司在搜索應(yīng)用領(lǐng)域積累的豐富經(jīng)驗(yàn)融合進(jìn)內(nèi)容中,向讀者展示大規(guī)模商用搜索引擎的工作原理、核心技術(shù)與運(yùn)營方式。清華大學(xué)計算機(jī)系主任孫茂松教授與百度公司董事長兼首席執(zhí)行官李彥宏先生分別為《搜索引擎技術(shù)基礎(chǔ)》作序。《搜索引擎技術(shù)基礎(chǔ)》也是清華大學(xué)計算機(jī)系與百度公司合作在清華大學(xué)開設(shè)的“搜索引擎技術(shù)基礎(chǔ)”課程的教材。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載