這就是搜索引擎

出版時(shí)間：2012-1 出版社：電子工業(yè) 作者：張俊林
Tag標(biāo)簽：無

前言

　　互聯(lián)網(wǎng)產(chǎn)品形形色色，有產(chǎn)品導(dǎo)向的，有營銷導(dǎo)向的，也有技術(shù)導(dǎo)向的，但是以技術(shù)見長的互聯(lián)網(wǎng)產(chǎn)品比例相對小些。搜索引擎是目前互聯(lián)網(wǎng)產(chǎn)品中最具技術(shù)含量的產(chǎn)品，如果不是唯一，至少也是其中之一?！　〗?jīng)過十幾年的發(fā)展，搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的重要入口之一，Twitter聯(lián)合創(chuàng)始人埃文威廉姆斯提出了“域名已死論”：好記的域名不再重要，因?yàn)槿藗儠ㄟ^搜索進(jìn)入網(wǎng)站。搜索引擎排名對于中小網(wǎng)站流量來說至關(guān)重要。了解搜索引擎簡單界面背后的技術(shù)原理其實(shí)對很多人都很重要。　　為什么會有這本書　　最初寫本搜索引擎技術(shù)書籍的想法萌生于兩年前，當(dāng)時(shí)的場景是要給團(tuán)隊(duì)成員做搜索技術(shù)培訓(xùn)，但是我找遍了相關(guān)圖書，卻沒有發(fā)現(xiàn)非常合適的搜索技術(shù)入門書籍。當(dāng)時(shí)市面上的書籍，要么是信息檢索理論方面的專著，理論性太強(qiáng)不易懂，而且真正講搜索引擎技術(shù)的章節(jié)并不太多；要么是Lucene代碼分析這種過于實(shí)務(wù)的書籍，像搜索引擎這種充滿算法的應(yīng)用，直接分析開源系統(tǒng)代碼并不是非常高效的學(xué)習(xí)方式。所以當(dāng)時(shí)萌生了寫一本既通俗易懂，適合沒有相關(guān)技術(shù)背景的人員閱讀，又比較全面，且融入最新技術(shù)的搜索引擎書籍，但是真正動手開始寫是一年前的事情了?！　憰拔医o自己定了幾個(gè)目標(biāo)。首先內(nèi)容要全面，即全面覆蓋搜索引擎相關(guān)技術(shù)的主要方面，不僅要包含倒排索引、檢索模型和爬蟲等常見內(nèi)容，也要詳細(xì)講解鏈接分析、網(wǎng)頁反作弊、用戶搜索意圖分析、云存儲及網(wǎng)頁去重，甚至是搜索引擎緩存等內(nèi)容，這些都是一個(gè)完整搜索引擎的有機(jī)構(gòu)成部分，但是詳述其原理的書籍并不多，我希望能夠盡可能全面些?！　〉诙€(gè)目標(biāo)是通俗易懂。我希望沒有任何相關(guān)技術(shù)背景的人也能夠通過閱讀這本書有所收獲，最好是不懂技術(shù)的同學(xué)也能大致看懂。這個(gè)目標(biāo)看似簡單，其實(shí)很不容易達(dá)到，我也不敢說這本書已經(jīng)達(dá)到了此目的，但是確實(shí)已經(jīng)盡自己所能去做了。至于具體的措施，則包含以下三個(gè)方面?！　∫粋€(gè)是盡可能減少數(shù)學(xué)公式的出現(xiàn)次數(shù)，除非不得已不羅列公式。雖說數(shù)學(xué)公式具簡潔之美，但是大多數(shù)人其實(shí)對于數(shù)學(xué)符號是有恐懼和逃避心理的，多年前我也有類似心理，所以但凡可能，盡量不用數(shù)學(xué)公式。　　一個(gè)是盡可能多舉例子，尤其是一些比較難理解的地方，需要例子來增進(jìn)理解?！　∵€有一個(gè)是多畫圖。就我個(gè)人的經(jīng)驗(yàn)來說，盡管算法或者技術(shù)是很抽象的，但是如果深入理解其原理，去繁就簡，那么一定可以把算法轉(zhuǎn)換成形象的圖片。如果不能在頭腦中形成算法直觀的圖形表示，說明并未透徹了解其原理。這是我判斷自己是否深入理解算法的一個(gè)私有標(biāo)準(zhǔn)。鑒于此，本書中在講解算法的地方，大量采用了算法原理圖，全書包含了超過300幅算法原理講解圖，相信這對于讀者深入理解算法會有很大的幫助?！　〉谌齻€(gè)目標(biāo)是強(qiáng)調(diào)新現(xiàn)象新技術(shù)，比如Google的咖啡因系統(tǒng)及Megastore等云存儲系統(tǒng)、Pregel云圖計(jì)算模型、暗網(wǎng)爬取技術(shù)、Web 2.0網(wǎng)頁作弊、機(jī)器學(xué)習(xí)排序、情境搜索、社會化搜索等在相關(guān)章節(jié)都有講解?！　〉谒膫€(gè)目標(biāo)是強(qiáng)調(diào)原理，不糾纏技術(shù)細(xì)節(jié)。對于新手一個(gè)易犯的毛病是喜歡摳細(xì)節(jié)，只見樹木不見森林，搞明白了一個(gè)公式卻不了解其背后的基本思想和出發(fā)點(diǎn)。我接觸技術(shù)人員很多，十有七八會有這個(gè)特點(diǎn)。這里有個(gè)“道術(shù)孰優(yōu)”的問題，何為“道”？何為“術(shù)”？舉個(gè)例子的話，《孫子兵法》是道，而《三十六計(jì)》則為術(shù)?！暗馈彼觯呛暧^的、原理性的、長久不變的基本原理，而“術(shù)”則是在遵循基本原理基礎(chǔ)上的具體手段和措施，具有易變性。技術(shù)也是如此，算法本身的細(xì)節(jié)是“術(shù)”，算法體現(xiàn)的基本思想則是“道”，知“道”而學(xué)“術(shù)”，兩者雖不可偏廢，但是若要選擇優(yōu)先級的話，無疑我會選擇先“道”后“術(shù)”。　　以上四點(diǎn)是寫書前定下的目標(biāo)，現(xiàn)在書寫完了，也許很多地方不能達(dá)到最初的期望，但是盡了力就好。寫書的過程很辛苦，起碼比我原先想象得要辛苦，因?yàn)楣ぷ鞣泵?，所以只能每天早早起床，再加上周末及?jié)假日的時(shí)間來完成。也許書中還存在這樣那樣的缺點(diǎn)，但是我可以無愧地說寫這本書是有誠意的?！　∵@本書是寫給誰的　　如果您是下列人員之一，那么本書就是寫給您的?！　?.對搜索引擎核心算法有興趣的技術(shù)人員　　搜索引擎的整體框架是怎樣的？包含哪些核心技術(shù)？　　網(wǎng)絡(luò)爬蟲的基本架構(gòu)是什么？常見的爬取策略是什么？什么是暗網(wǎng)爬??？如何構(gòu)建分布式爬蟲？百度的阿拉丁計(jì)劃是什么？　　什么是倒排索引？如何對倒排索引進(jìn)行數(shù)據(jù)壓縮？　　搜索引擎如何對搜索結(jié)果排序？　　什么是向量空間模型？什么是概率模型？什么是BM25模型？什么是機(jī)器學(xué)習(xí)排序？它們之間有何異同？　　PageRank和HITS算法是什么關(guān)系？有何異同？SALSA算法是什么？Hilltop算法又是什么？各種鏈接分析算法之間是什么關(guān)系？　　如何識別搜索用戶的真實(shí)搜索意圖？用戶搜索目的可以分為幾類？什么是點(diǎn)擊圖？什么是查詢會話？相關(guān)搜索是如何做到的？　　為什么要對網(wǎng)頁進(jìn)行去重處理？如何對網(wǎng)頁進(jìn)行去重？哪種算法效果較好？　　搜索引擎緩存有幾級結(jié)構(gòu)？核心策略是什么？　　什么是情境搜索？什么是社會化搜索？什么是實(shí)時(shí)搜索？　　搜索引擎有哪些發(fā)展趨勢？　　如果您對三個(gè)以上的問題感興趣，那么這本書就是為您而寫的。　　2.對云計(jì)算與云存儲有興趣的技術(shù)人員　　什么是CAP原理？什么是ACID原理？它們之間有什么異同？　　Google的整套云計(jì)算框架包含哪些技術(shù)？Hadoop系列和Google的云計(jì)算框架是什么關(guān)系？　　Google的三駕馬車GFS、BigTable、MapReduce各自代表什么含義？是什么關(guān)系？　　Google的咖啡因系統(tǒng)的基本原理是什么？　　Google的Pregel計(jì)算模型和MapReduce計(jì)算模型有什么區(qū)別？　　Google的Megastore云存儲系統(tǒng)和BigTable是什么關(guān)系？　　亞馬遜公司的Dynamo系統(tǒng)是什么？　　雅虎公司的PNUTS系統(tǒng)是什么？　　Facebook公司的Haystack存儲系統(tǒng)適合應(yīng)用在什么場合？　　如果您對上述問題感興趣，相信可以從書中找到答案。　　3.從事搜索引擎優(yōu)化的網(wǎng)絡(luò)營銷人員及中小網(wǎng)站站長　　搜索引擎的反作弊策略是怎樣的？如何進(jìn)行優(yōu)化避免被認(rèn)為是作弊？　　搜索引擎如何對搜索結(jié)果排序？鏈接分析和內(nèi)容排序是什么關(guān)系？　　什么是內(nèi)容農(nóng)場？什么是鏈接農(nóng)場？它們是什么關(guān)系？　　什么是Web 2.0作弊？有哪些常見手法？　　什么是SpamRank？什么是TrustRank？什么又是BadRank？它們是什么關(guān)系？　　咖啡因系統(tǒng)對網(wǎng)頁排名有何影響？　　最近有一批電子商務(wù)網(wǎng)站針對搜索引擎優(yōu)化，結(jié)果被Google認(rèn)為是黑帽SEO而導(dǎo)致搜索排名降權(quán)，如何避免這種情況？從事相關(guān)行業(yè)的營銷人員和網(wǎng)站站長應(yīng)該深入了解搜索引擎反作弊的基本策略和方法，甚至是網(wǎng)頁排名算法等搜索引擎核心技術(shù)。SEO技術(shù)說到底其實(shí)很簡單，雖然不斷發(fā)生變化，但是很多原理性的策略總是相似的，萬變不離其宗，深入了解搜索引擎相關(guān)技術(shù)原理將形成您的行業(yè)競爭優(yōu)勢?！　?.作者自己　　我的記性不太好，往往一段時(shí)間內(nèi)了解的技術(shù)，時(shí)隔幾年后就很模糊了，所以這本書也是為我自己寫的，以作為技術(shù)備查手冊。沈利也參與了本書的部分編寫工作。　　張俊林　　2011年6月

內(nèi)容概要

　　搜索引擎作為互聯(lián)網(wǎng)發(fā)展中至關(guān)重要的一種應(yīng)用，已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn)，其重要性不言而喻。搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應(yīng)用中不多見的以核心技術(shù)作為其命脈的領(lǐng)域，搜索引擎各個(gè)子系統(tǒng)是如何設(shè)計(jì)的？這成為廣大技術(shù)人員和搜索引擎優(yōu)化人員密切關(guān)注的內(nèi)容。
　　本書的最大特點(diǎn)是內(nèi)容新穎全面而又通俗易懂。對于實(shí)際搜索引擎所涉及的各種核心技術(shù)都有全面細(xì)致的介紹，除了作為搜索系統(tǒng)核心的網(wǎng)絡(luò)爬蟲、索引系統(tǒng)、排序系統(tǒng)、鏈接分析及用戶分析外，還包括網(wǎng)頁反作弊、緩存管理、網(wǎng)頁去重技術(shù)等實(shí)際搜索引擎必須關(guān)注的技術(shù)，同時(shí)用相當(dāng)大的篇幅講解了云計(jì)算與云存儲的核心技術(shù)原理。另外，本書也密切關(guān)注搜索引擎發(fā)展的前沿技術(shù)：Google的咖啡因系統(tǒng)及Megastore等云計(jì)算新技術(shù)、百度的暗網(wǎng)抓取技術(shù)阿拉丁計(jì)劃、內(nèi)容農(nóng)場作弊、機(jī)器學(xué)習(xí)排序等。諸多新技術(shù)在相關(guān)章節(jié)都有詳細(xì)講解，同時(shí)對于社會化搜索、實(shí)時(shí)搜索及情境搜索等搜索引擎的未來發(fā)展方向做了技術(shù)展望。為了增進(jìn)讀者的理解，全書大量引入形象的圖片來講解算法原理，相信讀者會發(fā)現(xiàn)原來搜索引擎的核心技術(shù)理解起來比原先想象的要簡單得多。

作者簡介

張俊林
    本科畢業(yè)于天津大學(xué)管理學(xué)院，2004年于中科院軟件所直接獲得博士學(xué)位并留所從事科研工作，研究方向?yàn)樗阉饕媾c自然語言處理。2005年在CSDN博客發(fā)布系列博文《搜索引擎設(shè)計(jì)實(shí)用教程：以百度為例》，在網(wǎng)絡(luò)上獲得了廣泛轉(zhuǎn)載與良好口碑。2006年作為聯(lián)合創(chuàng)始人建立了智能信息聚合網(wǎng)站“玩聚網(wǎng)”，曾先后于阿里巴巴搜索技術(shù)中心任資深搜索技術(shù)研究員、房價(jià)網(wǎng)首席研究員，現(xiàn)任職于新浪微博，從事微博搜索與語義分析及推薦方面的研發(fā)工作。

書籍目錄

第1章　搜索引擎及其技術(shù)架構(gòu)　
　1.1　搜索引擎為何重要　
　　1.1.1　互聯(lián)網(wǎng)的發(fā)展　
　　1.1.2　商業(yè)搜索引擎公司的發(fā)展　
　　1.1.3　搜索引擎的重要地位　
　1.2　搜索引擎技術(shù)發(fā)展史　
　　1.2.1　史前時(shí)代：分類目錄的一代　
　　1.2.2　第一代：文本檢索的一代　
　　1.2.3　第二代：鏈接分析的一代　
　　1.2.4　第三代：用戶中心的一代　
　1.3　搜索引擎的3個(gè)目標(biāo)　
　1.4　搜索引擎的3個(gè)核心問題　
　　1.4.1　3個(gè)核心問題　
　　1.4.2　與技術(shù)發(fā)展的關(guān)系　
　1.5　搜索引擎的技術(shù)架構(gòu)　
第2章　網(wǎng)絡(luò)爬蟲　
　2.1　通用爬蟲框架　
　2.2　優(yōu)秀爬蟲的特性　
　2.3　爬蟲質(zhì)量的評價(jià)標(biāo)準(zhǔn)　
　2.4　抓取策略　
　　2.4.1　寬度優(yōu)先遍歷策略（Breath　First）　
　　2.4.2　非完全PageRank策略（Partial　PageRank）　
　　2.4.3　OCIP策略（Online　Page　Importance　Computation）　
　　2.4.4　大站優(yōu)先策略（Larger　Sites　First）　
　2.5　網(wǎng)頁更新策略　
　　2.5.1　歷史參考策略　
　　2.5.2　用戶體驗(yàn)策略　
　　2.5.3　聚類抽樣策略　
　2.6　暗網(wǎng)抓取（Deep　Web　Crawling）　
　　2.6.1　查詢組合問題　
　　2.6.2　文本框填寫問題　
　2.7　分布式爬蟲　
　　2.7.1　主從式分布爬蟲（Master-Slave）　
　　2.7.2　對等式分布爬蟲（Peer　to　Peer）　
　　本章提要　
　　本章參考文獻(xiàn)　
第3章　搜索引擎索引　
　3.1　索引基礎(chǔ)　
　　3.1.1　單詞—文檔矩陣　
　　3.1.2　倒排索引基本概念　
　　3.1.3　倒排索引簡單實(shí)例　
　3.2　單詞詞典　
　　3.2.1　哈希加鏈表　
　　3.2.2　樹形結(jié)構(gòu)　
　3.3　倒排列表（Posting　List）　
　3.4　建立索引　
　　3.4.1　兩遍文檔遍歷法（2-Pass　In-Memory　Inversion）　
　　3.4.2　排序法（Sort-based　Inversion）　
　　3.4.3　歸并法（Merge-based　Inversion）　
　3.5　動態(tài)索引　
　3.6　索引更新策略　
　　3.6.1　完全重建策略（Complete　Re-Build）　
　　3.6.2　再合并策略（Re-Merge）　
　　3.6.3　原地更新策略（In-Place）　
　　3.6.4　混合策略（Hybrid）　
　3.7　查詢處理　
　　3.7.1　一次一文檔（Doc　at　a　Time）　
　　3.7.2　一次一單詞（Term　at　a　Time）　
　　3.7.3　跳躍指針（Skip　Pointers）　
　3.8　多字段索引　
　　3.8.1　多索引方式　
　　3.8.2　倒排列表方式　
　　3.8.3　擴(kuò)展列表方式（Extent　List）　
　3.9　短語查詢　
　　3.9.1　位置信息索引（Position　Index）　
　　3.9.2　雙詞索引（Nextword　Index）　
　　3.9.3　短語索引（Phrase　Index）　
　　3.9.4　混合方法　
　3.10　分布式索引（Parallel　Indexing）　
　　3.10.1　按文檔劃分（Document　Partitioning）　
　　3.10.2　按單詞劃分（Term　Partitioning）　
　　3.10.3　兩種方案的比較　
　　本章提要　
　　本章參考文獻(xiàn)　
第4章　索引壓縮　
　4.1　詞典壓縮　
　4.2　倒排列表壓縮算法　
　　4.2.1　評價(jià)索引壓縮算法的指標(biāo)　
　　4.2.2　一元編碼與二進(jìn)制編碼　
　　4.2.3　Elias　Gamma算法與Elias　Delta算法　
　　4.2.4　Golomb算法與Rice算法　
　　4.2.5　變長字節(jié)算法（Variable　Byte）　
　　4.2.6　SimpleX　系列算法　
　　4.2.7　PForDelta算法　
　4.3　文檔編號重排序（DocID　Reordering）　
　4.4　靜態(tài)索引裁剪（Static　Index　Pruning）　
　　4.4.1　以單詞為中心的索引裁剪　
　　4.4.2　以文檔為中心的索引裁剪　
　　本章提要　
　　本章參考文獻(xiàn)　
第5章　檢索模型與搜索排序　
　5.1　布爾模型（Boolean　Model）　
　5.2　向量空間模型（Vector　Space　Model）　
　　5.2.1　文檔表示　
　　5.2.2　相似性計(jì)算　
　　5.2.3　特征權(quán)重計(jì)算　
　5.3　概率檢索模型　
　　5.3.1　概率排序原理　
　　5.3.2　二元獨(dú)立模型（Binary　Independent　Model）　
　　5.3.3　BM25模型　
　　5.3.4　BM25F模型　
　5.4　語言模型方法　
　5.5　機(jī)器學(xué)習(xí)排序（Learning　to　Rank）　
　　5.5.1　機(jī)器學(xué)習(xí)排序的基本思路　
　　5.5.2　單文檔方法（PointWise　Approach）　
　　5.5.3　文檔對方法（PairWise　Approach）　
　　5.5.4　文檔列表方法（ListWise　Approach）　
　5.6　檢索質(zhì)量評價(jià)標(biāo)準(zhǔn)　
　　5.6.1　精確率與召回率　
　　5.6.2　P@10指標(biāo)　
　　5.6.3　MAP指標(biāo)（Mean　Average　Precision）　
　　本章提要　
　　本章參考文獻(xiàn)　
第6章　鏈接分析　
　6.1　Web圖　
　6.2　兩個(gè)概念模型及算法之間的關(guān)系　
　　6.2.1　隨機(jī)游走模型（Random　Surfer　Model）　
　　6.2.2　子集傳播模型　
　　6.2.3　鏈接分析算法之間的關(guān)系　
　6.3　PageRank算法　
　　6.3.1　從入鏈數(shù)量到PageRank　
　　6.3.2　PageRank計(jì)算　
　　6.3.3　鏈接陷阱（Link　Sink）與遠(yuǎn)程跳轉(zhuǎn)（Teleporting）　
　6.4　HITS算法（Hypertext　Induced　Topic　Selection）　
　　6.4.1　Hub頁面與Authority頁面　
　　6.4.2　相互增強(qiáng)關(guān)系　
　　6.4.3　HITS算法　
　　6.4.4　HITS算法存在的問題　
　　6.4.5　HITS算法與PageRank算法比較　
　6.5　SALSA算法　
　　6.5.1　確定計(jì)算對象集合　
　　6.5.2　鏈接關(guān)系傳播　
　　6.5.3　Authority權(quán)值計(jì)算　
　6.6　主題敏感PageRank（Topic　Sensitive　PageRank）　
　　6.6.1　主題敏感PageRank與PageRank的差異　
　　6.6.2　主題敏感PageRank計(jì)算流程　
　　6.6.3　利用主題敏感PageRank構(gòu)造個(gè)性化搜索　
　6.7　Hilltop算法　
　　6.7.1　Hilltop算法的一些基本定義　
　　6.7.2　Hilltop算法　
　6.8　其他改進(jìn)算法　
　　6.8.1　智能游走模型（Intelligent　Surfer　Model）　
　　6.8.2　偏置游走模型（Biased　Surfer　Model）　
　　6.8.3　PHITS算法（Probability　Analogy　of　HITS）　
　　6.8.4　BFS算法（Backward　Forward　Step）　
　　本章提要　
　　本章參考文獻(xiàn)　
第7章　云存儲與云計(jì)算　
　7.1　云存儲與云計(jì)算概述　
　　7.1.1　基本假設(shè)　
　　7.1.2　理論基礎(chǔ)　
　　7.1.3　數(shù)據(jù)模型　
　　7.1.4　基本問題　
　　7.1.5　Google的云存儲與云計(jì)算架構(gòu)　
　7.2　Google文件系統(tǒng)（GFS）　
　　7.2.1　GFS設(shè)計(jì)原則　
　　7.2.2　GFS整體架構(gòu)　
　　7.2.3　GFS主控服務(wù)器　
　　7.2.4　系統(tǒng)交互行為　
　7.3　Chubby鎖服務(wù)　
　7.4　BigTable　
　　7.4.1　BigTable的數(shù)據(jù)模型　
　　7.4.2　BigTable整體結(jié)構(gòu)　
　　7.4.3　BigTable的管理數(shù)據(jù)　
　　7.4.4　主控服務(wù)器（Master　Server）　
　　7.4.5　子表服務(wù)器（Tablet　Server）　
　7.5　Megastore系統(tǒng)　
　　7.5.1　實(shí)體群組切分　
　　7.5.2　數(shù)據(jù)模型　
　　7.5.3　數(shù)據(jù)讀寫與備份　
　7.6　Map/Reduce云計(jì)算模型　
　　7.6.1　計(jì)算模型　
　　7.6.2　整體邏輯流程　
　　7.6.3　應(yīng)用示例　
　7.7　咖啡因系統(tǒng)——Percolator　
　　7.7.1　事務(wù)支持　
　　7.7.2　觀察/通知體系結(jié)構(gòu)　
　7.8　Pregel圖計(jì)算模型　
　7.9　Dynomo云存儲系統(tǒng)　
　　7.9.1　數(shù)據(jù)劃分算法（Partitioning　Algorithm）　
　　7.9.2　數(shù)據(jù)備份（Replication）　
　　7.9.3　數(shù)據(jù)讀寫　
　　7.9.4　數(shù)據(jù)版本控制　
　7.10　PNUTS云存儲系統(tǒng)　
　　7.10.1　PNUTS整體架構(gòu)　
　　7.10.2　存儲單元　
　　7.10.3　子表控制器與數(shù)據(jù)路由器　
　　7.10.4　雅虎消息代理　
　　7.10.5　數(shù)據(jù)一致性　
　7.11　HayStack存儲系統(tǒng)　
　　7.11.1　HayStack整體架構(gòu)　
　　7.11.2　目錄服務(wù)　
　　7.11.3　HayStack緩存　
　　7.11.4　HayStack存儲系統(tǒng)　
　　本章提要　
　　本章參考文獻(xiàn)　
第8章　網(wǎng)頁反作弊　
　8.1　內(nèi)容作弊　
　　8.1.1　常見內(nèi)容作弊手段　
　　8.1.2　內(nèi)容農(nóng)場（Content　Farm）　
　8.2　鏈接作弊　
　8.3　頁面隱藏作弊　
　8.4　Web　2.0作弊方法　
　8.5　反作弊技術(shù)的整體思路　
　　8.5.1　信任傳播模型　
　　8.5.2　不信任傳播模型　
　　8.5.3　異常發(fā)現(xiàn)模型　
　8.6　通用鏈接反作弊方法　
　　8.6.1　TrustRank算法　
　　8.6.2　BadRank算法　
　　8.6.3　SpamRank　
　8.7　專用鏈接反作弊技術(shù)　
　　8.7.1　識別鏈接農(nóng)場　
　　8.7.2　識別Google轟炸　
　8.8　識別內(nèi)容作弊　
　8.9　反隱藏作弊　
　　8.9.1　識別頁面隱藏　
　　8.9.2　識別網(wǎng)頁重定向　
　8.10　搜索引擎反作弊綜合框架　
　　本章提要　
　　本章參考文獻(xiàn)　
第9章　用戶查詢意圖分析　
　9.1　搜索行為及其意圖　
　　9.1.1　用戶搜索行為　
　　9.1.2　用戶搜索意圖分類　
　9.2　搜索日志挖掘　
　　9.2.1　查詢會話（Query　Session）　
　　9.2.2　點(diǎn)擊圖（Click　Graph）　
　　9.2.3　查詢圖（Query　Graph）　
　9.3　相關(guān)搜索　
　　9.3.1　基于查詢會話的方法　
　　9.3.2　基于點(diǎn)擊圖的方法　
　9.4　查詢糾錯(cuò)　
　　9.4.1　編輯距離（Edit　Distance）　
　　9.4.2　噪聲信道模型（Noise　Channel　Model）　
　　本章提要　
　　本章參考文獻(xiàn)　
第10章　網(wǎng)頁去重　
　10.1　通用去重算法框架　
　10.2　Shingling算法　
　10.3　I-Match算法　
　10.4　SimHash算法　
　　10.4.1　文檔指紋計(jì)算　
　　10.4.2　相似文檔查找　
　10.5　SpotSig算法　
　　10.5.1　特征抽取　
　　10.5.2　相似文檔查找　
　　本章提要　
　　本章參考文獻(xiàn)　
第11章　搜索引擎緩存機(jī)制　
　11.1　搜索引擎緩存系統(tǒng)架構(gòu)　
　11.2　緩存對象　
　11.3　緩存結(jié)構(gòu)　
　11.4　緩存淘汰策略（Evict　Policy）　
　　11.4.1　動態(tài)策略　
　　11.4.2　混合策略　
　11.5　緩存更新策略（Refresh　Policy）　
　　本章提要　
　　本章參考文獻(xiàn)　
第12章　搜索引擎發(fā)展趨勢　
　12.1　個(gè)性化搜索　
　12.2　社會化搜索　
　12.3　實(shí)時(shí)搜索　
　12.4　移動搜索　
　12.5　地理位置感知搜索　
　12.6　跨語言搜索　
　12.7　多媒體搜索　
　12.8　情境搜索

章節(jié)摘錄

版權(quán)頁：插圖：1.1.2 商業(yè)搜索引擎公司的發(fā)展搜索引擎的產(chǎn)生和發(fā)展，與互聯(lián)網(wǎng)的蓬勃發(fā)展這個(gè)大背景是密不可分的。在互聯(lián)網(wǎng)發(fā)展初期，一般互聯(lián)網(wǎng)用戶最常用的應(yīng)用僅是電子郵箱，而隨著WWW相關(guān)協(xié)議和產(chǎn)品的逐步成熟，網(wǎng)站擁有者制作和發(fā)布網(wǎng)頁信息的成本急劇下降。而PC電腦及圖形化瀏覽器的普及，使得普通用戶瀏覽信息成本急劇降低。再加上網(wǎng)絡(luò)基礎(chǔ)設(shè)施的大量投入，使得帶寬等不斷加大。這幾個(gè)因素交互作用，導(dǎo)致互聯(lián)網(wǎng)上的信息產(chǎn)生爆炸性增長。在信息量快速增長的情況下，如何能夠找到滿足用戶需求的網(wǎng)頁內(nèi)容就日益成為越來越重要的問題。信息增長速度越快，用戶需求越迫切。大的搜索引擎公司就是在這個(gè)用戶需求背景下，從建立到逐步壯大，乃至發(fā)展到今天搜索引擎成為最重要的互聯(lián)網(wǎng)的應(yīng)用。1995年是搜索引擎商業(yè)公司發(fā)展的重要起點(diǎn)，其對應(yīng)的背景是：互聯(lián)網(wǎng)上的Web站點(diǎn)數(shù)量首次超過100萬，此時(shí)普通用戶已經(jīng)無法依賴手工瀏覽的方式來獲得自己想要的信息。在這一年產(chǎn)生了很多風(fēng)云一時(shí)的早期搜索引擎公司。Yahoo、InfoSeek、FastSearch、AltaVista、Excite等曾經(jīng)非常著名的搜索引擎公司都創(chuàng)建于1995年。Yahoo依靠人工編輯導(dǎo)航目錄，將互聯(lián)網(wǎng)上重要的站點(diǎn)分門別類整理好，滿足了人們查找重要網(wǎng)站的需求，可謂應(yīng)時(shí)而生，從此快速成長為最著名的搜索和門戶網(wǎng)站。其他搜索引擎公司則提供基于傳統(tǒng)信息檢索系統(tǒng)的搜索服務(wù)，也都獲得了快速成長。隨著互聯(lián)網(wǎng)的進(jìn)一步快速發(fā)展，信息的爆炸性增長，已有的搜索引擎服務(wù)提供商所提供的搜索服務(wù)質(zhì)量并無大的改善，逐漸不能滿足用戶的需求。Google于1998年成立，以PageRank鏈接分析等新技術(shù)大幅度提高了搜索質(zhì)量，之后高速發(fā)展并搶占了絕大多數(shù)搜索引擎市場，成長為目前最重要的互聯(lián)網(wǎng)公司之一。百度則依靠本地化優(yōu)勢，成為中國國內(nèi)最強(qiáng)勢的搜索引擎服務(wù)提供商。盡管2000年后陸續(xù)有大小公司進(jìn)入搜索市場，但是無論從技術(shù)角度還是市場份額角度，搜索市場格局并未發(fā)生太大變化。

編輯推薦

《這就是搜索引擎:核心技術(shù)詳解》適合三類人：對搜索引擎核心算法有興趣的技術(shù)人員、對云計(jì)算與云存儲有興趣的技術(shù)人員、從事搜索引擎優(yōu)化的網(wǎng)絡(luò)營銷人員及中小網(wǎng)站站長。

圖書封面

圖書標(biāo)簽Tags

無

評論、評分、閱讀與下載

還沒讀過(88)
勉強(qiáng)可看(641)
一般般(109)
內(nèi)容豐富(4537)
強(qiáng)力推薦(372)

這就是搜索引擎 PDF格式下載

用戶評論 (總計(jì)134條)

這本書花了我將近四個(gè)晚上的時(shí)間讀完。全書內(nèi)容通俗易懂，此書在內(nèi)容的講解上很清晰，圖文并茂。將算法和原理解釋的清晰易懂。對我這種想了解搜索引擎但是一點(diǎn)基礎(chǔ)都沒有的人幫助很大。從中快速了解了搜索引擎的整個(gè)架構(gòu)，并對一些核心技術(shù)有了初步了解。本書對搜索引擎的發(fā)展有很詳細(xì)的描述，對搜索引擎的過去和未來都有很好的講解。
　　當(dāng)然在讀的過程中也發(fā)現(xiàn)一些小問題，下面說下我個(gè)人的小建議：感覺作者如果能將參考文獻(xiàn)標(biāo)注到正文內(nèi)容中的話這樣更有助于讀者去進(jìn)一步了解相關(guān)知識；對文中有幾處英文縮寫如**D和Blob，如能加上英文全稱和中文名稱的話更有助于讀者理解相關(guān)段落的內(nèi)容；第12章的“本章提要”和“本章參考文獻(xiàn)”沒有，感覺和前面的章節(jié)風(fēng)格上不一致，不知道是不是印刷的時(shí)候印掉了。書中還有幾處印刷的小錯(cuò)誤，如果能在下次出版的時(shí)候修改過來的話那就更好了。
　　盡管有以上幾個(gè)小缺點(diǎn)，但是不影響本書整體上是一本非常好的搜索引擎入門書籍，推薦想了解相關(guān)技術(shù)的人看一看。
只是作為興趣了解下，內(nèi)容還行，能深入了解當(dāng)今搜索引擎的核心技術(shù)，不過講解不夠深入，適合入門者了解
這本書講解搜索引擎及其背后技術(shù)，講得應(yīng)該是最好的了，作者深入淺出，大量利用圖表方式來展示一些非常必要的算法，讀起來很有趣。
這本是我看到過關(guān)于搜索引擎，講解最細(xì)的書，書中介紹了關(guān)于搜索引擎的算法、以及索引等信息，尤其索引章節(jié)，講述的非常清晰，相信一個(gè)初學(xué)者看到這些文字和插圖也會非?？焖俚牧私馑阉饕娴脑硪约罢莆贞P(guān)于索引的一切問題。如果索引的數(shù)據(jù)格式、如何創(chuàng)建索引。相信這本書看完后，對數(shù)據(jù)庫的查詢優(yōu)化以及l(fā)ucene的學(xué)習(xí)都有一個(gè)很好的作用。
講解全面，適合初步了解搜索引擎技術(shù)。
書里講的簡單明了，對認(rèn)識搜索引擎技術(shù)還是有很大幫助的。
感覺作者水平不低，而且文筆非常好，對搜索引擎涉及到的技術(shù)做到深入淺出的描述
看了這本書，對許多seo問題豁然開朗。了解搜索引擎工作原理，處理網(wǎng)頁方式，做科學(xué)明白的seo。
再買這本書之前，本人已經(jīng)在網(wǎng)絡(luò)上看了部分這本書的內(nèi)容，拿到實(shí)體書后，愛不釋手，非常適合中小網(wǎng)站站長閱讀，不夠有寫內(nèi)容很有專業(yè)性，需要對網(wǎng)絡(luò)搜索引擎有一定的了解，內(nèi)容我就不多做評價(jià)，反正一個(gè)字，好！有一點(diǎn)本人覺得不喜歡的是，書的紙張不夠好。
很快的讀完了這本書，很快對搜索引擎有一個(gè)全面的了解。很適合入門，但是對于高級讀者來說，算法還有有點(diǎn)簡單。
對搜索引擎很有興趣，一直在網(wǎng)上尋找好書。這本書作為原理性的講解，配圖豐富，語言詳實(shí)，邏輯縝密，看得出作者還是有料的。
這本新書解讀搜索引擎的專業(yè)理論，但是通過了通俗易懂的文字表達(dá)了出來。對于seoer來說正如及時(shí)雨。我比較喜歡這本書，想要成為專業(yè)的人才就需要不斷的充實(shí)自己。
這是我讀過的最通俗易懂又有一定深度的搜索引擎書，元旦三天一口氣讀完，學(xué)了不少新東西，很好
對于搜索引擎講解的比較全面但是又不深入適合初學(xué)者入門
對搜索引擎感興趣，研究中，這本身通俗易懂，適合初學(xué)者
內(nèi)容很好，從總體上介紹了搜索引擎的結(jié)構(gòu)，推薦
搜索引擎類書中的經(jīng)典
這段時(shí)間一直在做搜索方面的研究。通過查詢發(fā)現(xiàn)這本書非常的不錯(cuò)，對檢索模型和排序技術(shù)的講解非常的透徹全面。非常不錯(cuò)，值得推薦。
非專業(yè)人士也能夠看懂，進(jìn)入搜索引擎的世界。
看完這部書，對搜索引擎有了個(gè)大概的了解
2012.4.18拍的。2012.4.19到貨。仔細(xì)看了一下目錄。簡單快速翻閱了一下各章節(jié)。感覺整本書比較全面的，最重要是通俗易懂。適合搜索，云計(jì)算，運(yùn)營相關(guān)的同學(xué)閱讀學(xué)習(xí)。入門也可，較為深入的研究亦可?？傊緯鴥r(jià)值還是很高的。比起經(jīng)典著作好多了（當(dāng)然不是說經(jīng)典著作不好，只是是否適合，或者是否現(xiàn)在適合的問題）。另外網(wǎng)上有第六章的電子版，也有只有三章的精簡版，建議買完全版閱讀，收獲是不一樣的。
剛拿到書不久，先看了最感興趣的云存儲和云計(jì)算一章，講了原理性的技術(shù)，非常通俗易懂，搞清楚了一些之前模糊的技術(shù)點(diǎn)，有收獲~
非常不錯(cuò)，實(shí)用的技術(shù)和思想。系統(tǒng)的介紹和分析了搜索的思想。值得一讀！
不錯(cuò)！沒章開頭很有特色，技術(shù)內(nèi)容對我這個(gè)菜鳥來說，長了很多知識，推薦大家看一下！
想了解下搜索相關(guān)知識，書還沒到手，小期待下。
讓我這個(gè)搜索盲初步認(rèn)識了搜索···
主要是反作弊比較喜歡
這本書沒有深奧的數(shù)學(xué)理論，講解通俗易懂，非常適合我這樣的業(yè)余人士閱讀！
SEO優(yōu)化人員值得學(xué)習(xí)的一本書
大致看了一下，內(nèi)容比較全面，包含了很多新東西，不錯(cuò)~~
先下載infoQ的迷你書看的，看的很順，講解易懂，很適合我這樣的入門者。眾多配圖可見作者確實(shí)下了功夫！可惜看infoQ的pdf迷你書配圖是彩色的，而紙書是黑白的。希望以后能公布完整pdf。PS：為買這本，配合了下當(dāng)當(dāng)?shù)馁I四贈一活動，又買了其他4本書。
適合入門，內(nèi)容通俗易懂
書看起來很不錯(cuò)，紙質(zhì)文字都很好，內(nèi)容主要說原理，值得一看
前沿的問題差不多都說到了而且淺顯易懂
內(nèi)容很全，學(xué)習(xí)中
通俗易懂紙張** 送貨超級超級慢北京10天左右小紅帽配送公司我真的無語
原理方面的書值得一看
今天剛拿到書，買之前了解了一下作者背景，和朋友一起買了。
適合初學(xué)者讓抽象的東西更容易理解
大概瀏覽了這本書，覺得內(nèi)容非常充實(shí)，只是我的功底太淺了，還需要一段時(shí)間才能看懂里面的知識點(diǎn)！
非常好的一本書，通熟易懂
不錯(cuò)，相當(dāng)?shù)牟诲e(cuò)
我是從事SEO行業(yè)的，意外的發(fā)現(xiàn)大部分都能看懂，學(xué)了不少，非常好的一本書，推薦~~~
很好，很全面，一本好書。
適合初學(xué)，內(nèi)容很不錯(cuò)
內(nèi)容簡明，值得入門一看
作為一本入門書籍還不錯(cuò)，但是內(nèi)容深度不夠。
書不錯(cuò)，內(nèi)容很好
內(nèi)容不錯(cuò)，但是寫得不詳細(xì)，就是提到概念而已。
各個(gè)章節(jié)都比較基礎(chǔ)，適合剛?cè)腴T的開發(fā)同學(xué)。在學(xué)校的同學(xué)，或者QA，OP等后勤同學(xué)閱讀，以便了解背景。
買來做參考書的，要一定的數(shù)學(xué)基礎(chǔ)。
看了目錄介紹，還沒細(xì)讀，看起來不錯(cuò)
很多新鮮詞匯！讓我學(xué)習(xí)到了很多！
很不錯(cuò)的一本書，INFOQ推薦的，希望看完能完成導(dǎo)師的任務(wù)。
還可以。讀后再來評價(jià)吧。
這個(gè)商品不錯(cuò)~這個(gè)商品不錯(cuò)~這個(gè)商品不錯(cuò)~這個(gè)商品不錯(cuò)~這個(gè)商品不錯(cuò)~這個(gè)商品不錯(cuò)~
一樣的還沒開始看，印刷很贊，不錯(cuò)
書挺好的//。。。。。。。
看起來是正版?？梢酝扑]下。
書和物流都很給力！??！
很受用，不錯(cuò)。
有很多實(shí)用的知識
書不錯(cuò)，都是很淺顯的東西。
這是一本很不錯(cuò)的書經(jīng)常來買書當(dāng)當(dāng)上的書很多很全而且價(jià)格比較低送貨很快而且服務(wù)態(tài)度很好
太慢了，沒想到默認(rèn)郵遞方式是平郵，我以為是快遞呢?？勺屛抑绷艘话选槭裁茨J(rèn)郵遞不是快遞呢？快總比慢要好吧。。？？費(fèi)解。。書很好，是正版的。沒問題。書籍很好
不錯(cuò)真的不錯(cuò)
細(xì)心看，肯鉆研，就能看懂，否則的話，是看不懂的
個(gè)人覺得還是蠻不錯(cuò)的。說的是書的質(zhì)量
才買的，還沒看，封面很炫。
書本不錯(cuò)，適合初學(xué)者了解基本知識！
研究生一門課老師指定的書！一定不錯(cuò)的?。?/li>
作者很強(qiáng)大,充滿期待~
比我期望的要好不少，值得推薦
幾天就看完了，挺好懂，紙質(zhì)要是再好點(diǎn)就更好了
圖挺多的
恩，怎么說呢！網(wǎng)上查昨天就到分配員那了，今天才收到，其他方面都挺好的……
很棒，就是我想要的
內(nèi)容比較廣，涵蓋了各大企業(yè)的搜索引擎及云存儲云計(jì)算的相關(guān)內(nèi)容，比較適合作為科普讀物
書不錯(cuò)，對這個(gè)搜索引擎有全面的概述，對搜索的基礎(chǔ)知識也較全面的介紹
講述了搜索引擎的原理，不過理解要花一點(diǎn)心思~
作為搜索引擎的入門書籍，對于很多概念，算法都進(jìn)行了簡化，有些只提到了思想，詳略不是很得當(dāng)，值得修改的地方比較多。
確實(shí)很好，可以了解搜索引擎，趕緊內(nèi)容有很多是拼湊在一起，不過拼湊的很好
閱讀后會對搜索引擎產(chǎn)生熟悉感覺，了解它的整體設(shè)計(jì)、概念。
想了解一下搜索引擎，這本書可以看做是搜索引擎的入門書
雖然理論講得不多，但是能真正談到核心，也指明了思想，至于復(fù)雜的算法介紹，可以看書即可，總之是不錯(cuò)的一本國內(nèi)作者寫的書
相對來說是實(shí)用，對于了解理論的技術(shù)
本書的最大特點(diǎn)是內(nèi)容新穎全面而又通俗易懂。
都說這本書好懂，確實(shí)如此。由于是介紹性書籍，故內(nèi)容廣而不涉及算法細(xì)節(jié)，深入淺出，適合入門。
感覺書的知識內(nèi)容較少，涉及到算法就不講了
內(nèi)容還沒看，入門書籍，內(nèi)容應(yīng)該簡單易懂
感覺還不錯(cuò)，內(nèi)容比較易懂，就是適當(dāng)深度展開更好
此書通俗易懂，老少皆宜，準(zhǔn)確來說是外行內(nèi)行皆宜
不錯(cuò)，比較通俗易懂
能不能再仔細(xì)點(diǎn)，原理明白了
看了大約一半，覺得涵蓋的點(diǎn)比較多，但每個(gè)點(diǎn)的深度一般，適合了解基本原理等，對于工程性的幫助較少。
內(nèi)容挺好，希望相關(guān)書籍推薦時(shí)數(shù)據(jù)挖據(jù)得好些……
才開始看，內(nèi)容應(yīng)該豐富
感覺抽象性的內(nèi)容比較多。覺得一般
有空看看，內(nèi)容還行。
書的內(nèi)容一般吧可是不同的人讀了有不同的作用，看你用于哪方面吧
朋友推薦的，非技術(shù)背景淺顯易懂

這就是搜索引擎

用戶評論 (總計(jì)134條)

推薦圖書

相關(guān)圖書