走進搜索引擎

出版時間:2007-1  出版社:電子工業(yè)出版社  作者:梁斌  頁數(shù):272  字數(shù):258000  
Tag標簽:無  

內(nèi)容概要

在網(wǎng)絡普及的今天,人們經(jīng)常在信息海洋中彷徨,在萬維網(wǎng)迷宮般的復雜與魅力之間掙扎。直到搜索引擎這一偉大的技術產(chǎn)生,才使得人們猶如找到了走出迷宮的燈塔,可以非常便捷地找到自己所需要的信息。    正是因為搜索引擎離我們越來越近,所以越來越多的人期待著能夠揭開她神秘的面紗。其實搜索引擎并不是變幻莫測的大海,也不是高不可攀的山峰。請拿起本書,它就是引領你的火炬,它就是你身邊的伙伴,它將帶著你走進搜索引擎。在那里,你必將會被搜索引擎精致的設計和宏偉的架構所征服。    本書由搜索引擎開發(fā)研究領域年輕而有活力的科學家精心編寫,作者將自己對搜索引擎的深刻理解和實際應用巧妙地結合,使得從未接觸過搜索引擎原理的讀者也能夠輕松地在搜索引擎的大廈中遨游一番。    本書作為搜索引擎原理與技術的入門書籍,面向那些有志從事搜索引擎行業(yè)的青年學生、需要完整理解并優(yōu)化搜索引擎的專業(yè)技術人員、搜索引擎的營銷人員,以及網(wǎng)站的負責人等。    本書是從事搜索引擎開發(fā)的工程技術人員難得的參考書,也可作為大中專院校相關專業(yè)的教學輔導書。

作者簡介

梁斌畢業(yè)于南京大學,獲得軟件工程碩士學位,曾經(jīng)發(fā)表過多篇論文,獲得1項國家專利,作者主要的興趣方向包括數(shù)據(jù)挖掘、Wed挖掘、搜索引擎和軟件工程等,目前在清華大學信息科學與技術國家實驗室從事搜索引擎相關研究工作。

書籍目錄

第一章  引言	  第一節(jié)  什么是搜索引擎	 第二節(jié)  搜索引擎的發(fā)展簡史	  搜索引擎的發(fā)展歷史	 第三節(jié)  搜索引擎大事快覽	 第四節(jié)  國內(nèi)著名搜索引擎	  百度(www.baidu.com)	  中搜(www.zhongsou.com)	  天網(wǎng)(e.pku.edu.cn)	  搜狗(www.sogou.com)	 參考文獻	第二章  搜索引擎概貌	 第一節(jié)  搜索引擎的主要需求	  查得快	  查得全	  查得準	  查得穩(wěn)	 第二節(jié)  搜索引擎的大系統(tǒng)	  搜索引擎的體系結構	第三章  搜索引擎的下載系統(tǒng)	 第一節(jié)  爬蟲的發(fā)展歷史	  世界上第個爬蟲	  爬蟲的發(fā)展歷程	 第二節(jié)  萬維網(wǎng)及其網(wǎng)頁分析	  蝴蝶結型的萬維網(wǎng)	  萬維網(wǎng)的直徑	  萬維網(wǎng)的規(guī)模及變化特征	  網(wǎng)頁的特征	 第三節(jié)  有關爬蟲的基本概念	  爬蟲	  種子站點	  URL	  Backlinks	 第四節(jié)  網(wǎng)頁抓取原理	  telnet和wget	  從種子站點開始逐層抓取	  不重復抓取策略	  網(wǎng)頁抓取優(yōu)先策略	  網(wǎng)頁重訪策略★	  Robots協(xié)議	  其他應該注意的禮貌性問題	  抓取提速策略(合作抓取策略)	 第五節(jié)  網(wǎng)頁庫	 第六節(jié)  下載系統(tǒng)回顧及未來發(fā)展	  參考文獻	第四章  搜索引擎的分析系統(tǒng)	 第一節(jié)  知識準備	  HTML語言	   錨文本(anchor text)	   半結構化數(shù)據(jù)(Semi-structured data)	  第二節(jié)  信息抽取及網(wǎng)頁信息結構化	   網(wǎng)頁結構化的目標	   建立HTML標簽樹	   通過投票方法得到正文	   網(wǎng)頁結構化過程回顧	  第三節(jié)  網(wǎng)頁查重	   網(wǎng)頁查重技術發(fā)展歷史	   網(wǎng)頁查重實現(xiàn)方法	  第四節(jié)  中文分詞	   什么是中文分詞	   通過字典實現(xiàn)分詞	   通過統(tǒng)計學方法實現(xiàn)分詞	  第五節(jié)  PageRank	   PageRank的來由	   PageRank的基本想法	   PageRank的計算公式	   PageRank的計算方法 ★	  第六節(jié)  分析系統(tǒng)結構圖	   參考文獻	第五章  搜索引擎的索引系統(tǒng)	  第一節(jié)  知識準備	   信息	   索引	   倒排索引、倒排表、臨時倒排文件、最終倒排文件	   其他概念	  第二節(jié)  全文檢索	   全文檢索	  第三節(jié)  文檔編號	   編號的本質(zhì)	   文檔編號的方法	   游程編碼	  第四節(jié)  倒排索引	   經(jīng)典的倒排索引	   正排索引(前向索引)	   倒排索引	  第五節(jié)  數(shù)據(jù)規(guī)模的估計	   齊普夫法則	   布爾檢索模型下的索引規(guī)模估計★	  第六節(jié)  涉及存儲規(guī)模的一些計算	   正排表與倒排表的合并	   多個臨時倒排文件的歸并	   倒排索引分布式存儲	   倒排文件緩存	   倒排索引詞典統(tǒng)計信息的計算	  第七節(jié)  倒排索引文件的創(chuàng)建過程	   創(chuàng)建倒排表	   計算統(tǒng)計信息	  參考文獻	第六章  搜索引擎的查詢系統(tǒng)	  第一節(jié)  知識準備	   什么是信息熵	   檢索和查詢的區(qū)別	   檢索詞和查詢詞的區(qū)別	   自動文本摘要(Automatic Text Summarization)	  第二節(jié)  網(wǎng)頁信息檢索	   早期的檢索模型	   向量空間模型(Vector Space Models)	   關鍵詞權重的量化方法TF/IDF★	   搜索引擎采用的檢索模型	   多文檔列表求交計算	   檢索結果排序	   堆排序	  第三節(jié)  中文自動摘要	   自動摘要的發(fā)展歷史	   自動摘要的含義和實現(xiàn)	  第四節(jié)  生成搜索結果頁	   生成搜索結果頁	  第五節(jié)  搜索結果頁的緩存	   搜索結果頁的緩存	  第六節(jié)  推測用戶查詢意圖	   查詢分類	   推測信息類、事物類的查詢意圖	  第七節(jié)  查詢系統(tǒng)的當前熱點和發(fā)展方向	   查詢系統(tǒng)的當前熱點	  參考文獻	第七章  搜索引擎的其他話題	  第一節(jié)  搜索引擎問與答	   為什么搜索引擎的搜索速度這么快	   為什么搜索引擎能夠返回那么多的查詢結果	   為什么搜索引擎總能返回最想要的結果	   搜索引擎如何大規(guī)模存儲網(wǎng)頁的	   什么是SEO	   什么是元搜索引擎	   搜索引擎認為的作弊行為是哪些	   如何進一步學習和了解搜索引擎發(fā)展的最新成果	 第二節(jié)  搜索引擎未來的發(fā)展	   新興的搜索產(chǎn)品	   搜索技術的未來	  參考文獻	附錄A  搜索引擎系統(tǒng)結構全觀圖

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    走進搜索引擎 PDF格式下載


用戶評論 (總計60條)

 
 

  •   關于本書的一些問題,給大家一個解釋。首先從事搜索引擎工作的圈子很小,能夠進入這個行業(yè)有一定門檻,信息檢索的技術從研究界而來,商業(yè)化以后,研究界的水平已經(jīng)大大落后,而業(yè)界的技術一般均不公開,在這種背景下,普通人能夠接觸到的“最深入”的技術莫過于北大李曉明教授的搜索引擎一書,而業(yè)界的高端技術都是不傳之秘,這些本書也不能公開的,如果想更深入的學習和研究不妨去搜索引擎公司鍛煉一下。雖然如此,搜索引擎的技術可以被其他行業(yè)借鑒,有志從事搜索引擎的同學們可以預先學習,這是本書的主要宗旨,我的目標就是把北大李曉明的搜索引擎書中不夠深入的地方,深入一些,系統(tǒng)一些。爬蟲、TFIDF的物理意義解釋,PageRank的計算,索引規(guī)模估計,索引創(chuàng)建,自動摘要部分,都是李這本書沒有或不夠深入的。這本書的大部分內(nèi)容,都是從研究界論文中整理而來,只有TFIDF的物理意義解釋是我本人獨創(chuàng)的,為了方便讀者理解(沒有使用交叉熵,KL距離這些比較難懂的概念去解釋),以及我舉得一些例子。讀者認為這本書太淺,沒有含量,是我即高興又難過,高興在于讀者的水平都很高,難過在于這些一流學者的研究成果沒有得到應有的尊重,也許你接受過高等教育,但是你不會鄙視小學學過的入門知識吧。這本書已知有一些錯別字,但并不多,影響閱讀的錯別字就更少了。這本書完全是我一個人寫成,校對也做了很多遍,但錯誤在所難免,《編程之美》這本書大家都知道,作者團隊十分龐大,但錯誤也是比較多的,做一件完美的事情,是每個人的愿望,但有時確實很難,如果您看到錯誤,可以與我聯(lián)系,協(xié)助改正,或者在評論中寫明也幫助其他讀者。公式下標有問題我至今沒有發(fā)現(xiàn)。最后就是這本書的排版,這可能是最大的批評,我想知識傳播是有代價的,有些讀者想如果我不是為了賺錢,完全可以寫出來在網(wǎng)絡上共享,如果有寫作經(jīng)歷的人就知道寫一本書的稿費實在有限,和搜索引擎業(yè)界待遇相比,差距極大,這也是業(yè)界無人出來寫書的一個原因。我曾打算捐出稿費以表態(tài)度,但這樣做無疑會提高道德的標準,對其他寫書的人產(chǎn)生不好的影響,孔子有個學生很有錢,年關收賬的時候?qū)①~目燒毀,鄉(xiāng)親們很感謝,孔子知道后批評了他,因為這樣做提高的道德的標準,脫離了當時的物質(zhì)發(fā)展基礎,以后的地主收賬就成為不道德的行為了。出版社是一個盈利的機構,他們需要賺錢,才能更好的傳播知識,才有可能進入良性的循環(huán),我長期在水木社區(qū)解答網(wǎng)友的問題,水木社區(qū)的很多網(wǎng)友我都是無償送書的,至今送了不下50本。http://www.newsmth.net/frames.html?mainurl=%2Fbbsdoc.php%3Fboard%3DSearchEngineTech大家有問題也可以來水木找我。每位同學的批評對我來說都是莫大的幫助,我也在不斷反思自己的問題,但是我的目標不會變,我要把搜索引擎的技術進行力所能及的推廣,做一些有價值有意義的事情。我常常用搜索引擎搜索對我這本書的評價,大部分還是積極的,令我十分欣慰,為這些從中獲取知識的人感到鼓舞,這種精神會讓我繼續(xù)努力,繼續(xù)奮斗。
  •   用一周的時間看了一遍,感覺對整個搜索引擎的系統(tǒng)架構有了很清楚的理解,具體每個部分的實現(xiàn)細節(jié)還需要仔細閱讀并參考相關資料或數(shù)據(jù)。個人感覺書寫的很系統(tǒng),受益匪淺。另外排版也很好,這可能是大部分其他讀者不認可的地方,因為我比較喜歡做讀書筆記,所以大部分的空白都能派的上用場,可以把本書作為一個學習搜索引擎的提綱,然后在相關章節(jié)記錄深入學習的體會和總結。非常好,感謝作者,希望有機會能認識,多和您討教,謝謝您。
  •   我買書的時候也看到評論中對這本書有些爭論。不過這本是還是非常適合我這樣的讀者的。我總結一下它適合的人群,以幫助后來者選擇:適合初學搜索引擎原理的人;不適合只想應用搜索引擎或已經(jīng)熟知其原理的人。適合對書價不敏感的人。適合眼睛不好,新歡看大字體的人。
  •   收到這本書后,用了一個星期把這本書看了一遍。感覺這是一本介紹搜索引擎入門很好的書,不過還是偏向于理論??赐赀@本書后,感覺對搜索引擎的結構有了一個大概的了解,當然還是比較初步的。不過,正如許多網(wǎng)友所說的那樣,這本書的排版可能是最有爭議的地方了。個人感覺,這本書空白的地方太大、太多了,完全可以更加緊湊一些。但是,這并不影響它是一本了解搜索引擎的好書!
  •   買回去了本書的確專業(yè),但是能讓我這個計算機外行看到“搜索引擎”的核心,很超值。
  •   有心的人看了這書,一定會獲益匪淺的
  •   很好的書,講的很淺顯易懂。
  •   07年買的書,前陣子利用一些零碎的時間,兩周把書看了兩遍。 書寫的淺顯易懂, 很多相當復雜的概念寫的很容易理解。 比如信息熵, TF/IDF,zipf法則等都講的很清晰,易于理解。 書中對很多問題提出了解決方案, 更偏向于實踐,書上的字很大,剛好適合閱讀,含金量較高,建議有一定算法基礎的同學都可以細讀。 是國內(nèi)介紹搜索最好的兩本書之一, 另一本就是"搜索引擎:原理、技術與系統(tǒng)——華夏英才基金學術文庫"了, 頂梁老師一把。
  •   這本書偏向研究型而不是工程型,正好適合我的胃口,里面有很多思路值得借鑒,不錯!缺點就是空白實在太多了,行距超常的大,等于買了一半白紙。。。
  •   這書寫的都是理論的東西,作為搜索基礎知識學還不錯
  •   剛看了一點,還不錯!
  •   關于排版:賣了一半的白紙,不值;關于錯別字:有好多,不好;關于內(nèi)容:很細致,不錯;建議:對于搜索引擎的作用,發(fā)展趨勢,在信息化領域的地位,搜索引擎的分類等等框架性的東西需要再寫一點,現(xiàn)有的很好,但是技術性強了一點,和信息化的大框架結合的不緊密
  •   一般性的講解了搜索引擎的工作原理。操作性不強,偏重理論。
  •   書還湊活,細節(jié)之處不夠細致。搜索引擎的算法介紹的比較少,是一本概論性質(zhì)的書。
  •   搜索引擎的介紹內(nèi)容比較單薄,不過同類的書本來就不多,也沒別的選擇了
  •   太入門級了,不深入??瞻滋?,字體太大,如果按照一般的書那種印刷方式,估計也就100頁。而且書里面有不少缺字,錯字,公式下標不明確,英文之間的空格也有時有有時沒有的,感覺好像沒怎么校對似的。反正這本書不太值這么多錢。
  •   作為一個入門的書籍還可以,偏重于一些理論.不滿意的是,該書用大大的字號,加上許多空白來充頁數(shù),給人的感覺非常不好.還不是實在些,該多少頁就排多少頁,頁數(shù)加多了最然能標個高價,很反感這種做法.
  •   呵呵,這本書的字好大,說明內(nèi)容不是很多。。。當成入門書還是可以的。。。
  •   內(nèi)容偏理論,對于剛?cè)腴T的人來說,還是有一定的價值
  •   沒有一定軟件開發(fā)基礎的人是不知道在說什么的,比較難懂。有點后悔買。慢慢琢磨吧。或許真的能得到一些想要的內(nèi)容。
  •   講的內(nèi)容挺全,就是太泛
  •   adaptingtothosewhohaslittleconceptaboutsearchingengineering.
  •   內(nèi)容過于技術理論化,seo實操性不強!
  •   內(nèi)容太入門級了,出版格式太差勁,好像在湊字數(shù)
  •   本來以為是代碼方面的知識,誰知道是數(shù)學的,涉及許多的高等數(shù)學,沒心機看完。
  •   拿到手的感覺就一個詞,失望!居然花了40塊錢買這么一本書。內(nèi)容算是入門級的,這倒無可厚非,和書的標題還比較符合。印刷、排版以及校對水平都太差了,感覺是把字體弄大,行間距擴大,這才成了一本書,否則能不能到100頁都成問題。里面居然有這樣的句子:文獻(xxx,19xx)blabla知道文獻的作者,年份,文獻的名稱咋就不寫出來呢?感覺就像是個論文綜述翻譯了一遍。。。
  •   書里面的字也太大了把??段與段之間間隔太大了,是不是在湊頁?這個就算了,內(nèi)容講的也就那樣。。。
  •   質(zhì)量有問題,有好多頁重復印刷,根本看不清內(nèi)容
  •   這本書買回來看了看都是一些深入的知識;不適合我們初學者!
  •   幫同學買的書,翻了翻還不錯
  •   我不是做搜索引擎相關工作的,但是對這方面的東西很有興趣,梁總這本書讓我這個外行走近了這個領域
  •   書寫得還不錯,比較通俗
  •   有點言過其實,但是還是國內(nèi)相關書籍里面比較嚴謹?shù)?/li>
  •   很新的書,包裝不錯,內(nèi)容還沒來得及看
  •   泛泛而談,沒有實質(zhì)
  •   翻書一看就是巨大的字體,濫竽充數(shù)的味道很濃。而且
  •   沒有實際的內(nèi)容。
  •   是一本非常好的關于搜索引擎的書,了解搜索引擎從這里開始!
  •     空白實在太多了,行距超常的大。。。。適合視力不好的人以及對價格不敏感的人看。。
      
      內(nèi)容還是比較通俗易懂,結合李曉明的那本看效果不錯。
  •     這本書的定位是讓有一定知識背景的人了解搜索引擎,從這個角度來看,非常成功。
      
      不適合資深專業(yè)人員看。
  •     作者倒是認真的,給大爺大媽們寫了本介紹搜索引擎的“專業(yè)書”。
      電子社居然兩三百字就湊成一頁,弄些圖片來填充,每頁還留有些“讀書筆記”的碩大空擋,居然湊滿了272頁,賣你50大元沒商量!還在封面上“刮”不知恥地寫上“打造優(yōu)質(zhì)搜索引擎的第一書!”
      我靠!
  •     比較客觀地說這本書還是不錯的,不如李的權威,卻更通俗易懂。
      不知道作者除了書上介紹之外,還有什么來頭
  •     大致看了一遍,要說這本書的唯一缺點,就是價格比同類書高了一點,不過該書內(nèi)容絕對對得起它的價格,確實有特色之處,怪不得能得到王小川的推薦。這本書在我看過的同類書中我覺得是數(shù)一數(shù)二的。個人意見,供大家參考。
  •     這本書寫的不是一般的差,有騙錢的嫌疑。
      完全是寫給外行的人看的,建議做it的人不要買,小學生可以當作科普讀物。
      我建議要了解搜索引擎的話,還是應該要看北大李曉明寫的《搜索引擎:原理、技術與系統(tǒng)》
  •     搜索引擎的四個系統(tǒng)的介紹,非常專業(yè)。
      雖然是一本理論書籍,但是大多數(shù)段落我居然看懂了。特別是PageRank的部分寫的太好了,總算理解這個是怎么回事了。
  •   所以書最好是先翻一下再買的好!先讀一下書評也不錯!網(wǎng)上購書的弊端于此……
  •   出版社“刮”不知恥?。海┊斈辏瑮顬懩潜尽稇{海臨風》也是,每頁左右留很多空擋,然后整本書充滿了照片,哈,文字不知有幾許。
  •   現(xiàn)在的書 很多都是這樣滴。特特別是一些名人寫的書。
  •   深入淺出,入門教材,這就稱得上好書.誰不是從小白開始入行的???
    我覺得這書讓我收獲不小
  •   雷得要死。。
  •   關鍵是看內(nèi)容吧。
    我只看過作者翻譯的深入搜索引擎--海量文本索引技術,這本是很不錯的。
  •   反正我圖書館借的.....
  •   只能說這本書作為一本科普讀物還是不錯的,如果說作為技術書,那還是有點不夠格
  •   不如李的權威
    李 指的是誰?
  •   李曉明教授
  •    李曉明那本書很經(jīng)典,這本書比較通俗,不過價格偏高
  •   兩本書的側(cè)重點和知識結構不一樣吧,都能有收獲
    書嘛,都貴……
  •   對,就是有騙錢嫌疑
    完全的科普讀物
    嗯……那本書好像也……
  •   北大李曉明的《搜索引擎:原理、技術與系統(tǒng)》是本不錯的書。
  •   真的假的。。。。pagerank那部分不像書里這么寫還能怎寫。。。頂多算是科普讀物吧這書
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7