搜索引擎

出版時間:2009-10  出版社:機(jī)械工業(yè)出版社  作者:(美)克羅夫特  頁數(shù):520  
Tag標(biāo)簽:無  

前言

This book provides an overview of the important issues in information retrieval, and how those issues affect the design and implementation of search engines. Not every topic is covered at the same level of detail. We focus instead on what we consider to be the most important alternatives to implementing search engine components and the information retrieval models underlying them. Web search engines are obviously a major topic, and we base our coverage primarily on the technology we all use on the Web,l but search engines are also used in many other applications. That is the reason for the strong emphasis on the information retrieval theories and concepts that underlie all search engines.The target audience for the book is primarily undergraduates in computer science or computer engineering, but graduate students should also find this useful. We also consider the book to be suitable for most students in information science programs. Finally, practicing search engineers should benefit from the book, whatever their background. There is mathematics in the book, but nothing too esoteric. There are also code and programming exercises in the book, but nothing beyond the capabilities of someone who has taken some basic computer science and programming classes.

內(nèi)容概要

本書介紹了信息檢索(1R)中的關(guān)鍵問題。以及這些問題如何影響搜索引擎的設(shè)計與實現(xiàn),并且用數(shù)學(xué)模型強(qiáng)化了重要的概念。對于網(wǎng)絡(luò)搜索引擎這一重要的話題,書中主要涵蓋了在網(wǎng)絡(luò)上廣泛使用的搜索技術(shù)。    本書適用于高等院校計算機(jī)科學(xué)或計算機(jī)工程專業(yè)的本科生、研究生,對于專業(yè)人士而言,本書也不失為一本理想的入門教材。

作者簡介

W.Bruce Croft馬薩諸塞大學(xué)阿默斯特分校計算機(jī)科學(xué)特聘教授、ACM會士。他創(chuàng)建了智能信息檢索研究中心,發(fā)表了200余篇論文,多次獲獎,其中包括2003年由ACM SIGIR頒發(fā)的Gerard Salton獎。

書籍目錄

1 Search Engines and Information Retrieval  1.1 What Is Information Retrieval? 1.2 The Big Issues 1.3 Search Engines 1.4 Search Engineers2 Architecture of a Search Engine 2.1 What Is an Architecture ? 2.2 Basic Building Blocks 2.3 Breaking It Down    2.3.1 Text Acquisition  2.3.2 Text Transformation  2.3.3 Index Creation  2.3.4 User Interaction  2.3.5 Ranking  2.3.6 Evaluation 2.4 How Does It Really Work?3 Crawls and Feeds 3.1 Deciding What to Search 3.2 Crawling the Web  3.2.1  Retrieving Web Pages  3.2.2 The Web Crawler  3.2.3 Freshness  3.2.4 Focused Crawling    3.2.5 Deep Web   3.2.6 Sitemaps   3.2.7 Distributed Crawling  3.3 Crawling Documents and Email  3.4 Document Feeds  3.5 The Conversion Problem   3.5.1  Character Encodings  3.6 Storing the Documents   3.6,1 Using a Database System   3.6.2 Random Access   3.6.3 Compression and Large Files   3.6.4 Update   3.6.5 BigTable 3.7 Detecting Duplicates 3.8 Removing Noise4 Processing Text 4.1 From Words to Terms 4.2 Text Statistics   4.2.1 Vocabulary Growth   4.2.2 Estimating Collection and Result Set Sizes  4.3 Document Parsing   4.3.1  Overview   4.3.2 Tokenizing   4.3.3 Stopping   4.3.4 Stemming   4.3.5 Phrases and N-grams  4.4 Document Structure and Markup  4.5 Link Analysis   4.5.1 Anchor Text   4.5.2 PageRank   4.5.3 Link Quality  4.6 Information Extraction   4.6.1 Hidden Markov Models for Extraction  4.7 Internationalization5 Ranking with Indexes6 Queries and Interfaces7 Retrieval Models8 Evaluating Search Engines9 Classification and Clustering10 Social Search11 Beyond Bag of WordsReverencesIndex

章節(jié)摘錄

插圖:After documents have been converted to some common format, they need to bestored in preparation for indexing. The simplest document storage is no document storage, and for some applications this is preferable. In desktop search, for example, the documents are already stored in the file system and do not need to be copied elsewhere. As the crawling process runs, it can send converted documents immediately to an indexing process. By not storing the intermediate converted documents, desktop search systems can save disk space and improve indexing latency.Most other kinds of search engines need to store documents somewhere. Fast access to the document text is required in order to build document snippetsz for each search result. These snippets of text give the user an idea of what is inside the retrieved document without actually needing to click on a link.Even if snippets are not necessary, there are other reasons to keep a copy of each document. Crawling for documents can be expensive in terms of both CPU and network load. It makes sense to keep copies of the documents around instead of trying to fetch them again the next time you want to build an index. Keeping old documents allows you to use HEAD requests in your crawler to save on bandwidth, or to crawl only a subset of the pages in your index.Finally, document storage systems can be a starting point for information extraction (described in Chapter 4). The most pervasive kind of information extraction happens in web search engines, which extract anchor text from links to store with target web documents. Other kinds of extraction are possible, such as identifying names of people or places in documents. Notice that if information extraction is used in the search application, the document storage system should support modification of the document data.

編輯推薦

《搜索引擎:信息檢索實踐(英文版)》:經(jīng)典原版書庫。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    搜索引擎 PDF格式下載


用戶評論 (總計36條)

 
 

  •   這書不錯,由于要覆蓋整個搜索領(lǐng)域的各個專題,相比Introduction to Information Retrival來說,是詳細(xì)了一些,實踐性強(qiáng)一些,但是我更希望能夠有一本包括設(shè)計搜索引擎到編碼這整個過程的一本書啊,還好,此書還是很贊的,可惜galago里面沒有crawl模塊
  •   應(yīng)該是搜索引擎領(lǐng)域比較新的一本書了,內(nèi)容比較全面,比較新。而且內(nèi)容流暢,英文水平不高也可以閱讀。
  •   三位作者把搜索引擎的各個模塊講的很透徹。原版的書在閱讀上比中文版的順暢很多,是一本好書。
  •   此書乃搜檢索領(lǐng)域的經(jīng)典,只是沒想到英文的比中文還便宜,學(xué)習(xí)需要,對得起經(jīng)典二字
  •   還沒讀完,不過講的基本比較時候英文搜索
  •   內(nèi)容不必說了,買來做技術(shù)入門用。
    當(dāng)當(dāng)?shù)姆?wù)不錯,送貨很快。
    書籍的印刷業(yè)很好。
    希望繼續(xù)堅持。
  •   是課程推薦的教材,英文原版太貴了,這本書便宜很多,內(nèi)容完整,質(zhì)量有保證,尺寸再大些就完美了
  •   買的第一本英文原版 專業(yè)書籍??粗褪娣?/li>
  •   非常好的一本書,
  •   書不錯 攜帶方便。正在閱讀 感覺讀起來很流暢 寫的不錯。
  •   收到的書還未拆封,不過之前已在同學(xué)那看過了內(nèi)容,覺得是學(xué)這個領(lǐng)域值得買的書!而且像這樣的書,能讀原著最好,譯本是次優(yōu)選擇。
  •   英文書,閱讀起來速度很慢。不建議買英文
  •   老師推薦的還不錯,英文原版的比較好
  •   More up to date than Modern Information Retrieval, Love that
  •   本書作為研究生信息檢索的課本,本書對搜索引擎以及信息檢索方面做了階段性的分析
  •   對 搜索引擎各方面介紹的還是比較詳細(xì)的
  •   書很不錯,很基礎(chǔ),內(nèi)容也很新,后邊的文獻(xiàn)也很新,估計是目前最新有關(guān)搜索引擎的書了吧~
  •   書質(zhì)量還行,沒讓我太失望,配送也很好
  •   紙張比較老,不太清楚。
  •   好的,就是又點少,內(nèi)容很簡練
  •   當(dāng)今社會,人們對效率的要求越來越高,如果一項技術(shù)可以加快他們獲取信息的效率,他們會對這項技術(shù)樂此不疲。而網(wǎng)絡(luò)搜索引擎的出現(xiàn),大大的改善了檢索相關(guān)信息的效率,最終促成的一句口頭禪就可見一斑:“百度一下,你就知道”(起碼是中國如此)。而網(wǎng)絡(luò)搜索僅僅是搜索引擎應(yīng)用的一個小方面。你可以在其他許多應(yīng)用里發(fā)現(xiàn)引擎的影子,不管是桌面應(yīng)用級的還是企業(yè)應(yīng)用級的。《搜索引擎——信息檢索實踐》是一本由淺入深的講述搜索引擎知識的教材,作者W.Bruce Croft是一位著名的計算機(jī)教授,現(xiàn)任馬薩諸塞大學(xué)阿莫特斯分校計算機(jī)科學(xué)特聘教授、ACM會士;同時,作為智能信息檢索研究中心的創(chuàng)建者和領(lǐng)導(dǎo)者,他對搜索引擎的見解精辟而又獨到。該書是W.Bruce Croft教授2009年的又一力作,結(jié)合開源的基于Java的Galago搜索引擎,通過深入的分析搜索引擎的各個部件,深入淺出的對最前沿的搜索技術(shù)進(jìn)行的全方位的展示,不失為一本上佳的學(xué)習(xí)資料。本書前六章對流行的搜索引擎的業(yè)務(wù)過程進(jìn)行了詳細(xì)的剖析。從第一章引入搜索引擎的概念到第二章對搜索引擎各個功能模塊進(jìn)行詳細(xì)的劃分,再到第三章介紹爬蟲技術(shù)獲得網(wǎng)絡(luò)資源,而后進(jìn)入第四第五章分別對獲取的資源進(jìn)行處理和創(chuàng)建信息索引,最后在第六章作者介紹了如何識別用戶輸入的查詢語句,并根據(jù)用戶的模糊需求獲得相對精確地輸出。作者像是一位導(dǎo)游一樣,引領(lǐng)著讀者在宏觀上觀摩了...搜索引擎。接下來的章節(jié)里,作者對搜索引擎的關(guān)鍵技術(shù),諸如排序算法、機(jī)器學(xué)習(xí)、信息過濾聚合、服務(wù)器分配等等,進(jìn)行了詳細(xì)的描述,其中當(dāng)然既有深入的數(shù)學(xué)層次的公式也有計算機(jī)應(yīng)用層次的算法。合上書本,細(xì)細(xì)品味著大師的諄諄教導(dǎo);閉上雙眼,體味經(jīng)典知識的熏陶。感謝機(jī)械工業(yè)出版社引入此本經(jīng)典好書。 閱讀更多 ›
  •   首先,十分感謝華章圖書這次試讀活動,讓我有機(jī)會接觸到《搜索引擎——信息檢索實踐》這本書,開始時,編輯還確認(rèn)了我是否要這本全英文的經(jīng)典原著。開始時還有點躊躇,后來下決心要英文的原版,也感受一下經(jīng)典原版書的魅力。書是那種32開的小本,不像通常那種大厚書,但里面的英文還是讓我有些許的壓力。后來安下心來開始讀書,本書主要的目標(biāo)群里是計算機(jī)方面的大學(xué)生,已經(jīng)畢業(yè)的學(xué)生,已經(jīng)從事相關(guān)領(lǐng)域的工程師??偟膩碚f本書主要是講搜索引擎的實施,側(cè)重于信息檢索的實踐應(yīng)用方面。本書條理清楚。第一章,總的介紹了搜索引擎和信息檢索,還有兩者之間的關(guān)系,第二章介紹了搜索引擎的框架,主要是:一、信息搜集存儲,索引建立的模塊,它包括文本獲取,文本特征提取,索引建立,數(shù)據(jù)存儲等;二、回答問題模塊,包括用戶接口,評估,排序,相關(guān)存儲等,對于每個過程進(jìn)行了細(xì)分。三到九章就這些過程中應(yīng)用的技術(shù)進(jìn)行了詳細(xì)的介紹,第十章介紹了社會搜索,最后一章對現(xiàn)有的先進(jìn)技術(shù)進(jìn)行了簡單的說明以及展望。條理清楚,可以讓我們清楚地找到自己想要的找的相應(yīng)技術(shù),同時由總到分的模式較適合我們學(xué)習(xí)。至于英語的問題,畢竟不是英語,我讀起來還是比較慢,但書中的句子不像英語考試中的句子那么復(fù)雜,結(jié)構(gòu)比較簡單,生僻的單詞也較少,所以大家不用有太大的負(fù)擔(dān),畢竟看英文才是做研究必經(jīng)的道路,也是學(xué)習(xí)先進(jìn)技術(shù)的必要條件。書中每...一章后面都有一個reference and further reading 我們可以了解到書中所引用的文獻(xiàn)原出處,以及以后可以進(jìn)行的擴(kuò)展性閱讀,對于整個搜索引擎方面有一個把握,書中還介紹了一些權(quán)威的回憶,可以指引我們看到搜索引擎的發(fā)展方向,以及取得的成果,這對初學(xué)者是很有幫助的。很有趣的是書中多次提到中國,中文在搜索引擎實施中的區(qū)別于英文的地方及要注意的方面,同時也可以看到中國在科學(xué)領(lǐng)域中的地位有所提高。書中的加粗以及斜體讓我們對重點概念有一個重點的把握。例外值得一提的是書中數(shù)學(xué)公式以及圖應(yīng)用的也很廣泛,這些都是通用的語言,圖文并茂,讓人易于理解。令附了不少通俗易懂的例子,以及部分算法的實現(xiàn)。本文的作者是在搜索引擎方面的權(quán)威人士,不僅在學(xué)術(shù)上很有造詣,在實踐中也是很有成就的。不到三周的時間,因為還有課程安排,我看的還不是很深,上面是我對整本書大概的把握跟理解,希望對你有用。 閱讀更多 ›
  •   個人感覺理論的東西還是很需要的,在你編程的時候你就會體會到,有些會豁然開朗的。所以推薦大家閱讀之。
  •   大師的作品, 從爬蟲, 到索引的原理和介紹, 到檢索, 都說的很詳細(xì). 建議買英文版的, 中文的翻譯的太爛了. 推薦
  •   質(zhì)量很高的入門書籍,這學(xué)期用作教材。
  •   書是全新,封面一角有個折痕。不太滿意的是書晚了兩天才到。書的質(zhì)量還可以,值得購買
  •   這本書的內(nèi)容豐富,知識含量多,講解的詳細(xì),很好~~
  •   其實書中講的是一些基本的概念和應(yīng)用,但是不等于說基本就不重要,相反基本的概念是非常重要的,我覺得這本書的優(yōu)點就在于它給你一個比較正確的對于Information Retrieval是什么一個東西做了很詳細(xì)的描述。里的一些對概念的應(yīng)用也非常的到位。讓你可以很容易理解到。本書是適合Information Retrieval的初學(xué)者的,如果在這方面已經(jīng)有比較深入的了解,可能本書給你的信息不會很多。但可以當(dāng)作一本平時的參考書。之所以給4分,1分是扣在出版社上。文字比較小,紙張和印刷質(zhì)量都比較次。希望能有比較好的材質(zhì)才對得起書的內(nèi)容,也便于保存參考。
  •   書的內(nèi)容很充實,對于學(xué)習(xí)搜索引擎是很好的學(xué)習(xí)與參考資料,但書的紙張與字體實在不怎樣。
  •   字跡挺清楚的,就是感覺紙張似乎不像是正品呀。
  •   很好的書。還沒來得及看呢。是導(dǎo)師極力推薦的一本。
  •   不錯的一本書,很經(jīng)典,適合入門
  •   老師讓我買的,很好的一本書
  •   IR方面入門級的書,內(nèi)容很不錯。
  •   書的紙比較薄
  •   書很有歷史感
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7