Web搜索

出版時(shí)間:2009-8  出版社:高等教育出版社  作者:郭軍 編  頁數(shù):294  
Tag標(biāo)簽:無  

前言

  當(dāng)今時(shí)代,如何從源源不斷、無邊無際的海量Web數(shù)據(jù)中搜索信息已經(jīng)成為一個(gè)對社會(huì)的政治、經(jīng)濟(jì)、文化、安全等具有全方位影響的重大課題。在這一背景下,以信息檢索、過濾和推薦為主要內(nèi)容的Web搜索引起了全球?qū)W術(shù)界、產(chǎn)業(yè)界以及各國政府的極大關(guān)注。商用搜索引擎巨頭迅速崛起,強(qiáng)有力地帶動(dòng)了社會(huì)經(jīng)濟(jì)的發(fā)展。相關(guān)的學(xué)術(shù)研究異?;钴S,為自然科學(xué)和社會(huì)科學(xué)的多個(gè)領(lǐng)域的研究注入了活力?! eb搜索是一種高度智能化的信息處理技術(shù)。在目前已經(jīng)形成的理論和技術(shù)體系中,融合了模式識別、自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等多個(gè)學(xué)科的成果,綜合性和交叉性十分突出。此外,海量信息處理、Web網(wǎng)頁自動(dòng)獲取及分析、網(wǎng)頁索引、網(wǎng)頁鏈接分析、社會(huì)網(wǎng)絡(luò)挖掘等內(nèi)容更是具有獨(dú)特性和新穎性。這門技術(shù)也因此走入了大學(xué)的課堂,并迅速受到了廣大學(xué)生的青睞。目前,國內(nèi)外IT背景較強(qiáng)的大學(xué)都至少在研究生層次上開設(shè)了相關(guān)的課程?! ∠鄬τ谶@種旺盛的教學(xué)需求,Web搜索的教材建設(shè)明顯滯后,特別是中文教材非常稀缺。即使是外文教材也在系統(tǒng)性和前沿性等方面落后于技術(shù)的發(fā)展現(xiàn)狀。因此,編寫出版緊跟最新技術(shù)進(jìn)展的Web搜索的大學(xué)教材有十分緊迫的需求?! ∽髡唛L期從事模式識別和網(wǎng)絡(luò)技術(shù)領(lǐng)域的研究和教學(xué)工作,近年來對Web搜索產(chǎn)生了濃厚的興趣,帶領(lǐng)一支十多人的教師團(tuán)隊(duì)指導(dǎo)上百名研究生對該領(lǐng)域進(jìn)行了多方面的深入研究。通過研究工作的不斷積累,對Web搜索的技術(shù)體系和主要內(nèi)涵有了比較深刻的認(rèn)識和理解,感到值得將其梳理和總結(jié)為一部主要面向研究生教學(xué)的教材,為解當(dāng)前的燃眉之急貢獻(xiàn)一份力量?! ”緯鴮eb上的信息檢索、過濾和推薦等技術(shù)定義為Web搜索,使其具有比較寬泛的內(nèi)涵。這樣做的好處是將Web檢索、過濾、推薦等既聯(lián)系緊密又相互區(qū)分的技術(shù)統(tǒng)一在一個(gè)體系中,便于進(jìn)行系統(tǒng)地學(xué)習(xí)和研究。這是本書的一個(gè)顯著特色?! ”緯o跟技術(shù)的最新進(jìn)展,討論和介紹重要的研究成果,以及不斷涌現(xiàn)的挑戰(zhàn)。在寫法上以Web搜索所包含的主要任務(wù)和核心問題為綱、以典型理論模型為例介紹研究的進(jìn)展,分析對比不同方法在不同方面的優(yōu)劣,并著力指出它們的局限、當(dāng)前的研究重點(diǎn)和發(fā)展趨勢。這一點(diǎn)與通常的教材一般只對成熟的理論進(jìn)行系統(tǒng)總結(jié)相比有很大的不同。

內(nèi)容概要

  《Web搜索》內(nèi)容包括導(dǎo)論、文本檢索、圖像檢索、音頻檢索、信息過濾、信息推薦以及發(fā)展前沿。對Web搜索的基本概念進(jìn)行定義,闡述其科學(xué)價(jià)值和研究狀況,根據(jù)Web搜索所涵蓋的檢索、過濾以及推薦技術(shù),論述其中的核心問題、基本概念和基本方法,并介紹Web搜索若干新的研究方向。  《Web搜索》的最大特點(diǎn)是將Web上的信息檢索、過濾和推薦等技術(shù)定義為Web搜索,使其具有比較寬泛的內(nèi)涵。將Web檢索、過濾和推薦統(tǒng)一在一個(gè)體系中,既符合這三項(xiàng)技術(shù)發(fā)展的現(xiàn)狀和趨勢,又便于讀者進(jìn)行系統(tǒng)的學(xué)習(xí)和研究。另外,《Web搜索》緊跟近年來的最新研究進(jìn)展,具有顯著的先進(jìn)性和獨(dú)特性。  《Web搜索》可以作為信息、通信、計(jì)算機(jī)類研究生或高年級本科生的教材和教學(xué)參考書,也可作為專業(yè)技術(shù)人員的閱讀和培訓(xùn)資料。

作者簡介

  郭軍,教授,現(xiàn)任北京郵電大學(xué)信息與通信工程學(xué)院院長,日本東北學(xué)院大學(xué)博士、博士生導(dǎo)師。主要學(xué)術(shù)兼職包括國家自然科學(xué)基金委員會(huì)信息科學(xué)部學(xué)科評審組成員、北京市科學(xué)技術(shù)獎(jiǎng)評審專家組成員、北京市計(jì)算機(jī)與控制學(xué)科高級職稱評審組副組長、中國人工智能學(xué)會(huì)理事、中國自動(dòng)識別協(xié)會(huì)專家組成員、中文信息處理學(xué)會(huì)理事等。主要社會(huì)兼職包括北京市政協(xié)委員、北京市高級知識分子聯(lián)誼會(huì)理事、中共中央統(tǒng)戰(zhàn)部信息員等?! ‖F(xiàn)主要從事Web搜索、模式識別、網(wǎng)絡(luò)管理等方面的研究。在SCIENCE、IEEE Trans.on PAMI、IEICE Trans、ICPR、IOOV、SIGIR等模式識別、計(jì)算機(jī)視覺以及信息檢索領(lǐng)域國際頂級刊物和會(huì)議上發(fā)表了多篇論文。出版著作6部,其中《網(wǎng)絡(luò)管理》一書被評為首批(2004年)北京市精品教材。

書籍目錄

  第1章 導(dǎo)論  1.1 Web搜索的定義  1.2 Web搜索的發(fā)展背景  1.3 Web搜索的挑戰(zhàn)性  1.4 Web搜索的科學(xué)價(jià)值  1.5 Web搜索的研究狀況  1.6 本書的內(nèi)容    第2章 文本檢索  2.1 引言  2.2 Web信息采集  2.2.1 Crawler的基本原理  2.2.2 Crawler的工作效率  2.2.3 Crawler的難題  2.3 文本的保存與索引  2.3.1 預(yù)處理  2.3.2 文本的保存  2.3.3 文本的索引  2.3.4 索引詞的選取  2.4 檢索模型  2.4.1 Boolean模型  2.4.2 VSM  2.4.3 概率模型  2.5 網(wǎng)頁排序  2.6 查詢重構(gòu)  2.6.1 用戶相關(guān)反饋  2.6.2 自動(dòng)局部分析  2.6.3 自動(dòng)全局分析  2.7 文本聚類  2.7.1 區(qū)分法  2.7.2 生成法  2.8 文本分類  2.8.1 K-NN分類器  2.8.2 Bayes分類器  2.8.3 最大熵分類器  2.8.4 區(qū)分式分類器  2.9 特征選擇  2.9.1 包含算法  2.9.2 排除算法  2.1 0特征變換  2.1 0.1 自組織映射  2.1 0.2 潛語義標(biāo)號  小結(jié)  習(xí)題    第3章 圖像檢索  3.1 引言  3.2 圖像檢索的發(fā)展過程  3.3 文本自動(dòng)標(biāo)注  3.3.1 基于二維多粒度隱:Markov模型的二類標(biāo)注  3.3.2 有監(jiān)督的多類標(biāo)注SMI  3.4 物體識別  3.4.1 星群模型  3.4.2 異構(gòu)星狀模型  3.5 文字識別  3.5.1 引言  3.5.2 離線文字識別系統(tǒng)  3.5.3 非線性歸一化  3.5.4 余弦整形變換  3.5.5 方向線素特征抽取  3.5.6 漸進(jìn)式計(jì)算的馬氏距離分類器  3.5.7 基于模具的文字切分  3.6 人臉檢測與識別  3.6.1 Adaboost人臉檢測算法  3.6.2 常見的人臉識別算法  3.6.3 非限定性人臉識別算法  3.7 視頻檢索  3.7.1 概述  3.7.2 鏡頭切分  3.7.3 視頻摘要  小結(jié)  習(xí)題    第4章 音頻檢索  4.1 引言  4.2 聲學(xué)特征抽取  4.2.1 時(shí)域特征抽取  4.2.2 頻域特征抽取  4.3 HMM模型  4.3.1 基本概念與原理  4.3.2 3個(gè)基本問題及其經(jīng)典算法.  4.4 連續(xù)語音識別系統(tǒng)  4.4.1 基于HMM的語音識別統(tǒng)一框架  4.4.2 聲學(xué)模型  4.4.3 語言模型  4.4.4 解碼器  4.5 語音關(guān)鍵詞發(fā)現(xiàn)技術(shù)  4.5.1 基于垃圾模型的關(guān)鍵詞發(fā)現(xiàn)  4.5.2 語音關(guān)鍵詞發(fā)現(xiàn)中的核心問題  4.5.3 一個(gè)側(cè)重確認(rèn)的語音關(guān)鍵詞發(fā)現(xiàn)系統(tǒng)  4.6 語音詞匯檢測技術(shù)  4.6.1 混淆網(wǎng)絡(luò)  4.6.2 一個(gè)基于音節(jié)混淆網(wǎng)絡(luò)的STD系統(tǒng)  4.7 非語音音頻檢索  4.7.1 概述  4.7.2 聲學(xué)模型  4.7.3 語義模型  4.7.4 聲學(xué)空間與語義空間的聯(lián)系  4.8 音樂檢索  4.8.1 概述  4.8.2 哼唱檢索  4.8.3 基于語義描述的音樂標(biāo)注及檢索  小結(jié)  習(xí)題    第5章 信息過濾  5.1 引言  5.2 基本方法  5.2.1 基于Bayes分類器的過濾  5.2.2 基于向量距離分類器的過濾  5.2.3 基于k近鄰分類器的過濾  5.2.4 基于SVM的過濾  5.2.5 系統(tǒng)性能評價(jià)  5.3 模型學(xué)習(xí)  5.3.1 生成式與區(qū)分式學(xué)習(xí)  5.3.2 降維變換  5.3.3 半監(jiān)督學(xué)習(xí)  5.3.4 演進(jìn)式學(xué)習(xí)  5.4 垃圾郵件及垃圾短信過濾  5.4.1 垃圾郵件過濾系統(tǒng)  5.4.2 垃圾短信的過濾  5.5 話題檢測與跟蹤系統(tǒng)  5.5.1 報(bào)道分割  5.5.2 事件檢測  5.5.3 事件跟蹤  小結(jié)  習(xí)題    第6章 信息推薦  6.1 引言  6.2 關(guān)聯(lián)規(guī)則挖掘的基本算法  6.2.1 基本定義  6.2.2 Apfiofi關(guān)聯(lián)規(guī)則挖掘算法  6.2.3 基于FPT的算法  6.3 可信關(guān)聯(lián)規(guī)則及其挖掘算法  6.3.1 相關(guān)定義  6.3.2 用鄰接矩陣求2項(xiàng)可信集  6.3.3 由k項(xiàng)可信集生成(k+1)項(xiàng)可信集  6.3.4 基于極大團(tuán)的可信關(guān)聯(lián)規(guī)則挖掘算法  6.4 基于FPT的超團(tuán)模式快速挖掘算法  6.4.1 相關(guān)定義  6.4.2 基于FPT的超團(tuán)模式和極大超團(tuán)模式挖掘  6.5 協(xié)同過濾推薦的基本算法  6.6 基于局部偏好的協(xié)同過濾推薦算法  6.7 基于個(gè)性化主動(dòng)學(xué)習(xí)的協(xié)同過濾  6.8 面向排序的協(xié)同過濾  小結(jié)  習(xí)題    第7章 發(fā)展前沿  7.1 內(nèi)網(wǎng)檢索及對象檢索  7.2 基于文檔的專家檢索  7.2.1 基于文檔的專家表示  7.2.2 基于文檔的專家檢索  7.3 對象檢索及信息抽取  7.3.1 對象檢索的基本概念  7.3.2 信息抽取  7.4 基于Web的對象檢索  7.5 博客檢索  7.6 TREC中的博客觀點(diǎn)檢索  7.7 文本情感分析  7.7.1 文本情感分析中的特征抽取  7.7.2 情感分類模型  小結(jié)  習(xí)題  參考文獻(xiàn)

章節(jié)摘錄

  Web搜索廣闊的應(yīng)用領(lǐng)域、巨大的社會(huì)經(jīng)濟(jì)作用以及高度的技術(shù)挑戰(zhàn)性使其充滿了科學(xué)研究價(jià)值?! 〉谝唬琖eb搜索所研究的是一個(gè)嶄新的科學(xué)問題,即如何在無邊的動(dòng)態(tài)的Web信息中尋找最符合用戶需求的信息。這個(gè)問題不僅在尺度上空前巨大,而且約束條件非常不確定。因?yàn)橄到y(tǒng)通常難以了解用戶真正的信息需求。用戶總是希望以最簡單的提問或最便捷的操作,如輸入少量關(guān)鍵字的方式來表達(dá)自己的請求,因而系統(tǒng)得到的指示是十分籠統(tǒng)和模糊的。我們應(yīng)該認(rèn)識到,Web搜索在計(jì)算規(guī)模和約束的不確定性方面已經(jīng)將人類的科學(xué)研究帶到了一個(gè)新高度?! 〉诙?,Web搜索既要考慮信息的客觀性,又要考慮信息的主觀性。所謂信息的客觀性,是指信息的數(shù)據(jù)形式在Web中是客觀存在的,不論面對哪個(gè)主體(用戶),承載信息的數(shù)據(jù)都是相同的。而信息的主觀性是指同樣的數(shù)據(jù)給用戶提供的信息(量)是不同的。一篇介紹攝影常識的文章對初學(xué)者來說可能“很有信息量”,而對一個(gè)攝影師來說信息量幾乎為零。在Web搜索中,上述客觀性因素和主觀性因素都會(huì)影響搜索結(jié)果的正確性(質(zhì)量)。這種特點(diǎn)在普通的自然科學(xué)研究中是很少見的,因此引起了人們更大的研究興趣?! 〉谌?,Web搜索強(qiáng)有力地帶動(dòng)了相關(guān)學(xué)科,特別是智能學(xué)科的發(fā)展。智能學(xué)科中的自然語言理解、模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等在Web搜索中找到了巨大的發(fā)展空間,近年來已經(jīng)形成了空前高漲的研究熱潮。例如文本分類、多媒體識別、海量數(shù)據(jù)挖掘、在線增量機(jī)器學(xué)習(xí)、在線分類和聚類、信息抽取、信息摘要、命名實(shí)體識別等研究都緊密地與Web搜索聯(lián)系了起來。商用搜索引擎的智能化趨勢也正是在這些研究的基礎(chǔ)上形成的。甚至可以預(yù)期Web搜索將成為一個(gè)大面積涵蓋智能學(xué)科的新興獨(dú)立學(xué)科。

媒體關(guān)注與評論

  本書最主要的特色是將信息“檢索”、“過濾”和“推薦”一并考慮,具有前瞻性意義;另外一個(gè)特色是在討論搜索的時(shí)候,不僅考慮了傳統(tǒng)上為主的文本,也一并考慮了當(dāng)前越來越重要的圖像視頻和語音的檢索問題,很好地結(jié)合了作者的研究工作領(lǐng)域特長?!  顣悦鳌   ‰S著網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,Web搜索技術(shù)也變得越來越重要。現(xiàn)在的互聯(lián)網(wǎng)上,信息——包括文本、圖像、視頻和語音信息——可以說已經(jīng)非常豐富,關(guān)鍵是讓用戶方便快捷地找到這些信息。這正是本書所探討的主要內(nèi)容?!  R少平

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    Web搜索 PDF格式下載


用戶評論 (總計(jì)0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7