個性化搜索引擎原理與技術(shù)

出版時間:2008-6  出版社:科學(xué)出版社  作者:李樹青,韓忠愿 編著  頁數(shù):125  
Tag標(biāo)簽:無  

前言

快速發(fā)展的現(xiàn)代互聯(lián)網(wǎng)在帶給人們大量信息的同時,也不可避免地產(chǎn)生了難以讓用戶快速獲取有效信息的問題。作為一種常見的Web信息資源檢索工具,搜索引擎日益受到人們的關(guān)注并得到廣泛的使用。它面向任何Web用戶,無需用戶具有較高的專業(yè)檢索知識,使用方式也較為簡單。搜索引擎已經(jīng)成為人們獲取Web資源的一種主要方式。然而,現(xiàn)代搜索引擎也存在很多不足。其中,最為主要的一個問題就是由于采用了全文檢索的匹配方法,用戶往往會得到相當(dāng)多的查詢結(jié)果網(wǎng)頁,而用戶一般只會訪問其中感興趣的網(wǎng)頁,但是很多搜索引擎往往缺乏對用戶個性化信息的利用,從而不能實現(xiàn)有針對性的個性化信息服務(wù)。實際的情況就表現(xiàn)為即使是具有不同個性化信息需求的用戶,在輸入相同檢索詞語的時候也會得到相同的結(jié)果,甚至是相同的網(wǎng)頁排列次序。這些問題顯然需要得到解決。借鑒在電子商務(wù)網(wǎng)站中廣泛使用的Web個性化信息推薦技術(shù),本書提出了一個較為可行的解決方案,即在搜索引擎中使用Web個性化信息推薦技術(shù),以實現(xiàn)個性化搜索引擎。然而,傳統(tǒng)的Web個性化信息推薦技術(shù)具有很多并不適合搜索引擎的特點。只有結(jié)合搜索引擎工作的原理和特點,在現(xiàn)有的Web個性化信息推薦技術(shù)基礎(chǔ)上加以改進(jìn),才能設(shè)計出具有個性化信息推薦能力的智能搜索引擎。通過對基于個性化信息推薦技術(shù)的搜索引擎框架和基本技術(shù)的探討,本書構(gòu)建了一個完整的基于Web個性化信息推薦技術(shù)的搜索引擎框架結(jié)構(gòu)。這種框架結(jié)構(gòu)的設(shè)計思想主要考慮了兩點內(nèi)容:一是盡量減少用戶使用的復(fù)雜度,能夠讓用戶在完全無需關(guān)注個性化過程的情況下,來表達(dá)自己的個性化信息需求和得到所需的個性化信息;二是盡量在現(xiàn)有搜索引擎技術(shù)基礎(chǔ)上進(jìn)行優(yōu)化和完善,無需對現(xiàn)有技術(shù)和平臺環(huán)境做過大的調(diào)整。梁希俠內(nèi)蒙古大學(xué)教授、博士生導(dǎo)師,國家突出貢獻(xiàn)專家,全國教育系統(tǒng)勞動模范,享受國務(wù)院政府特殊津貼。曾任教育部高等學(xué)校物理類專業(yè)教學(xué)指導(dǎo)分委員會委員,現(xiàn)任全國熱力學(xué)與統(tǒng)計物理教學(xué)研究會主任。主持國家精品課程“統(tǒng)計熱力學(xué)”,獲國家級教學(xué)名師獎,國家教委和內(nèi)蒙古自治區(qū)科技進(jìn)步獎、內(nèi)蒙古自治區(qū)教學(xué)成果獎。班士良理學(xué)博士,內(nèi)蒙古大學(xué)教授,博士生導(dǎo)師.享受國務(wù)院政府特殊津貼,內(nèi)蒙古自治區(qū)有突出貢獻(xiàn)專家,勞動模范,教育部高等學(xué)校物理學(xué)類專業(yè)教學(xué)指導(dǎo)分委員會委員、中國物理學(xué)會理事、內(nèi)蒙古自治區(qū)物理學(xué)會理事長、全國熱力學(xué)與統(tǒng)計物理教學(xué)研究會秘書長。曾獲內(nèi)蒙古自治區(qū)科技進(jìn)步獎、教學(xué)成果獎、教學(xué)名師獎。

內(nèi)容概要

本書通過對基于個懷化信息推薦技術(shù)的搜索引擎服務(wù)器日志中所具有關(guān)鍵詞序列得到用戶模式,并按照事務(wù)模式聚類的方法實現(xiàn)用戶個性化特征的表達(dá),最后在搜索引擎的網(wǎng)頁索引中,利用得到的用戶個性化特征改進(jìn)傳統(tǒng)的PegeRank算法。通過上述工作,本書構(gòu)建了一個完整的基于Web個性化信秘推薦技術(shù)的搜索引擎框架結(jié)構(gòu)。    本書可作為計算機(jī)專業(yè)的本科生和研究生的參考用書,也可供有關(guān)技術(shù)人員參考。

書籍目錄

前言第1章 緒論   1.1 Web信息檢索     1.1.1 Web信息檢索模型     1.1.2 向量空間模型     1.1.3 搜索引擎     1.1.4 搜索引擎工作原理     1.1.5 相關(guān)度排序技術(shù)   1.2 Web挖掘     1.2.1 Web挖掘的概念     1.2.2 Web挖掘的類型     1.2.3 Web挖掘的研究進(jìn)展   1.3 web個性化信息推薦服務(wù)     1.3.1 概念     1.3.2 Web個性化信息推薦服務(wù)的種類劃分     1.3.3 Web個性化信息推薦服務(wù)的發(fā)展第2章 網(wǎng)頁權(quán)重分析技術(shù)   2.1 網(wǎng)頁質(zhì)量分析技術(shù)     2.1.1 結(jié)合網(wǎng)頁質(zhì)量分析的Web信息檢索模式     2.1.2 網(wǎng)頁質(zhì)量測度方法   2.2 網(wǎng)頁相關(guān)度分析技術(shù)     2.2.1 標(biāo)準(zhǔn)PageRank算法     2.2.2 PageRank的優(yōu)化計算第3章 個性化搜索引擎   3.1 概念與特點     3.1.1 現(xiàn)代搜索引擎系統(tǒng)存在的問題     3.1.2 個性化搜索引擎的含義     3.1.3 現(xiàn)階段個性化搜索引擎的不足   3.2 基本類型     3.2.1 基于個性化信息采集的個性化搜索引擎     3.2.2 基于查詢改進(jìn)的個性化搜索引擎     3.2.3 基于個性化網(wǎng)頁權(quán)重的個性化搜索引擎第4章 用戶個性化模式的獲取和表達(dá)   4.1 基于關(guān)鍵詞序列的用戶模式識別     4.1.1 概述     4.1.2 數(shù)據(jù)準(zhǔn)備     4.1.3 用戶識別     4.1.4 事務(wù)模式識別   4.2 基于用戶事務(wù)模式聚類的Web信息個性化表達(dá)     4.2.1 用戶事務(wù)模式的類別構(gòu)造     4.2.2 基于頻繁路徑的用戶事務(wù)模式類別構(gòu)造     4.2.3 降維處理問題第5章 基于關(guān)鍵詞序列的個性化網(wǎng)頁權(quán)重方法   5.1 方法概述   5.2 基于修改網(wǎng)頁權(quán)重值的個性化PageRank   5.3 基于添加修正參數(shù)的個性化PageRank     5.3.1 使用事務(wù)聚類模式的個性化PageRank方法     5.3.2 使用主題化事務(wù)聚類模式的個性化PageRank方法第6章 系統(tǒng)原型的實現(xiàn)   6.1 系統(tǒng)的開發(fā)方式   6.2 數(shù)據(jù)結(jié)構(gòu)   6.3 存儲過程   6.4 系統(tǒng)的功能模塊     6.4.1 爬蟲模塊     6.4.2 Web網(wǎng)頁分析模塊     6.4.3 日志分析模塊     6.4.4 用戶接口模塊   6.5 結(jié)果分析     6.5.1 關(guān)鍵詞訪問序列的獲取情況     6.5.2 用戶事務(wù)模式的獲取情況     6.5.3 用戶事務(wù)模式的聚類情況     6.5.4 個性化PageRank值的計算情況   6.6 系統(tǒng)框架評價參考文獻(xiàn)

章節(jié)摘錄

插圖:第1章 緒論本章主要介紹了與個性化搜索引擎相關(guān)的基本技術(shù)內(nèi)容,主要包括Web信息檢索、Web挖掘和Web個性化信息推薦服務(wù)等。1.1 Web信息檢索隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息資源呈現(xiàn)一種爆炸式的增長態(tài)勢,比如在2005年,Google搜索引擎能夠遍歷到的Web網(wǎng)頁數(shù)量就已經(jīng)達(dá)到近60億。這些網(wǎng)絡(luò)信息資源在給人們帶來豐富知識和極大便利的同時,也暴露出一些亟待解決的問題。其中,最主要的問題表現(xiàn)在這種信息資源的增長速度遠(yuǎn)遠(yuǎn)超出了人們能夠處理它們的能力,動輒千萬吉的信息量讓用戶實際上難以獲取所需的有效信息,更難以對收集來的海量信息進(jìn)行分析和獲取知識。奈斯比特在《大趨勢》一書中準(zhǔn)確形容了人們目前所處的困境,即信息是豐富的,而知識是貧乏的。針對上述特點,人們在傳統(tǒng)信息檢索系統(tǒng)的基礎(chǔ)上開發(fā)出新的Web信息檢索系統(tǒng),典型的系統(tǒng)就是搜索引擎。自從1994年問世以來,搜索引擎逐漸成為人們獲取網(wǎng)絡(luò)信息資源的主要方式,相關(guān)搜索引擎網(wǎng)站也是Web用戶使用網(wǎng)絡(luò)時首選的訪問站點。另外,它和免費電子郵箱、網(wǎng)絡(luò)實時通信軟件構(gòu)成了當(dāng)今門戶網(wǎng)站用來吸引用戶訪問的三種主要方式。現(xiàn)在,相關(guān)搜索引擎廠商日益成為促進(jìn)互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展的重要力量。1.1.1 Web信息檢索模型廣義的信息檢索是指信息用戶為處理和解決各種問題而查找、識別、獲取相關(guān)的事實、數(shù)據(jù)、文獻(xiàn)的活動及過程,而狹義的信息檢索主要是指信息用戶在計算機(jī)信息檢索系統(tǒng)上進(jìn)行的信息查詢行為。具體的計算機(jī)檢索行為包含脫機(jī)批處理檢索、聯(lián)機(jī)檢索、光盤檢索和網(wǎng)絡(luò)化聯(lián)機(jī)檢索。Web信息檢索是一種網(wǎng)絡(luò)化的聯(lián)機(jī)檢索,它的檢索對象就是互聯(lián)網(wǎng)上的Web資源。

編輯推薦

《個性化搜索引擎原理與技術(shù)》可作為計算機(jī)專業(yè)的本科生和研究生的參考用書,也可供有關(guān)技術(shù)人員參考。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    個性化搜索引擎原理與技術(shù) PDF格式下載


用戶評論 (總計11條)

 
 

  •   要說書的內(nèi)容,還真是一般,可能作者本身就是一個博士或者碩士之類的,將自己的幾篇論文拼湊起來竟然出了書,最奇怪的是我竟然購買來當(dāng)參考,真是一次失敗的購書經(jīng)歷
  •   商品不錯,小孩子非常喜歡,但大人覺得沒意思
  •   過于理論化,操作性不強(qiáng)
  •   前兩章的概論性內(nèi)容抄抄弄弄,把眾人皆知的理論又炒了一次,糊弄讀者。最后一章的代碼沒有任何參考價值---連玩具都談不上。整個一本書里,5章的內(nèi)容,就第3章和第4章是我最期待的??上Ь湍敲袋c篇幅,所能涉及的廣度、深度可想而知。對于協(xié)同過濾、對于個性化建模都不夠深入。
  •   這本書非常非常的差,沒有含金量~~~~~~~~~~~~·
  •   幾乎沒有實質(zhì)性的東西~·`
  •   很薄,又無用,價格又很高
  •   感覺很差勁,沒有含金量~~~
  •   基本上是吧搜索引擎綜述的論文印成書,沒有實現(xiàn),沒有源代碼。怎么找一本詳細(xì)介紹搜索引擎的書就這么難呢?
  •   這是一本挺垃圾的書,內(nèi)容上是關(guān)于搜索引擎的一個綜述,沒有什么很深的理論,作者寫書的目的估計不是搞研究而是賺錢或名譽(yù),同時錯誤也較多,希望不要繼續(xù)買。
  •   內(nèi)容太空泛,沒有一點實質(zhì)性的東西。不好!
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7