個(gè)性化搜索引擎原理與技術(shù)

出版時(shí)間:2008-6  出版社:科學(xué)出版社  作者:李樹青,韓忠愿 編著  頁數(shù):125  
Tag標(biāo)簽:無  

前言

快速發(fā)展的現(xiàn)代互聯(lián)網(wǎng)在帶給人們大量信息的同時(shí),也不可避免地產(chǎn)生了難以讓用戶快速獲取有效信息的問題。作為一種常見的Web信息資源檢索工具,搜索引擎日益受到人們的關(guān)注并得到廣泛的使用。它面向任何Web用戶,無需用戶具有較高的專業(yè)檢索知識(shí),使用方式也較為簡單。搜索引擎已經(jīng)成為人們獲取Web資源的一種主要方式。然而,現(xiàn)代搜索引擎也存在很多不足。其中,最為主要的一個(gè)問題就是由于采用了全文檢索的匹配方法,用戶往往會(huì)得到相當(dāng)多的查詢結(jié)果網(wǎng)頁,而用戶一般只會(huì)訪問其中感興趣的網(wǎng)頁,但是很多搜索引擎往往缺乏對(duì)用戶個(gè)性化信息的利用,從而不能實(shí)現(xiàn)有針對(duì)性的個(gè)性化信息服務(wù)。實(shí)際的情況就表現(xiàn)為即使是具有不同個(gè)性化信息需求的用戶,在輸入相同檢索詞語的時(shí)候也會(huì)得到相同的結(jié)果,甚至是相同的網(wǎng)頁排列次序。這些問題顯然需要得到解決。借鑒在電子商務(wù)網(wǎng)站中廣泛使用的Web個(gè)性化信息推薦技術(shù),本書提出了一個(gè)較為可行的解決方案,即在搜索引擎中使用Web個(gè)性化信息推薦技術(shù),以實(shí)現(xiàn)個(gè)性化搜索引擎。然而,傳統(tǒng)的Web個(gè)性化信息推薦技術(shù)具有很多并不適合搜索引擎的特點(diǎn)。只有結(jié)合搜索引擎工作的原理和特點(diǎn),在現(xiàn)有的Web個(gè)性化信息推薦技術(shù)基礎(chǔ)上加以改進(jìn),才能設(shè)計(jì)出具有個(gè)性化信息推薦能力的智能搜索引擎。通過對(duì)基于個(gè)性化信息推薦技術(shù)的搜索引擎框架和基本技術(shù)的探討,本書構(gòu)建了一個(gè)完整的基于Web個(gè)性化信息推薦技術(shù)的搜索引擎框架結(jié)構(gòu)。這種框架結(jié)構(gòu)的設(shè)計(jì)思想主要考慮了兩點(diǎn)內(nèi)容:一是盡量減少用戶使用的復(fù)雜度,能夠讓用戶在完全無需關(guān)注個(gè)性化過程的情況下,來表達(dá)自己的個(gè)性化信息需求和得到所需的個(gè)性化信息;二是盡量在現(xiàn)有搜索引擎技術(shù)基礎(chǔ)上進(jìn)行優(yōu)化和完善,無需對(duì)現(xiàn)有技術(shù)和平臺(tái)環(huán)境做過大的調(diào)整。梁希俠內(nèi)蒙古大學(xué)教授、博士生導(dǎo)師,國家突出貢獻(xiàn)專家,全國教育系統(tǒng)勞動(dòng)模范,享受國務(wù)院政府特殊津貼。曾任教育部高等學(xué)校物理類專業(yè)教學(xué)指導(dǎo)分委員會(huì)委員,現(xiàn)任全國熱力學(xué)與統(tǒng)計(jì)物理教學(xué)研究會(huì)主任。主持國家精品課程“統(tǒng)計(jì)熱力學(xué)”,獲國家級(jí)教學(xué)名師獎(jiǎng),國家教委和內(nèi)蒙古自治區(qū)科技進(jìn)步獎(jiǎng)、內(nèi)蒙古自治區(qū)教學(xué)成果獎(jiǎng)。班士良理學(xué)博士,內(nèi)蒙古大學(xué)教授,博士生導(dǎo)師.享受國務(wù)院政府特殊津貼,內(nèi)蒙古自治區(qū)有突出貢獻(xiàn)專家,勞動(dòng)模范,教育部高等學(xué)校物理學(xué)類專業(yè)教學(xué)指導(dǎo)分委員會(huì)委員、中國物理學(xué)會(huì)理事、內(nèi)蒙古自治區(qū)物理學(xué)會(huì)理事長、全國熱力學(xué)與統(tǒng)計(jì)物理教學(xué)研究會(huì)秘書長。曾獲內(nèi)蒙古自治區(qū)科技進(jìn)步獎(jiǎng)、教學(xué)成果獎(jiǎng)、教學(xué)名師獎(jiǎng)。

內(nèi)容概要

本書通過對(duì)基于個(gè)懷化信息推薦技術(shù)的搜索引擎服務(wù)器日志中所具有關(guān)鍵詞序列得到用戶模式,并按照事務(wù)模式聚類的方法實(shí)現(xiàn)用戶個(gè)性化特征的表達(dá),最后在搜索引擎的網(wǎng)頁索引中,利用得到的用戶個(gè)性化特征改進(jìn)傳統(tǒng)的PegeRank算法。通過上述工作,本書構(gòu)建了一個(gè)完整的基于Web個(gè)性化信秘推薦技術(shù)的搜索引擎框架結(jié)構(gòu)。    本書可作為計(jì)算機(jī)專業(yè)的本科生和研究生的參考用書,也可供有關(guān)技術(shù)人員參考。

書籍目錄

前言第1章 緒論   1.1 Web信息檢索     1.1.1 Web信息檢索模型     1.1.2 向量空間模型     1.1.3 搜索引擎     1.1.4 搜索引擎工作原理     1.1.5 相關(guān)度排序技術(shù)   1.2 Web挖掘     1.2.1 Web挖掘的概念     1.2.2 Web挖掘的類型     1.2.3 Web挖掘的研究進(jìn)展   1.3 web個(gè)性化信息推薦服務(wù)     1.3.1 概念     1.3.2 Web個(gè)性化信息推薦服務(wù)的種類劃分     1.3.3 Web個(gè)性化信息推薦服務(wù)的發(fā)展第2章 網(wǎng)頁權(quán)重分析技術(shù)   2.1 網(wǎng)頁質(zhì)量分析技術(shù)     2.1.1 結(jié)合網(wǎng)頁質(zhì)量分析的Web信息檢索模式     2.1.2 網(wǎng)頁質(zhì)量測(cè)度方法   2.2 網(wǎng)頁相關(guān)度分析技術(shù)     2.2.1 標(biāo)準(zhǔn)PageRank算法     2.2.2 PageRank的優(yōu)化計(jì)算第3章 個(gè)性化搜索引擎   3.1 概念與特點(diǎn)     3.1.1 現(xiàn)代搜索引擎系統(tǒng)存在的問題     3.1.2 個(gè)性化搜索引擎的含義     3.1.3 現(xiàn)階段個(gè)性化搜索引擎的不足   3.2 基本類型     3.2.1 基于個(gè)性化信息采集的個(gè)性化搜索引擎     3.2.2 基于查詢改進(jìn)的個(gè)性化搜索引擎     3.2.3 基于個(gè)性化網(wǎng)頁權(quán)重的個(gè)性化搜索引擎第4章 用戶個(gè)性化模式的獲取和表達(dá)   4.1 基于關(guān)鍵詞序列的用戶模式識(shí)別     4.1.1 概述     4.1.2 數(shù)據(jù)準(zhǔn)備     4.1.3 用戶識(shí)別     4.1.4 事務(wù)模式識(shí)別   4.2 基于用戶事務(wù)模式聚類的Web信息個(gè)性化表達(dá)     4.2.1 用戶事務(wù)模式的類別構(gòu)造     4.2.2 基于頻繁路徑的用戶事務(wù)模式類別構(gòu)造     4.2.3 降維處理問題第5章 基于關(guān)鍵詞序列的個(gè)性化網(wǎng)頁權(quán)重方法   5.1 方法概述   5.2 基于修改網(wǎng)頁權(quán)重值的個(gè)性化PageRank   5.3 基于添加修正參數(shù)的個(gè)性化PageRank     5.3.1 使用事務(wù)聚類模式的個(gè)性化PageRank方法     5.3.2 使用主題化事務(wù)聚類模式的個(gè)性化PageRank方法第6章 系統(tǒng)原型的實(shí)現(xiàn)   6.1 系統(tǒng)的開發(fā)方式   6.2 數(shù)據(jù)結(jié)構(gòu)   6.3 存儲(chǔ)過程   6.4 系統(tǒng)的功能模塊     6.4.1 爬蟲模塊     6.4.2 Web網(wǎng)頁分析模塊     6.4.3 日志分析模塊     6.4.4 用戶接口模塊   6.5 結(jié)果分析     6.5.1 關(guān)鍵詞訪問序列的獲取情況     6.5.2 用戶事務(wù)模式的獲取情況     6.5.3 用戶事務(wù)模式的聚類情況     6.5.4 個(gè)性化PageRank值的計(jì)算情況   6.6 系統(tǒng)框架評(píng)價(jià)參考文獻(xiàn)

章節(jié)摘錄

插圖:第1章 緒論本章主要介紹了與個(gè)性化搜索引擎相關(guān)的基本技術(shù)內(nèi)容,主要包括Web信息檢索、Web挖掘和Web個(gè)性化信息推薦服務(wù)等。1.1 Web信息檢索隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息資源呈現(xiàn)一種爆炸式的增長態(tài)勢(shì),比如在2005年,Google搜索引擎能夠遍歷到的Web網(wǎng)頁數(shù)量就已經(jīng)達(dá)到近60億。這些網(wǎng)絡(luò)信息資源在給人們帶來豐富知識(shí)和極大便利的同時(shí),也暴露出一些亟待解決的問題。其中,最主要的問題表現(xiàn)在這種信息資源的增長速度遠(yuǎn)遠(yuǎn)超出了人們能夠處理它們的能力,動(dòng)輒千萬吉的信息量讓用戶實(shí)際上難以獲取所需的有效信息,更難以對(duì)收集來的海量信息進(jìn)行分析和獲取知識(shí)。奈斯比特在《大趨勢(shì)》一書中準(zhǔn)確形容了人們目前所處的困境,即信息是豐富的,而知識(shí)是貧乏的。針對(duì)上述特點(diǎn),人們?cè)趥鹘y(tǒng)信息檢索系統(tǒng)的基礎(chǔ)上開發(fā)出新的Web信息檢索系統(tǒng),典型的系統(tǒng)就是搜索引擎。自從1994年問世以來,搜索引擎逐漸成為人們獲取網(wǎng)絡(luò)信息資源的主要方式,相關(guān)搜索引擎網(wǎng)站也是Web用戶使用網(wǎng)絡(luò)時(shí)首選的訪問站點(diǎn)。另外,它和免費(fèi)電子郵箱、網(wǎng)絡(luò)實(shí)時(shí)通信軟件構(gòu)成了當(dāng)今門戶網(wǎng)站用來吸引用戶訪問的三種主要方式?,F(xiàn)在,相關(guān)搜索引擎廠商日益成為促進(jìn)互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展的重要力量。1.1.1 Web信息檢索模型廣義的信息檢索是指信息用戶為處理和解決各種問題而查找、識(shí)別、獲取相關(guān)的事實(shí)、數(shù)據(jù)、文獻(xiàn)的活動(dòng)及過程,而狹義的信息檢索主要是指信息用戶在計(jì)算機(jī)信息檢索系統(tǒng)上進(jìn)行的信息查詢行為。具體的計(jì)算機(jī)檢索行為包含脫機(jī)批處理檢索、聯(lián)機(jī)檢索、光盤檢索和網(wǎng)絡(luò)化聯(lián)機(jī)檢索。Web信息檢索是一種網(wǎng)絡(luò)化的聯(lián)機(jī)檢索,它的檢索對(duì)象就是互聯(lián)網(wǎng)上的Web資源。

編輯推薦

《個(gè)性化搜索引擎原理與技術(shù)》可作為計(jì)算機(jī)專業(yè)的本科生和研究生的參考用書,也可供有關(guān)技術(shù)人員參考。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    個(gè)性化搜索引擎原理與技術(shù) PDF格式下載


用戶評(píng)論 (總計(jì)11條)

 
 

  •   要說書的內(nèi)容,還真是一般,可能作者本身就是一個(gè)博士或者碩士之類的,將自己的幾篇論文拼湊起來竟然出了書,最奇怪的是我竟然購買來當(dāng)參考,真是一次失敗的購書經(jīng)歷
  •   商品不錯(cuò),小孩子非常喜歡,但大人覺得沒意思
  •   過于理論化,操作性不強(qiáng)
  •   前兩章的概論性內(nèi)容抄抄弄弄,把眾人皆知的理論又炒了一次,糊弄讀者。最后一章的代碼沒有任何參考價(jià)值---連玩具都談不上。整個(gè)一本書里,5章的內(nèi)容,就第3章和第4章是我最期待的??上Ь湍敲袋c(diǎn)篇幅,所能涉及的廣度、深度可想而知。對(duì)于協(xié)同過濾、對(duì)于個(gè)性化建模都不夠深入。
  •   這本書非常非常的差,沒有含金量~~~~~~~~~~~~·
  •   幾乎沒有實(shí)質(zhì)性的東西~·`
  •   很薄,又無用,價(jià)格又很高
  •   感覺很差勁,沒有含金量~~~
  •   基本上是吧搜索引擎綜述的論文印成書,沒有實(shí)現(xiàn),沒有源代碼。怎么找一本詳細(xì)介紹搜索引擎的書就這么難呢?
  •   這是一本挺垃圾的書,內(nèi)容上是關(guān)于搜索引擎的一個(gè)綜述,沒有什么很深的理論,作者寫書的目的估計(jì)不是搞研究而是賺錢或名譽(yù),同時(shí)錯(cuò)誤也較多,希望不要繼續(xù)買。
  •   內(nèi)容太空泛,沒有一點(diǎn)實(shí)質(zhì)性的東西。不好!
 

250萬本中文圖書簡介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7