出版時(shí)間:2007-1 出版社:電子工業(yè)出版社 作者:梁斌 頁數(shù):272 字?jǐn)?shù):258000
Tag標(biāo)簽:無
內(nèi)容概要
在網(wǎng)絡(luò)普及的今天,人們經(jīng)常在信息海洋中彷徨,在萬維網(wǎng)迷宮般的復(fù)雜與魅力之間掙扎。直到搜索引擎這一偉大的技術(shù)產(chǎn)生,才使得人們猶如找到了走出迷宮的燈塔,可以非常便捷地找到自己所需要的信息。 正是因?yàn)樗阉饕骐x我們?cè)絹碓浇栽絹碓蕉嗟娜似诖軌蚪议_她神秘的面紗。其實(shí)搜索引擎并不是變幻莫測(cè)的大海,也不是高不可攀的山峰。請(qǐng)拿起本書,它就是引領(lǐng)你的火炬,它就是你身邊的伙伴,它將帶著你走進(jìn)搜索引擎。在那里,你必將會(huì)被搜索引擎精致的設(shè)計(jì)和宏偉的架構(gòu)所征服。 本書由搜索引擎開發(fā)研究領(lǐng)域年輕而有活力的科學(xué)家精心編寫,作者將自己對(duì)搜索引擎的深刻理解和實(shí)際應(yīng)用巧妙地結(jié)合,使得從未接觸過搜索引擎原理的讀者也能夠輕松地在搜索引擎的大廈中遨游一番。 本書作為搜索引擎原理與技術(shù)的入門書籍,面向那些有志從事搜索引擎行業(yè)的青年學(xué)生、需要完整理解并優(yōu)化搜索引擎的專業(yè)技術(shù)人員、搜索引擎的營(yíng)銷人員,以及網(wǎng)站的負(fù)責(zé)人等。 本書是從事搜索引擎開發(fā)的工程技術(shù)人員難得的參考書,也可作為大中專院校相關(guān)專業(yè)的教學(xué)輔導(dǎo)書。
作者簡(jiǎn)介
梁斌畢業(yè)于南京大學(xué),獲得軟件工程碩士學(xué)位,曾經(jīng)發(fā)表過多篇論文,獲得1項(xiàng)國(guó)家專利,作者主要的興趣方向包括數(shù)據(jù)挖掘、Wed挖掘、搜索引擎和軟件工程等,目前在清華大學(xué)信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室從事搜索引擎相關(guān)研究工作。
書籍目錄
第一章 引言 第一節(jié) 什么是搜索引擎 第二節(jié) 搜索引擎的發(fā)展簡(jiǎn)史 搜索引擎的發(fā)展歷史 第三節(jié) 搜索引擎大事快覽 第四節(jié) 國(guó)內(nèi)著名搜索引擎 百度(www.baidu.com) 中搜(www.zhongsou.com) 天網(wǎng)(e.pku.edu.cn) 搜狗(www.sogou.com) 參考文獻(xiàn) 第二章 搜索引擎概貌 第一節(jié) 搜索引擎的主要需求 查得快 查得全 查得準(zhǔn) 查得穩(wěn) 第二節(jié) 搜索引擎的大系統(tǒng) 搜索引擎的體系結(jié)構(gòu) 第三章 搜索引擎的下載系統(tǒng) 第一節(jié) 爬蟲的發(fā)展歷史 世界上第個(gè)爬蟲 爬蟲的發(fā)展歷程 第二節(jié) 萬維網(wǎng)及其網(wǎng)頁分析 蝴蝶結(jié)型的萬維網(wǎng) 萬維網(wǎng)的直徑 萬維網(wǎng)的規(guī)模及變化特征 網(wǎng)頁的特征 第三節(jié) 有關(guān)爬蟲的基本概念 爬蟲 種子站點(diǎn) URL Backlinks 第四節(jié) 網(wǎng)頁抓取原理 telnet和wget 從種子站點(diǎn)開始逐層抓取 不重復(fù)抓取策略 網(wǎng)頁抓取優(yōu)先策略 網(wǎng)頁重訪策略★ Robots協(xié)議 其他應(yīng)該注意的禮貌性問題 抓取提速策略(合作抓取策略) 第五節(jié) 網(wǎng)頁庫 第六節(jié) 下載系統(tǒng)回顧及未來發(fā)展 參考文獻(xiàn) 第四章 搜索引擎的分析系統(tǒng) 第一節(jié) 知識(shí)準(zhǔn)備 HTML語言 錨文本(anchor text) 半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured data) 第二節(jié) 信息抽取及網(wǎng)頁信息結(jié)構(gòu)化 網(wǎng)頁結(jié)構(gòu)化的目標(biāo) 建立HTML標(biāo)簽樹 通過投票方法得到正文 網(wǎng)頁結(jié)構(gòu)化過程回顧 第三節(jié) 網(wǎng)頁查重 網(wǎng)頁查重技術(shù)發(fā)展歷史 網(wǎng)頁查重實(shí)現(xiàn)方法 第四節(jié) 中文分詞 什么是中文分詞 通過字典實(shí)現(xiàn)分詞 通過統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)分詞 第五節(jié) PageRank PageRank的來由 PageRank的基本想法 PageRank的計(jì)算公式 PageRank的計(jì)算方法 ★ 第六節(jié) 分析系統(tǒng)結(jié)構(gòu)圖 參考文獻(xiàn) 第五章 搜索引擎的索引系統(tǒng) 第一節(jié) 知識(shí)準(zhǔn)備 信息 索引 倒排索引、倒排表、臨時(shí)倒排文件、最終倒排文件 其他概念 第二節(jié) 全文檢索 全文檢索 第三節(jié) 文檔編號(hào) 編號(hào)的本質(zhì) 文檔編號(hào)的方法 游程編碼 第四節(jié) 倒排索引 經(jīng)典的倒排索引 正排索引(前向索引) 倒排索引 第五節(jié) 數(shù)據(jù)規(guī)模的估計(jì) 齊普夫法則 布爾檢索模型下的索引規(guī)模估計(jì)★ 第六節(jié) 涉及存儲(chǔ)規(guī)模的一些計(jì)算 正排表與倒排表的合并 多個(gè)臨時(shí)倒排文件的歸并 倒排索引分布式存儲(chǔ) 倒排文件緩存 倒排索引詞典統(tǒng)計(jì)信息的計(jì)算 第七節(jié) 倒排索引文件的創(chuàng)建過程 創(chuàng)建倒排表 計(jì)算統(tǒng)計(jì)信息 參考文獻(xiàn) 第六章 搜索引擎的查詢系統(tǒng) 第一節(jié) 知識(shí)準(zhǔn)備 什么是信息熵 檢索和查詢的區(qū)別 檢索詞和查詢?cè)~的區(qū)別 自動(dòng)文本摘要(Automatic Text Summarization) 第二節(jié) 網(wǎng)頁信息檢索 早期的檢索模型 向量空間模型(Vector Space Models) 關(guān)鍵詞權(quán)重的量化方法TF/IDF★ 搜索引擎采用的檢索模型 多文檔列表求交計(jì)算 檢索結(jié)果排序 堆排序 第三節(jié) 中文自動(dòng)摘要 自動(dòng)摘要的發(fā)展歷史 自動(dòng)摘要的含義和實(shí)現(xiàn) 第四節(jié) 生成搜索結(jié)果頁 生成搜索結(jié)果頁 第五節(jié) 搜索結(jié)果頁的緩存 搜索結(jié)果頁的緩存 第六節(jié) 推測(cè)用戶查詢意圖 查詢分類 推測(cè)信息類、事物類的查詢意圖 第七節(jié) 查詢系統(tǒng)的當(dāng)前熱點(diǎn)和發(fā)展方向 查詢系統(tǒng)的當(dāng)前熱點(diǎn) 參考文獻(xiàn) 第七章 搜索引擎的其他話題 第一節(jié) 搜索引擎問與答 為什么搜索引擎的搜索速度這么快 為什么搜索引擎能夠返回那么多的查詢結(jié)果 為什么搜索引擎總能返回最想要的結(jié)果 搜索引擎如何大規(guī)模存儲(chǔ)網(wǎng)頁的 什么是SEO 什么是元搜索引擎 搜索引擎認(rèn)為的作弊行為是哪些 如何進(jìn)一步學(xué)習(xí)和了解搜索引擎發(fā)展的最新成果 第二節(jié) 搜索引擎未來的發(fā)展 新興的搜索產(chǎn)品 搜索技術(shù)的未來 參考文獻(xiàn) 附錄A 搜索引擎系統(tǒng)結(jié)構(gòu)全觀圖
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載