使用C#開發(fā)搜索引擎

出版時間:2012-2  出版社:清華大學(xué)出版社  作者:羅剛  頁數(shù):346  
Tag標(biāo)簽:無  

內(nèi)容概要

  從c#基礎(chǔ)開始,逐漸深入,是學(xué)習(xí)搜索引擎開發(fā)的首選。應(yīng)眾多公司的實際需求,《使用c#開發(fā)搜索引擎》介紹如何以c#作為工具開發(fā)搜索引擎。全書以完成一個網(wǎng)站搜索\垂直搜索作為目標(biāo),從網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)開始,然后到中文分詞、文本排重等文本挖掘技術(shù)和搜索結(jié)果展現(xiàn)。本書是市面上介紹業(yè)界熱門的lucene.net、使用webbrowser做爬蟲以及結(jié)合solr開發(fā)asp.net搜索的第一書。
  《使用c#開發(fā)搜索引擎》適合專業(yè)軟件開發(fā)人員,也適合于希望學(xué)習(xí)搜索引擎工作原理的讀者學(xué)習(xí)使用。本書對于在校學(xué)生學(xué)習(xí)復(fù)雜數(shù)據(jù)結(jié)構(gòu)和應(yīng)用動態(tài)規(guī)劃等常用算法也有參考價值。

作者簡介

  作者: 羅剛
  羅剛獵兔搜索(http://www.lietu.com)創(chuàng)始人,當(dāng)前獵兔搜索在北京和上海均設(shè)有研發(fā)部。帶領(lǐng)獵兔搜索技術(shù)開發(fā)團(tuán)隊先后開發(fā)出獵兔中文分詞系統(tǒng)、獵兔信息提取系統(tǒng)、獵兔智能垂直搜索系統(tǒng)以及網(wǎng)絡(luò)信息監(jiān)測系統(tǒng)等,實現(xiàn)互聯(lián)網(wǎng)信息的采集、過濾、搜索和實時監(jiān)測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網(wǎng)絡(luò)爬蟲》,獲得廣泛好評。

書籍目錄

第1章 使用c#開發(fā)搜索引擎快速入門
1.1 各種搜索引擎
1.1.1 通用搜索
1.1.2 垂直搜索
1.1.3 站內(nèi)搜索
1.2 搜索引擎整體結(jié)構(gòu)
1.3 搜索引擎基本技術(shù)
1.3.1 網(wǎng)絡(luò)爬蟲
1.3.2 文本挖掘
1.3.3 全文索引
1.3.4 搜索語法介紹
1.3.5 搜索用戶界面
1.4 c#開發(fā)快速入門
1.4.1 準(zhǔn)備開發(fā)環(huán)境
1.4.2 基本語法
1.4.3 多維數(shù)組
1.4.4 位運算
1.4.5 枚舉類型
1.4.6 面向?qū)ο?br />1.4.7 集合類
1.4.8 泛型
1.4.9 委托和事件
1.4.10 類庫
1.5 本章小結(jié)
1.6 術(shù)語表
第2章 使用c#開發(fā)網(wǎng)絡(luò)爬蟲
2.1 網(wǎng)絡(luò)爬蟲抓取原理
2.2 爬蟲架構(gòu)
2.2.1 基本架構(gòu)
2.2.2 分布式爬蟲架構(gòu)
2.2.3 垂直爬蟲架構(gòu)
2.3 下載網(wǎng)頁
2.3.1 http協(xié)議
2.3.2 下載靜態(tài)網(wǎng)頁
2.3.3 下載動態(tài)網(wǎng)頁
2.4 網(wǎng)絡(luò)爬蟲遍歷與實現(xiàn)
2.5 網(wǎng)站地圖
2.6 連接池
2.7 url地址查新
2.7.1 嵌入式數(shù)據(jù)庫
2.7.2 布隆過濾器
2.8 抓取rss
2.9 解析相對地址
2.10 網(wǎng)頁更新
2.11 信息過濾
2.12 垂直行業(yè)抓取
2.13 抓取限制應(yīng)對方法
2.13.1 更換ip地址
2.13.2 抓取需要登錄的網(wǎng)頁
2.13.3 抓取asp.net網(wǎng)頁
2.14 保存信息
2.14.1 存入數(shù)據(jù)庫
2.14.2 存成圖像
2.15 日志
2.16 本章小結(jié)
2.17 術(shù)語表
第3章 索引各種格式文檔
3.1 從html文件中提取信息
3.1.1 識別網(wǎng)頁的編碼
3.1.2 正則表達(dá)式
3.1.3 html agility pack介紹
3.1.4 網(wǎng)頁正文提取
3.1.5 結(jié)構(gòu)化信息提取
3.1.6 查看網(wǎng)頁的dom結(jié)構(gòu)
3.1.7 網(wǎng)頁結(jié)構(gòu)相似度計算
3.2 從非html文件中提取文本
3.2.1 text文件
3.2.2 pdf文件
3.2.3 office文件
3.2.4 rtf文件
3.3 本章小結(jié)
3.4 術(shù)語表
第4章 自然語言處理
4.1 統(tǒng)計機(jī)器學(xué)習(xí)
4.2 文檔排重
4.3 中文關(guān)鍵詞提取
4.3.1 關(guān)鍵詞提取的基本方法
4.3.2 從網(wǎng)頁中提取關(guān)鍵詞
4.4 相關(guān)搜索
4.5 拼寫檢查
4.5.1 拼寫檢查的概率模型
4.5.2 模糊匹配問題
4.5.3 英文拼寫檢查
4.5.4 中文拼寫檢查
4.6 文本摘要
4.6.1 文本摘要的設(shè)計
4.6.2 實現(xiàn)文本摘要技術(shù)
4.6.3 lucene.net中的動態(tài)摘要
4.7 文本分類
4.7.1 自動分類的接口定義
4.7.2 自動分類的實現(xiàn)
4.8 自動聚類
4.8.1 文檔相似度
4.8.2 k均值聚類方法
4.8.3 k均值實現(xiàn)
4.9 拼音轉(zhuǎn)換
4.10 句法分析樹
4.11 信息提取
4.12 本章小結(jié)
4.13 術(shù)語表
第5章 用c#實現(xiàn)中文分詞
5.1 漢語中的詞
5.2 文本切分的基本方法
5.3 有限狀態(tài)機(jī)
5.4 查找詞典算法
5.4.1 標(biāo)準(zhǔn)trie樹
5.4.2 三叉trie樹
5.5 中文分詞的原理
5.6 中文分詞流程與結(jié)構(gòu)
5.7 切分詞圖
5.7.1 保存切分詞圖
5.7.2 生成全切分詞圖
5.8 概率語言模型的分詞方法
5.8.1 一元模型
5.8.2 n元模型
5.9 最大熵
5.10 未登錄詞識別
5.11 詞性標(biāo)注
5.12 地名切分
5.12.1 地址類性標(biāo)注
5.12.2 未登錄詞識別
5.13 本章小結(jié)
5.14 術(shù)語表
第6章 lucene.net原理與應(yīng)用
6.1 lucene.net快速入門
6.1.1 索引文檔
6.1.2 搜索文檔
6.1.3 lucene.net結(jié)構(gòu)
6.2 lucene.net深入介紹
6.2.1 索引原理
6.2.2 分析文本
6.2.3 遍歷索引庫
6.2.4 檢索模型
6.2.5 收集最相關(guān)的文檔
6.3 索引中的壓縮算法
6.3.1 變長壓縮
6.3.2 差分編碼
6.4 創(chuàng)建和維護(hù)索引庫
6.4.1 設(shè)計一個簡單的索引庫
6.4.2 創(chuàng)建索引庫
6.4.3 向索引庫中添加索引文檔
6.4.4 刪除索引庫中的索引文檔
6.4.5 更新索引庫中的索引文檔
6.4.6 索引的優(yōu)化與合并
6.5 查找索引庫
6.5.1 布爾查詢
6.5.2 同時查詢多列
6.5.3 跨度查詢
6.5.4 通配符查詢
6.5.5 過濾
6.5.6 按指定列排序
6.5.7 查詢大容量索引
6.5.8 函數(shù)查詢
6.5.9 定制相似性
6.5.10 評價搜索結(jié)果
6.6 中文信息檢索
6.6.1 lucene.net中的中文處理
6.6.2 lietu中文分詞的使用
6.6.3 定制tokenizer
6.6.4 解析查詢串
6.6.5 實現(xiàn)字詞混合索引
6.7 抓取數(shù)據(jù)庫中的內(nèi)容
6.7.1 讀取數(shù)據(jù)
6.7.2 數(shù)據(jù)同步
6.8 概念搜索
6.9 本章小結(jié)
6.10 術(shù)語表
第7章 實現(xiàn)搜索用戶界面
7.1 搜索頁面設(shè)計
7.1.1 用于顯示搜索結(jié)果的asp.net
7.1.2 搜索結(jié)果分頁
7.1.3 設(shè)計一個簡單的搜索頁面
7.2 實現(xiàn)搜索接口
7.2.1 lucene.net搜索接口
7.2.2 指定范圍搜索
7.2.3 搜索頁面的索引緩存與更新
7.3 實現(xiàn)關(guān)鍵詞高亮顯示
7.4 實現(xiàn)分類統(tǒng)計視圖
7.4.1 搜索結(jié)果分類統(tǒng)計與導(dǎo)航
7.4.2 層次樹
7.5 相關(guān)搜索詞
7.6 實現(xiàn)ajax自動完成
7.6.1 總體結(jié)構(gòu)
7.6.2 服務(wù)器端處理
7.6.3 瀏覽器端處理
7.7 集成其他功能
7.7.1 拼寫檢查
7.7.2 再次查找
7.7.3 黑名單
7.7.4 搜索日志
7.8 本章小結(jié)
第8章 使用solr開發(fā)網(wǎng)站搜索
8.1 搜索服務(wù)器端
8.8.1 solr結(jié)構(gòu)
8.1.2 啟動solr服務(wù)器
8.1.3 配置支持中文的solr
8.1.4 索引數(shù)據(jù)
8.1.5 查詢功能
8.1.6 高亮
8.2 solr的.net客戶端
8.2.1 使用solrnet
8.2.2 實現(xiàn)多分類
8.2.3 分類統(tǒng)計
8.3 查詢語法
8.3.1 對空格的支持
8.3.2 日期加權(quán)
8.4 索引分布
8.5 本章小結(jié)

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    使用C#開發(fā)搜索引擎 PDF格式下載


用戶評論 (總計38條)

 
 

  •   這本書很好,是基于Lucene****的,但是Lucene****這個移植的產(chǎn)品用起來有點別扭,而且這個開源項目目前已經(jīng)凍結(jié)了.
    當(dāng)然這本書是非常優(yōu)秀的,如果你只是想解決站內(nèi)搜索可以研究Hubble****.如果想從C#角度了解搜索引擎,完全可以看這本書
  •   方便他不用對著電腦看,雖然獵兔搜索培訓(xùn)提供更新的版本。
  •   用C#開發(fā)搜索引擎,配合Lucene**** 業(yè)界的第一本書??!太需要了!希望有更深入的相關(guān)書籍
  •   平時都是用搜索引擎,買這本書大概領(lǐng)略一下如何用C#開發(fā)
  •   這本書非常不錯,讓我從另一個方面理解了搜索引擎技術(shù)
  •   對搜索引擎的原理和理論講的很詳細(xì),很好的一本書
  •   內(nèi)容很豐富,適合工作上需要的內(nèi)容
  •   書不錯,價格挺實惠,凡是發(fā)貨速度有些慢.
  •   內(nèi)容比較淺,但國內(nèi)這書很少,尤其是****,不錯了,總體比較滿意
  •   這本書、客服、終端遞送員的服務(wù)都很好,但中間物流單位還有提升空間。
  •   一天就到了,速度相當(dāng)?shù)目?
  •   不錯有收獲不錯有收獲不錯有收獲
  •   很少看見這類書,并且****的
  •   今天剛到,隨便翻了幾頁,內(nèi)容還行吧,講的不算詳細(xì),但畢竟是國內(nèi)的第一本結(jié)合Solr開發(fā)ASP****的書嘛。。
    不過獵兔這個網(wǎng)站的內(nèi)容倒是頻頻出現(xiàn),有打廣告嫌疑 呵呵
  •   對于C#開發(fā)搜索引擎的基本技術(shù)都有涉及,但是不夠細(xì)致,剛開始有些迷茫,另外附贈光盤的示例在書中沒有什么描述。
  •   專門介紹搜索的書 內(nèi)容很專業(yè)
  •   用C#開發(fā)這是第一本!,謝謝作者!唯一不好的就是當(dāng)當(dāng)網(wǎng)的快遞!送過來的時候外包裝一半已經(jīng)沒有了,我在想,幸虧買的是書,外包裝掉了沒人要,要是買的其他貴重品,不知道東西還在不在?
  •   c#作為一門新起的功能強(qiáng)大語言,是很有必要學(xué)習(xí)的,要學(xué)習(xí)哪必須選一本好的參考書,此書不妨看看,幫助還是有的!
  •   書看著還行!正在看呢!感覺要有一定的基礎(chǔ)才好,尤其是數(shù)學(xué)上的!
  •   在專業(yè)領(lǐng)域有很好的幫助和指導(dǎo)
  •   書的內(nèi)容還可以,值得一看
  •   還沒怎么看呢,基本滿意吧……
  •   例子感覺和自己的需要相同,挺不錯的。
  •   還湊合吧。作為一本講搜索引擎的書,1)浪費了一章來C#基本語法,完全沒有必要。
    2)里面有些算法的部分不知道從哪里摘抄來的,占用了大量的篇幅。
    3)有些代碼明顯是從現(xiàn)成的案例里面摘抄來的,但是單獨這樣摘抄出來讓人看不明白,比如有些變量,函數(shù)明顯是外部的,但是只給你一部分,你根本看不明白。
    4)這本書的亮點應(yīng)該是怎么開發(fā)一個獵兔這樣的垂直搜索引擎,估計作者怕暴露太多的核心技術(shù),講的過于粗泛!
  •   剛買還沒怎么看。
  •   內(nèi)容太淺了,貌似連代碼都沒有,像是晚上到處湊的。。。,起碼也給個能跑起來的C#整體代碼
  •   感覺講解得比較跳躍
  •   買過來就把封面給撕掉了。 前言也撕掉了。書一次沒看,封面就沒了。 因為前沿里面的 話,講得很有偏見,整本書,敘述的方式,就要打問號。
  •   此書沒有什么新奇的 重要問題都沒有給出解決辦法 一筆帶過
    例如 查詢大容量索引這節(jié) 只用了個 ParallelMultiSearcher 這個類來解決(千萬級以上的數(shù)據(jù)量 2G 以上的索引 不是這個能解決的)
    光盤中的例子 只是給出了 lucene**** 的 源代碼 結(jié)合lucene****的 demo 用的是很早的版本2.4的版本吧

    作者不要誤人子弟了 謝謝
  •   書的質(zhì)量就不評價了,寫點后頭的事,書上附錄了一個可以討論的群,今天剛加了群 才聊幾句就被踢掉了,我就只抓了個圖而已,那個群正在忽悠群里人的花錢參加所謂的培訓(xùn)。再加被拒。
    寫書的人品咋那么低呢?我也是花錢買書的讀者啊,給我這個待遇,人品真差?;ㄥX培訓(xùn)一個月你可以上月球,培訓(xùn)半年可以上火星,操!這個書上有多少真材實料就很難說了。
  •   光盤與書的內(nèi)容不符合
  •   書中剛好有我需要的東西!
  •   C#適合
  •   內(nèi)容完整,條理性強(qiáng)
  •   內(nèi)容太廣泛了。
  •   還沒來得及看。不知道好不好。
  •     用C#開發(fā)搜索引擎,配合Lucene.NET 業(yè)界的第一本書?。√枰?!希望有更深入的相關(guān)書籍
      
      用C#開發(fā)搜索引擎,配合Lucene.NET 業(yè)界的第一本書??!太需要了!希望有更深入的相關(guān)書籍
  •     互動出版網(wǎng):
      
      http://product.china-pub.com/59225
      
      或者當(dāng)當(dāng)網(wǎng)
      
      http://product.dangdang.com/product.aspx?product_id=22602706
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7