自己動(dòng)手寫網(wǎng)絡(luò)爬蟲

出版時(shí)間：2010-10 出版社：清華大學(xué) 作者：羅剛//王振東頁數(shù)：346
Tag標(biāo)簽：無

前言

當(dāng)你在網(wǎng)上沖浪時(shí)，你是否知道還有一類特殊的網(wǎng)絡(luò)用戶也在互聯(lián)網(wǎng)上默默地工作著，它們就是網(wǎng)絡(luò)爬蟲。這些網(wǎng)絡(luò)爬蟲按照設(shè)計(jì)者預(yù)定的方式，在網(wǎng)絡(luò)中穿梭，同時(shí)自動(dòng)收集有用的信息，進(jìn)行分類和整理，將整理結(jié)果提供給用戶，以方便用戶查找他們感興趣的內(nèi)容。由于網(wǎng)絡(luò)爬蟲的實(shí)用性，引起了很多程序員，特別是Web程序員的興趣。但是大多數(shù)網(wǎng)絡(luò)爬蟲的開發(fā)原理與技巧在專業(yè)的公司內(nèi)部都秘而不宣，至今仍然缺少理論與實(shí)踐相結(jié)合的專門介紹網(wǎng)絡(luò)爬蟲的書籍。本書將彌補(bǔ)這個(gè)問題，嘗試?yán)碚撆c實(shí)踐相結(jié)合，深入透徹地講解網(wǎng)絡(luò)爬蟲的原理，并且輔以相關(guān)代碼作為參考。本書相關(guān)的代碼在附帶光盤中可以找到。本書的兩位主要作者在搜索引擎領(lǐng)域都有豐富的理論和實(shí)踐經(jīng)驗(yàn)。同時(shí)，還有多個(gè)程序員幫忙開發(fā)或編寫了代碼實(shí)現(xiàn)，例如Java實(shí)現(xiàn)異步I/O或?qū)DF文件的處理等。由于作者的日常工作繁忙，做得不夠的地方敬請諒解。作者羅剛在參加編寫本書之前，還獨(dú)立撰寫過《自己動(dòng)手寫搜索引擎》一書，但存在講解不夠細(xì)致、知識(shí)點(diǎn)不夠深入等問題。此次與王振東合著本書，相對(duì)于上一本書而言，對(duì)讀者反饋有更高的預(yù)期。因?yàn)樽髡呦嘈湃缦碌募僭O(shè)：如果能夠與更多的人更好地合作，事情往往能做得更好。本書從基本的爬蟲原理開始講解，通過介紹優(yōu)先級(jí)隊(duì)列、寬度優(yōu)先搜索等內(nèi)容引領(lǐng)讀者入門；之后根據(jù)當(dāng)前風(fēng)起云涌的云計(jì)算熱潮，重點(diǎn)講述了云計(jì)算的相關(guān)內(nèi)容及其在爬蟲中的應(yīng)用，以及帶偏好的爬蟲、信息抽取、鏈接分析等內(nèi)容；為了能夠讓讀者更深入地了解爬蟲，本書在最后兩章還介紹了有關(guān)爬蟲的數(shù)據(jù)挖掘的內(nèi)容。由于搜索引擎相關(guān)領(lǐng)域也正在快速發(fā)展中，而且由于篇幅的限制，有些不成熟的內(nèi)容，沒有能夠在本書體現(xiàn)，例如有關(guān)"暗網(wǎng)"的內(nèi)容。隨著技術(shù)的不斷發(fā)展，我們將在今后的版本中加入這些內(nèi)容。

內(nèi)容概要

本書介紹了網(wǎng)絡(luò)爬蟲開發(fā)中的關(guān)鍵問題與java實(shí)現(xiàn)。主要包括從互聯(lián)網(wǎng)獲取信息與提取信息和對(duì)web信息挖掘等內(nèi)容。本書在介紹基本原理的同時(shí)注重輔以具體代碼實(shí)現(xiàn)來幫助讀者加深理解，書中部分代碼甚至可以直接使用。本書適用于有java程序設(shè)計(jì)基礎(chǔ)的開發(fā)人員。同時(shí)也可以作為計(jì)算機(jī)相關(guān)專業(yè)本科生或研究生的參考教材。

書籍目錄

第1篇 自己動(dòng)手抓取數(shù)據(jù)第1章 全面剖析網(wǎng)絡(luò)爬蟲 1.1 抓取網(wǎng)頁 1.1.1 深入理解url 1.1.2
通過指定的url抓取網(wǎng)頁內(nèi)容 1.1.3 java網(wǎng)頁抓取示例 1.1.4 處理http狀態(tài)碼 1.2 寬度優(yōu)先爬蟲和帶偏好的爬蟲
1.2.1 圖的寬度優(yōu)先遍歷 1.2.2 寬度優(yōu)先遍歷互聯(lián)網(wǎng) 1.2.3 java寬度優(yōu)先爬蟲示例 1.2.4 帶偏好的爬蟲
1.2.5 java帶偏好的爬蟲示例 1.3 設(shè)計(jì)爬蟲隊(duì)列 1.3.1 爬蟲隊(duì)列 1.3.2 使用berkeley db構(gòu)建爬蟲隊(duì)列
1.3.3 使用berkeley db構(gòu)建爬蟲隊(duì)列示例 1.3.4 使用布隆過濾器構(gòu)建visited表 1.3.5
詳解heritrix爬蟲隊(duì)列 1.4 設(shè)計(jì)爬蟲架構(gòu) .1.4.1 爬蟲架構(gòu) 1.4.2 設(shè)計(jì)并行爬蟲架構(gòu) 1.4.3
詳解heritrix爬蟲架構(gòu) 1.5 使用多線程技術(shù)提升爬蟲性能 1.5.1 詳解java多線程 1.5.2 爬蟲中的多線程
1.5.3 一個(gè)簡單的多線程爬蟲實(shí)現(xiàn) 1.5.4 詳解heritrix多線程結(jié)構(gòu) 1.6 本章小結(jié)第2章 分布式爬蟲 2.1
設(shè)計(jì)分布式爬蟲 2.1.1 分布式與云計(jì)算 2.1.2 分布式與云計(jì)算技術(shù)在爬蟲中的應(yīng)用——淺析google的云計(jì)算架構(gòu) 2.2
分布式存儲(chǔ) 2.2.1 從ralation_db到key／value存儲(chǔ) 2.2.2 consistent hash算法 2.2.3
consistent hash代碼實(shí)現(xiàn) 2.3 google的成功之道——gfs 2.3.1 gfs詳解 2.3.2
開源gfs——hdfs 2.4 google網(wǎng)頁存儲(chǔ)秘訣——bigtable 2.4.1 詳解bigtable 2.4.2
開源bigtable——hbase 2.5 google的成功之道——mapreduce算法 2.5.1 詳解mapreduce算法
2.5.2 mapreduce容錯(cuò)處理 2.5.3 mapreduce實(shí)現(xiàn)架構(gòu) 2.5.4 hadoop中的mapreduce簡介
2.5.5 wordcount例子的實(shí)現(xiàn) 2.6 nutch中的分布式 2.6.1 nutch爬蟲詳解 2.6.2
nutch中的分布式 2.7 本章小結(jié)第3章 爬蟲的“方方面面” 3.1 爬蟲中的“黑洞” 3.2 限定爬蟲和主題爬蟲 3.2.1
理解主題爬蟲 3.2.2 java主題爬蟲 3.2.3 理解限定爬蟲 3.2.4 java限定爬蟲示例 3.3 有“道德”的爬蟲
3.4 木章小結(jié)第2篇 自己動(dòng)手抽取web內(nèi)容第4章 “處理”html頁面 4.1 征服正則表達(dá)式 4.1.1 學(xué)習(xí)正則表達(dá)式
4.1.2 java正則表達(dá)式 4.2 抽取html正文 4.2.1 了解htmlparser 4.2.2 使用正則表達(dá)式抽取示例
4.3 抽取正文 4.4 從javascript中抽取信息 4.4.1 javascript抽取方法 4.4.2
javascript抽取示例 4.5本章小結(jié)第5章 非html正文抽取 5.1 抽取pdf文件 5.1.1 學(xué)習(xí)pdfbox
5.1.2 使用pdfbox抽取示例 5.1.3 提取pdf文件標(biāo)題 5.1.4 處理pdf格式的公文 5.2 抽取office文檔
5.2.1 學(xué)習(xí)poi 5.2.2 使用poi抽取word示例 5.2.3 使用poi抽取ppt示例 5.2.4
使用poi抽取excel示例 5.3 抽取rtf 5.3.1 開源rtf文件解析器 5.3.2 實(shí)現(xiàn)一個(gè)rtf文件解析器 5.3.3
解析rtf示例 5.4 本章小結(jié)第6章 多媒體抽取 6.1 抽取視頻 6.1.1 抽取視頻關(guān)鍵幀 6.1.2 java視頻處理框架
6.1.3 java視頻抽取示例 6.2 音頻抽取 6.2.1 抽取音頻 6.2.2 學(xué)習(xí)java音頻抽取技術(shù) 6.3 本章小結(jié)第7章
去掉網(wǎng)頁中的“噪聲” 7.1 “噪聲”對(duì)網(wǎng)頁的影響 7.2 利用“統(tǒng)計(jì)學(xué)”消除“噪聲” 7.2.1 網(wǎng)站風(fēng)格樹
7.2.2“統(tǒng)計(jì)學(xué)去噪”java實(shí)現(xiàn) 7.3 利用“視覺”消除“噪聲” 7.3.1 “視覺”與“噪聲” 7.3.2
“視覺去噪”java實(shí)現(xiàn) 7.4 本章小結(jié)第3篇 自己動(dòng)手挖掘web數(shù)據(jù)第8章 分析web圖 8.1 存儲(chǔ)web“圖” 8.2
利用web“圖”分析鏈接 8.3 google的秘密——pagerank 8.3.1 深入理解pagerank算法 8.3.2
pagerank算法的java實(shí)現(xiàn) 8.3.3 應(yīng)用pagerank進(jìn)行鏈接分析 8.4 pagerank的兄弟hits 8.4.1
深入理解hits算法 8.4.2 hits算法的java實(shí)現(xiàn) 8.4.3 應(yīng)用hits進(jìn)行鏈接分析 8.5
pagerank與hits的比較 8.6 本章小結(jié)第9章 去掉重復(fù)的“文檔” 9.1 何為“重復(fù)”的文檔 9.2
去除“重復(fù)”文檔——排重 9.3 利用“語義指紋”排重 9.3.1 理解“語義指紋” 9.3.2 “語義指紋”排重的java實(shí)現(xiàn)
9.4 simhash排重 9.4.1 理解simhash 9.4.2 simhash排重的java實(shí)現(xiàn) 9.5 分布式文檔排重
9.6 本章小結(jié)第10章 分類與聚類的應(yīng)用 10.1 網(wǎng)頁分類 10.1.1 收集語料庫 10.1.2 選取網(wǎng)頁的“特征”
10.1.3 使用支持向量機(jī)進(jìn)行網(wǎng)頁分類 10.1.4 利用url地址進(jìn)行網(wǎng)頁分類 10.1.5 使用adaboost進(jìn)行網(wǎng)頁分類
10.2 網(wǎng)頁聚類 10.2.1 深入理解dbscan算法 10.2.2 使用dbscan算法聚類實(shí)例 10.3 本章小結(jié)

章節(jié)摘錄

插圖：代表主機(jī)ftp.yoyodyne.com的根目錄。爬蟲最主要的處理對(duì)象就是URL，它根據(jù)URL地址取得所需要的文件內(nèi)容，然后對(duì)它進(jìn)行進(jìn)一步的處理。因此，準(zhǔn)確地理解URL對(duì)理解網(wǎng)絡(luò)爬蟲至關(guān)重要。從下一節(jié)開始，我們將詳細(xì)地講述如何根據(jù)URL地址來獲得網(wǎng)頁內(nèi)容。1.1.2  通過指定的URL抓取網(wǎng)頁內(nèi)容上一節(jié)詳細(xì)介紹了URL的構(gòu)成，這一節(jié)主要闡述如何根據(jù)給定的URL來抓取網(wǎng)頁。所謂網(wǎng)頁抓取，就是把URL地址中指定的網(wǎng)絡(luò)資源從網(wǎng)絡(luò)流中讀取出來，保存到本地。類似于使用程序模擬IE瀏覽器的功能，把URL作為HTTP請求的內(nèi)容發(fā)送到服務(wù)器端，然后讀取服務(wù)器端的響應(yīng)資源。Java語言是為網(wǎng)絡(luò)而生的編程語言，它把網(wǎng)絡(luò)資源看成是一種文件，它對(duì)網(wǎng)絡(luò)資源的訪問和對(duì)本地文件的訪問一樣方便。它把請求和響應(yīng)封裝為流。因此我們可以根據(jù)相應(yīng)內(nèi)容，獲得響應(yīng)流，之后從流中按字節(jié)讀取數(shù)據(jù)。例如，java.net.URL類可以對(duì)相應(yīng)的Web服務(wù)器發(fā)出請求并且獲得響應(yīng)文檔。

編輯推薦

《自己動(dòng)手寫網(wǎng)絡(luò)爬蟲》是國內(nèi)第一本專門講解網(wǎng)絡(luò)爬蟲開發(fā)的書籍，介紹如何應(yīng)用云計(jì)算架構(gòu)開發(fā)分布式爬蟲。獵兔搜索工程師多年項(xiàng)目經(jīng)驗(yàn)總結(jié)深入介紹Web數(shù)據(jù)挖掘?qū)崿F(xiàn)過程光盤中提供了高效的代碼解決方案案例均使用流行的Java語言編寫

圖書封面

圖書標(biāo)簽Tags

無

評(píng)論、評(píng)分、閱讀與下載

還沒讀過(76)
勉強(qiáng)可看(551)
一般般(940)
內(nèi)容豐富(3898)
強(qiáng)力推薦(319)

自己動(dòng)手寫網(wǎng)絡(luò)爬蟲 PDF格式下載

用戶評(píng)論 (總計(jì)117條)

如果你不懂一門面向?qū)ο蟮恼Z言，這本書從語言角度不適合你。如果你懂得一門面向?qū)ο蟮恼Z言，且又對(duì)爬蟲感興趣，這本書是個(gè)不錯(cuò)的選擇。作者能夠從不同的爬蟲系統(tǒng)進(jìn)行對(duì)比，合理的設(shè)計(jì)了爬蟲的整體架構(gòu)，并且給出了很多解決問題的思路和代碼，是一本不錯(cuò)的關(guān)于爬蟲的書籍。
了解一下如何用java寫網(wǎng)絡(luò)爬蟲，拓展一下知識(shí)面.順便說一下，對(duì)當(dāng)當(dāng)網(wǎng)的服務(wù)還算滿意！！
自己動(dòng)手寫網(wǎng)絡(luò)爬蟲不錯(cuò)
爬蟲就不多說了,這本書簡單易懂,喜歡互聯(lián)網(wǎng)搜索的朋友可以看看.
第一本講爬蟲的書，很好。
乍看書目錄介紹的相當(dāng)不錯(cuò)，但是入手閱讀后發(fā)現(xiàn)有下面問題：
1.定位人群模糊，不深又不淺，而且很多算法都沒能清晰的闡述，還沒有網(wǎng)上帖子來的清晰。
2.介紹思路不清晰，讓人暈頭轉(zhuǎn)向，同篇內(nèi)容間也沒有連貫性，有點(diǎn)像為目錄填充的內(nèi)容。
3.源碼不完整，我看到的去噪，消重缺少代碼都無法編譯，更找不到入口，希望作者這方面能加強(qiáng)。
4.引擎這方面書籍，確實(shí)挺少，作者也不容易，但希望你能越寫越好才提出此些建議。
用java實(shí)現(xiàn)簡單的搜索功能，不錯(cuò)
java寫的，可惜不會(huì)java，但應(yīng)該都一樣
深入淺出，不過需要一定的Java基礎(chǔ)
光盤只有代碼，沒有視頻講解！要有視頻講解的看客，要三思而后買。
不錯(cuò)的入門學(xué)習(xí)書，帶領(lǐng)你進(jìn)入實(shí)戰(zhàn)開發(fā)的階段
沒有太多花里胡哨的"概述","引用"?？吹贸鲎髡叽_實(shí)做出過一些東西。光盤里還有主要的代碼，挺好。
說實(shí)話，要想憑這個(gè)搞出好的開發(fā)，不太現(xiàn)實(shí)，但是個(gè)人認(rèn)為它是輔助個(gè)人進(jìn)階的好書，值得大家去研究一下潮流技術(shù)。
是自己動(dòng)手寫搜素引擎的姊妹篇，好書，是作者多年經(jīng)驗(yàn)的總結(jié)，值得學(xué)習(xí)和實(shí)踐參考！
正在做畢業(yè)設(shè)計(jì)，選本書讀一下，對(duì)我?guī)椭艽?/li>
不錯(cuò)的書，講解的很全面，推薦。
這本書很不錯(cuò)，師兄看完之后強(qiáng)烈推薦給我，對(duì)于做語義分析很有幫助
對(duì)自己有幫助。正在看這個(gè)方面的書。如果書的折扣再高點(diǎn)就好了。
最近在弄相關(guān)的東西，手頭很需要，書的質(zhì)感很不錯(cuò)
這本書老公還挺喜歡的，工作上需要用到才買了，覺得書很好的~
內(nèi)容很詳細(xì)，但是****client.jar已經(jīng)到了4.22版本，和書中用的3.0+版本差異很大，實(shí)踐起來很不方便
這本書不錯(cuò)，對(duì)我用處很大，而且隨書光盤也不錯(cuò)
這本書很不錯(cuò)，如果有完整的例子就更好了！
是一本好書，不過需要一些基礎(chǔ)
書算是完整，但不是最新的！
不錯(cuò)，買給朋友的，書我沒看，但是質(zhì)量不錯(cuò)，配送光盤
速度挺快的，書還沒看，還不錯(cuò)吧
書很不錯(cuò)，由淺入深。老師建議的書。
書正在看，還可以吧
幫我和同學(xué)一起買的，很好的書，很實(shí)用~
應(yīng)該還不錯(cuò)吧，買了好多這類的書
感覺書不錯(cuò)！挺好的
用了，應(yīng)該是正版！書的質(zhì)量還不錯(cuò)，郵遞的速度也蠻快的
書很好，挺詳細(xì)的，很適合初學(xué)者。
內(nèi)容嗎，也不錯(cuò)，只是有點(diǎn)深，還沒有看懂！
書的質(zhì)量不錯(cuò)，發(fā)貨的速度也很快的
tinghaode ......
給同事買的。他還沒來的及看
不知道怎么樣，給個(gè)好評(píng)吧，相信同學(xué)眼光！
幫同學(xué)買的，物流真的很快?。?！
不錯(cuò)，很實(shí)用，好東西，收益匪淺??！值得深入研究
幫同學(xué)買的還行
我不懂啊，我是幫人買的……
送貨真慢
總體來說還行，只是不夠詳細(xì)。不過還算好了，市場上本來就沒有基本這方面的書。
很難得的一本搜索引擎書籍
很專業(yè)的一本參考書，有指導(dǎo)意義
這個(gè)書適合來學(xué)習(xí)爬蟲程序！
書挺好的、就是物流實(shí)在太慢了～5小時(shí)的車程申通用了4天居然
書看起來質(zhì)量不多，物流也還可以
還不錯(cuò)，內(nèi)容挺深的~~~
挺好，速度很快，質(zhì)量也好
很具有實(shí)用性，實(shí)踐性也較強(qiáng)！
多多學(xué)習(xí)，好好學(xué)習(xí)，天天向上
比較深入，比較有深度，值得研究
講述網(wǎng)絡(luò)爬蟲的原理與實(shí)現(xiàn)
可以作為網(wǎng)絡(luò)爬蟲的入門書籍，把一下較為新的概念介紹了，但是可以更加深入研究一下算法
很適合入門，講解了網(wǎng)絡(luò)爬蟲的各個(gè)方面的知識(shí)架構(gòu)
自己動(dòng)手寫網(wǎng)絡(luò)爬蟲（配光盤）好書！
在網(wǎng)絡(luò)爬蟲方面介紹的比較基礎(chǔ)和全面，比較通俗易懂，不錯(cuò)，值得看看。
暫時(shí)只是看了前面幾章，確實(shí)還不錯(cuò)，爬蟲的原理，關(guān)鍵技術(shù)都點(diǎn)出來了。。。
能夠了解一下爬蟲的內(nèi)部機(jī)制,并且附有大量的源碼,看著不錯(cuò)
本身不是Java出身，所以跳過了大段的代碼。整體還不錯(cuò)，有了一個(gè)概念，還沒開始時(shí)間
當(dāng)時(shí)買來是為了做畢設(shè)參考資料的，但是實(shí)際上，我也沒怎么看，當(dāng)然也就沒按照書中的步驟去練習(xí)了。但是在跳躍著瀏覽過程中，我個(gè)人覺得這本書還是值得一讀的，是一本讓你別想只需復(fù)制代碼就能完成、必須自己思考的偏向算法類的參考書籍。
剛看了一章，難度還是有的，不適合新手看，里面涉及的一些常用的處理機(jī)制還是不錯(cuò)的，不同的項(xiàng)目也是可以借鑒的

沒學(xué)過任何計(jì)算機(jī)語言是絕對(duì)沒法看懂本書的，這不是java基礎(chǔ)
這本據(jù)說很經(jīng)典我就買了，其實(shí)為了畢業(yè)設(shè)計(jì)。但是如果你沒有一定的java功底的話。你是看不太明白的。還有操作系統(tǒng)的一部分知識(shí)??！希望在我以后的買家一定注意自己是否真的有很厚的java功底?。》駝t你是看不懂的
專于學(xué)網(wǎng)絡(luò)搜索的教材，從基礎(chǔ)做起
關(guān)于快遞：快遞速度有些慢，在當(dāng)當(dāng)買時(shí)快三年了，這次硬是花了5天時(shí)間才到貨，以前最長的也是07年雪災(zāi)的時(shí)候，花了一個(gè)星期。平常都只要最長3天，看來快遞的有待改進(jìn)

關(guān)于書籍：粗略的翻了下，看了下第一章。發(fā)現(xiàn)這本書很不錯(cuò)，很值得初學(xué)者看。例子也很實(shí)用。但是有一點(diǎn)需要改進(jìn)的，在介紹引入的jar包的時(shí)候，可否順便加上版本號(hào)，****Client的jar包的最新版和文中所列出來的有很大的區(qū)別的。文中應(yīng)該是***mons-****client-3.1.jar，現(xiàn)在的最新版是****client-4.0.3.jar，兩個(gè)jar包有很大的區(qū)別的。
本書確實(shí)不適合初學(xué)者購買，內(nèi)容涉及面廣，包含很多網(wǎng)絡(luò)，算法，隊(duì)列，多線程等知識(shí)。
看了幾頁...感覺不錯(cuò)..就是有部分代碼可能有點(diǎn)小問題....整體不錯(cuò)...頂下
代碼有錯(cuò)誤，感覺失望中。。。
沒有想象中的好，代碼過多。。
代碼都到位了，不建議初學(xué)者看！
是網(wǎng)絡(luò)編程愛好者的參考書。
在沒買之前在網(wǎng)上看了點(diǎn)電子版，寫的蠻不錯(cuò)的，有些程序調(diào)試不出來，書里所用的jar包已經(jīng)是老版本了，但是精髓還是有的，值得一讀
一本初步入門的書，講的不是很詳細(xì)，但是關(guān)鍵部分還有的，就是怎么剝離正文內(nèi)容，雖然網(wǎng)上也有，這里整合了一部分。
對(duì)于想玩web的人來說是件愉快的事
書中內(nèi)容很多，但難度也相對(duì)較大，注釋太少。
物流很快，昨天下午下的單，早上就到了。書的紙質(zhì)還行，內(nèi)容還沒完全看，但好像其中涉及到的nutch分析比較舊，與現(xiàn)在的版本相差有點(diǎn)大，希望讀了之后有大的收獲～
貨是挺好的、、書的內(nèi)容還沒怎么看、、不好說
大體瀏覽了一下，還沒仔細(xì)看，希望對(duì)我的學(xué)習(xí)有幫助
現(xiàn)在同類的書比較少，能有一本算不錯(cuò)啦
當(dāng)入門書看吧
書很不錯(cuò)，對(duì)于新手來說可以了，特別是快遞服務(wù)很不錯(cuò)，為我等了好幾天，感謝他
到的挺快，內(nèi)容還沒看完，還行吧
一般吧，買后悔了
初級(jí)入門，想弄好還要下苦功夫
自己感興趣，所以買了。
剛收到，慢慢讀，慢慢品
初學(xué)者用用還不錯(cuò)
非常適合初學(xué) 初入職場者
幫朋友買的，還有點(diǎn)用
看了一下，需要細(xì)細(xì)再去看下，總體說還行
　一本東抄西抄的書，更可恨的是超的多是幾年前的東西。。很多類包就根本找不到，比如（newwatch.toolkit包）。而且第四章的正文提取代碼連中文解釋都是抄的。。不想再說什么了。這樣赤裸裸的欺騙，。我準(zhǔn)備投訴出版社
就是從網(wǎng)上拷貝來拷貝去拼湊出的
目錄真的很不錯(cuò)。所以建議想買書的朋友直接把目錄copy下來，對(duì)應(yīng)目錄在網(wǎng)上搜索資料吧，基本上比書上的還仔細(xì)。后悔死了。。。國人的書啊。。。
除了目錄之外就沒有可看的了。讀者只要看目錄然后用google搜索一下就可以了。書里面各種廢話，講的淺不說，廢話還多
在網(wǎng)上隨便抄出來的，坑爹阿
各種拼湊，各種不規(guī)范，各種雜亂坑啊，真的對(duì)國人的書很失望，出書是很嚴(yán)肅的事兒，怎么能這樣?。?/li>
出于興趣，非常想學(xué)習(xí)網(wǎng)絡(luò)爬蟲，于是看到這本書的名字，就買了；但是這本書，作者完全沒有自己的東西，代碼，內(nèi)容基本都來自于百度百科，各大IT論壇，看目錄是介紹了很多東西，但是都介紹的非常淺顯，基本就是對(duì)著目錄百度一搜就能找到和對(duì)應(yīng)章節(jié)差不多的東西，嚴(yán)重缺乏深度，每種理論都是介紹了一點(diǎn)就戛然而止去介紹下一個(gè)。總之，這本書，寫的不好

自己動(dòng)手寫網(wǎng)絡(luò)爬蟲

用戶評(píng)論 (總計(jì)117條)

推薦圖書

相關(guān)圖書