出版時(shí)間:2009-1 出版社:電子工業(yè)出版社 作者:TOBY SEGARAN 頁數(shù):334 譯者:莫映,王開福
Tag標(biāo)簽:無
前言
無論是有意還是無意,越來越多投身于互聯(lián)網(wǎng)的人們已經(jīng)制造出了相當(dāng)多的數(shù)據(jù),這給了我們無數(shù)潛在的機(jī)會(huì)來洞悉用戶體驗(yàn)、商業(yè)營(yíng)銷、個(gè)人偏好和通常所謂的人類行為(human behavior)。本書向大家介紹了一個(gè)新興的領(lǐng)域,稱為聚集型智慧(collective intelligence)。這一領(lǐng)域涵蓋了諸多方法,借助這些方法我們可以從眾多Web站點(diǎn)處(這些站點(diǎn)的名字或許你曾經(jīng)有所耳聞)提取到值得關(guān)注的重要數(shù)據(jù);借助這些方法我們還可以從使用自己應(yīng)用程序的用戶那里搜集信息,并對(duì)我們所掌握的數(shù)據(jù)進(jìn)行分析和理解?! ”緯哪康氖且獛ьI(lǐng)你超越以數(shù)據(jù)庫為后端的簡(jiǎn)單應(yīng)用系統(tǒng),并告訴你如何利用自己和他人每天搜集到的信息來編寫更為智能的程序?! ∠葲Q條件 Prerequisites 本書的代碼示例是用Python語言編寫的,因此熟悉Python編程將會(huì)有助于你對(duì)算法的理解,不過筆者給出了所有算法的解釋說明,所以其他語言的程序員也能看懂。對(duì)于已經(jīng)了解了像Ruby或Perl這樣高級(jí)語言的程序員,Python代碼應(yīng)該是非常容易理解的。本書的目的不是要作為一本學(xué)習(xí)編程的指導(dǎo)書,因此尤為重要的一點(diǎn)在于,為了熟悉基本概念,我們最好已編寫過足夠多的代碼才行。如果懂得遞歸和一點(diǎn)點(diǎn)函數(shù)式編程(functional programming)的基本概念,那么我們就會(huì)發(fā)覺書中的內(nèi)容是很容易理解的?! ”緯⒉患僭O(shè)你已經(jīng)具備了任何有關(guān)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)方面的知識(shí)。筆者在嘗試以盡可能淺顯易懂的方式來解釋數(shù)學(xué)概念,不過具備一點(diǎn)三角學(xué)和統(tǒng)計(jì)學(xué)的基本知識(shí)將會(huì)對(duì)你理解算法有所助益。
內(nèi)容概要
《集體智慧編程》(Programming Collective Intelligence Building Smart Web 2.0 Applications)以機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)為主題背景,專門講述如何挖掘和分析Web上的數(shù)據(jù)和資源,如何分析用戶體驗(yàn)、市場(chǎng)營(yíng)銷、個(gè)人品味等諸多信息,并得出有用的結(jié)論,通過復(fù)雜的算法來從Web網(wǎng)站獲取、收集并分析用戶的數(shù)據(jù)和反饋信息,以便創(chuàng)造新的用戶價(jià)值和商業(yè)價(jià)值。全書內(nèi)容翔實(shí),包括協(xié)作過濾技術(shù)(實(shí)現(xiàn)關(guān)聯(lián)產(chǎn)品推薦功能)、集群數(shù)據(jù)分析(在大規(guī)模數(shù)據(jù)集中發(fā)掘相似的數(shù)據(jù)子集)、搜索引擎核心技術(shù)(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息并進(jìn)行分析統(tǒng)計(jì)得出結(jié)論的優(yōu)化算法、貝葉斯過濾技術(shù)(垃圾郵件過濾、文本過濾)、用決策樹技術(shù)實(shí)現(xiàn)預(yù)測(cè)和決策建模功能、社交網(wǎng)絡(luò)的信息匹配技術(shù)、機(jī)器學(xué)習(xí)和人工智能應(yīng)用等?! 都w智慧編程》(Programming Collective Intelligence Building Smart Web 2.0 Applications)向讀者介紹了: 令在線零售商向用戶提供商品或媒體推薦的協(xié)作型過濾技術(shù); 在一個(gè)大型數(shù)據(jù)集中檢測(cè)相似項(xiàng)群組的聚類方法; 在針對(duì)某一問題的數(shù)以百萬計(jì)的可能題解中進(jìn)行搜索,并從中選出最優(yōu)解的優(yōu)化算法; 用于垃圾過濾技術(shù)的貝葉斯過濾器,如何根據(jù)單詞類型及其他特征對(duì)文檔進(jìn)行分類; 用于對(duì)在線約會(huì)站點(diǎn)的用戶進(jìn)行配對(duì)的支持向量機(jī); 用于問題求解的智能進(jìn)化技術(shù)——隨著玩游戲的次數(shù)逐漸增多,計(jì)算機(jī)玩家如何通過改進(jìn)自身代碼的方式來發(fā)展技能?! 都w智慧編程》(Programming Collective Intelligence Building Smart Web 2.0 Applications)的每一章后都有練習(xí),這些練習(xí)對(duì)算法進(jìn)行了擴(kuò)展,使其變得更加強(qiáng)大。讓我們超越以數(shù)據(jù)庫為后端的簡(jiǎn)單應(yīng)用系統(tǒng),挖掘互聯(lián)網(wǎng)數(shù)據(jù)的價(jià)值,為我所用! 深入講解蘊(yùn)藏于智能Web 2.0應(yīng)用背后的算法原理,介紹挖掘和分析用戶貢獻(xiàn)的內(nèi)容,以創(chuàng)造新的用戶價(jià)值和商業(yè)價(jià)值。
書籍目錄
前言第1章 集體智慧導(dǎo)言什么是集體智慧什么是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)的局限真實(shí)生活中的例子學(xué)習(xí)型算法的其他用途第2章 提供推薦協(xié)作型過濾搜集偏好尋找相近的用戶推薦物品匹配商品構(gòu)建一個(gè)基于del.icio.us的鏈接推薦系統(tǒng)基于物品的過濾使用MovieLens數(shù)據(jù)集基于用戶進(jìn)行過濾還是基于物品進(jìn)行過濾練習(xí)第3章 發(fā)現(xiàn)群組監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)單詞向量分級(jí)聚類繪制樹狀圖列聚類K-均值聚類針對(duì)偏好的聚類以二維形式展現(xiàn)數(shù)據(jù)有關(guān)聚類的其他事宜練習(xí)第4章 搜索與排名搜索引擎的組成一個(gè)簡(jiǎn)單的爬蟲程序建立索引查詢基于內(nèi)容的排名利用外部回指鏈接從點(diǎn)擊行為中學(xué)習(xí)練習(xí)第5章 優(yōu)化組團(tuán)旅游描述題解成本函數(shù)隨機(jī)搜索爬山法模擬退火算法遺傳算法真實(shí)的航班搜索涉及偏好的優(yōu)化網(wǎng)絡(luò)可視化其他可能的應(yīng)用場(chǎng)合練習(xí)第6章 文檔過濾過濾垃圾信息文檔和單詞對(duì)分類器進(jìn)行訓(xùn)練計(jì)算概率樸素分類器費(fèi)舍爾方法將經(jīng)過訓(xùn)練的分類器持久化過濾博客訂閱源對(duì)特征檢測(cè)的改進(jìn)使用Akismet替代方法練習(xí)第7章 決策樹建模預(yù)測(cè)注冊(cè)用戶引入決策樹對(duì)樹進(jìn)行訓(xùn)練選擇最合適的拆分方案以遞歸方式構(gòu)造樹決策樹的顯示對(duì)新的觀測(cè)數(shù)據(jù)進(jìn)行分類決策樹的剪枝處理缺失數(shù)據(jù)處理數(shù)值型結(jié)果對(duì)住房?jī)r(jià)格進(jìn)行建模對(duì)“熱度”評(píng)價(jià)進(jìn)行建模什么時(shí)候使用決策樹練習(xí)第8章 構(gòu)建價(jià)格模型構(gòu)造一個(gè)樣本數(shù)據(jù)集k-最近鄰算法為近鄰分配權(quán)重交叉驗(yàn)證不同類型的變量對(duì)縮放結(jié)果進(jìn)行優(yōu)化不對(duì)稱分布使用真實(shí)數(shù)據(jù)——eBay API何時(shí)使用k-最近鄰算法練習(xí)第9章 高階分類:核方法與SVM婚介數(shù)據(jù)集數(shù)據(jù)中的難點(diǎn)基本的線性分類分類特征對(duì)數(shù)據(jù)進(jìn)行縮放處理理解核方法支持向量機(jī)使用LIBSVM基于Facebook的匹配練習(xí)第10章 尋找獨(dú)立特征搜集一組新聞先前的方法非負(fù)矩陣因式分解結(jié)果呈現(xiàn)利用股票市場(chǎng)的數(shù)據(jù)練習(xí)第11章 智能進(jìn)化什么是遺傳編程將程序以樹形方式表示構(gòu)造初始種群測(cè)試題解對(duì)程序進(jìn)行變異交叉構(gòu)筑環(huán)境一個(gè)簡(jiǎn)單的游戲更多可能性練習(xí)第12章 算法總結(jié)貝葉斯分類器決策樹分類器神經(jīng)網(wǎng)絡(luò)支持向量機(jī)k-最近鄰聚類多維縮放非負(fù)矩陣因式分解優(yōu)化附錄A:第三方函數(shù)庫附錄B:數(shù)學(xué)公式索引
媒體關(guān)注與評(píng)論
“太棒了!對(duì)于初學(xué)這些算法的開發(fā)者而言,我想不出有比這本書更好的選擇了,而對(duì)于像我這樣學(xué)過A J的老朽而言,我也想不出還有什么更好的辦法能夠讓自己重溫這些知識(shí)的細(xì)節(jié)。” ——Dan Russell,資深技術(shù)經(jīng)理,Google “Toby的這本書非常成功地將機(jī)器學(xué)習(xí)算法這一復(fù)雜的議題拆分成了一個(gè)個(gè)既實(shí)用又易懂的例子,我們可以直接利用這些例子來分析當(dāng)前網(wǎng)絡(luò)上的社會(huì)化交互作用。假如我早兩年讀過這本書,就會(huì)省去許多寶貴的時(shí)間,也不至于走那么多的彎路了。” ——Tim Wolters.CT0.Collective Intellect
編輯推薦
想了解蘊(yùn)藏在搜索排名、商品推薦、社會(huì)化書簽以及在線婚介應(yīng)用背后的巨大威力嗎?《集體智慧編程》(Programming Collective Intelligence Building Smart Web 2.0 Applications)的內(nèi)容引人人勝,它將會(huì)告訴我們?nèi)绾螛?gòu)造Web 2.0)應(yīng)用,使其能夠挖掘有大量用戶參與的互聯(lián)網(wǎng)應(yīng)用所產(chǎn)生的海量數(shù)據(jù)。利用書中介紹的這些復(fù)雜算法,可以編寫出智能程序、訪問其他Web站點(diǎn)的數(shù)據(jù)集、從我們自己的應(yīng)用程序中搜集用戶數(shù)據(jù),進(jìn)而分析和理解這些數(shù)據(jù)。 《集體智慧編程》(Programming Collective Intelligence Building Smart Web 2.0 Applications)將引領(lǐng)我們進(jìn)入機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)的世界,并解釋如何得出有關(guān)用戶體驗(yàn)、市場(chǎng)營(yíng)銷、個(gè)人品味以及我們和他人每天搜集的用戶行為方面的結(jié)論。書中對(duì)每一個(gè)算法都進(jìn)行了詳細(xì)的描述,并附以簡(jiǎn)潔的代碼,這些代碼可以直接用于我們的web站點(diǎn)、博客、維基,或者其他特定的應(yīng)用?! 都w智慧編程》(Programming Collective Intelligence Building Smart Web 2.0 Applications)是Web開發(fā)者、架構(gòu)師、應(yīng)用工程師等的絕佳選擇。
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載