Collective Intelligence實(shí)戰(zhàn)

出版時(shí)間:2010-9  出版社:清華大學(xué)出版社  作者:阿拉克  頁數(shù):385  
Tag標(biāo)簽:無  

前言

我在2003年4月創(chuàng)立ReadWriteWeb如今已是全球排名前十的技術(shù)新聞和分析博客)時(shí),定下的目標(biāo)是研究當(dāng)下的Web。盡管2003年透著.com沒落的氣息,但還是出現(xiàn)了一些與Web有關(guān)的激動(dòng)人心的新事物。我之所以將我的新博客命名為Read/Write Web(斜杠和空格已去除),是因?yàn)檫@個(gè)新的Web時(shí)代似乎體現(xiàn)了Tim Berners-Lee在發(fā)明Web時(shí)提出的理念,即Web應(yīng)可被任何人編輯,并且每個(gè)人都可以通過某種方式貢獻(xiàn)Web數(shù)據(jù)。如SatnamAlag在本書中所述,集體智慧(Collective Intelligence)這一研究領(lǐng)域?qū)嶋H上早在Web之前就有了。但是在.com時(shí)代結(jié)束之后,我們才開始看到集體智慧運(yùn)用于Web上的證據(jù)。在2003年,我們不時(shí)地會(huì)看到它的身影,如在Amazon網(wǎng)站上有用戶評(píng)論和推薦、在eBay上有用戶發(fā)起的拍賣、在Wikipedia上有可編輯的百科全書,以及在Google上有用于給網(wǎng)頁流行度排名的PageRank算法。在2004年,O’Reillv&Associates提出了Web 2.O的叫法,最終大多數(shù)人認(rèn)可使用這個(gè)詞來表示現(xiàn)在這個(gè)Web時(shí)代(就像.com表示上一個(gè)Web時(shí)代一樣)。這一新定義的核心部分就是利用集體智慧,將用戶貢獻(xiàn)聚集起來,以某種方式在網(wǎng)站或應(yīng)用程序中進(jìn)行挖掘和利用,這將是很有價(jià)值的。雖然Web 2.0十分流行,但是仍然很難實(shí)現(xiàn)其許多原理。本書可以在這一方面提供幫助,因?yàn)樗鼘?shù)學(xué)公式和示例應(yīng)用到集體智慧(從現(xiàn)在起簡(jiǎn)稱為CI)的概念中。在解釋了如何在Web上收集數(shù)據(jù)和提取智慧后,Satnam在本書第Ⅱ部分介紹了一些特殊的CI技術(shù),如數(shù)據(jù)挖掘、文本分析、聚類和預(yù)測(cè)技術(shù)。

內(nèi)容概要

在互聯(lián)網(wǎng)上,利用用戶的集體智慧是成功的關(guān)鍵。集體智慧是一種新興的編程技術(shù),可讓您從人們?cè)L問Web和與Web交互的過程中找到有價(jià)值的模式、發(fā)現(xiàn)這些訪問者之間的關(guān)系和確定他們的個(gè)人偏好及習(xí)慣等。    《Collective Intelligence實(shí)戰(zhàn)》首先介紹了集體智慧的原則和構(gòu)建更具交互性網(wǎng)站的思想,然后通過示例開發(fā)了一個(gè)直接可用的基于Java的CI工具包。您將學(xué)會(huì)如何從自己的網(wǎng)站和互聯(lián)網(wǎng)中提取有價(jià)值的信息,進(jìn)而發(fā)現(xiàn)流行趨勢(shì)、做出實(shí)際預(yù)測(cè)和進(jìn)行推薦。在此過程中,將使用大量可顯著減少開發(fā)工作的API和開源工具包。本書專門為Java Web開發(fā)人員而寫。

作者簡(jiǎn)介

作者:(美國(guó))阿拉克(Satnam Alag) 譯者:騰靈靈 馮飛Satnam Alag目前是NextBio的工程副總裁。他曾是Reartden commerce的CSA(首席軟件架構(gòu)師),擁有加州大學(xué)伯克利分校的博士學(xué)位。

書籍目錄

第Ⅰ部分  收集數(shù)據(jù),獲取智慧 第1章  了解集體智慧(CI)   1.1  什么是集體智慧   1.2  集體智慧在Web應(yīng)用程序中的應(yīng)用     1.2.1  通過一個(gè)示例全面了解集體智慧     1.2.2  使用集體智慧的好處     1.2.3  集體智慧是Web 2.0的核心     1.2.4  利用CI將以內(nèi)容為中心的應(yīng)用程序轉(zhuǎn)化為以用戶為中心的應(yīng)用程序   1.3  對(duì)智慧進(jìn)行分類     1.3.1  顯性智慧     1.3.2  隱性智慧     1.3.3  衍生智慧   1.4  小結(jié)   1.5  相關(guān)資源 第2章  從用戶交互中學(xué)習(xí)   2.1  運(yùn)用智慧的體系結(jié)構(gòu)     2.1.1  同步和異步服務(wù)     2.1.2  事件驅(qū)動(dòng)系統(tǒng)中的實(shí)時(shí)學(xué)習(xí)     2.1.3  非事件驅(qū)動(dòng)系統(tǒng)中的輪詢     2.1.4  事件驅(qū)動(dòng)和非事件驅(qū)動(dòng)體系結(jié)構(gòu)的優(yōu)缺點(diǎn)   2.2  應(yīng)用集體智慧的算法     2.2.1  用戶和項(xiàng)目     2.2.2  表示用戶信息     2.2.3  基于內(nèi)容的分析和協(xié)作過濾     2.2.4  從非結(jié)構(gòu)化文本中提取智慧     2.2.5  計(jì)算相似度     2.2.6  數(shù)據(jù)集的類型   2.3  用戶交互的形式     2.3.1  評(píng)分和投票     2.3.2  郵寄或轉(zhuǎn)發(fā)鏈接     2.3.3  書簽和保存     2.3.4  購(gòu)物記錄     2.3.5  點(diǎn)擊流     2.3.6  評(píng)論   2.4  將用戶交互轉(zhuǎn)化為集體智慧     2.4.1  一個(gè)將評(píng)分轉(zhuǎn)化為智慧的示例     2.4.2  來自書簽、保存項(xiàng)目、購(gòu)物記錄、鏈接轉(zhuǎn)發(fā)、點(diǎn)擊流和評(píng)論的智慧   2.5  小結(jié)   2.6  相關(guān)資源 第3章  從標(biāo)簽中提取智慧 第4章  從內(nèi)容中提取智慧 第5章  搜索博客圈 第6章  智能Web爬行第Ⅱ部分  衍生智慧 第7章  數(shù)據(jù)挖掘:過程、工具包和標(biāo)準(zhǔn) 第8章  構(gòu)建文本分析工具包 第9章  通過聚類發(fā)現(xiàn)模式 第10章  進(jìn)行預(yù)測(cè)第Ⅲ部分  在應(yīng)用程序中運(yùn)用集體智慧 第11章  智能搜索 第12章  構(gòu)建推薦引擎

章節(jié)摘錄

插圖:隨著網(wǎng)站上的內(nèi)容和商品越來越多,John和Jane越來越覺得手工給商品和其他內(nèi)容分類是一件繁瑣而且耗費(fèi)時(shí)間精力的事情。同時(shí),用戶也反映,內(nèi)容導(dǎo)航菜單太過生硬。因此,他們引入了一個(gè)新的、動(dòng)態(tài)的導(dǎo)航分類機(jī)制:標(biāo)簽云。在標(biāo)簽云中,標(biāo)簽依照字典順序排列,且每個(gè)標(biāo)簽的字體大小取決于標(biāo)簽的重要程度或者出現(xiàn)次數(shù)。這些標(biāo)簽都是自動(dòng)地通過對(duì)內(nèi)容的分析后提取出來的。應(yīng)用程序分析每個(gè)用戶的交互,為每個(gè)用戶提供一組個(gè)性化的標(biāo)簽信息作為站點(diǎn)的導(dǎo)航。如果用戶瀏覽的內(nèi)容不同,這組個(gè)性化的標(biāo)簽也隨著改變。甚至不同的用戶在不同的時(shí)間點(diǎn)擊同樣的標(biāo)簽時(shí)出現(xiàn)的內(nèi)容也不同。這些標(biāo)簽,有的來自于搜索引擎,有的來自于推薦引擎,有的來自于系統(tǒng)外部已有的商品的目錄。在下一個(gè)版本中,他們?cè)试S用戶采用任意的文本作為項(xiàng)目(item)的標(biāo)簽,以及存儲(chǔ)或者將有趣的項(xiàng)目保存為書簽。當(dāng)用戶給各種各樣的項(xiàng)目加上標(biāo)簽的時(shí)候,John和Jane發(fā)現(xiàn)這里面含有豐富的信息可以去挖掘。首先,用戶總是用自己覺得有道理的標(biāo)簽去標(biāo)記項(xiàng)目,這樣,他們實(shí)際上是在進(jìn)行公眾分類(folksonomy)。現(xiàn)在,標(biāo)簽云中就不只有原先計(jì)算機(jī)根據(jù)內(nèi)容生成的標(biāo)簽,也有用戶自發(fā)產(chǎn)生的標(biāo)簽。這些用戶產(chǎn)生的標(biāo)簽可以組成一個(gè)標(biāo)簽詞典,用來顯著地增強(qiáng)原有的從內(nèi)容自動(dòng)提取標(biāo)簽的算法。不僅如此,這些用戶定義的標(biāo)簽還可以當(dāng)作廣告生成系統(tǒng)的關(guān)鍵詞,尋找匹配的廣告。這些標(biāo)簽還能把用戶和其他用戶,或者用戶和其他感興趣的商品聯(lián)系起來。群體的智慧正在發(fā)揮著效用。下一步,他們?cè)试S用戶生成更多的內(nèi)容。用戶現(xiàn)在可在博客上寫下體驗(yàn),或者在留言板上提出問題和回答問題,還可以向這個(gè)網(wǎng)站上的維基貢獻(xiàn)維基項(xiàng)目和內(nèi)容,提升整個(gè)應(yīng)用程序的質(zhì)量。John和Jane迅速建立了一種可以從非結(jié)構(gòu)化內(nèi)容提取標(biāo)簽的算法。然后,通過對(duì)用戶交互的分析,他們可以把興趣類似的用戶聯(lián)系起來,使得用戶可以通過其他用戶提供的交互信息,發(fā)現(xiàn)相關(guān)的商品。他們很快就能夠充分了解用戶,從而能夠提供給每個(gè)用戶個(gè)性化的網(wǎng)站內(nèi)容,并提供有關(guān)內(nèi)容,比如把小眾商品定向推送給小眾用戶。通過用戶的個(gè)人資料以及用戶的交互,他們還可以推送相關(guān)的廣告。

媒體關(guān)注與評(píng)論

“本書兼顧內(nèi)容和理論,更重要的是,本書介紹的內(nèi)容切實(shí)可行?!?   ——Taran Rampersand KnowProse.com  “本書將教會(huì)您如何利用想象的力量。”    ——John Tyler UBS Investment:Bank  “通過閱讀本書,可以學(xué)到實(shí)用的機(jī)器學(xué)習(xí)?!?   ——Robi Sen Twin Tecllllologies  “本書是有關(guān)CI技術(shù)的經(jīng)典之作。我真希望幾年前就已擁有它?!?   ——Jerome Betnand Elastic Grid LLC  “我要向社交網(wǎng)站的所有開發(fā)人員強(qiáng)烈推薦本書。”    ——Sopan Shewale TWIKI.NET-Enteprise EIKI

編輯推薦

《Collective Intelligence實(shí)戰(zhàn)》:用于智能搜索、推薦和預(yù)測(cè)的可承用代碼使用Lucene和Nutch的web爬行和文本分析使用WEKA的機(jī)器學(xué)習(xí)如何實(shí)現(xiàn)Java Data Mining(JDM)標(biāo)準(zhǔn)

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    Collective Intelligence實(shí)戰(zhàn) PDF格式下載


用戶評(píng)論 (總計(jì)5條)

 
 

  •   《Collective Intelligence實(shí)戰(zhàn)》,書名中的Collective Intelligence,書中翻譯做“集體智慧”。不知為什么書名沒翻譯成“集體智慧實(shí)戰(zhàn)”。書中給出的“集體智慧”的定義比較長(zhǎng)而且不明確,我看后總結(jié),作者認(rèn)為社交網(wǎng)絡(luò)、標(biāo)簽系統(tǒng)、推薦系統(tǒng)都是“集體智慧”的體現(xiàn)??春蟾杏X基本算一本入門書。對(duì)書中涉及到的軟件系統(tǒng)的實(shí)現(xiàn)原理有一些基礎(chǔ)的介紹,另外一半的篇幅直接貼代碼。對(duì)代碼的解釋又很少??梢钥醋饕槐救腴T書。全書大綱如下:第一部分:介紹集體智慧:用戶與系統(tǒng)的交互(包括書簽、購(gòu)物記錄、轉(zhuǎn)發(fā)、點(diǎn)擊、評(píng)論等)中可以提取出集體智慧來;標(biāo)簽、博客也是重要的集體智慧的來源;介紹了搜索博客圈、智能web內(nèi)容抓取的實(shí)現(xiàn)方案第二部分:集體智慧的實(shí)現(xiàn)方式:介紹開眼數(shù)據(jù)挖掘架構(gòu):WEKA;介紹基于Java的數(shù)據(jù)挖掘API:Java Data Mining(JDM);介紹基于Java的開源全文檢索引擎:Lucene;使用WEKA來做聚類與預(yù)測(cè);第三部分:集體智慧的實(shí)際的例子使用Lucene搭建智能搜索引擎;構(gòu)建推薦引擎;
  •   很好的書,思路很清晰,具使用價(jià)值
  •   內(nèi)容一般,感覺有點(diǎn)亂,淺出但不夠深入!
  •   書籍講的很明白,代碼也比較清楚,很實(shí)用
  •   書的內(nèi)容比較全面,文本分類,推薦,等等,還有不少weka的代碼示例,便于快速實(shí)現(xiàn)原型。翻譯個(gè)別地方有點(diǎn)問題。讀的時(shí)候需要自己聯(lián)想一下?!癿emory-based algorithms”不是“基于內(nèi)存的協(xié)同過濾”。中文對(duì)應(yīng)成“基于記憶的協(xié)同過濾”更好點(diǎn)吧。
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7