預測性文本挖掘基礎(chǔ)

出版時間:2012-10  出版社:西安交通大學出版社  作者:[美] 紹洛姆•韋斯(Sholom M.Weiss) [澳]尼亭•因杜爾亞(Nitin Indurkhya)[美]張 潼(Tong zhang),趙仲孟 侯, 迪 譯  頁數(shù):234  
Tag標簽:無  

內(nèi)容概要

  本書是文本挖掘這個迅速發(fā)展領(lǐng)域的入門性教材和指南。作為入門型讀物,論述由淺入深、理論結(jié)合實踐、語言風趣、樣例詳實,詳細地分析和總結(jié)了該領(lǐng)域的研究現(xiàn)狀及未來發(fā)展。深入地討論了文檔分類、信息檢索、聚類與組織文檔、信息提取、基于Web的數(shù)據(jù)源、預測與評價等方面提出的問題。作為互聯(lián)網(wǎng)和云計算蓬勃發(fā)展時代,為關(guān)注海量非結(jié)構(gòu)化信息處理的學習者了解文本挖掘研究前沿打開了一扇窗口。
  特別邀請知名的臺灣輔仁大學統(tǒng)計資訊系謝邦昌教授傾情作序,評價“這本書為文本挖掘入門最佳的書”。
本書原版是計算機科學方向的一本國外教材,譯本適用于計算機專業(yè)本科生和研究生作為關(guān)鍵教材,同時,對于IT專業(yè)人員和管理人員是一個重要的資源。

作者簡介

紹洛姆·韋斯是位于紐約州約克鎮(zhèn)的IBM預測模型小組的研究成員,同時也是美國新澤西州的羅格斯大學計算機科學專業(yè)的榮譽教授。
尼亭·因杜爾亞是澳大利亞新南威爾士大學計算機科學工程學院的講師,同時也是數(shù)據(jù)挖掘公司Data-Miner Pty
Ltd的創(chuàng)始人和總裁。
張潼是美國新澤西州羅格斯大學統(tǒng)計與生物統(tǒng)計學系的教授。

書籍目錄

1
文本挖掘概述
2 從文本信息到數(shù)值向量
3 用文本進行預測
4 信息檢索和文本挖掘
5
文檔集的結(jié)構(gòu)發(fā)現(xiàn)
6 在文檔中查詢信息
7 面向預測的數(shù)據(jù)源:數(shù)據(jù)庫、混雜數(shù)據(jù)與Web
8 實例分析
9 新研究方向

章節(jié)摘錄

三致考研的同學們、朋友們親愛的同學們、朋友們:再一次對你們辛勞備考表示由衷的慰問!人生難得有幾搏,學海無涯苦作舟,勤奮得法定成功。我們長期輔導考研政治理論復習備考的經(jīng)驗證明,考生要政治理論考高分,需要有“三個掌握”:一是掌握考試大綱規(guī)定的基本理論知識的重點;二是掌握黨中央的新思想、新觀點、新論斷以及有關(guān)的理論與實際的熱點問題;三是掌握簡明實用的科學方法,包括學、記、答,尤其是答題方法。把這三者結(jié)合起來是我們師生共同的責任,我負全面的主要的責任。一、本書的更名我主編的《任汝芬教授考研政治序列叢書》從2000年到2012年已出版13年了。為了符合考試大綱的要求,尤其是考試的要求,使信任我們的廣大考生學得好、考得好,每年我們都對本序列叢書進行了全面的深入的具體的修訂與完善。本序列叢書之三原書名為《最后沖刺》,有一些考生反映這個書名不好懂,看不出講的什么內(nèi)容,同時容易發(fā)生誤解,以為這是考前的最后一本教材或參考書,同本序列叢書之四《最后四套題》出現(xiàn)兩個“最后”,邏輯上有矛盾,忽略了點睛班及其所用教材《最后四套題》的極其重要性,故將書名更改為《形勢與政策》(含高度總結(jié)、補充試題)。本書以形勢與政策冠名,有強調(diào)形勢與政策的有關(guān)內(nèi)容在復習考試中重要地位的深層含義,不等于是單純的形勢與政策,當然也不是有人誤認為“思想政治理論考試主要是時事政治的考查”。長期以來考研思想政治理論課考試體現(xiàn)了教育部根據(jù)黨中央精神提高學生思想政治素質(zhì)的要求,具體地說,體現(xiàn)了以政治性為核心的理論性、知識性、思想性、現(xiàn)實性、綜合性的統(tǒng)一,引導考生自覺地擁護、貫徹以胡錦濤為總書記的黨中央的理論、路線、綱領(lǐng)、方針、政策,成為中國特色社會主義事業(yè)合格的優(yōu)秀的建設者和可靠的、優(yōu)秀的接班人。我在《序列前篇二〈課程導學〉》中曾對思想政治理論課命題或試題的主要特點有過概括:以考試大綱為范圍,以權(quán)威教材為基礎(chǔ),以中央精神為指導,以中國特色社會主義理論體系為中心,以社會熱點為理論聯(lián)系實際的對象,以掌握基本理論、基本知識的重點及其運用能力為考查目標。可以看出本課程的命題或試題既不是純理論純知識考查,也不是純時事政治的考查,而是上述多方面的綜合。依據(jù)我們對多年考題的分析與綜合,有2個70%:一是考查純記憶,即“背”的分值不超過30%,而考查理解、運用分析、綜合能力的占70%;二是考查基本理論、知識與中央精神、社會熱點相結(jié)合的占70%。就“形勢與政策”的考查內(nèi)容來看,從2006年至2009年的考試大綱規(guī)定包括:(一)中國共產(chǎn)黨和中國政府在現(xiàn)階段的重大方針政策;(二)年度間國際、國內(nèi)的重大時事;(三)上述(一)、(二)項與馬克思主義理論課相關(guān)知識點的適當結(jié)合。2010年至2013年的考試大綱雖然去掉了第(三)項,但2010年至2012年的考題中仍然貫徹了這一要求。依據(jù)上述考試情況與要求,我們在教學過程中,不僅要高度重視掌握考試大綱規(guī)定考查的基本理論、基本知識的理解記憶和運用,也要高度重視掌握形勢與政策中黨中央的新精神新思想、年度間的重大時事以及社會熱點問題,并把它們適當?shù)亟Y(jié)合起來,才能確保信任我們的考生們學得好、考得好、考高分。二、本書的依據(jù)(一)以2012年1月至10月人民日報刊登的黨和政府的重大方針政策和國內(nèi)外重大時事為素材。(二)以高舉中國特色社會主義的偉大旗幟為指導,深入貫徹落實科學發(fā)展觀,體現(xiàn)黨的十七大以來的新精神、新思想以及體現(xiàn)黨的十八大新精神的胡錦濤總書記在7月23日的講話。有關(guān)黨的十八大新精神、新思想將在十八大召開以后的沖刺班、點睛班以及《最后四套題》中充分體現(xiàn)。(三)以高等教育出版社的《馬克思主義理論研究和建設工程重點教材》(四本)和《考試大綱解析》為基礎(chǔ)。(四)以現(xiàn)實的理論與實際的社會熱點為聯(lián)系實際的對象,重點包括十一屆人大有關(guān)問題、中宣部理論局編寫的理論熱點面對面《辯證看 務實辦》、中外關(guān)系等。(五)以近三年考題特點為借鑒,體現(xiàn)試題的特點。三、本書的任務當大家看到我們編寫的政治理論復習指導序列之三的時候,正值你們的復習備考進入理論的應用階段與總結(jié)階段。與這兩個階段的復習備考相配合,我們編寫了復習指導序列之二、之三。教師授課輔導的任務是以考試大綱規(guī)定的理論重點為依據(jù),以高舉中國特色社會主義偉大旗幟為統(tǒng)領(lǐng),貫徹和體現(xiàn)黨的十七大以來的新精神、新思想以及體現(xiàn)黨的十八大新精神、新思想,突擊時政、高度總結(jié),預測考題、教會答題;其目標是鞏固內(nèi)容、增強能力、綜合掌握、記憶時政。四、本書的內(nèi)容本書共五個部分,第一部分是形勢與政策以及當代世界經(jīng)濟與政治的重點內(nèi)容總結(jié)、補充試題,后四部分是分科的高度總結(jié)與補充試題。①本書的第一部分中的形勢與政策是2012年1月至2012年10月的國內(nèi)外重大時事的重點內(nèi)容總結(jié)和模擬試題。這部分內(nèi)容反映了黨和國家現(xiàn)階段的路線、方針、政策(主要是黨中央的新思想、新觀點、新論斷)和國內(nèi)外的重大時事,是形勢與政策考試的現(xiàn)實依據(jù)和政治理論各科試題要貫徹、體現(xiàn)、聯(lián)系的內(nèi)容。為使考生既知其然,又知其所以然,我們提供了比較完整和系統(tǒng)的材料??忌鷮@么多的材料只需要閱讀了解并對藍色字體部分著重注意,就能理解我們編寫形勢與政策模擬試題及其他課程的一些模擬試題的依據(jù)和來龍去脈。據(jù)我們和往屆考生的經(jīng)驗,這種思路和方法事半功倍、效果顯著。我要特別提醒考生:按2013年考試大綱的規(guī)定,“形勢與政策”考查年度間為2012年1月至12月,因此,我們將在序列之四《最后四套題》中對相關(guān)內(nèi)容(包括形勢與政策、考查內(nèi)容、答題方略)精心補充完善。②本書二至五部分編寫了思想政治理論各門課程的重點內(nèi)容總結(jié)和對復習指導序列之二的補充試題。內(nèi)容總結(jié)的編寫思路各部分有所不同,考生一定要根據(jù)自己的習慣和特點來選擇最佳的總結(jié)方式,以完成備考最后階段的復習。五、本書的使用我對同學們、朋友們復習備考的思路與方法建議如下:①總思路是以考試大綱規(guī)定的范圍與內(nèi)容為基礎(chǔ),以黨的十七大以來的十七屆三中、四中全會、五中全會、六中全會尤其黨的十八大的新精神、新思想為指導,以近幾年的考題為參考。我們編寫的復習指導序列之一、之二、之三都力求貫徹體現(xiàn)這些精神和內(nèi)容。②以做復習指導序列之二、之三的模擬練習題為中心來帶動思想政治理論課的復習備考。做題按照我們編寫的教材的順序進行。做復習指導序列之二的每部分試題要以序列之一的相關(guān)內(nèi)容為基礎(chǔ),并通過做題鞏固序列之一的內(nèi)容,掌握答題的方法,增強運用理論分析和解決問題的能力。③做客觀性試題即選擇題,要精做,要問考什么、怎么考、如何答等幾個為什么。不要先看標準答案,做完一部分內(nèi)容后再對答案。這樣,可以發(fā)現(xiàn)自己的不足和問題,然后加以解決。對于主觀性試題可以只思考回答要點和思路,然后再看參考答案,大致相近就可以了。④需要總結(jié)和理解記憶的有三個內(nèi)容:一是分部分、分層次、按順序的各科重點理論;二是答題的思路和方法;三是形勢與政策的重點試題。關(guān)注各科的重點分析題,千萬不要背題,更不能靠什么押題,只要會就行。⑤信任我們的同學們、朋友們有兩種情況:一類是參加我們輔導授課的,一類是沒有參加輔導授課,只使用我們編寫教材的。對于前一類考生,聽課之前一定要預習復習指導序列之二后再聽課,效果較好,序列之三可以不預習。對于后一類考生,建議按順序反復做兩遍題然后進行總結(jié)。特別提醒:按照《要點精編》“致考研的同學們、朋友們”中的兩個承諾,我已兌現(xiàn)了第1個承諾,9月15日后,我在人信學校等網(wǎng)站上作了《2013年考研思想政治考試大綱變動解讀》講座;第2個承諾在本書編寫的考試大綱增加、調(diào)整的相關(guān)知識點的試題中體現(xiàn)。六、本書的后續(xù)在12月中下旬,將出版序列之四:《最后四套題》,其內(nèi)容主要是我們認為是最重要的試題,以及對新信息的拾遺補闕,進一步預測考題即猜題,考生可到我們授課的考研輔導班聯(lián)系獲得,也可以到當?shù)貢晏崆邦A訂和購買。我們發(fā)現(xiàn)多年來市場上有些資料借用了我們所編的一些模擬試題而未加說明,請考生及其他讀者不要誤認是我們在抄襲別人的成果。侵權(quán)是不光彩不道德的,也是違法的。再祝朋友們考研成功,如愿以償!任汝芬2012年11月5日

編輯推薦

紹洛姆·韋斯編著的《預測性文本挖掘基礎(chǔ)》提供了豐富的實例和軟件環(huán)境,并且介紹了大量的有實際學術(shù)研究價值的內(nèi)容。本書追求實踐,同時也包含了廣泛的對文本挖掘有幫助的內(nèi)容,既涵蓋了預測學習方法,又引出了信息檢索、搜索引擎和聚類等技術(shù)。如果讀者可以跟隨這本書,使用我們提供的軟件動手分析每一實例,相信一定可以大有收獲。    本書適用于IT開發(fā)人員,管理人員,同時也適用于計算機專業(yè)的研究生。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    預測性文本挖掘基礎(chǔ) PDF格式下載


用戶評論 (總計8條)

 
 

  •   張潼老師的大作 正好做這方面的工作 研究一下
  •   看了,基礎(chǔ)類書籍,正在學習
  •   主要是用來參考的。感覺還行吧。挺簡潔的一本書。
  •   內(nèi)容看了一點,覺得還可以,還適合 入門看
  •   因為不懂這個專業(yè),所以買來看看,感覺內(nèi)容容易吸收,是一本好的基礎(chǔ)讀物。如果是為了“打基礎(chǔ)”而買,也很有價值。
  •   書的內(nèi)容還算可以,都是些基礎(chǔ)性的東西,但是125頁的公式少了一個除號,
  •   不錯的技術(shù)綜述讀本。
  •   深入學習,動手實踐。

推薦圖書


 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7