出版時(shí)間:2010-11 出版社:科學(xué)出版社 作者:程顯毅,朱倩 頁(yè)數(shù):228
Tag標(biāo)簽:無(wú)
內(nèi)容概要
在信息時(shí)代,存儲(chǔ)大量數(shù)據(jù)比較容易。通過(guò)Web、企業(yè)內(nèi)部網(wǎng)、電傳新。聞獲得的文本數(shù)量在急劇增加,這導(dǎo)致信息過(guò)載。然而,數(shù)據(jù)量雖然增加了,但可用的信息卻在減少。文本挖掘是一個(gè)新的令人振奮的研究領(lǐng)域,其試圖通過(guò)綜合數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、信息檢索和知識(shí)管理等技術(shù)來(lái)解決信息過(guò)載問(wèn)題。 文本挖掘包括文本集合的預(yù)處理(文本分類(lèi)、信息抽取)、中間結(jié)果存儲(chǔ)、中間結(jié)果分析技術(shù)(分布分析、聚類(lèi)、趨勢(shì)分析、關(guān)聯(lián)規(guī)則抽取)和最終結(jié)果的可視化。它與關(guān)聯(lián)分析類(lèi)似,為人們提供了分析海量文本數(shù)據(jù)的新工具,并且通過(guò)學(xué)習(xí)模式來(lái)指導(dǎo)抽取實(shí)體關(guān)系。 本書(shū)首先討論了文本挖掘的總體結(jié)構(gòu)以及文本挖掘預(yù)處理算法,然后深入地研究了文本挖掘核心操作,最后探討真實(shí)世界中文本挖掘的主要應(yīng)用和DIAL,彌補(bǔ)了理論和實(shí)踐的脫節(jié)。 本書(shū)主要可供對(duì)文本挖掘感興趣的本科高年級(jí)學(xué)生、研究生、研究人員和專(zhuān)業(yè)開(kāi)發(fā)人員參考,對(duì)從事文本挖掘開(kāi)發(fā)和使用文本挖掘系統(tǒng)的人也會(huì)有很大幫助。
書(shū)籍目錄
前言第1章 文本挖掘概述 1.1 文本挖掘的產(chǎn)生背景 1.2 文本 1.2.1 文本格式 1.2.2 動(dòng)態(tài)文本集 1.3 文本挖掘的概念 1.4 文本挖掘的任務(wù) 1.4.1 文本挖掘預(yù)處理 1.4.2 文本模式挖掘 1.4.3 挖掘結(jié)果可視化 1.5 文本挖掘系統(tǒng)的通用體系結(jié)構(gòu)第2章 文本表示第3章 文本挖掘預(yù)處理——文本分類(lèi)第4章 文本挖掘預(yù)處理——文本聚類(lèi)第5章 文本挖掘核心操作——信息抽取第6章 文本挖掘核心操作——關(guān)系抽取第7章 文本挖掘核心操作——關(guān)聯(lián)分析第8章 文本挖掘結(jié)果的可視化第9章 文本挖掘的應(yīng)用第10章 專(zhuān)門(mén)用于文本挖掘的信息抽取語(yǔ)言——DIAL參考文獻(xiàn)
編輯推薦
大量文檔集內(nèi)容的預(yù)處理包括特征抽取、文本分類(lèi)、文本聚類(lèi)等。文本分類(lèi)和文本聚類(lèi)研究的成果比較多,《文本挖掘原理》只作簡(jiǎn)單介紹;而對(duì)特征生成、特征選擇和特征抽取,《文本挖掘原理》進(jìn)行深入地討論。 信息抽取是文本挖掘的核心操作,目前的主要研究方向是命名實(shí)體識(shí)別、實(shí)體關(guān)系抽取和事件抽取。實(shí)體關(guān)系抽取是文本挖掘的關(guān)鍵任務(wù),所以《文本挖掘原理》用大量篇幅討論了實(shí)體關(guān)系發(fā)現(xiàn)技術(shù)。 由于文本挖掘強(qiáng)調(diào)用戶(hù)交互到知識(shí)發(fā)現(xiàn)過(guò)程的集成性,因此,《文本挖掘原理》最后討論了文本挖掘結(jié)果可視化方法,并介紹了一種文本挖掘語(yǔ)言——DIAL。
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版