出版時間:2010-11 出版社:科學(xué)出版社 作者:程顯毅,朱倩 頁數(shù):228
Tag標(biāo)簽:無
內(nèi)容概要
在信息時代,存儲大量數(shù)據(jù)比較容易。通過Web、企業(yè)內(nèi)部網(wǎng)、電傳新。聞獲得的文本數(shù)量在急劇增加,這導(dǎo)致信息過載。然而,數(shù)據(jù)量雖然增加了,但可用的信息卻在減少。文本挖掘是一個新的令人振奮的研究領(lǐng)域,其試圖通過綜合數(shù)據(jù)挖掘、機器學(xué)習(xí)、自然語言處理、信息檢索和知識管理等技術(shù)來解決信息過載問題。 文本挖掘包括文本集合的預(yù)處理(文本分類、信息抽取)、中間結(jié)果存儲、中間結(jié)果分析技術(shù)(分布分析、聚類、趨勢分析、關(guān)聯(lián)規(guī)則抽取)和最終結(jié)果的可視化。它與關(guān)聯(lián)分析類似,為人們提供了分析海量文本數(shù)據(jù)的新工具,并且通過學(xué)習(xí)模式來指導(dǎo)抽取實體關(guān)系。 本書首先討論了文本挖掘的總體結(jié)構(gòu)以及文本挖掘預(yù)處理算法,然后深入地研究了文本挖掘核心操作,最后探討真實世界中文本挖掘的主要應(yīng)用和DIAL,彌補了理論和實踐的脫節(jié)。 本書主要可供對文本挖掘感興趣的本科高年級學(xué)生、研究生、研究人員和專業(yè)開發(fā)人員參考,對從事文本挖掘開發(fā)和使用文本挖掘系統(tǒng)的人也會有很大幫助。
書籍目錄
前言第1章 文本挖掘概述 1.1 文本挖掘的產(chǎn)生背景 1.2 文本 1.2.1 文本格式 1.2.2 動態(tài)文本集 1.3 文本挖掘的概念 1.4 文本挖掘的任務(wù) 1.4.1 文本挖掘預(yù)處理 1.4.2 文本模式挖掘 1.4.3 挖掘結(jié)果可視化 1.5 文本挖掘系統(tǒng)的通用體系結(jié)構(gòu)第2章 文本表示第3章 文本挖掘預(yù)處理——文本分類第4章 文本挖掘預(yù)處理——文本聚類第5章 文本挖掘核心操作——信息抽取第6章 文本挖掘核心操作——關(guān)系抽取第7章 文本挖掘核心操作——關(guān)聯(lián)分析第8章 文本挖掘結(jié)果的可視化第9章 文本挖掘的應(yīng)用第10章 專門用于文本挖掘的信息抽取語言——DIAL參考文獻(xiàn)
編輯推薦
大量文檔集內(nèi)容的預(yù)處理包括特征抽取、文本分類、文本聚類等。文本分類和文本聚類研究的成果比較多,《文本挖掘原理》只作簡單介紹;而對特征生成、特征選擇和特征抽取,《文本挖掘原理》進(jìn)行深入地討論。 信息抽取是文本挖掘的核心操作,目前的主要研究方向是命名實體識別、實體關(guān)系抽取和事件抽取。實體關(guān)系抽取是文本挖掘的關(guān)鍵任務(wù),所以《文本挖掘原理》用大量篇幅討論了實體關(guān)系發(fā)現(xiàn)技術(shù)。 由于文本挖掘強調(diào)用戶交互到知識發(fā)現(xiàn)過程的集成性,因此,《文本挖掘原理》最后討論了文本挖掘結(jié)果可視化方法,并介紹了一種文本挖掘語言——DIAL。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載