出版時間:2008-12 出版社:中國科學技術大學出版社 作者:陸旭 頁數:117
Tag標簽:無
內容概要
本書介紹了文本分類和偏最小二乘回歸,提出了基于變量投影重要性指標的文本分類特征選擇方法,論述了偏最小二乘Logistic文本分類模型,闡述了CHTC層次文本分類模型的研究工作,本書可供相關領域科研工作者、大學高年級學生和研究生閱讀。
書籍目錄
前言第1章 導論 1.1 研究背景 1.2 文本分類綜述 1.3 本書的內容結構 1.4 本書的創(chuàng)新工作第2章 文本分類概述 2.1 文本分類的數學定義 2.2 文本分類任務的特點 2.3 文本分類系統(tǒng)的組成 2.4 文檔預處理 2.5 文檔的表示 2.6 常用文本分類模型 2.7 文本分類器學習、測試和評價第3章 偏最小二乘回歸方法的基本理論 3.1 偏最小二乘回歸的發(fā)展歷史 3.2 偏最小二乘回歸的基本原理 3.3 偏最小二乘回歸的基本思想 3.4 數學原理 3.5 偏最小二乘回歸的理論算法 3.6 成分數的確定第4章 基于變量投影重要性指標的特征選擇方法研究 4.1 維數約簡技術 4.2 符號約定 4.3 常用的特征選擇方法 4.4 常用的特征抽取方法 4.5 基于變量投影重要性指標的特征選擇方法 4.6 實驗結果和分析第5章 偏最小二乘Logistic文本分類模型研究 5.1 Logistic回歸模型 5.2 偏最小二乘Logistic回歸模型 5.3 偏最小二乘Logistic文本分類模型 5.4 實驗結果和分析第6章 GHTC層次文本分類模型研究 6.1 層次分類概述 6.2 層次特征選擇 6.3 GHTC層次文本分類模型 6.4 實驗結果和分析第7章 總結與展望 7.1 總結 7.2 研究展望附錄1 REUTERS-21578前10個常見類和前10個稀有類的前20個特征VIP值附錄2 復旦文本分類語料庫部分類別的前20個特征VIP值附錄3 OHSUMED語料庫層次結構附錄4 20 Newsgroups語料庫各節(jié)點各特征維數的微平均F1值和宏平均F1值變化情況參考文獻后記
章節(jié)摘錄
第2章 文本分類概述 2.5 文檔的表示 2.5.1 文檔的特征 對文檔進行預處理以后,需要根據文本分類模型對文檔進行相應的特征表示,從文檔的組成來看,它是字符串的集合,一般來說,文檔的特征項應該具有以下特點:特征項是能夠對文檔進行充分表示的語言單位;文檔在特征項集合上的分布具有較為明顯的統(tǒng)計規(guī)律;特征項分離比較容易實現,計算復雜度不太大,在文本分類中,按照文檔特征的粒度來劃分,常用的特征單位有詞、詞組、N—Gram(N元)項和概念等,中文有時也把詞性作為文檔的特征, 1.詞 在信息檢索領域,詞(Word)是使用最為普遍的文檔特征,英語、法語和德語等西方語言通常采用空格或標點符號將詞隔開,具有天然的分隔符,所以詞的獲取簡單,中文、日文和韓文等東方語言,句子之間有分隔符,但詞與詞之間沒有分隔符,所以需要分詞來得到詞。
編輯推薦
《文本挖掘中若干關鍵問題研究》:自動文本分類是將自然文本文件根據內容自動分為預先定義的一個或幾個類別的過程,基于統(tǒng)計學習、機器學習的文本分類技術已經成為主流技術,《文本挖掘中若干關鍵問題研究》對基于統(tǒng)計學習的文本分類及其相關技術進行了研究,為解決文本分類的稀疏性和高維性問題,基于偏最小二乘理論,提出一種新的維數約簡算法,從提高文本分類性能和準確性出發(fā),運用偏最小二乘的最新理論成果,提出了一種能較好提取潛在語義的新文本分類模型,對于數量龐大的文檔類別,傳統(tǒng)的平坦文本分類的性能受到很大的制約,層次文本分類是一種有效的解決方法,由此提出了一種新的層次文本分類模型。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載