古籍計算機斷句標點與分詞標引研究

出版時間:2012-2  出版社:安徽師范大學出版社  作者:黃建年  頁數(shù):148  
Tag標簽:無  

內容概要

  《古籍計算機斷句標點與分詞標引研究》以古籍中的農業(yè)文獻及農史信息資源為研究對象,利用計算機技術及現(xiàn)代情報技術進行整理與開發(fā),但各冊研究重點并非完全一致,或標點與分詞,或編纂與???,或知識組織,或內容挖掘,或索引編制,或關注信息門戶,或研究古籍數(shù)字化技術。雖各有分工、各有側重,但卻互相補充、緊密聯(lián)系。

作者簡介

  黃建年,男,1966年生,研究館員,1990年畢業(yè)于北京大學圖書館學專業(yè)本科,獲得文學學士學位,2004年、2009年分別于南京大學、南京農業(yè)大學獲得管理學碩士、理學博士學位。先后擔任圖書館辦公室主任、圖書館館長助理、物資設備處副處長等職。曾兼職擔任鎮(zhèn)江市圖書館學會學術委員會副主任,現(xiàn)為江蘇省黃氏文化研究會(籌)常務理事。主持或者參與國家社科基金項目、教育部人文社會科學基金項目、江蘇省教育廳高校社科基金項目等10余項,在《中國圖書館學報》、《情報學報》等各類刊物上發(fā)表學術論文60余篇,出版專著2部,開發(fā)軟件2種。主要研究方向:古籍整理、數(shù)字圖書館、信息組織。
  侯漢清,南京農業(yè)大學信息科技學院教授、博導,中國索引學會副理事長。主要專著有《主題法導論》(1991年)、《索引技術和索引標準》(1997年)、《當代分類法主題法索引法研究》(1997年)、《文獻分類法主題法導論》(1999年)、《圖書館學五定律》(譯著,1984年)、《引文索引法的理論及其應用》(譯著,2003年)、《情報檢索語言與智能信息處理叢書》(主編,2009年)等。主持或參與主持國家級項目6項,主編或參與主編《中國分類主題詞表》、《社會科學檢索詞表》等國內主要詞表和分類表多部。研究方向:信息組織、信息檢索、信息智能處理。

書籍目錄

序一
序二
序三
1 緒論
 1.1 課題依據(jù)及意義
 1.2 國內外研究綜述
 1.3 研究的主要理論與技術路線
 1.4 研究的主要內容、結構與創(chuàng)新之處
2 古籍斷旬標點技術研究
 2.1 斷句標點概述
 2.2 古籍自動斷句標點技術進展
 2.3 古籍自動斷句標點算法、流程與功能設計
 2.4 實驗結果評價與展望
 2.5 本章小結
3 古 籍分詞標引技術研究
 3.1 古籍文本分詞標引研究進展
 3.2 分詞標引理論與關鍵技術研究
 3.3 自動分詞主要算法與流程
 3.4 分詞效果測試
 3.5 分詞結果分析
 3.6 分詞結果應用
 3.7 本章小結
4 古籍整理與開發(fā)系統(tǒng)的構建與集成
 4.1 系統(tǒng)開發(fā)背景
 4.2 古籍斷句標點子系統(tǒng)
 4.3 古籍分詞子系統(tǒng)
 4.4 古籍系統(tǒng)設置子系統(tǒng)
 4.5 本章小結
5 結語
6 附錄
 附錄一 計算機斷句樣例
 附錄二 計算機標點樣例
 附錄三 標點規(guī)則庫樣例
 附錄四 計算機分詞樣例
 附錄五 常用農業(yè)史資料、索引一覽表
 附錄六 新中國農業(yè)古籍整理出版簡目
 附錄七 《廣州府志》等四種古籍索引樣例
 附錄八 全書索引
后記

章節(jié)摘錄

版權頁:插圖:索引編制自動化主要集中在逐字索引,而對詞的索引研究不多,所以本論文的研究重點在索引詞匯的識別,通過自動識別索引詞匯,然后實現(xiàn)索引的自動編制,編制出真正基于語詞的古籍索引。3.2 分詞標引理論與關鍵技術研究3.2.1 分詞詞典研究分詞詞典是基于詞典分詞的漢語自動分詞系統(tǒng)的一個組成部分,也是影響系統(tǒng)性能的重要因素之一?;谠~典的自動分詞系統(tǒng)所需的各類信息基本上從分詞詞典中獲取。考核分詞詞典質量主要有兩個指標:①詞典的內容,即詞典中收錄詞匯的數(shù)量與質量,它對分詞精度有著很大的影響。一個好的詞典要具備通用性好、覆蓋率高的優(yōu)點。②詞典的組織形式。系統(tǒng)在進行分詞及標注時需要頻繁地查詢詞典,詞典的查詢速度直接影響到分詞系統(tǒng)的速度,因而必須有效地組織詞典,從而提高系統(tǒng)的整體性能。建立詞典有兩種方法:①建立靜態(tài)詞庫,這是一種簡單直接的方法。靜態(tài)詞庫以國家技術監(jiān)督局1993年發(fā)布的GB/T13715-92《信息處理用現(xiàn)代漢語分詞規(guī)范》為依據(jù),其特征是針對信息處理的基本需要、以人為本、考慮詞的常用性,整個詞表分成詞庫、帶字母詞庫、專名庫、常用接續(xù)庫、成語庫、俗語庫以及單字詞庫等7個分詞庫。該規(guī)范具有較強通用性及覆蓋能力,對推動漢語自動分詞研究的發(fā)展,起到了積極作用。但該方法的不足之處在于字典所能包含的單詞有限,對于特定領域的某些單詞無法包含。并且對于某個特定領域的應用來說,實際需要的單詞要少得多,大而全的字典反而影響分詞的效率和準確率。②建立動態(tài)詞庫,動態(tài)詞庫也稱為智能詞庫,使用統(tǒng)計方法通過對大量的語料文本進行處理來建立詞典。智能詞典的基本思想是:先用無詞典法按照一定算法對分詞文本進行特征提取,提取出中頻詞與高頻詞兩類,按照一定的算法決定高頻詞是否為新詞,若有新詞則添加到臨時詞典,然后按照機械分詞算法進行分詞。智能詞典定時地對臨時詞典進行處理,按照一定的算法提取特征詞,將其放人詞典。該方法針對特定領域,詞典的規(guī)模相比于通用詞典要小得多,其分詞的效率比第一種方法要高。更重要的是,這種方法統(tǒng)計大量的語料文本,能包括本領域的幾乎所有單詞,其分詞的準確率也比前一種方法高。

編輯推薦

《古籍計算機斷句標點與分詞標引研究》是中華農業(yè)文明研究院文庫?文化典籍計算機整理與知識組織叢書之一。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    古籍計算機斷句標點與分詞標引研究 PDF格式下載


用戶評論 (總計0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7