出版時(shí)間:2012-2 出版社:安徽師范大學(xué)出版社 作者:黃建年 頁(yè)數(shù):148
Tag標(biāo)簽:無(wú)
內(nèi)容概要
《古籍計(jì)算機(jī)斷句標(biāo)點(diǎn)與分詞標(biāo)引研究》以古籍中的農(nóng)業(yè)文獻(xiàn)及農(nóng)史信息資源為研究對(duì)象,利用計(jì)算機(jī)技術(shù)及現(xiàn)代情報(bào)技術(shù)進(jìn)行整理與開(kāi)發(fā),但各冊(cè)研究重點(diǎn)并非完全一致,或標(biāo)點(diǎn)與分詞,或編纂與校勘,或知識(shí)組織,或內(nèi)容挖掘,或索引編制,或關(guān)注信息門(mén)戶,或研究古籍?dāng)?shù)字化技術(shù)。雖各有分工、各有側(cè)重,但卻互相補(bǔ)充、緊密聯(lián)系。
作者簡(jiǎn)介
黃建年,男,1966年生,研究館員,1990年畢業(yè)于北京大學(xué)圖書(shū)館學(xué)專業(yè)本科,獲得文學(xué)學(xué)士學(xué)位,2004年、2009年分別于南京大學(xué)、南京農(nóng)業(yè)大學(xué)獲得管理學(xué)碩士、理學(xué)博士學(xué)位。先后擔(dān)任圖書(shū)館辦公室主任、圖書(shū)館館長(zhǎng)助理、物資設(shè)備處副處長(zhǎng)等職。曾兼職擔(dān)任鎮(zhèn)江市圖書(shū)館學(xué)會(huì)學(xué)術(shù)委員會(huì)副主任,現(xiàn)為江蘇省黃氏文化研究會(huì)(籌)常務(wù)理事。主持或者參與國(guó)家社科基金項(xiàng)目、教育部人文社會(huì)科學(xué)基金項(xiàng)目、江蘇省教育廳高校社科基金項(xiàng)目等10余項(xiàng),在《中國(guó)圖書(shū)館學(xué)報(bào)》、《情報(bào)學(xué)報(bào)》等各類刊物上發(fā)表學(xué)術(shù)論文60余篇,出版專著2部,開(kāi)發(fā)軟件2種。主要研究方向:古籍整理、數(shù)字圖書(shū)館、信息組織。
侯漢清,南京農(nóng)業(yè)大學(xué)信息科技學(xué)院教授、博導(dǎo),中國(guó)索引學(xué)會(huì)副理事長(zhǎng)。主要專著有《主題法導(dǎo)論》(1991年)、《索引技術(shù)和索引標(biāo)準(zhǔn)》(1997年)、《當(dāng)代分類法主題法索引法研究》(1997年)、《文獻(xiàn)分類法主題法導(dǎo)論》(1999年)、《圖書(shū)館學(xué)五定律》(譯著,1984年)、《引文索引法的理論及其應(yīng)用》(譯著,2003年)、《情報(bào)檢索語(yǔ)言與智能信息處理叢書(shū)》(主編,2009年)等。主持或參與主持國(guó)家級(jí)項(xiàng)目6項(xiàng),主編或參與主編《中國(guó)分類主題詞表》、《社會(huì)科學(xué)檢索詞表》等國(guó)內(nèi)主要詞表和分類表多部。研究方向:信息組織、信息檢索、信息智能處理。
書(shū)籍目錄
序一
序二
序三
1 緒論
1.1 課題依據(jù)及意義
1.2 國(guó)內(nèi)外研究綜述
1.3 研究的主要理論與技術(shù)路線
1.4 研究的主要內(nèi)容、結(jié)構(gòu)與創(chuàng)新之處
2 古籍?dāng)嘌畼?biāo)點(diǎn)技術(shù)研究
2.1 斷句標(biāo)點(diǎn)概述
2.2 古籍自動(dòng)斷句標(biāo)點(diǎn)技術(shù)進(jìn)展
2.3 古籍自動(dòng)斷句標(biāo)點(diǎn)算法、流程與功能設(shè)計(jì)
2.4 實(shí)驗(yàn)結(jié)果評(píng)價(jià)與展望
2.5 本章小結(jié)
3 古 籍分詞標(biāo)引技術(shù)研究
3.1 古籍文本分詞標(biāo)引研究進(jìn)展
3.2 分詞標(biāo)引理論與關(guān)鍵技術(shù)研究
3.3 自動(dòng)分詞主要算法與流程
3.4 分詞效果測(cè)試
3.5 分詞結(jié)果分析
3.6 分詞結(jié)果應(yīng)用
3.7 本章小結(jié)
4 古籍整理與開(kāi)發(fā)系統(tǒng)的構(gòu)建與集成
4.1 系統(tǒng)開(kāi)發(fā)背景
4.2 古籍?dāng)嗑錁?biāo)點(diǎn)子系統(tǒng)
4.3 古籍分詞子系統(tǒng)
4.4 古籍系統(tǒng)設(shè)置子系統(tǒng)
4.5 本章小結(jié)
5 結(jié)語(yǔ)
6 附錄
附錄一 計(jì)算機(jī)斷句樣例
附錄二 計(jì)算機(jī)標(biāo)點(diǎn)樣例
附錄三 標(biāo)點(diǎn)規(guī)則庫(kù)樣例
附錄四 計(jì)算機(jī)分詞樣例
附錄五 常用農(nóng)業(yè)史資料、索引一覽表
附錄六 新中國(guó)農(nóng)業(yè)古籍整理出版簡(jiǎn)目
附錄七 《廣州府志》等四種古籍索引樣例
附錄八 全書(shū)索引
后記
章節(jié)摘錄
版權(quán)頁(yè):插圖:索引編制自動(dòng)化主要集中在逐字索引,而對(duì)詞的索引研究不多,所以本論文的研究重點(diǎn)在索引詞匯的識(shí)別,通過(guò)自動(dòng)識(shí)別索引詞匯,然后實(shí)現(xiàn)索引的自動(dòng)編制,編制出真正基于語(yǔ)詞的古籍索引。3.2 分詞標(biāo)引理論與關(guān)鍵技術(shù)研究3.2.1 分詞詞典研究分詞詞典是基于詞典分詞的漢語(yǔ)自動(dòng)分詞系統(tǒng)的一個(gè)組成部分,也是影響系統(tǒng)性能的重要因素之一?;谠~典的自動(dòng)分詞系統(tǒng)所需的各類信息基本上從分詞詞典中獲取。考核分詞詞典質(zhì)量主要有兩個(gè)指標(biāo):①詞典的內(nèi)容,即詞典中收錄詞匯的數(shù)量與質(zhì)量,它對(duì)分詞精度有著很大的影響。一個(gè)好的詞典要具備通用性好、覆蓋率高的優(yōu)點(diǎn)。②詞典的組織形式。系統(tǒng)在進(jìn)行分詞及標(biāo)注時(shí)需要頻繁地查詢?cè)~典,詞典的查詢速度直接影響到分詞系統(tǒng)的速度,因而必須有效地組織詞典,從而提高系統(tǒng)的整體性能。建立詞典有兩種方法:①建立靜態(tài)詞庫(kù),這是一種簡(jiǎn)單直接的方法。靜態(tài)詞庫(kù)以國(guó)家技術(shù)監(jiān)督局1993年發(fā)布的GB/T13715-92《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》為依據(jù),其特征是針對(duì)信息處理的基本需要、以人為本、考慮詞的常用性,整個(gè)詞表分成詞庫(kù)、帶字母詞庫(kù)、專名庫(kù)、常用接續(xù)庫(kù)、成語(yǔ)庫(kù)、俗語(yǔ)庫(kù)以及單字詞庫(kù)等7個(gè)分詞庫(kù)。該規(guī)范具有較強(qiáng)通用性及覆蓋能力,對(duì)推動(dòng)漢語(yǔ)自動(dòng)分詞研究的發(fā)展,起到了積極作用。但該方法的不足之處在于字典所能包含的單詞有限,對(duì)于特定領(lǐng)域的某些單詞無(wú)法包含。并且對(duì)于某個(gè)特定領(lǐng)域的應(yīng)用來(lái)說(shuō),實(shí)際需要的單詞要少得多,大而全的字典反而影響分詞的效率和準(zhǔn)確率。②建立動(dòng)態(tài)詞庫(kù),動(dòng)態(tài)詞庫(kù)也稱為智能詞庫(kù),使用統(tǒng)計(jì)方法通過(guò)對(duì)大量的語(yǔ)料文本進(jìn)行處理來(lái)建立詞典。智能詞典的基本思想是:先用無(wú)詞典法按照一定算法對(duì)分詞文本進(jìn)行特征提取,提取出中頻詞與高頻詞兩類,按照一定的算法決定高頻詞是否為新詞,若有新詞則添加到臨時(shí)詞典,然后按照機(jī)械分詞算法進(jìn)行分詞。智能詞典定時(shí)地對(duì)臨時(shí)詞典進(jìn)行處理,按照一定的算法提取特征詞,將其放人詞典。該方法針對(duì)特定領(lǐng)域,詞典的規(guī)模相比于通用詞典要小得多,其分詞的效率比第一種方法要高。更重要的是,這種方法統(tǒng)計(jì)大量的語(yǔ)料文本,能包括本領(lǐng)域的幾乎所有單詞,其分詞的準(zhǔn)確率也比前一種方法高。
編輯推薦
《古籍計(jì)算機(jī)斷句標(biāo)點(diǎn)與分詞標(biāo)引研究》是中華農(nóng)業(yè)文明研究院文庫(kù)?文化典籍計(jì)算機(jī)整理與知識(shí)組織叢書(shū)之一。
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
古籍計(jì)算機(jī)斷句標(biāo)點(diǎn)與分詞標(biāo)引研究 PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版