現(xiàn)代漢語(yǔ)詞語(yǔ)級(jí)歧義自動(dòng)消解研究

出版時(shí)間:2008-12  出版社:科學(xué)出版社  作者:曲維光  頁(yè)數(shù):255  

前言

  欣聞曲維光博上的專(zhuān)著《現(xiàn)代漢語(yǔ)詞語(yǔ)級(jí)歧義自動(dòng)消解研究》即將出版,我由衷地感到高興。曲維光博士要我寫(xiě)個(gè)序言,實(shí)在是盛情難卻。為他人的著作作序,在我的學(xué)術(shù)生涯中還是第一次。我以為,寫(xiě)“序言”是一件極其困難的任務(wù),不僅要領(lǐng)會(huì)全書(shū)的精要,還要了解相關(guān)學(xué)科的全局以及該書(shū)對(duì)學(xué)科發(fā)展的貢獻(xiàn)。就能力和精力而言,我確實(shí)難以勝任。然而,曲維光博士2006年初進(jìn)北京大學(xué)汁算機(jī)科學(xué)技術(shù)博士后工作站,兩年期『日J(rèn)與我密切合作。他不僅刻苦努力,勤于思索,出色完成了博士后研究任務(wù),為我承擔(dān)的973課題“文本內(nèi)容理解的數(shù)據(jù)基礎(chǔ)”貢獻(xiàn)了力量;而且富有協(xié)作精神,與北京大學(xué)汁算語(yǔ)言學(xué)研究所師生結(jié)下了深厚的友誼。同時(shí),我知道曲維光博士的導(dǎo)師陳小荷教授已經(jīng)為本書(shū)寫(xiě)了序言,相信“序言”的任務(wù)已經(jīng)完成。我自覺(jué)壓力不那么大了,只不過(guò)是再加上自己的讀后感而已。  當(dāng)前自然語(yǔ)言處理研究的主攻方向,是讓機(jī)器能夠自動(dòng)地識(shí)別和消解自然語(yǔ)言的歧義。曲維光博士的研究重點(diǎn)是詞語(yǔ)級(jí)的各種類(lèi)型的歧義消解,這是自然語(yǔ)言處理研究的基本課題,已經(jīng)研究很多年了,但沒(méi)有徹底解決,甚至離徹底解決尚有很長(zhǎng)的路要走。這種情況一方面i兌明,這里有創(chuàng)新的機(jī)會(huì)和發(fā)展的空間,另一方面也i兌明,創(chuàng)新和發(fā)展的難度很大??梢哉f(shuō),曲維光博士是在打攻堅(jiān)戰(zhàn)?! ∪魏我粋€(gè)語(yǔ)言單位脫離其語(yǔ)境(不妨狹義地理解為該語(yǔ)言單位的上下文)都有可能產(chǎn)生歧義,消解歧義的所有方法都要利用其語(yǔ)境信息。不同的問(wèn)題、不同的方法所利用的語(yǔ)境的范圍各不相同。就詞語(yǔ)級(jí)歧義而言,語(yǔ)境通常約束為研究對(duì)象在語(yǔ)句中左右相鄰的若干個(gè)詞語(yǔ)。曲維光博士提出的浯境計(jì)算模型RFR_SUM利用了研究對(duì)象在整個(gè)語(yǔ)料庫(kù)中的相關(guān)信息,取得了很好的消歧效果。這是本書(shū)最重要的創(chuàng)新成果,值得向讀者推薦。在這里試做一個(gè)淺顯的解說(shuō)。

內(nèi)容概要

  《現(xiàn)代漢語(yǔ)詞語(yǔ)級(jí)歧義自動(dòng)消解研究》提出基于詞語(yǔ)搭配強(qiáng)度計(jì)算的語(yǔ)境計(jì)算模型RFRSUM(SUMofRelativeFrequencyRatio),用于處理各類(lèi)詞語(yǔ)級(jí)的歧義消解問(wèn)題。各章節(jié)的順序大致勾勒出該模型形成和發(fā)展的軌跡。提出廣義組配理論框架,并據(jù)此建立語(yǔ)境計(jì)算模型RFR_SUM,用以處理語(yǔ)言中廣泛存在的詞語(yǔ)級(jí)歧義現(xiàn)象。將RFR—SUM模型應(yīng)用于中文信息處理中的組合型切分歧義和交集型切分歧義的消解、兼類(lèi)詞的消解、多音詞的消解以及詞義消歧、語(yǔ)料庫(kù)精加工、隱喻識(shí)別等多項(xiàng)任務(wù)中,均取得滿(mǎn)意的結(jié)果,驗(yàn)證了該理論的普適性?!冬F(xiàn)代漢語(yǔ)詞語(yǔ)級(jí)歧義自動(dòng)消解研究》可以作為從事自然語(yǔ)言處理和計(jì)算語(yǔ)言學(xué)相關(guān)研究人員的參考書(shū)。

書(shū)籍目錄

序一序二緒論1 自然語(yǔ)言處理的根本問(wèn)題2 詞語(yǔ)搭配問(wèn)題的研究3 本書(shū)的主要研究?jī)?nèi)容第1章 詞語(yǔ)組配的研究現(xiàn)狀1.1 漢語(yǔ)詞語(yǔ)組配及其性質(zhì)1.2 國(guó)外詞語(yǔ)搭配研究現(xiàn)狀1.3 國(guó)內(nèi)詞語(yǔ)搭配研究現(xiàn)狀第2章 詞語(yǔ)搭配的自動(dòng)抽取研究2.1 詞語(yǔ)搭配的抽取方法2.2 搭配抽取框架的建立2.3 實(shí)驗(yàn)及其結(jié)果第3章 廣義組配理論3.1 廣義組配理論的提出3.2 語(yǔ)境的可計(jì)算性第4章 語(yǔ)境計(jì)算模型RFR_SUM4.1 相對(duì)詞頻比RFR4.2 基本RFR_SUM模型第5章 RFR_SUM模型在分詞消歧中的應(yīng)用5.1 RFR_SUM模型應(yīng)用于組合型消歧5.2 RFR_SUM模型應(yīng)用于交集型消歧第6章 兼類(lèi)詞與多音詞的消歧6.1 RFR_SUM模型在兼類(lèi)詞消解中的應(yīng)用6.2 基于RFR_SUM模型的多音詞的消歧第7章 詞義消歧研究7.1 RFR_SUM模型在詞義消歧中的應(yīng)用7.2 無(wú)需詞性標(biāo)注語(yǔ)料的詞義消歧實(shí)驗(yàn)第8章 詞義消歧的二元模型及集成研究8.1 81_RFR_SUM模型8.1.1 二元搭配強(qiáng)度和二元相對(duì)詞頻比(B1_RFR)8.1.2 81_RFR_SUM模型8.1.3 實(shí)驗(yàn)及結(jié)果8.2 UNl_RFR_SUM與Bl_RFR_SUM的集成8.3 多分類(lèi)問(wèn)題研究第9章 超大規(guī)模語(yǔ)料精加工技術(shù)研究9.1 問(wèn)題的提出9.2 現(xiàn)有標(biāo)注軟件的性能指標(biāo)的計(jì)量研究9.2.1 ICTCl.AS系統(tǒng)標(biāo)注結(jié)果分析9.2.2 系統(tǒng)改進(jìn)探討9.3 語(yǔ)料精加工的方法9.3.1 詞表校對(duì)法9.3.2 基于簡(jiǎn)單詞語(yǔ)組合特性的方法9.3.3 基于多元組比對(duì)的方法9.3.4 基于RFR_SUM模型的方法9.4 初步實(shí)驗(yàn)結(jié)果第10章 隱喻識(shí)別研究10.1 隱喻研究現(xiàn)狀10.2 隱喻研究的意義l0.3 隱喻研究的內(nèi)容和方案10.4 初步的研究成果結(jié)語(yǔ)1 本研究完成的主要工作2 進(jìn)一步研究計(jì)劃主要參考文獻(xiàn)附錄l 北京大學(xué)漢語(yǔ)文本詞性標(biāo)注集附錄2 組合型切分歧義強(qiáng)弱勢(shì)比例附錄3 “從?。瘜W(xué)”圳練用例句附錄4 “應(yīng)/用于”訓(xùn)練用例句附錄5 “應(yīng)用于”測(cè)試集._附錄6 “從小學(xué)”測(cè)試集附錄7 “科學(xué)”詞性標(biāo)注開(kāi)放測(cè)試中標(biāo)注錯(cuò)誤句子附錄8 “黃色”詞義消歧中錯(cuò)誤句子附錄9 “黃金”訌J義消歧中錯(cuò)誤句子附錄10 經(jīng)改進(jìn)后,“黃金”詞義消歧中錯(cuò)誤句子附錄11 經(jīng)改進(jìn)后,“黃色”詞義消歧中錯(cuò)誤句子附錄12 “黃色”詞義開(kāi)話(huà)測(cè)試錯(cuò)誤句子附錄13 “黃金”詞義開(kāi)放測(cè)試錯(cuò)誤句子附錄14 “分子”分類(lèi)錯(cuò)誤的句子附錄15 “材料”分類(lèi)錯(cuò)誤的句子-_附錄16 “著/u”和“著/v”校對(duì)出錯(cuò)洪的句子附錄17 “本書(shū)/r”和“本/q書(shū)/n”校對(duì)對(duì)錯(cuò)誤的句子后記

章節(jié)摘錄

  第2章 詞語(yǔ)搭配的自動(dòng)抽取研究  對(duì)于詞語(yǔ)搭配的自動(dòng)抽取,國(guó)外較早開(kāi)展了相關(guān)領(lǐng)域的研究。Smadja的Xtract系統(tǒng)是迄今為止關(guān)于搭配定量分析最為成功的工作。在Xtract系統(tǒng)中,Smadja提出了度量詞語(yǔ)對(duì)之間搭配強(qiáng)度的汁算公式,引入了位置信息以及相關(guān)統(tǒng)計(jì)數(shù)據(jù)分布的離散度計(jì)算公式,集成了語(yǔ)料庫(kù)語(yǔ)言學(xué)中詞性自動(dòng)標(biāo)注技術(shù),在一個(gè)規(guī)模為一千萬(wàn)詞語(yǔ)的股票市場(chǎng)聞報(bào)告語(yǔ)料庫(kù)上運(yùn)行Xtract得到的結(jié)果顯示,搭配提取的準(zhǔn)確率達(dá)到80%?! ∥覈?guó)學(xué)者也在漢語(yǔ)詞語(yǔ)搭配研究領(lǐng)域做了大量辛勤的工作,出版了多部詞語(yǔ)搭配詞典。但這些詞典的編纂,主要還是使用手工抽詞的方式,其搭配詞語(yǔ)的客觀性、覆蓋度,以及對(duì)中文信息處理的貢獻(xiàn)都有待進(jìn)一步檢驗(yàn)。對(duì)中文詞語(yǔ)搭配的自動(dòng)抽取研究相對(duì)比較少,其中以孫松的工作最為完整和深入,但其算法自動(dòng)發(fā)現(xiàn)搭配的準(zhǔn)確率只有33。94%。這對(duì)于建立大規(guī)模詞語(yǔ)搭配知識(shí)庫(kù)來(lái)說(shuō),無(wú)疑會(huì)加重人工校對(duì)的負(fù)擔(dān),而且使搭配獲取的客觀性受到影響?! ?duì)現(xiàn)有中文詞語(yǔ)的搭配抽取方法進(jìn)行研究,發(fā)現(xiàn)需要在以下幾個(gè)方面加以改進(jìn): ?。?)實(shí)驗(yàn)所用的語(yǔ)料,大多只經(jīng)過(guò)分詞處理,沒(méi)有經(jīng)過(guò)詞性標(biāo)注,這使得語(yǔ)料中缺少了搭配所需的重要信息?! 。?)抽取搭配詞匯的同時(shí),沒(méi)有抽取出搭配的結(jié)構(gòu)信息?! 。?)搭配抽取方案中沒(méi)有充分利用語(yǔ)言學(xué)知識(shí)?! ?hellip;…

圖書(shū)封面

評(píng)論、評(píng)分、閱讀與下載


    現(xiàn)代漢語(yǔ)詞語(yǔ)級(jí)歧義自動(dòng)消解研究 PDF格式下載


用戶(hù)評(píng)論 (總計(jì)0條)

 
 

 

250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7