出版時(shí)間:2008-10 出版社:清華大學(xué)出版社 作者:劉群 頁(yè)數(shù):153
Tag標(biāo)簽:無(wú)
前言
自然語(yǔ)言處理技術(shù)的產(chǎn)生可以追溯到20世紀(jì)50年代,它是一門集語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)等于一體的綜合性交又學(xué)科。近幾年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和通信技術(shù)的迅速發(fā)展和普及,自然語(yǔ)言處理技術(shù)的應(yīng)用需求急劇增加,人們迫切需要實(shí)用的自然語(yǔ)言處理技術(shù)來(lái)幫助人們打破語(yǔ)言屏障,為人際之間、人機(jī)之問(wèn)的信息交流提供便捷、自然、有效的人性化服務(wù)。但是,自然語(yǔ)言處理中的若干科學(xué)問(wèn)題和技術(shù)難題尚未得到解決,有待于來(lái)自不同領(lǐng)域的學(xué)者深入研究和探索?! ≈形男畔⑻幚碜鳛樽匀徽Z(yǔ)言處理中的一個(gè)分支,近幾年來(lái)備受關(guān)注。一方面,隨著中國(guó)經(jīng)濟(jì)的迅速發(fā)展和中國(guó)國(guó)力的不斷增強(qiáng),漢語(yǔ)正在成為一種新的強(qiáng)勢(shì)語(yǔ)言而被世人矚目,漢語(yǔ)理解所涉及的科學(xué)問(wèn)題讓國(guó)際計(jì)算語(yǔ)言學(xué)界無(wú)法回避;而另一方面,漢語(yǔ)使用者所擁有的巨大市場(chǎng)潛力令國(guó)際企業(yè)界不敢輕視。因此,中文信息處理成為全球自然語(yǔ)言處理研究者們共同關(guān)注的問(wèn)題已經(jīng)是不爭(zhēng)的事實(shí)。目前國(guó)際上每年舉行的頗具影響的幾種技術(shù)評(píng)測(cè),包括機(jī)器翻澤評(píng)測(cè)、信息抽取評(píng)測(cè)和句法分析評(píng)測(cè)等,無(wú)不與漢語(yǔ)密切相關(guān)。因此,作為炎黃子孫,我們沒(méi)有理由不在這一領(lǐng)域的研究中做出應(yīng)有的貢獻(xiàn)?! ≈形男畔⑻幚硭媾R的困難既有其他任何一種自然語(yǔ)言處理都會(huì)遇到的共性問(wèn)題,如生詞識(shí)別問(wèn)題、歧義消解問(wèn)題等,也有中文處理本身所具有的個(gè)性問(wèn)題,如漢語(yǔ)自動(dòng)分詞問(wèn)題、詞性定義規(guī)范問(wèn)題等。因此,從某種意義上講,中文信息處理更具挑戰(zhàn)性。值得欣慰的是,中文信息處理在引起國(guó)際學(xué)術(shù)界和企業(yè)界關(guān)注的同時(shí),得到了中國(guó)政府的重視和大力支持,它已經(jīng)被列入國(guó)務(wù)院批準(zhǔn)的“國(guó)家中長(zhǎng)期科學(xué)技術(shù)發(fā)展規(guī)劃綱要”。因此,中文信息處理面臨著前所未有的大好機(jī)遇?! 〗鼛啄陙?lái),我國(guó)的中文信息處理技術(shù)得到了快速發(fā)展,無(wú)論是在基礎(chǔ)理論研究方面,還是在技術(shù)開(kāi)發(fā)和產(chǎn)業(yè)化發(fā)展方面,都取得了顯著成績(jī),一大批青年學(xué)者投身到這一領(lǐng)域中。為了使這一領(lǐng)域的廣大學(xué)者,尤其是青年學(xué)生,全面了解中文信息處理的技術(shù)現(xiàn)狀,進(jìn)一步推動(dòng)中文信息處理及其相關(guān)學(xué)科的快速發(fā)展,我們組織編寫并出版了這套中文信息處理叢書。
內(nèi)容概要
本書是作者所在的課題組近年來(lái)在漢英機(jī)器翻譯研究方面所取得進(jìn)展的一個(gè)階段性總結(jié)。內(nèi)容涉及漢英機(jī)器翻譯的各個(gè)主要方面及關(guān)鍵技術(shù),包括對(duì)目前國(guó)際上機(jī)器翻譯研究進(jìn)展的綜述,漢語(yǔ)詞法分析技術(shù)、漢語(yǔ)句法分析技術(shù)、漢語(yǔ)詞匯語(yǔ)義相似度計(jì)算、漢英雙語(yǔ)語(yǔ)料庫(kù)的詞語(yǔ)對(duì)齊、語(yǔ)料庫(kù)的結(jié)構(gòu)對(duì)齊、基于結(jié)構(gòu)對(duì)齊語(yǔ)料庫(kù)的翻譯模板抽取、多引擎機(jī)器翻譯方法等多方面的研究成果。 本書可供從事計(jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理、中文信息處理、機(jī)器翻譯等領(lǐng)域研究工作的人士參考,也可以作為大學(xué)相關(guān)專業(yè)高年級(jí)本科生和研究生課程的參考書。
作者簡(jiǎn)介
劉群,研究員,教授,博士生導(dǎo)師. 職務(wù):自然語(yǔ)言處理研究組組長(zhǎng) 研究方向:自然語(yǔ)言處理,機(jī)器翻譯,信息提取 學(xué)術(shù)兼職: 中國(guó)計(jì)算機(jī)學(xué)會(huì)理事 中國(guó)計(jì)算機(jī)學(xué)會(huì)術(shù)語(yǔ)審定工作委員會(huì)主任 《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》編委 中國(guó)中文信息學(xué)會(huì)機(jī)器翻譯專委會(huì)副主任 中國(guó)中文信息學(xué)會(huì)語(yǔ)言資源建設(shè)和管理工作委員會(huì)(ChineseLDC)委員 《中文信息學(xué)報(bào)》編委 全國(guó)術(shù)語(yǔ)標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC62)委員 全國(guó)語(yǔ)言文字標(biāo)準(zhǔn)化技術(shù)委員會(huì)語(yǔ)法語(yǔ)篇分技術(shù)委員會(huì)副主任 中國(guó)科學(xué)院研究生院教授 SIGHAN2008程序委員會(huì)委員 ACL2008、ACL2009程序委員會(huì)委員 工作經(jīng)歷: 2003~現(xiàn)在中國(guó)科學(xué)院研究生院教授(兼職) 2006~現(xiàn)在中國(guó)科學(xué)院計(jì)算技術(shù)研究所,現(xiàn)任研究員、博士生導(dǎo)師 學(xué)歷 1999.9~2004.5北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所(在職學(xué)習(xí))獲理學(xué)博士學(xué)位 1989.9~1992.7中國(guó)科學(xué)院計(jì)算技術(shù)研究所獲工學(xué)碩士學(xué)位 1984.9~1989.7中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系獲工學(xué)學(xué)士學(xué)位 主持的科研項(xiàng)目: 融合語(yǔ)言知識(shí)與統(tǒng)計(jì)模型的機(jī)器翻譯方法研究(國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目,2008-2011) 面向跨語(yǔ)言搜索的機(jī)器翻譯關(guān)鍵技術(shù)研究(863重點(diǎn)項(xiàng)目課題,2007-2010) 基于短語(yǔ)結(jié)構(gòu)轉(zhuǎn)換模板的統(tǒng)計(jì)機(jī)器翻譯方法研究(國(guó)家自然科學(xué)基金,2006-2008) 面向領(lǐng)域可定制的漢英機(jī)器翻譯系統(tǒng)(863重點(diǎn)項(xiàng)目,1998-2000) 機(jī)器翻譯新方法的研究(863項(xiàng)目,2005-2006) 通用機(jī)器翻譯開(kāi)發(fā)平臺(tái)及漢英機(jī)器翻譯系統(tǒng)(863項(xiàng)目,1996-1998)
書籍目錄
第1章 機(jī)器翻譯方法綜述 1.1 機(jī)器翻譯的范式 1.2 基于平行語(yǔ)法的機(jī)器翻譯方法 1.2.1 Alshawi的基于加權(quán)中心詞轉(zhuǎn)錄機(jī)的統(tǒng)計(jì)機(jī)器翻譯方法 1.2.2 吳德凱的反向轉(zhuǎn)錄語(yǔ)法 1.2.3 Takeda的基于模式的機(jī)器翻譯上下文無(wú)關(guān)語(yǔ)法 1.3 基于實(shí)例的機(jī)器翻譯方法 1.3.1 起源與發(fā)展 1.3.2 Sato和Nagao的方法 1.3.3 Kaii的方法 1.3.4 CMU的泛化的基于實(shí)例的機(jī)器翻譯方法 1.3.5 基于實(shí)例的機(jī)器翻譯方法的優(yōu)缺點(diǎn) 1.4 基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法 1.4.1 IBM的統(tǒng)計(jì)機(jī)器翻譯方法 1.4.2 王野翊在卡內(nèi)基·梅隆大學(xué)(CMU)的工作 1.4.3 約翰·霍普金斯大學(xué)(JHU)的統(tǒng)計(jì)機(jī)器翻譯夏季研討班 1.4.4 Yamada和Knight的工作——基于句法的統(tǒng)計(jì)翻譯模型 1.4.5 Och等的工作 1.5 基于對(duì)數(shù)線性模型的統(tǒng)計(jì)機(jī)器翻譯方法 1.5.1 對(duì)數(shù)線性模型 1.5.2 基于短語(yǔ)的統(tǒng)計(jì)翻譯模型 1.5.3 基于句法的統(tǒng)計(jì)翻譯模型 1.6 多引擎機(jī)器翻譯方法 1.6.1 Pangloss系統(tǒng) 1.6.2 Verbmobil系統(tǒng) 1.7 機(jī)器翻譯方法的分類 1.7.1 按翻譯轉(zhuǎn)換的層面進(jìn)行分類 1.7.2 按語(yǔ)言知識(shí)的表示形式進(jìn)行分類 1.8 小結(jié)第2章 基于層疊隱馬爾可夫模型的漢語(yǔ)詞法分析 2.1 漢語(yǔ)分析技術(shù)概述 2.1.1 漢語(yǔ)詞法分析的難點(diǎn) 2.1.2 漢語(yǔ)詞法分析的任務(wù)和前人的工作 2.2 漢語(yǔ)詞法分析的層疊隱馬爾可夫模型 2.2.1 隱馬爾可夫模型簡(jiǎn)介 2.2.2 層疊隱馬爾可夫模型的結(jié)構(gòu) 2.2.3 層疊隱馬爾可夫模型的核心數(shù)據(jù)結(jié)構(gòu)——詞圖 2.2.4 層疊隱馬爾可夫模型的參數(shù)訓(xùn)練 2.3 粗切分:基于一元語(yǔ)法的N最短路徑方法 2.4 未定義詞識(shí)別:基于角色的隱馬爾可夫模型 2.4.1 模型的定義 2.4.2 角色的選取 2.4.3 角色的標(biāo)注 2.4.4 未定義詞的提取 2.4.5 參數(shù)訓(xùn)練 2.5 未定義詞的概率估計(jì):基于角色的詞語(yǔ)生成模型 2.5.1 問(wèn)題的由來(lái) 2.5.2 模型的定義 2.6 細(xì)切分:詞匯化的隱馬爾可夫模型 2.6.1 模型的定義 2.6.2 最短路徑的求解 2.6.3 參數(shù)估計(jì) 2.7 詞性標(biāo)注:基于詞性的隱馬爾可夫模型 2.7.1 基于隱馬爾可夫模型的詞性標(biāo)注 2.7.2 詞性標(biāo)記集的選擇與轉(zhuǎn)換 2.8 實(shí)驗(yàn)結(jié)果 2.8.1 各層隱馬爾可夫模型的對(duì)比實(shí)驗(yàn) 2.8.2 在國(guó)家“973”計(jì)劃評(píng)測(cè)中的測(cè)試結(jié)果 2.8.3 第一屆國(guó)際分詞大賽的評(píng)測(cè)結(jié)果 2.9 小結(jié)第3章 融合語(yǔ)義知識(shí)和詞匯化上下文概率語(yǔ)法的漢語(yǔ)句法分析 3.1 前言 3.2 Baseline句法分析器 3.3 語(yǔ)義知識(shí)集成 3.3.1 語(yǔ)義類抽取 3.3.2 構(gòu)建基于類的選擇偏向模型 3.3.3 實(shí)驗(yàn)結(jié)果 3.3.4 性能改進(jìn)分析 3.4 基于漢語(yǔ)賓州樹(shù)庫(kù)的句法分析相關(guān)工作 3.5 小結(jié)第4章 漢語(yǔ)詞法分析與句法分析融合策略研究 4.1 引言 4.2 句法分析系統(tǒng) 4.2.1 融合語(yǔ)義知識(shí)的詞匯化概率上下文無(wú)關(guān)語(yǔ)法模型 4.2.2 結(jié)構(gòu)上下文模型 4.2.3 多子模型句法分析器 4.3 詞法分析系統(tǒng)(ICTCLAS) 4.4 融合策略 4.4.1 切分轉(zhuǎn)換:基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí) 4.4.2 標(biāo)記轉(zhuǎn)換:條件隨機(jī)場(chǎng) 4.4.3 轉(zhuǎn)換實(shí)驗(yàn) 4.5 實(shí)驗(yàn)與分析 4.6 比較 4.7 小結(jié)第5章 基于“知網(wǎng)”的詞匯語(yǔ)義相似度計(jì)算 5.1 引言 5.2 詞語(yǔ)相似度及其計(jì)算的方法 5.2.1 什么是詞語(yǔ)相似度 5.2.2 詞語(yǔ)相似度與詞語(yǔ)距離 5.2.3 詞語(yǔ)相似度與詞語(yǔ)相關(guān)性 5.2.4 詞語(yǔ)相似度的計(jì)算方法 5.3 “知網(wǎng)”簡(jiǎn)介 5.3.1 “知網(wǎng)”的結(jié)構(gòu) 5.3.2 “知網(wǎng)”的知識(shí)描述語(yǔ)言 5.4 基于“知網(wǎng)”的語(yǔ)義相似度計(jì)算方法 5.4.1 詞語(yǔ)相似度計(jì)算 5.4.2 義原相似度計(jì)算 5.4.3 虛詞概念的相似度的計(jì)算 5.4.4 實(shí)詞概念的相似度的計(jì)算 5.5 實(shí)驗(yàn)及結(jié)果 5.6 小結(jié)第6章 詞語(yǔ)對(duì)齊的對(duì)數(shù)線性模型 6.1 引言 6.2 對(duì)數(shù)線性模型 6.3 特征函數(shù) 6.3.1 IBM翻譯模型 6.3.2 詞性標(biāo)記轉(zhuǎn)換模型 6.3.3 雙語(yǔ)詞典 6.4 訓(xùn)練 6.5 搜索 6.6 實(shí)驗(yàn)結(jié)果 6.7 小結(jié)第7章 一種雙語(yǔ)短語(yǔ)結(jié)構(gòu)對(duì)齊搜索算法 7.1 雙語(yǔ)對(duì)齊技術(shù)概述 7.1.1 各種層次的語(yǔ)言單位上的對(duì)齊技術(shù) 7.1.2 短語(yǔ)結(jié)構(gòu)對(duì)齊的定義 7.1.3 短語(yǔ)結(jié)構(gòu)對(duì)齊的過(guò)程 7.1.4 短語(yǔ)結(jié)構(gòu)對(duì)齊的問(wèn)題和難點(diǎn) 7.1.5 現(xiàn)有的短語(yǔ)結(jié)構(gòu)對(duì)齊技術(shù) 7.2 一種雙語(yǔ)短語(yǔ)結(jié)構(gòu)對(duì)齊的搜索算法 7.2.1 算法簡(jiǎn)介 7.2.2 局部對(duì)齊 7.2.3 短語(yǔ)結(jié)構(gòu)對(duì)齊的柱形搜索(beam search)算法 7.2.4 局部對(duì)齊的歸并 7.2.5 局部對(duì)齊的評(píng)分 7.2.6 搜索算法的時(shí)間復(fù)雜度分析 7.3 實(shí)驗(yàn)及結(jié)果分析 7.3.1 實(shí)驗(yàn)方案 7.3.2 實(shí)驗(yàn)語(yǔ)料來(lái)源及規(guī)模 7.3.3 短語(yǔ)結(jié)構(gòu)對(duì)齊的實(shí)例分析 7.3.4 實(shí)驗(yàn)結(jié)果及分析 7.3.5 實(shí)驗(yàn)結(jié)果的進(jìn)一步分析 7.4 小結(jié)第8章 短語(yǔ)結(jié)構(gòu)轉(zhuǎn)換模板的提取與應(yīng)用 8.1 基于模板的機(jī)器翻譯概述 8.2 短語(yǔ)結(jié)構(gòu)轉(zhuǎn)換模板定義 8.3 短語(yǔ)結(jié)構(gòu)轉(zhuǎn)換模板舉例 8.4 短語(yǔ)結(jié)構(gòu)轉(zhuǎn)換模板的提取 8.5 短語(yǔ)結(jié)構(gòu)轉(zhuǎn)換模板的應(yīng)用——基于模板的轉(zhuǎn)換 8.6 實(shí)驗(yàn)結(jié)果 8.6.1 實(shí)驗(yàn)語(yǔ)料的來(lái)源及規(guī)模 8.6.2 實(shí)驗(yàn)結(jié)果分析 8.7 小結(jié)第9章 微引擎流水線機(jī)器翻譯系統(tǒng)結(jié)構(gòu) 9.1 微引擎流水線的基本思想 9.2 微引擎流水線的系統(tǒng)結(jié)構(gòu) 9.3 微引擎流水線的公共數(shù)據(jù)結(jié)構(gòu) 9.4 各種微引擎的程序接口和功能說(shuō)明 9.5 微引擎調(diào)度算法 9.6 面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng) 9.6.1 研究背景 9.6.2 系統(tǒng)實(shí)現(xiàn)方案 9.7 實(shí)驗(yàn)結(jié)果及分析 9.8 小結(jié)第10章 總結(jié)及今后的工作附錄 漢語(yǔ)詞性標(biāo)記集ICTPOS參考文獻(xiàn)后
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
漢英機(jī)器翻譯若干關(guān)鍵技術(shù)研究 PDF格式下載