漢英機器翻譯若干關鍵技術研究

出版時間:2008-10  出版社:清華大學出版社  作者:劉群  頁數(shù):153  
Tag標簽:無  

前言

  自然語言處理技術的產(chǎn)生可以追溯到20世紀50年代,它是一門集語言學、數(shù)學、計算機科學和認知科學等于一體的綜合性交又學科。近幾年來,隨著計算機網(wǎng)絡技術和通信技術的迅速發(fā)展和普及,自然語言處理技術的應用需求急劇增加,人們迫切需要實用的自然語言處理技術來幫助人們打破語言屏障,為人際之間、人機之問的信息交流提供便捷、自然、有效的人性化服務。但是,自然語言處理中的若干科學問題和技術難題尚未得到解決,有待于來自不同領域的學者深入研究和探索?! ≈形男畔⑻幚碜鳛樽匀徽Z言處理中的一個分支,近幾年來備受關注。一方面,隨著中國經(jīng)濟的迅速發(fā)展和中國國力的不斷增強,漢語正在成為一種新的強勢語言而被世人矚目,漢語理解所涉及的科學問題讓國際計算語言學界無法回避;而另一方面,漢語使用者所擁有的巨大市場潛力令國際企業(yè)界不敢輕視。因此,中文信息處理成為全球自然語言處理研究者們共同關注的問題已經(jīng)是不爭的事實。目前國際上每年舉行的頗具影響的幾種技術評測,包括機器翻澤評測、信息抽取評測和句法分析評測等,無不與漢語密切相關。因此,作為炎黃子孫,我們沒有理由不在這一領域的研究中做出應有的貢獻?! ≈形男畔⑻幚硭媾R的困難既有其他任何一種自然語言處理都會遇到的共性問題,如生詞識別問題、歧義消解問題等,也有中文處理本身所具有的個性問題,如漢語自動分詞問題、詞性定義規(guī)范問題等。因此,從某種意義上講,中文信息處理更具挑戰(zhàn)性。值得欣慰的是,中文信息處理在引起國際學術界和企業(yè)界關注的同時,得到了中國政府的重視和大力支持,它已經(jīng)被列入國務院批準的“國家中長期科學技術發(fā)展規(guī)劃綱要”。因此,中文信息處理面臨著前所未有的大好機遇?! 〗鼛啄陙恚覈闹形男畔⑻幚砑夹g得到了快速發(fā)展,無論是在基礎理論研究方面,還是在技術開發(fā)和產(chǎn)業(yè)化發(fā)展方面,都取得了顯著成績,一大批青年學者投身到這一領域中。為了使這一領域的廣大學者,尤其是青年學生,全面了解中文信息處理的技術現(xiàn)狀,進一步推動中文信息處理及其相關學科的快速發(fā)展,我們組織編寫并出版了這套中文信息處理叢書。

內容概要

本書是作者所在的課題組近年來在漢英機器翻譯研究方面所取得進展的一個階段性總結。內容涉及漢英機器翻譯的各個主要方面及關鍵技術,包括對目前國際上機器翻譯研究進展的綜述,漢語詞法分析技術、漢語句法分析技術、漢語詞匯語義相似度計算、漢英雙語語料庫的詞語對齊、語料庫的結構對齊、基于結構對齊語料庫的翻譯模板抽取、多引擎機器翻譯方法等多方面的研究成果。    本書可供從事計算語言學、自然語言處理、中文信息處理、機器翻譯等領域研究工作的人士參考,也可以作為大學相關專業(yè)高年級本科生和研究生課程的參考書。

作者簡介

  劉群,研究員,教授,博士生導師.  職務:自然語言處理研究組組長  研究方向:自然語言處理,機器翻譯,信息提取  學術兼職:  中國計算機學會理事  中國計算機學會術語審定工作委員會主任  《中國計算機學會通訊》編委  中國中文信息學會機器翻譯專委會副主任  中國中文信息學會語言資源建設和管理工作委員會(ChineseLDC)委員  《中文信息學報》編委  全國術語標準化技術委員會(SAC/TC62)委員  全國語言文字標準化技術委員會語法語篇分技術委員會副主任  中國科學院研究生院教授  SIGHAN2008程序委員會委員  ACL2008、ACL2009程序委員會委員  工作經(jīng)歷:  2003~現(xiàn)在中國科學院研究生院教授(兼職)  2006~現(xiàn)在中國科學院計算技術研究所,現(xiàn)任研究員、博士生導師  學歷  1999.9~2004.5北京大學計算語言學研究所(在職學習)獲理學博士學位  1989.9~1992.7中國科學院計算技術研究所獲工學碩士學位  1984.9~1989.7中國科學技術大學計算機系獲工學學士學位  主持的科研項目:  融合語言知識與統(tǒng)計模型的機器翻譯方法研究(國家自然科學基金重點項目,2008-2011)  面向跨語言搜索的機器翻譯關鍵技術研究(863重點項目課題,2007-2010)  基于短語結構轉換模板的統(tǒng)計機器翻譯方法研究(國家自然科學基金,2006-2008)  面向領域可定制的漢英機器翻譯系統(tǒng)(863重點項目,1998-2000)  機器翻譯新方法的研究(863項目,2005-2006)  通用機器翻譯開發(fā)平臺及漢英機器翻譯系統(tǒng)(863項目,1996-1998)

書籍目錄

第1章  機器翻譯方法綜述  1.1  機器翻譯的范式  1.2  基于平行語法的機器翻譯方法    1.2.1  Alshawi的基于加權中心詞轉錄機的統(tǒng)計機器翻譯方法    1.2.2  吳德凱的反向轉錄語法    1.2.3  Takeda的基于模式的機器翻譯上下文無關語法  1.3  基于實例的機器翻譯方法    1.3.1  起源與發(fā)展    1.3.2  Sato和Nagao的方法    1.3.3  Kaii的方法    1.3.4  CMU的泛化的基于實例的機器翻譯方法    1.3.5  基于實例的機器翻譯方法的優(yōu)缺點  1.4  基于信源信道模型的統(tǒng)計機器翻譯方法    1.4.1  IBM的統(tǒng)計機器翻譯方法    1.4.2  王野翊在卡內基·梅隆大學(CMU)的工作    1.4.3  約翰·霍普金斯大學(JHU)的統(tǒng)計機器翻譯夏季研討班    1.4.4  Yamada和Knight的工作——基于句法的統(tǒng)計翻譯模型    1.4.5  Och等的工作  1.5  基于對數(shù)線性模型的統(tǒng)計機器翻譯方法    1.5.1  對數(shù)線性模型    1.5.2  基于短語的統(tǒng)計翻譯模型    1.5.3  基于句法的統(tǒng)計翻譯模型  1.6  多引擎機器翻譯方法    1.6.1  Pangloss系統(tǒng)    1.6.2  Verbmobil系統(tǒng)  1.7  機器翻譯方法的分類    1.7.1  按翻譯轉換的層面進行分類    1.7.2  按語言知識的表示形式進行分類  1.8  小結第2章  基于層疊隱馬爾可夫模型的漢語詞法分析  2.1  漢語分析技術概述    2.1.1  漢語詞法分析的難點    2.1.2  漢語詞法分析的任務和前人的工作  2.2  漢語詞法分析的層疊隱馬爾可夫模型    2.2.1  隱馬爾可夫模型簡介    2.2.2  層疊隱馬爾可夫模型的結構    2.2.3  層疊隱馬爾可夫模型的核心數(shù)據(jù)結構——詞圖    2.2.4  層疊隱馬爾可夫模型的參數(shù)訓練  2.3  粗切分:基于一元語法的N最短路徑方法  2.4  未定義詞識別:基于角色的隱馬爾可夫模型    2.4.1  模型的定義    2.4.2  角色的選取    2.4.3  角色的標注    2.4.4  未定義詞的提取    2.4.5  參數(shù)訓練  2.5  未定義詞的概率估計:基于角色的詞語生成模型    2.5.1  問題的由來    2.5.2  模型的定義  2.6  細切分:詞匯化的隱馬爾可夫模型    2.6.1  模型的定義    2.6.2  最短路徑的求解    2.6.3  參數(shù)估計  2.7  詞性標注:基于詞性的隱馬爾可夫模型    2.7.1  基于隱馬爾可夫模型的詞性標注    2.7.2  詞性標記集的選擇與轉換  2.8  實驗結果    2.8.1  各層隱馬爾可夫模型的對比實驗    2.8.2  在國家“973”計劃評測中的測試結果    2.8.3  第一屆國際分詞大賽的評測結果  2.9  小結第3章  融合語義知識和詞匯化上下文概率語法的漢語句法分析  3.1  前言  3.2  Baseline句法分析器  3.3  語義知識集成    3.3.1  語義類抽取    3.3.2  構建基于類的選擇偏向模型    3.3.3  實驗結果    3.3.4  性能改進分析  3.4  基于漢語賓州樹庫的句法分析相關工作  3.5  小結第4章  漢語詞法分析與句法分析融合策略研究  4.1  引言  4.2  句法分析系統(tǒng)    4.2.1  融合語義知識的詞匯化概率上下文無關語法模型    4.2.2  結構上下文模型    4.2.3  多子模型句法分析器  4.3  詞法分析系統(tǒng)(ICTCLAS)  4.4  融合策略    4.4.1  切分轉換:基于轉換的錯誤驅動學習    4.4.2  標記轉換:條件隨機場    4.4.3  轉換實驗  4.5  實驗與分析  4.6  比較  4.7  小結第5章  基于“知網(wǎng)”的詞匯語義相似度計算  5.1  引言  5.2  詞語相似度及其計算的方法    5.2.1  什么是詞語相似度    5.2.2  詞語相似度與詞語距離    5.2.3  詞語相似度與詞語相關性    5.2.4  詞語相似度的計算方法  5.3  “知網(wǎng)”簡介    5.3.1  “知網(wǎng)”的結構    5.3.2  “知網(wǎng)”的知識描述語言  5.4  基于“知網(wǎng)”的語義相似度計算方法    5.4.1  詞語相似度計算    5.4.2  義原相似度計算    5.4.3  虛詞概念的相似度的計算    5.4.4  實詞概念的相似度的計算  5.5  實驗及結果  5.6  小結第6章  詞語對齊的對數(shù)線性模型  6.1  引言  6.2  對數(shù)線性模型  6.3  特征函數(shù)    6.3.1  IBM翻譯模型    6.3.2  詞性標記轉換模型    6.3.3  雙語詞典  6.4  訓練  6.5  搜索  6.6  實驗結果  6.7  小結第7章  一種雙語短語結構對齊搜索算法  7.1  雙語對齊技術概述    7.1.1  各種層次的語言單位上的對齊技術    7.1.2  短語結構對齊的定義    7.1.3  短語結構對齊的過程    7.1.4  短語結構對齊的問題和難點    7.1.5  現(xiàn)有的短語結構對齊技術  7.2  一種雙語短語結構對齊的搜索算法    7.2.1  算法簡介    7.2.2  局部對齊    7.2.3  短語結構對齊的柱形搜索(beam search)算法    7.2.4  局部對齊的歸并    7.2.5  局部對齊的評分    7.2.6  搜索算法的時間復雜度分析  7.3  實驗及結果分析    7.3.1  實驗方案    7.3.2  實驗語料來源及規(guī)模    7.3.3  短語結構對齊的實例分析    7.3.4  實驗結果及分析    7.3.5  實驗結果的進一步分析  7.4  小結第8章  短語結構轉換模板的提取與應用  8.1  基于模板的機器翻譯概述  8.2  短語結構轉換模板定義  8.3  短語結構轉換模板舉例  8.4  短語結構轉換模板的提取  8.5  短語結構轉換模板的應用——基于模板的轉換  8.6  實驗結果    8.6.1  實驗語料的來源及規(guī)模    8.6.2  實驗結果分析  8.7  小結第9章  微引擎流水線機器翻譯系統(tǒng)結構  9.1  微引擎流水線的基本思想  9.2  微引擎流水線的系統(tǒng)結構  9.3  微引擎流水線的公共數(shù)據(jù)結構  9.4  各種微引擎的程序接口和功能說明  9.5  微引擎調度算法  9.6  面向新聞領域的漢英機器翻譯系統(tǒng)    9.6.1  研究背景    9.6.2  系統(tǒng)實現(xiàn)方案  9.7  實驗結果及分析  9.8  小結第10章  總結及今后的工作附錄  漢語詞性標記集ICTPOS參考文獻后

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    漢英機器翻譯若干關鍵技術研究 PDF格式下載


用戶評論 (總計7條)

 
 

  •   還是不錯的。對機器翻譯有了大概的了解。但書出的比較早。如果要了解最近的知識,還是去下幾篇劉老師的文章看看。機器翻譯還是很難解決的問題。
  •   涉及到MT幾項關鍵技術,流程圖簡明扼要但切中要害。當然,要完全能看懂,必須有基礎和鋪墊。
  •   不錯的一本書哦,推薦
  •   真的很不錯。。。真的很不錯。。。真的很不錯。。。
  •   本書對于統(tǒng)計機器翻譯的介紹很全面,主要的成果幾乎都涉及到了。
  •   內容不全面,只能假設讀者做過類似的工作,否則用處有限,可以和其它書籍配合閱讀。
  •   沒仔細看,有難度,算法都是
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7