統(tǒng)計機器翻譯

出版時間:2012-9  出版社:電子工業(yè)出版社  作者:菲利普·科恩  頁數(shù):301  字數(shù):525000  
Tag標簽:無  

內容概要

Philipp
Koehn所著的《統(tǒng)計機器翻譯》是介紹統(tǒng)計機器翻譯理論和方法的教材。全書分三部分(共11章),分別討論基礎知識、核心方法和前沿研究。全書首先簡要介紹語言學和概率論基礎知識,然后全面討論各種經(jīng)典統(tǒng)計機器翻譯模型和系統(tǒng)實現(xiàn)方法,最后深入探討統(tǒng)計翻譯領域的最新進展和研究熱點。對核心方法的論述按照統(tǒng)計機器翻譯模型發(fā)展的過程逐步展開:基于詞的模型、基于短語的模型和基于句法樹的模型。從技術實現(xiàn)的角度,本書還介紹了統(tǒng)計翻譯模型的參數(shù)訓練方法、語言模型和參數(shù)平滑方法、解碼算法和譯文自動評測方法及系統(tǒng)整合方法等。
《統(tǒng)計機器翻譯》是統(tǒng)計機器翻譯和自然語言處理課程的理想教材,適合研究生和本科生教學使用,也是所有對機器翻譯技術和系統(tǒng)有興趣的研究者、開發(fā)者和使用者的指南性讀物。同時,本書還可作為人工智能、語言學等相關專業(yè)的輔助讀物。

作者簡介

作者:(德國)菲利普·科恩(Philipp Koehn) 譯者:宗成慶 張霄軍  菲利普·科恩,英國愛丁堡大學信息學院講師(Iecturer)。歐洲EuroMatrix項目的科學協(xié)調員,同時參與了美國DARPA資助的研究項目。與機器翻譯領域的知名公司如Systran和AsiaOnline等都建立了合作。實現(xiàn)了廣為使用的解碼器Pharaoh,同時領導著開源機器翻譯工具Moses的開發(fā)。 宗成慶,1998年3月畢業(yè)于中國科學院計算技術研究所,獲博士學位。1998年5月至2000年4月在中國科學院自動化研究所從事博士后研究,博士后出站后留自動化所工作至今,現(xiàn)為模式識別國家重點實驗室研究員、博士生導師。曾于1999年和2001年兩次在日本國際電氣通信基礎技術研究所(ATR)做客座研究員,2004年在法國Grenoble信息與應用數(shù)學研究院機器翻譯研究組(GETA—CLIPS,IMAG)做短期高訪。主要研究方向為自然語言處理基礎、機器翻譯、文本分類和自動文摘等相關技術。作為項目負責人承擔國家自然科學基金項目、國家“863”項目、國家支撐計劃項目和國際合作研究項目等l0余項,在國內外重要學術期刊和會議上發(fā)表論文100余篇,其中在ComputationalLinguistics、Information Sciences、IEEE TASLP、ACM TALIP、Machine Translation及ACL、COLING、EMNLP等本領域權威期刊和會議上發(fā)表論文20多篇,出版學術專著1部,獲8項國家發(fā)明專利。目前擔任國際計算語言學聯(lián)合會(ACL)漢語特別興趣組(SIGHAN)候任主席(ChairElect)和亞洲自然語言處理聯(lián)合會(AFNLP)執(zhí)行理事,并擔任國際學術期刊IEEE IntelligentSystems副主編(Associate Editor)、ACM TALIP副主編、UCPOL副主編、Machine Translation編委、JCST編委、《自動化學報》編委,以及中國中文信息學會常務理事、中國人工智能學會理事和中國計算機學會中文信息技術專委會副主任等職務。2008年獲中國科學院研究生院集中教學突出貢獻獎。2009年獲亞太地區(qū)語言、信息與計算國際會議(PACLIC)最佳論文獎,2010年獲中國科學院“朱李月華優(yōu)秀教師”獎。 張霄軍,2008年6月畢業(yè)于南京師范大學,獲博士學位?,F(xiàn)為陜西師范大學外國語學院副教授,碩士生導師。2010年至2011年在英國曼徹斯特大學訪學,研究方向為現(xiàn)代翻譯技術。目前承擔國家社科基金項目1項,參與國家自然科學基金項目1項及國家社科基金項目1項。在國際學術期刊Computational Linguistics、Information Retrieval、Language Learning&Technology和Applied Linguistics等發(fā)表學術論文4篇,在《當代語言學》和《計算機應用研究》等國內期刊發(fā)表學術論文50余篇。出版學術專著《語義組合與機器翻譯》(科學出版社,2010),主(參)編教材多部。

書籍目錄

第1章  緒論
1.1 概述
1.1.1 第1章:緒論
1.1.2 第2章:詞、句子和語料
1.1.3 第3章:概率論
1.1.4 第4章:基于詞的翻譯模型
1.1.5 第5章:基于短語的翻譯模型
1.1.6 第6章:解碼
1.1.7 第7章:語言模型
1.1.8 第8章:評測
1.1.9 第9章:判別式訓練
1.1.10 第10章:整合語言學信息
1.1.11 第11章:基于樹的翻譯模型
1.2 機器翻譯簡史
1.2.1 肇始
1.2.2 ALPAC報告及其后果
1.2.3 首批商用系統(tǒng)
1.2.4 基于中間語系統(tǒng)的研究
1.2.5 數(shù)據(jù)驅動方法
1.2.6 目前的開發(fā)商
1.2.7 技術現(xiàn)狀
1.3 應用
1.3.1 全自動高質量機器翻譯
1.3.2 要旨翻譯
1.3.3 集成語音技術
1.3.4 手持設備中的翻譯
1.3.5 后編輯
1.3.6 譯者的工具
1.4 可用資源
1.4.1 工具
1.4.2 語料
1.4.3 評測競賽
1.5 小結
1.5.1 核心概念
1.5.2 延伸閱讀
1.6 習題
第2章 詞、句子和語料
2.1 詞
2.1.1 詞例化
2.1.2 詞的分布
2.1.3 詞性
2.1.4 形態(tài)學
2.1.5 詞匯語義學
2.2 句子
2.2.1 句子結構
2.2.2 語法理論
2.2.3 句子結構的翻譯
2.2.4 語篇
2.3 語料
2.3.1 文本的類型
2.3.2 獲取平行語料
2.3.3 句子對齊
2.4 小結
2.4.1 核心概念
2.4.2 延伸閱讀
2.4.3 習題
第3章 概率論
3.1 概率分布估計
3.1.1 估計分析
3.1.2 常見概率分布
3.1.3 基于統(tǒng)計的概率估計
3.2 概率分布計算
3.2.1 形式定義
3.2.2 聯(lián)合概率分布
3.2.3 條件概率分布
3.2.4 貝葉斯法則
3.2.5 插值
3.3 概率分布的特性
3.3.1 均值和方差
3.3.2 期望和方差
3.3.3 熵
3.3.4 互信息
3.4 小結
3.4.1 核心概念
3.4.2 延伸閱讀
3.4.3 習題
第二部分 核心方法
第4章 基于詞的翻譯模型
4.1 基于詞的機器翻譯
4.1.1 詞匯翻譯
4.1.2 數(shù)據(jù)統(tǒng)計
4.1.3 估計概率分布
4.1.4 對齊
4.1.5 IBM模型1
4.2 學習詞匯翻譯模型
4.2.1 語料不完備問題
4.2.2 期望最大化算法
4.2.3 IBM模型1中的期望最大化算法
4.2.4 困惑度
4.3 確保流暢的輸出
4.3.1 流利譯文的經(jīng)驗證據(jù)
4.3.2 語言模型
4.3.3 噪聲信道模型
4.4 更高級的IBM模型
4.4.1 IBM模型2
4.4.2 IBM模型3
4.4.3 訓練模型3:采樣對齊空間
4.4.4 IBM模型4
4.4.5 IBM模型5
4.5 詞對齊
4.5.1 詞對齊任務
4.5.2 詞對齊質量評估
4.5.3 基于IBM模型的詞對齊
4.6 小結
4.6.1 核心概念
4.6.2 延伸閱讀
4.6.3 習題
第5章 基于短語的翻譯模型
5.1 標準模型
5.1.1 基于短語的翻譯模型提出的動因
5.1.2 數(shù)學定義
5.2 學習短語翻譯表
5.2.1 從詞對齊中抽取短語
5.2.2 一致性定義
5.2.3 短語抽取算法
5.2.4 應用實例
5.2.5 短語翻譯概率估計
5.3 翻譯模型的擴展
5.3.1 對數(shù)線性模型
5.3.2 雙向翻譯概率
5.3.3 詞匯化加權
5.3.4 詞語懲罰
5.3.5 短語懲罰
5.3.6 作為分類問題的短語翻譯
5.4 調序模型的擴展
5.4.1 調序限制
5.4.2 詞匯化調序
5.5 基于短語模型的期望最大化訓練
5.5.1 短語對齊的聯(lián)合模型
5.5.2 對齊空間的復雜度
5.5.3 模型訓練
5.6 小結
5.6.1 核心概念
5.6.2 延伸閱讀
5.6.3 習題
第6章 解碼
6.1 翻譯過程
6.1.1 翻譯一個句子
6.1.2 計算句子的翻譯概率
6.2 柱搜索
6.2.1 翻譯選項
6.2.2 通過假設擴展的解碼過程
6.2.3 計算復雜度
6.2.4 翻譯假設重組
6.2.5 棧解碼
6.2.6 直方圖剪枝和閾值剪枝
6.2.7 調序限制
6.3 未來代價估計
6.3.1 不同的翻譯困難
6.3.2 翻譯選項的未來代價估計
6.3.3 任意輸入跨度的未來代價估計
6.3.4 在搜索中使用未來代價
6.4 其他解碼算法
6.4.1 基于覆蓋棧的柱搜索算法
6.4.2 A*搜索算法
6.4.3 貪婪爬山解碼
6.4.4 有限狀態(tài)轉換機解碼
6.5 小結
6.5.1 核心概念
6.5.2 延伸閱讀
6.5.3 習題
第7章 語言模型
7.1 n元文法語言模型
7.1.1 馬爾可夫鏈
7.1.2 估計
7.1.3 困惑度
7.2 計數(shù)平滑
7.2.1 加1平滑法
7.2.2 刪除估計平滑法
7.2.3 古德圖靈平滑法
7.2.4 評估
7.3 插值和后備
7.3.1 插值
7.3.2 遞歸插值
7.3.3 后備
7.3.4 預測詞的差異性
7.3.5 歷史的差異性
7.3.6 修正的Kneser-Ney平滑算法
7.3.7 評估
7.4 控制語言模型的大小
7.4.1 不同的n元文法的數(shù)目
7.4.2 在磁盤上進行估計
7.4.3 高效的數(shù)據(jù)結構
7.4.4 減小詞匯表規(guī)模
7.4.5 抽取相關的n元文法
7.4.6 根據(jù)需要加載n元文法
7.5 小結
7.5.1 核心概念
7.5.2 延伸閱讀
7.5.3 習題
第8章 評測
8.1 人工評測
8.1.1 流利度和忠實度
8.1.2 評測目的
8.1.3 其他評測標準
8.2 自動評測
8.2.1 準確率和召回率
8.2.2 詞錯誤率
8.2.3 BLEU:一個雙語評測的替代指標
8.2.4 METEOR
8.2.5 關于評測的爭論
8.2.6 評測指標的評測
8.2.7 自動評測不足的證據(jù)
8.3 假設檢驗
8.3.1 計算置信區(qū)間
8.3.2 成對比較
8.3.3 自舉重采樣
8.4 面向任務的評測
8.4.1 后編輯的代價
8.4.2 內容理解測試
8.5 小結
8.5.1 核心概念
8.5.2 延伸閱讀
8.5.3 習題
第三部分 前沿研究
第9章 判別式訓練
9.1 尋找候選譯文
9.1.1 搜索圖
9.1.2 詞格
9.1.3 n-best列表
9.2 判別式方法的原理
9.2.1 譯文的特征表示
9.2.2 標注譯文的正確性
9.2.3 監(jiān)督學習
9.2.4 最大熵
9.3 參數(shù)調節(jié)
9.3.1 實驗設置
9.3.2 Powell搜索方法
9.3.3 單純型算法
9.4 大規(guī)模判別式訓練
9.4.1 訓練問題
9.4.2 目標函數(shù)
9.4.3 梯度下降
9.4.4 感知機
9.4.5 正則化
9.5 后驗方法與系統(tǒng)融合
9.5.1 最小貝葉斯風險
9.5.2 置信度估計
9.5.3 系統(tǒng)融合
9.6 小結
9.6.1 核心概念
9.6.2 延伸閱讀
9.6.3 習題
第10章 整合語言學信息
10.1 直譯
10.1.1 數(shù)字和名字
10.1.2 名字翻譯
10.1.3 直譯的有限狀態(tài)方法
10.1.4 資源
10.1.5 反向直譯與翻譯
10.2 形態(tài)學
10.2.1 詞素
10.2.2 簡化豐富的形態(tài)變化
10.2.3 翻譯形態(tài)豐富的語言
10.2.4 單詞拆分
10.3 句法重構
10.3.1 基于輸入語言句法的調序
10.3.2 學習調序規(guī)則
10.3.3 基于詞性標記的調序
10.3.4 基于句法樹的調序
10.3.5 預留選擇
10.4 句法特征
10.4.1 方法論
10.4.2 數(shù)的一致性
10.4.3 一致性
10.4.4 句法分析概率
10.5 因子化翻譯模型
10.5.1 因子化翻譯的分解
10.5.2 因子化模型訓練
10.5.3 模塊的融合
10.5.4 高效解碼
10.6 小結
10.6.1 核心概念
10.6.2 延伸閱讀
10.6.3 習題
第11章 基于樹的翻譯模型
11.1 同步文法
11.1.1 短語結構語法
11.1.2 同步短語結構語法
11.1.3 同步樹替換文法
11.2 同步文法的學習
11.2.1 層次短語模型的學習
11.2.2 句法翻譯規(guī)則的學習
11.2.3 規(guī)則的簡化
11.2.4 文法規(guī)則的打分
11.3 基于句法分析算法的解碼
11.3.1 線圖分析
11.3.2 核心算法
11.3.3 線圖的組織
11.3.4 假設重組
11.3.5 棧剪枝
11.3.6 文法規(guī)則的使用
11.3.7 立方剪枝
11.3.8 文法二叉化
11.3.9 外向代價估計
11.4 小結
11.4.1 核心概念
11.4.2 延伸閱讀
11.4.3 習題
參考文獻
索引

章節(jié)摘錄

版權頁:   插圖:   6.4其他解碼算法 前面已經(jīng)詳細介紹了基于短語的翻譯模型中常用的解碼算法:柱搜索棧解碼器。該解碼器也可以用在基于詞的翻譯模型中?,F(xiàn)在再介紹相關文獻中出現(xiàn)的其他幾種解碼算法,作為本章的總結。 6.4.1 基于覆蓋棧的柱搜索算法 根據(jù)翻譯過的外語輸入單詞的數(shù)量在棧里組織翻譯假設,給未來代價估計帶來了額外的復雜度。但是,如果為每個覆蓋了相同外語輸入單詞的跨度都設立一個棧,就不會有額外的復雜度。 如果僅僅比較翻譯相同跨度的外語單詞的假設,根據(jù)定義,它們的未來代價是一樣的,就可以忽略未來代價。需要注意的是,這樣做仍然有可能造成搜索錯誤:當某個翻譯假設看起來可能比搜索圖中的另一點的候選翻譯假設更好時,它可能以一個導致在下一步的語言模型得分上更差的英語單詞結束,最終不是最優(yōu)路徑中的一部分。 這種覆蓋棧(coverage stacks)的問題是指數(shù)級的復雜度,從而導致算法不可行。但是,回顧一下6.2.7節(jié)為使用調序限制所做的闡述。調序限制可將可能的外語單詞覆蓋向量的數(shù)量減少到與句子長度成線性關系(盡管與調序限制仍然呈指數(shù)關系)。因此,使用調序限制的覆蓋棧解碼方法是可行的。 6.4.2 A*搜索算法 這里介紹的柱搜索算法與很多人工智能教科書上介紹的A*搜索(A*search)算法非常類似。A*搜索算法允許零風險地對搜索空間剪枝,換句話說,防止了搜索錯誤。 A*搜索算法對在未來代價估計中使用的啟發(fā)式方法進行了限制。A*搜索算法使用一種可接納的啟發(fā)式方法(admissible heuristic),該方法要求估計代價不能過高。注意這種方法是如何安全地用于對翻譯假設進行剪枝的:如果某翻譯假設的局部得分加上已估計的未來代價,仍然小于最小的完整翻譯假設路徑的代價,就可以安全地將該翻譯假設刪除。 可接納的啟發(fā)式機器翻譯解碼方法 6.3節(jié)介紹的未來代價的啟發(fā)式方法并不是一種可接納的方法:它可能會過高地或過低地估計真實翻譯代價。那么,如何才能適應這種啟發(fā)式方法呢?如果忽略調序代價,僅僅使用翻譯表中的真實短語翻譯代價,就不會冒過高地估計模塊代價的風險。 但是,估計語言模型的代價是非常粗略的,它忽略了前面的上下文信息,因此有可能過高或過低地估計真實的翻譯代價。也可以考慮有用的歷史信息建立優(yōu)化的語言模型估計。例如,對于短語中第一個單詞的概率,可以找到在給定任意歷史條件下的最高概率。 搜索算法 為了使A*搜索更有效,必須快速地找到一個真實的、完整的、代價最低的早期候選。為此,使用圖6.12所示的深度優(yōu)先方法。

編輯推薦

近年來,機器翻譯領域因統(tǒng)計技術的出現(xiàn)而充滿了活力,從而使人類語言自動翻譯的夢想與實現(xiàn)更加接近。這本由該領域一位活躍的研究者撰寫、經(jīng)過課堂檢驗的教科書,向讀者簡要、通俗地介紹了該領域的最新研究方法,使讀者能夠通過《國外計算機科學教材系列:統(tǒng)計機器翻譯》的學習為任何語言對構建機器翻譯系統(tǒng)。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    統(tǒng)計機器翻譯 PDF格式下載


用戶評論 (總計12條)

 
 

  •   權威原著 權威翻譯。
  •   學習機器翻譯的好書!
  •   比較經(jīng)典的一本書,指的購買收藏
  •   非常不錯的書,值得一看。。。。
  •   不過付款的時候,POS機不好用
  •   統(tǒng)計機器翻譯必讀的一本書。宗老師的團隊翻譯得很及時。
  •   非常不錯的一本機器翻譯方面的著作
  •   書的質量是不錯的,就是翻譯有的地方不通順
  •   統(tǒng)計機器翻譯。自動化所宗成慶翻譯的。還有一張合影,Koehn真是個帥哥啊。
  •   幾乎所有統(tǒng)計機器翻譯的主流方法都講到了,有廣度有深度
  •   雖然翻譯有時看著略感不熟悉,但是比讀英文的速度還是快些的。是本值得收藏的書
  •   已經(jīng)閱讀完了第6章,前面5章都很精彩,第6章的翻譯偏弱些。首先,第一譯者絕對是領域專家,宗成慶自己寫的書就很精彩;第6章關于解碼部分,特別是關于A*搜索部分翻譯的有些拗口,估計是別人翻譯的吧。其次,原書很精彩。通過反復閱讀4、5章,對于作者描述問題的簡潔、精煉的特點很有體會,層次邏輯很清晰。我也是剛剛接觸機器翻譯,但我看得出這本書應該算入門書。雖說入門書,如果沒點基礎也會一頭霧水。建議閱讀者具備良好的概率、統(tǒng)計基礎,至少有過一點點機器學習、模式識別、數(shù)據(jù)挖掘、信息檢索的知識,解碼涉及點啟發(fā)式搜索算法,尤其涉及到A*。另一個建議是,要反復讀,必須親自推導公式,直到自己理解為止。否則的話,后面也會賭不下去的,早晚爛尾。好了,我要繼續(xù)讀第7章了...
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7