大規(guī)??荚囉h互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用

出版時(shí)間:2012-7  出版社:高等教育出版社  作者:秦穎,文秋芳 著  頁(yè)數(shù):121  字?jǐn)?shù):150000  

內(nèi)容概要

秦穎、文秋芳編著的《大規(guī)??荚囉h互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用》分為理論研究篇和技術(shù)實(shí)現(xiàn)篇兩部分。理論研究篇側(cè)重語言學(xué)分析、語言測(cè)試的有關(guān)理論,從翻譯質(zhì)量的人工評(píng)價(jià)方法和已有的機(jī)器譯文自動(dòng)評(píng)測(cè)有關(guān)算法出發(fā),探索適合評(píng)價(jià)學(xué)習(xí)者譯文質(zhì)量的理論模型。技術(shù)實(shí)現(xiàn)篇側(cè)重運(yùn)用自然語言處理技術(shù)構(gòu)建評(píng)分系統(tǒng),介紹系統(tǒng)實(shí)現(xiàn)所涉及的具體技術(shù)問題,系統(tǒng)的構(gòu)建原則和方法,并給出部分調(diào)試過的源代碼程序供讀者參考。

書籍目錄

第一部分  理論研究篇
第一章 緒論
1.1語言質(zhì)量自動(dòng)評(píng)價(jià)及研究的意義
1.2相關(guān)研究回顧
1.3本書的內(nèi)容及安排
第二章 翻譯質(zhì)量評(píng)價(jià)
2.1翻譯質(zhì)量的人工評(píng)價(jià)標(biāo)準(zhǔn)
2.2翻譯質(zhì)量的自動(dòng)評(píng)價(jià)方法
2.2.1 BLEU算法
2.2.2 NIST算法
2.2.3 GTM算法
2.3小結(jié)
第三章 學(xué)習(xí)者譯文質(zhì)量自動(dòng)評(píng)價(jià)理論模型構(gòu)建
3.1用基于n—gram算法評(píng)價(jià)學(xué)生譯文
3.1.1語料說明
3.1.2自動(dòng)評(píng)測(cè)及結(jié)果
3.1.3算法評(píng)測(cè)的影響因素
3.2用改進(jìn)的n—gram算法評(píng)價(jià)學(xué)生譯文
3.2.1基于偽測(cè)試句的自動(dòng)評(píng)測(cè)算法
3.2.2擴(kuò)展n—gram評(píng)測(cè)實(shí)驗(yàn)結(jié)果
3.2. 3參考譯文數(shù)目對(duì)評(píng)測(cè)性能的影響
3.2. 4對(duì)機(jī)器翻譯評(píng)測(cè)與學(xué)生譯文評(píng)測(cè)的討論
3.3基于線性回歸模型的學(xué)生譯文評(píng)價(jià)
3.3.1線性回歸的數(shù)學(xué)描述
3.3.2選拔性評(píng)分和診斷1}生評(píng)分
3. 3. 3漢譯英評(píng)分理論模型
3. 3.4英譯漢評(píng)分理論模型
3.4小結(jié)
第二部分技術(shù)實(shí)現(xiàn)篇
第四章 相關(guān)語言處理技術(shù)
4.1文本特征及提取方法
4.1.1形式特征的提取
4.1.2 n-gram共現(xiàn)參數(shù)的提取
4. 1. 3語義點(diǎn)參數(shù)提取
4.1.4雙語對(duì)齊參數(shù)的提取
4.1.5潛在語義分析LSA
4.2逐步線性回歸模型的實(shí)現(xiàn)和參數(shù)優(yōu)化
4.3線性相關(guān)度的計(jì)算
4.4字符編碼和漢語語言信息處理
第五章 面向大規(guī)模考試的英漢翻譯自動(dòng)評(píng)分系統(tǒng)
5.1系統(tǒng)實(shí)現(xiàn)的原則和結(jié)構(gòu)
5.2系統(tǒng)實(shí)現(xiàn)框架
5. 3雷同譯文檢測(cè)
第六章 翻譯自動(dòng)評(píng)分系統(tǒng)的應(yīng)用
6.1翻譯自動(dòng)評(píng)分?jǐn)?shù)據(jù)來源
6.1. 1語料收集
6.1.2人工評(píng)分的實(shí)施和評(píng)分信度
6.1.3參考譯文集的形成
6.2自動(dòng)評(píng)分系統(tǒng)性能
6.2.1系統(tǒng)性能評(píng)估方法
6.2.2漢譯英自動(dòng)評(píng)分性能
6.2. 3英譯漢自動(dòng)評(píng)分性能
6.2.4雷同譯文檢查性能
第七章 翻譯自動(dòng)評(píng)價(jià)的總結(jié)和展望
7.1研究結(jié)論總結(jié)
7.2翻譯自動(dòng)評(píng)價(jià)應(yīng)用展望
參考文獻(xiàn)
英文參考文獻(xiàn)
中文參考文獻(xiàn)
附錄
附錄1機(jī)器翻譯自動(dòng)評(píng)測(cè)程序的格式要求(XML)和轉(zhuǎn)換程序
附錄2英文停用詞表
附錄3漢語停用詞表
附錄4面向考試的自動(dòng)評(píng)分系統(tǒng)的用戶文檔
附錄5診斷性翻譯評(píng)分系統(tǒng)的界面

章節(jié)摘錄

版權(quán)頁(yè):   插圖:   第四章 相關(guān)語言處理技術(shù) 從語言學(xué)、翻譯學(xué)和測(cè)試的角度構(gòu)建翻譯自動(dòng)評(píng)分模型是理論研究的內(nèi)容,最終如何在計(jì)算機(jī)上實(shí)現(xiàn)自動(dòng)評(píng)分系統(tǒng)則是技術(shù)實(shí)現(xiàn)要探討的核心:主要涉及語言信息的自動(dòng)處理,包括文本特征的自動(dòng)提取、語義分析方法、字符編碼以及數(shù)學(xué)模型的實(shí)現(xiàn)、系統(tǒng)用戶界面和操作響應(yīng)等的代碼編寫問題。相比理論研究,技術(shù)實(shí)現(xiàn)篇需要自然語言處理相關(guān)技術(shù)的支持,更關(guān)注算法實(shí)現(xiàn)及效率等計(jì)算機(jī)技術(shù)。本章將對(duì)自動(dòng)評(píng)分模型涉及到的有關(guān)自然語言處理相關(guān)技術(shù)予以介紹,并給出部分實(shí)現(xiàn)內(nèi)容的程序代碼。本章編程所用的語言為Perl。Perl為“實(shí)用報(bào)表提取語言” ( Practical Extraction and Report Language)的縮寫。Perl中有強(qiáng)大的正則表達(dá)式,非常適合于語言信息處理。Perl為開放源代碼的免費(fèi)軟件,在Unix和Windows環(huán)境下均可運(yùn)行。本章所有的程序代碼均在Perl v5.8.7版下通過調(diào)試。 4.1 文本特征及提取方法 英漢互譯評(píng)分理論研究中從形式和語義角度分析了與譯文質(zhì)量相關(guān)的文本特征,表3-9和3-17分別為漢譯英和英譯漢模型中嘗試運(yùn)用的文本特征。形式特征分為字詞層面、句子層面和篇章層面三大類,又各自包含若干小類;語義特征包括n-gram,語義點(diǎn)、基于潛在語義分析的相似度、詞或多詞單位對(duì)齊等特征。選拔性評(píng)分模型用于大規(guī)模翻譯考試譯文的自動(dòng)評(píng)分,要求對(duì)于不同質(zhì)量的譯文能夠較好地區(qū)分。為提高評(píng)分速度,選拔性評(píng)分模型主要包含語義參數(shù)。研究表明該簡(jiǎn)化模型仍然和人工評(píng)分有較高的相關(guān)性。 下面分別闡述這些特征的自動(dòng)提取方法。 4.1.1 形式特征的提取 1形式參數(shù)提取前的文本預(yù)處理 預(yù)處理工作主要包括整理收集的實(shí)際語料中不規(guī)范的文本撰寫內(nèi)容和格式,為信息提取做必須的標(biāo)注和加工等。 對(duì)于英文譯文,首先去除非英文字符,如漢語標(biāo)點(diǎn)符號(hào);將全角的字符轉(zhuǎn)換為半角;將詞之間的多個(gè)空格替換為一個(gè)空格;字母全部統(tǒng)一為小寫或大寫形式等。另外,原始的文本中沒有詞性信息,為獲得詞性分布的文本特征,就需要對(duì)所有譯文(參考譯文、訓(xùn)練譯文和測(cè)試譯文)做詞性標(biāo)注處理。由于時(shí)間有限,我們使用了英文詞性自動(dòng)標(biāo)注工具Gotagger進(jìn)行詞性標(biāo)注。英文詞性標(biāo)注軟件較多,常用的還有tagtree、standford parser等。但不同的軟件詞性標(biāo)注集有差異,詞性劃分方法不同。 漢語譯文的預(yù)處理工作更多一些。漢語文本沒有明顯的詞的界限,對(duì)于漢語的信息處理可基于兩種語言單位——字或詞進(jìn)行。很多研究表明,基于詞的漢語信息提取性能優(yōu)于基于字的信息提取。因此,我們對(duì)漢語譯文的處理大多以詞為單位。預(yù)處理時(shí)將所有漢語譯文都預(yù)先進(jìn)行了切詞,并進(jìn)行了詞性標(biāo)注。標(biāo)注的詞性為北大計(jì)算語言所1997年版《現(xiàn)代漢語語法信息詞典》中詞性集。 2詞匯級(jí)形式參數(shù)的提取 詞匯級(jí)和譯文質(zhì)量相關(guān)的特征十分豐富,包括詞匯多樣性特征、詞頻廣度、詞匯難度、詞性分布等。 詞匯多樣陛從類符數(shù)和類符形符比兩個(gè)角度考察。類符數(shù)指譯文中不同詞的數(shù)目,形符數(shù)即單詞數(shù)(不包括標(biāo)點(diǎn)符號(hào))。模型實(shí)際使用的參數(shù)是測(cè)試譯文和參考譯文的平均類符數(shù)之差和類符形符比之差,以便更合理地判斷譯文的詞匯多樣性特征。 形符類符的提取方法:預(yù)處理后的英文和漢語,詞與詞之間(標(biāo)點(diǎn)與詞之間)均為空格隔開,所以根據(jù)空格區(qū)分各個(gè)詞。再根據(jù)詞性分隔符得到詞和詞性兩部分,前一部分為形符或者標(biāo)點(diǎn)符號(hào)。對(duì)于英文形符提取可用正則表達(dá)式為/\w(\w-\')*/實(shí)現(xiàn),意義表示:由字母開頭,后面接一個(gè)或多個(gè)字母數(shù)字及下劃線和’組成的。漢語由于所有標(biāo)點(diǎn)的詞性標(biāo)記為/w,因此凡是詞性為/w的均不視為形符。類符數(shù)就是將形符中相同的詞合并后的數(shù)目。類符形符比=類符數(shù)的平方/形符數(shù)。

編輯推薦

《外語考試自動(dòng)評(píng)分研究系列叢書:大規(guī)??荚囉h互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用》在內(nèi)容介紹上同時(shí)考慮了跨學(xué)科研究的因素,力求明確介紹相關(guān)概念,條理清楚地介紹實(shí)現(xiàn)步驟,程序代碼添加必要的注釋等等,讓讀者根據(jù)內(nèi)容介紹就能夠逐步學(xué)習(xí)建立一個(gè)翻譯自動(dòng)評(píng)分系統(tǒng)的框架,實(shí)用性強(qiáng)。

圖書封面

評(píng)論、評(píng)分、閱讀與下載


    大規(guī)模考試英漢互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用 PDF格式下載


用戶評(píng)論 (總計(jì)0條)

 
 

 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7