大規(guī)模考試英漢互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用

出版時(shí)間:2012-7  出版社:高等教育出版社  作者:秦穎,文秋芳 著  頁數(shù):121  字?jǐn)?shù):150000  

內(nèi)容概要

秦穎、文秋芳編著的《大規(guī)模考試英漢互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用》分為理論研究篇和技術(shù)實(shí)現(xiàn)篇兩部分。理論研究篇側(cè)重語言學(xué)分析、語言測(cè)試的有關(guān)理論,從翻譯質(zhì)量的人工評(píng)價(jià)方法和已有的機(jī)器譯文自動(dòng)評(píng)測(cè)有關(guān)算法出發(fā),探索適合評(píng)價(jià)學(xué)習(xí)者譯文質(zhì)量的理論模型。技術(shù)實(shí)現(xiàn)篇側(cè)重運(yùn)用自然語言處理技術(shù)構(gòu)建評(píng)分系統(tǒng),介紹系統(tǒng)實(shí)現(xiàn)所涉及的具體技術(shù)問題,系統(tǒng)的構(gòu)建原則和方法,并給出部分調(diào)試過的源代碼程序供讀者參考。

書籍目錄

第一部分  理論研究篇
第一章 緒論
1.1語言質(zhì)量自動(dòng)評(píng)價(jià)及研究的意義
1.2相關(guān)研究回顧
1.3本書的內(nèi)容及安排
第二章 翻譯質(zhì)量評(píng)價(jià)
2.1翻譯質(zhì)量的人工評(píng)價(jià)標(biāo)準(zhǔn)
2.2翻譯質(zhì)量的自動(dòng)評(píng)價(jià)方法
2.2.1 BLEU算法
2.2.2 NIST算法
2.2.3 GTM算法
2.3小結(jié)
第三章 學(xué)習(xí)者譯文質(zhì)量自動(dòng)評(píng)價(jià)理論模型構(gòu)建
3.1用基于n—gram算法評(píng)價(jià)學(xué)生譯文
3.1.1語料說明
3.1.2自動(dòng)評(píng)測(cè)及結(jié)果
3.1.3算法評(píng)測(cè)的影響因素
3.2用改進(jìn)的n—gram算法評(píng)價(jià)學(xué)生譯文
3.2.1基于偽測(cè)試句的自動(dòng)評(píng)測(cè)算法
3.2.2擴(kuò)展n—gram評(píng)測(cè)實(shí)驗(yàn)結(jié)果
3.2. 3參考譯文數(shù)目對(duì)評(píng)測(cè)性能的影響
3.2. 4對(duì)機(jī)器翻譯評(píng)測(cè)與學(xué)生譯文評(píng)測(cè)的討論
3.3基于線性回歸模型的學(xué)生譯文評(píng)價(jià)
3.3.1線性回歸的數(shù)學(xué)描述
3.3.2選拔性評(píng)分和診斷1}生評(píng)分
3. 3. 3漢譯英評(píng)分理論模型
3. 3.4英譯漢評(píng)分理論模型
3.4小結(jié)
第二部分技術(shù)實(shí)現(xiàn)篇
第四章 相關(guān)語言處理技術(shù)
4.1文本特征及提取方法
4.1.1形式特征的提取
4.1.2 n-gram共現(xiàn)參數(shù)的提取
4. 1. 3語義點(diǎn)參數(shù)提取
4.1.4雙語對(duì)齊參數(shù)的提取
4.1.5潛在語義分析LSA
4.2逐步線性回歸模型的實(shí)現(xiàn)和參數(shù)優(yōu)化
4.3線性相關(guān)度的計(jì)算
4.4字符編碼和漢語語言信息處理
第五章 面向大規(guī)??荚嚨挠h翻譯自動(dòng)評(píng)分系統(tǒng)
5.1系統(tǒng)實(shí)現(xiàn)的原則和結(jié)構(gòu)
5.2系統(tǒng)實(shí)現(xiàn)框架
5. 3雷同譯文檢測(cè)
第六章 翻譯自動(dòng)評(píng)分系統(tǒng)的應(yīng)用
6.1翻譯自動(dòng)評(píng)分?jǐn)?shù)據(jù)來源
6.1. 1語料收集
6.1.2人工評(píng)分的實(shí)施和評(píng)分信度
6.1.3參考譯文集的形成
6.2自動(dòng)評(píng)分系統(tǒng)性能
6.2.1系統(tǒng)性能評(píng)估方法
6.2.2漢譯英自動(dòng)評(píng)分性能
6.2. 3英譯漢自動(dòng)評(píng)分性能
6.2.4雷同譯文檢查性能
第七章 翻譯自動(dòng)評(píng)價(jià)的總結(jié)和展望
7.1研究結(jié)論總結(jié)
7.2翻譯自動(dòng)評(píng)價(jià)應(yīng)用展望
參考文獻(xiàn)
英文參考文獻(xiàn)
中文參考文獻(xiàn)
附錄
附錄1機(jī)器翻譯自動(dòng)評(píng)測(cè)程序的格式要求(XML)和轉(zhuǎn)換程序
附錄2英文停用詞表
附錄3漢語停用詞表
附錄4面向考試的自動(dòng)評(píng)分系統(tǒng)的用戶文檔
附錄5診斷性翻譯評(píng)分系統(tǒng)的界面

章節(jié)摘錄

版權(quán)頁:   插圖:   第四章 相關(guān)語言處理技術(shù) 從語言學(xué)、翻譯學(xué)和測(cè)試的角度構(gòu)建翻譯自動(dòng)評(píng)分模型是理論研究的內(nèi)容,最終如何在計(jì)算機(jī)上實(shí)現(xiàn)自動(dòng)評(píng)分系統(tǒng)則是技術(shù)實(shí)現(xiàn)要探討的核心:主要涉及語言信息的自動(dòng)處理,包括文本特征的自動(dòng)提取、語義分析方法、字符編碼以及數(shù)學(xué)模型的實(shí)現(xiàn)、系統(tǒng)用戶界面和操作響應(yīng)等的代碼編寫問題。相比理論研究,技術(shù)實(shí)現(xiàn)篇需要自然語言處理相關(guān)技術(shù)的支持,更關(guān)注算法實(shí)現(xiàn)及效率等計(jì)算機(jī)技術(shù)。本章將對(duì)自動(dòng)評(píng)分模型涉及到的有關(guān)自然語言處理相關(guān)技術(shù)予以介紹,并給出部分實(shí)現(xiàn)內(nèi)容的程序代碼。本章編程所用的語言為Perl。Perl為“實(shí)用報(bào)表提取語言” ( Practical Extraction and Report Language)的縮寫。Perl中有強(qiáng)大的正則表達(dá)式,非常適合于語言信息處理。Perl為開放源代碼的免費(fèi)軟件,在Unix和Windows環(huán)境下均可運(yùn)行。本章所有的程序代碼均在Perl v5.8.7版下通過調(diào)試。 4.1 文本特征及提取方法 英漢互譯評(píng)分理論研究中從形式和語義角度分析了與譯文質(zhì)量相關(guān)的文本特征,表3-9和3-17分別為漢譯英和英譯漢模型中嘗試運(yùn)用的文本特征。形式特征分為字詞層面、句子層面和篇章層面三大類,又各自包含若干小類;語義特征包括n-gram,語義點(diǎn)、基于潛在語義分析的相似度、詞或多詞單位對(duì)齊等特征。選拔性評(píng)分模型用于大規(guī)模翻譯考試譯文的自動(dòng)評(píng)分,要求對(duì)于不同質(zhì)量的譯文能夠較好地區(qū)分。為提高評(píng)分速度,選拔性評(píng)分模型主要包含語義參數(shù)。研究表明該簡(jiǎn)化模型仍然和人工評(píng)分有較高的相關(guān)性。 下面分別闡述這些特征的自動(dòng)提取方法。 4.1.1 形式特征的提取 1形式參數(shù)提取前的文本預(yù)處理 預(yù)處理工作主要包括整理收集的實(shí)際語料中不規(guī)范的文本撰寫內(nèi)容和格式,為信息提取做必須的標(biāo)注和加工等。 對(duì)于英文譯文,首先去除非英文字符,如漢語標(biāo)點(diǎn)符號(hào);將全角的字符轉(zhuǎn)換為半角;將詞之間的多個(gè)空格替換為一個(gè)空格;字母全部統(tǒng)一為小寫或大寫形式等。另外,原始的文本中沒有詞性信息,為獲得詞性分布的文本特征,就需要對(duì)所有譯文(參考譯文、訓(xùn)練譯文和測(cè)試譯文)做詞性標(biāo)注處理。由于時(shí)間有限,我們使用了英文詞性自動(dòng)標(biāo)注工具Gotagger進(jìn)行詞性標(biāo)注。英文詞性標(biāo)注軟件較多,常用的還有tagtree、standford parser等。但不同的軟件詞性標(biāo)注集有差異,詞性劃分方法不同。 漢語譯文的預(yù)處理工作更多一些。漢語文本沒有明顯的詞的界限,對(duì)于漢語的信息處理可基于兩種語言單位——字或詞進(jìn)行。很多研究表明,基于詞的漢語信息提取性能優(yōu)于基于字的信息提取。因此,我們對(duì)漢語譯文的處理大多以詞為單位。預(yù)處理時(shí)將所有漢語譯文都預(yù)先進(jìn)行了切詞,并進(jìn)行了詞性標(biāo)注。標(biāo)注的詞性為北大計(jì)算語言所1997年版《現(xiàn)代漢語語法信息詞典》中詞性集。 2詞匯級(jí)形式參數(shù)的提取 詞匯級(jí)和譯文質(zhì)量相關(guān)的特征十分豐富,包括詞匯多樣性特征、詞頻廣度、詞匯難度、詞性分布等。 詞匯多樣陛從類符數(shù)和類符形符比兩個(gè)角度考察。類符數(shù)指譯文中不同詞的數(shù)目,形符數(shù)即單詞數(shù)(不包括標(biāo)點(diǎn)符號(hào))。模型實(shí)際使用的參數(shù)是測(cè)試譯文和參考譯文的平均類符數(shù)之差和類符形符比之差,以便更合理地判斷譯文的詞匯多樣性特征。 形符類符的提取方法:預(yù)處理后的英文和漢語,詞與詞之間(標(biāo)點(diǎn)與詞之間)均為空格隔開,所以根據(jù)空格區(qū)分各個(gè)詞。再根據(jù)詞性分隔符得到詞和詞性兩部分,前一部分為形符或者標(biāo)點(diǎn)符號(hào)。對(duì)于英文形符提取可用正則表達(dá)式為/\w(\w-\')*/實(shí)現(xiàn),意義表示:由字母開頭,后面接一個(gè)或多個(gè)字母數(shù)字及下劃線和’組成的。漢語由于所有標(biāo)點(diǎn)的詞性標(biāo)記為/w,因此凡是詞性為/w的均不視為形符。類符數(shù)就是將形符中相同的詞合并后的數(shù)目。類符形符比=類符數(shù)的平方/形符數(shù)。

編輯推薦

《外語考試自動(dòng)評(píng)分研究系列叢書:大規(guī)模考試英漢互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用》在內(nèi)容介紹上同時(shí)考慮了跨學(xué)科研究的因素,力求明確介紹相關(guān)概念,條理清楚地介紹實(shí)現(xiàn)步驟,程序代碼添加必要的注釋等等,讓讀者根據(jù)內(nèi)容介紹就能夠逐步學(xué)習(xí)建立一個(gè)翻譯自動(dòng)評(píng)分系統(tǒng)的框架,實(shí)用性強(qiáng)。

圖書封面

評(píng)論、評(píng)分、閱讀與下載


    大規(guī)??荚囉h互譯自動(dòng)評(píng)分系統(tǒng)的研發(fā)與應(yīng)用 PDF格式下載


用戶評(píng)論 (總計(jì)0條)

 
 

 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7