出版時間:2009 出版社:科學出版社 作者:劉海濤 頁數(shù):318
Tag標簽:無
前言
計算語言學是從多種角度研究如何通過計算機來模仿人類語言處理能力,并用這種能力解決語言交流問題的學科,它的終極目標是構造一個能懂人語、會說人話、可用自然語言進行交流的機器(劉海濤等2005,Hausser2001)。這個定義突出了計算語言學的兩個特點:理論性和實踐性。前者體現(xiàn)在為了模仿人的語言處理能力,我們必須對這種能力有深刻的認識,而且要把這種認識上升到一定的理論層面。如果這種認識不能用精確的方式表述出來,將會影響到最終目標的實現(xiàn)。后者說的是,計算語言學也應該能夠解決實際問題,它是一種“應用驅(qū)動”的語言學研究。計算語言學的這種特性也使得技術現(xiàn)實對理論框架產(chǎn)生反作用和限制,說起來近乎完美的理論,如果現(xiàn)有的技術無法實現(xiàn),那么也難以解決好實際問題?! £P于計算語言學和語言學理論的關系問題,我們認為以下幾點值得考慮:計算語言學需要語言學理論,這種理論不僅應該能夠描述真實語料,而且也能用精確方法來表述;計算語言學有著高遠的目標,這種目標雖然在可預見的將來可能難以完全實現(xiàn),但這絕不意味著研究者可以忘記這種目標,而只滿足于一種短視的靈巧做法;計算語言學家的任務不僅僅是構建一些語言信息處理的應用系統(tǒng),他們也應該有能力從(語言學)理論的角度解釋此類人造系統(tǒng)的行為;面向計算語言學的語言學理論是一種可以通過機器來驗證的理論,如受技術所限,某些思想一時無法實現(xiàn),可實現(xiàn)部分不但應能從理論上自圓其說,而且也應有足夠的擴展能力??傊瑸榱俗層嬎銠C能夠處理人類語言,我們需要一套切實可行的(形式)語言學理論。
內(nèi)容概要
本書的主要目的是,在充分了解前人有關依存關系、配價理論、依存形式化和依存句法分析方法的基礎上,歸納出依存語法和配價理論的一般原理和方法,提出一套較完整的基于配價模式的依存語法分析框架,并用實驗來證明這一框架的可行性。與此同時,我們也力圖用本書提出的理論架構作為主線,將相關領域的主要研究成果串在一起,形成一部配價理論和依存語法研究的簡史。 為了讓國內(nèi)讀者更好地了解依存語法的一些基本思想和方法,本書在介紹其他學者的觀點時,盡可能采用“引”而非“述”的方式,目的是為了更好地表現(xiàn)原義,減少誤讀率。在寫作過程中,我們盡可能采用第一手的文獻,所引外文資料一般均由作者自譯。在計算語言學方法方面,本書對基于規(guī)則的方法和基于統(tǒng)計的方法都給予了足夠的重視。理論求高、應用求實,是本書的基本方針。
書籍目錄
馮志偉序Foreword理查德·哈德森序前言第1章 依存結構樹 1.1 引言 1.2 泰尼埃之前的句法樹 1.3 泰尼埃的圖式 1.4 泰尼埃之后的依存樹 1.5 依存樹的一般特性和結構第2章 配價理論與配價詞表 2.1 引言 2.2 泰尼埃與早前的配價研究 2.3 現(xiàn)代配價及依存理論研究概覽 2.4 配價詞典(表)的格式和框架 2.5 配價詞表結構框架第3章 依存關系與漢語依存語法 3.1 引言 3.2 摩迪斯泰學派和泰尼埃的早期思想 3.3 其他學者關于依存關系的討論 3.4 依存關系的屬性和依存句法的構建 3.5 漢語依存語法 3.5.1 現(xiàn)代漢語詞類體系 3.5.2 現(xiàn)代漢語依存關系 3.6 概率配價模式和漢語配價模式 3.7 漢語依存樹庫 3.8 小結第4章 依存語法形式化研究 4.1 引言 4.2 語言的形式化 4.3 泰尼埃的依存語法形式化體系 4.4 美國的依存語法形式化模型 4.5 基于特征結構的依存語法形式化體系 4.6 基于樹結構的依存語法形式化理論 4.7 基于約束的依存語法形式化研究 4.8 德國的依存語法形式化研究 4.9 基于配價模式的依存語法形式化模型 4.10 依存語法和短語結構語法的等價陛 4.11 小結第5章 依存句法分析 5.1 引言 5.2 句法分析的概念及定義 5.3 基于泰尼埃理論的依存句法分析 5.4 基于上下文無關文法的依存句法分析 5.5 基于擴展上下文無關文法的依存分析 5.6 基于約束的依存句法分析……第6章 基于規(guī)則的漢語依存句法分析第7章 基于樹庫的漢語依存句法分析第8章 基于依存樹庫的漢語計量研究參考文獻結語后記作者簡介
章節(jié)摘錄
第1章 依存結構樹 1.1 引言 計算語言學應用及其研究始于20世紀50年代。近60年來,新的理論和方法層出不窮,但許多人認為學科的實際進展還是過于緩慢。 傳統(tǒng)的計算語言學方法是由語言學家人工從大量的語言材料中提取出詞匯、語法、語義等各種規(guī)則,然后想辦法讓機器來搞明白這些規(guī)則,進而可以處理語言。這種方法的理論基礎和哲學根源大致就是經(jīng)喬姆斯基發(fā)揚光大的洪堡特的名言“語言是有限手段的無限運用”。遺憾的是,在大量研究和嘗試后,人們發(fā)現(xiàn)規(guī)則的有限性并不意味著它的普遍可操作性。換言之,在語言分析和生成的過程中,就目前人類對于語言的認知水平而言,所謂的“有限手段”可能仍然是一種理論上的說法。在實踐方面,不可控或無法窮盡的“有限”還是一種無限。由于理解(分析)過程和生成過程中涉及的要素有所不同,用“生成”的觀點和語言理論來做分析也總是有些捉襟見肘。所有這些問題,導致20世紀90年代以來,在計算語言學界刮起了一股“經(jīng)驗主義”的旋風。所謂“經(jīng)驗主義”就是一種基于數(shù)據(jù)的方法,一種基于語料庫的方法,一種基于概率統(tǒng)計的方法。在我們看來,經(jīng)驗主義方法的本質(zhì)在于:通過自動的方法從語料中提取出計算機處理自然語言所需要的知識,并且將這些知識用易于計算機操作的方式表示出來。這一過程可以說是對人類語言知識獲得過程的計算機模擬。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載