出版時間:2009-6 出版社:北京語言大學出版社 作者:楊建國 著 頁數(shù):270 字數(shù):309000
Tag標簽:無
前言
《基于動態(tài)流通語料庫的漢語熟語單位研究》的初稿是楊建國博士的學位論文,完成于2005年6月。2008年底,書稿經(jīng)過校外匿名審稿專家的評審和北京語言大學學術委員會評定,獲得了“北京語言大學青年學者文庫出版基金”的資助,將于2009年6月出版?! ⌒M饽涿麑徃鍖<艺J為“基于大型語料庫針對漢語熟語的研究較為少見”,而本書“緊跟國際語言學界研究熱點,基于動態(tài)流通語料庫,結合計算語言學方法和認知語言學理論探討漢語中的熟語問題,使得研究具有較大的理論意義和實踐意義”,并且文章“縱橫捭闔,涉及流行語、字母詞、簡稱及x字格等多種語言言語現(xiàn)象,其中各論述多有精彩之筆”。不乏美言,但非溢美之詞。 建國本人在《后記》中說:“這是我的第一本專著,由于稚嫩,又偏重于應用,‘專著’之前不敢冠以‘學術’二字,唯恐玷污了‘學術’的尊嚴和高雅。因此私下里將自己的處女作勉強定性為‘研究’專著?!彼淖晕以u價,體現(xiàn)了傳統(tǒng)的嚴謹和謙遜,盡管一些措辭如“稚嫩、不敢、唯恐、勉強”等等,又似乎過于謙恭或惶恐?! ∷俏业牟┦垦芯可?,他要我為此書做一篇序。作為他的導師,我的這篇序該怎么措辭呢?
內(nèi)容概要
本書基于漢語詞典學界和中文信息處理界重“詞”輕“語”的現(xiàn)象,對詞組研究、熟語研究進行了反思,提出“熟語單位”(Idiom Unit,IU)的概念。所謂“熟語單位”,就是“結合緊密,使用穩(wěn)定”、功能相當于熟語的結構單位,是符合人的認知規(guī)律并被人們經(jīng)常當做一個詞來使用的定型化了的固定短語或凝固表達式。我們判別IU的三條原則為:是否“結合緊密,使用穩(wěn)定”;是否符合人們的認知規(guī)律(IU的長度一般為7±2);流通度是否達到一定的閾值。IU理論上包括一切具有熟語性的詞語組合單位。本書討論的IU范圍包括三字格中的慣用語和像“差不多、靠不住、來不及”這樣介于詞和短語之間的結構串,四字格中的成語和新固定短語,簡稱略語、插入語和字母詞語等。 本研究選用的是《人民日報》2001-2003年三年的文本,約8000萬字。文章以動態(tài)語言知識更新理論為指導,以流通度理論為基礎,以年平均流通度閾值(0.5)作為主要篩選依據(jù),運用規(guī)則和統(tǒng)計相結合的方法對“熟語單位”(IU)進行了初步的提取研究,并對部分提取結果的噪聲環(huán)境作了定量與定性分析。 對于IU的提取,我們采取的策略和基本步驟是: (1)利用點號和“的、是、在、和、了、有”等高頻詞(字)將文本化短;自動提取時犧牲包含切分點的字符串,該部分字符串另行補救。 (2)數(shù)據(jù)格式轉換。將切分得到的形式上“完整”的2-8字串轉為數(shù)據(jù)庫格式。 (3)統(tǒng)計3-5字串的頻度、散布度和流通度。 (4)用字符串全年的平均流通度閾值進行篩選。 (5)對五音節(jié)(含)以上字串進行分詞并加以詞性標注,對其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等語法組合規(guī)則的相鄰字符串(二元組)進行抽??;再對抽取的字符串重復上面的第(3)和第(4)步。 (6)對篩選得到的字符串進行噪聲剔除,全部進行重新切分并加以詞性標注,然后運用靜態(tài)規(guī)則模板(共30條規(guī)則)再次過濾。 (7)借助輔助手段對熟語單位進行直接抽取。 (8)得到三至五字格熟語單位表(約13500條)。 本書還對提取出來的2001年的5500個三字格、2002年的6500個四字格作了簡單的分類和例示性的分析說明,重點考察了具有熟語性的短語。 三字格中我們重點探討了音節(jié)為“1+2”式、結構為“V+N/NP”式和音節(jié)為“2+1”式、結構為“V/VP+N”式的兩類,驗證了馮勝利有關三音節(jié)組合的論斷:音節(jié)為“1+2”式的是短語,音節(jié)為“2+1”式的是韻律詞。 四字格中我們重點探討了“N+V”式和“V+N”式。N和V之間存在復雜的語法、語義以及音節(jié)制約關系。關于“N+V”式,通過考察,我們發(fā)現(xiàn):定中關系的“N+V”式四字格熟語性最強,數(shù)量也最多;狀中關系次之,主謂關系的四字格熟語性最弱,且N與V之間存在離散性。關于“V+N”式,我們發(fā)現(xiàn):第一,“V+N”式四字格如果表示通名,它往往是或者容易成為一個NP習慣性搭配。第二,“V+N”式四字格中的N如果是比較抽象的雙音節(jié)名詞,則這類四字格構成的NP其熟語性相對較強。第三,“V+N”式四字格中的V如果是雙音節(jié)述賓式動詞,那么這種“雙音節(jié)述賓式動詞+賓語”形成的NP熟語性很強。 本書還從應用的角度對流行語、字母詞語和插入語進行了考察研究,對流行語的科學評定和字母詞語的規(guī)范發(fā)表了意見。 本書對簡稱略語的研究主要以《現(xiàn)代漢語詞典》(2002年增補本)所收的134個簡稱和報紙語料中的約350個簡稱為考察對象,將簡稱分為固定簡稱和臨時簡稱兩種,少數(shù)臨時簡稱隨著使用次數(shù)的增加、使用范圍的擴寬,可以成為固定簡稱。我們對兩種簡稱的構成及固定簡稱的成因進行了初步探討,重點考察了簡稱在真實文本中的使用情況。 本書主要有以下三方面的創(chuàng)新: (1)依據(jù)熟語性定義了“熟語單位”(IU)。IU是基于大眾語感的認知結構單位,它使得固定短語的范圍適當擴大,更加有利于中文信息處理、語言教學和漢外翻譯等。 (2)第一次基于動態(tài)流通語料庫(DCC),從大規(guī)模真實文本中提取通用的報紙固定短語,而且是采用相似于公眾共同語感的流通度來由計算機自動提取。 (3)提出按照文體集合對應語體原則構建報紙分類語料庫的短語提取策略,減少系統(tǒng)處理開銷,提高短語識別的召回率(recall rate)和準確率(precision rate)。
作者簡介
楊建國,北京語言大學首都國際文化研究基地副研究員,碩士研究生導師。主要研究方向為語言學及應用語言學、漢語文化教育等,已發(fā)表語言、文化及教育類論文30余篇。曾參與編寫《四庫大辭典》《中國傳統(tǒng)文化》等工具書及教材。
書籍目錄
摘要Abstract第一章 引論 1.1 本研究提出的背景 1.2 本研究的目標 1.3 本研究的意義 1.4 本研究的創(chuàng)新點和難點 1.5 小結第二章 漢語熟語單位 2.1 熟語單位的界定 2.2 熟語單位的判定原則 2.3 熟語單位的范圍 2.4 熟語單位的判定方法 2.5 小結第三章 基于200l~2003年《人民日報》的漢語熟語單位提取研究 3.1 語料的選取 3.2 語料庫及語料庫語言學 3.3 詞語自動提取研究的歷史和現(xiàn)狀 3.4 我們對中文信息處理及漢語的認識 3.5 提取熟語單位的方法和技術路線 3.6 輔助提取手段分析 3.7 部分結果驗證及相關分析 3.8 小結第四章 三字格熟語單位研究 4.1 已有的研究 4.2 三字格概況 4.3 音節(jié)為“1+2”式、結構為“V+N/NP”式的三字格 4.4 音節(jié)為“2+1”式、結構為“V/VP+N”式的三字格 4.5 小結第五章 四字格熟語單位研究 5.1 已有的研究 5.2 四字格概況 5.3 “N+V”式的四字格 5.4 “V+N”/“V+V”式的四字格 5.5 小結 5.6 附論五字格第六章 流行語研究 6.1 引言 6.2 關于“流行”的界定 6.3 關于流行語的語言學研究 6.4 流行語的科學認定 6.5 余論第七章 字母詞語研究 7.1 引言 7.2 基于詞典的字母詞語的分類及相關分析 7.3 基于報紙語料庫的字母詞語的使用情況舉隅 7.4 關于字母詞語規(guī)范的兩點思考 7.5 附論插入語第八章 簡稱考察研究 8.1 引言 8.2 簡稱的界定 8.3 簡稱的分類 8.4 固定簡稱 8.5 臨時簡稱 8.6 通過形式標記提取的簡稱例示 8.7 小結第九章 結語——兼論熟語單位的應用價值 9.1 本書的研究方法 9.2 熟語單位的應用價值 9.3 存在的問題與下一步工作附錄1 兩本新詞語詞典所收的部分新詞語比較附錄2 基于大學生的詞語語感調(diào)查表附錄3 從2001~2003年《人民日報》中切出的部分2字串附錄4 從2001~2003年《人民日報》中切出的部分3字串附錄5 從2001~2003年《人民日報》中切出的部分4字串附錄6 從2001~2003年《人民日報》中切出的部分5字串附錄7 從2001~2003年《人民日報》中切出的部分6字串附錄8 從2001~2003年《人民日報》中切出的部分7字串附錄9 從2001~2003年《人民日報》中切出的部分8字串附錄10 2001~2003年《人民日報》的部分三字格熟語單位附錄11 2001~2003年《人民日報》的部分四字格熟語單位附錄12 2001~2003年《人民日報》的部分五字格熟語單位附錄13 2001~2003年《人民日報》中相同的部分熟語單位附錄14 2001年《人民日報》的部分引號抽取串附錄15 2002年《人民日報》的部分引號抽取串附錄16 2003年《人民日報》的部分引號抽取串附錄17 2001~2003年《人民日報》中相同的部分引號抽取串附錄18 1998年1月《人民日報》的部分“V+V”實例附錄19 《現(xiàn)代漢語詞典》(2002年增補本)收錄的簡稱詞條附錄20 2002年《人民日報》中的部分簡稱附錄21 本書所使用的標記集參考文獻后記
章節(jié)摘錄
如果我們不否認熟語也應包括俗語(俗話)、諺語、格言、名聯(lián)、名句、流行語等,那么,熟語就應該是固定短語的上位概念。我們知道,短語是詞和詞的語法組合,它包括自由短語和固定短語兩類。自由短語是出于表達需要形成的詞跟詞的臨時組合(如“看報、撰寫論文”等)。而固定短語是詞跟詞的固定組合,一般不能任意增減、改換其中詞語。語法學研究關注更多的是自由短語,即一般的短語;詞匯學和詞典學研究關注的是固定短語。我們基于中文信息處理、對外漢語詞匯教學和漢外翻譯等的需要,關注的也是固定短語,是新產(chǎn)生的固定短語。雖然我們也關注句子層面的熟語,但其使用跟短語層面的熟語比起來,要少得多。短語層面的熟語,結構上比較固定,功能上相當于一個詞;是人們常用的定型化了的固定短語,是一種特殊的詞匯單位。由于它們?yōu)槿藗兯R姵S茫虼擞直环Q做習用語。習用語的特點,簡言之,就是言簡意賅,其中大部分源遠流長,富于表現(xiàn)力?! ∧壳皾h語詞匯學界除了對歇后語和成語的認識比較一致以外,對慣用語、俗語、諺語、縮略語等的認識都存在較大的分歧。對于歇后語,幾乎沒有什么不同的意見,都承認它是由近似于謎面、謎底的兩部分組成的帶有隱語性質的口頭用語。對成語達成的基本認識是,成語以四字格為主,具有書面語色彩濃厚和相沿習用兩個特點;爭論主要集中在所謂的新成語和四字格以外的成語上,如“多快好省、莫須有、百聞不如一見”等。對慣用語達成的基本認識是,慣用語以三字格為主,具有意義的整體性、結構的凝固性和明顯的口語色彩等特點;爭論的焦點主要集中在慣用語是不是具有表意的雙層性上,極端的意見認為慣用語應該是“原‘慣用語’中除去三字格的部分”,“是非三字格的一部分俗語”(周薦,1998)。對于俗語和諺語,一般的教科書不加論述。因為漢語里的俗語和諺語在內(nèi)容上有一些共同點,而且都具有明顯的口語色彩,所以往往俗諺并稱。崔希亮(1997)從形式上給二者作了區(qū)分:俗語都是單體結構,而諺語都是復體結構,其中大部分是雙體結構?! ∮捎诮鼉扇暧腥耍ㄍ趿?,2003;曹煒,2004)已經(jīng)對漢語詞匯的研究成果作了較為清晰的梳理,我們在這里再復述一遍,意義不大。因此,我們除了表明自己不同于前賢觀點之處。
編輯推薦
《基于動態(tài)流通語料庫的漢語熟語單位研究》是作者在其博士論文的基礎上修改而成的。《基于動態(tài)流通語料庫的漢語熟語單位研究》基于漢語詞典學界和中文信息處理界重“詞”輕“語”的現(xiàn)象,對詞組研究、熟語研究進行了反思,提出了“熟語單位”(IdiomUnit,IU)的概念?;凇度嗣袢請蟆?001~2003年三年約8000萬字的文本,研究以動態(tài)知識更新理論為指導,以流通度理論為基礎,以年平均流通度閥值(0.5)作為主要篩選依據(jù),運用規(guī)則和統(tǒng)計相結合的方法對“熟語單位”(IU)進行初步的提??;并對部分提取結果的噪聲環(huán)境作了定量與定性分析。在此基礎上,對提取出來的三字格、四字格熟語,流行語,字母詞語和插入語,簡稱略語等分別進行了重點考察。 本研究將漢語的難題研究和應用研究相結合,為熟語單位的分析研究提供了豐富的材料和可資借鑒的方法,具有較大的學術創(chuàng)新。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載
基于動態(tài)流通語料庫的漢語熟語單位研究 PDF格式下載