基于動(dòng)態(tài)流通語料庫的漢語熟語單位研究

出版時(shí)間:2009-6  出版社:北京語言大學(xué)出版社  作者:楊建國 著  頁數(shù):270  字?jǐn)?shù):309000  
Tag標(biāo)簽:無  

前言

  《基于動(dòng)態(tài)流通語料庫的漢語熟語單位研究》的初稿是楊建國博士的學(xué)位論文,完成于2005年6月。2008年底,書稿經(jīng)過校外匿名審稿專家的評(píng)審和北京語言大學(xué)學(xué)術(shù)委員會(huì)評(píng)定,獲得了“北京語言大學(xué)青年學(xué)者文庫出版基金”的資助,將于2009年6月出版?! ⌒M饽涿麑徃鍖<艺J(rèn)為“基于大型語料庫針對(duì)漢語熟語的研究較為少見”,而本書“緊跟國際語言學(xué)界研究熱點(diǎn),基于動(dòng)態(tài)流通語料庫,結(jié)合計(jì)算語言學(xué)方法和認(rèn)知語言學(xué)理論探討漢語中的熟語問題,使得研究具有較大的理論意義和實(shí)踐意義”,并且文章“縱橫捭闔,涉及流行語、字母詞、簡(jiǎn)稱及x字格等多種語言言語現(xiàn)象,其中各論述多有精彩之筆”。不乏美言,但非溢美之詞?! 〗▏救嗽凇逗笥洝分姓f:“這是我的第一本專著,由于稚嫩,又偏重于應(yīng)用,‘專著’之前不敢冠以‘學(xué)術(shù)’二字,唯恐玷污了‘學(xué)術(shù)’的尊嚴(yán)和高雅。因此私下里將自己的處女作勉強(qiáng)定性為‘研究’專著。”他的自我評(píng)價(jià),體現(xiàn)了傳統(tǒng)的嚴(yán)謹(jǐn)和謙遜,盡管一些措辭如“稚嫩、不敢、唯恐、勉強(qiáng)”等等,又似乎過于謙恭或惶恐。  他是我的博士研究生,他要我為此書做一篇序。作為他的導(dǎo)師,我的這篇序該怎么措辭呢?

內(nèi)容概要

本書基于漢語詞典學(xué)界和中文信息處理界重“詞”輕“語”的現(xiàn)象,對(duì)詞組研究、熟語研究進(jìn)行了反思,提出“熟語單位”(Idiom Unit,IU)的概念。所謂“熟語單位”,就是“結(jié)合緊密,使用穩(wěn)定”、功能相當(dāng)于熟語的結(jié)構(gòu)單位,是符合人的認(rèn)知規(guī)律并被人們經(jīng)常當(dāng)做一個(gè)詞來使用的定型化了的固定短語或凝固表達(dá)式。我們判別IU的三條原則為:是否“結(jié)合緊密,使用穩(wěn)定”;是否符合人們的認(rèn)知規(guī)律(IU的長(zhǎng)度一般為7±2);流通度是否達(dá)到一定的閾值。IU理論上包括一切具有熟語性的詞語組合單位。本書討論的IU范圍包括三字格中的慣用語和像“差不多、靠不住、來不及”這樣介于詞和短語之間的結(jié)構(gòu)串,四字格中的成語和新固定短語,簡(jiǎn)稱略語、插入語和字母詞語等。    本研究選用的是《人民日?qǐng)?bào)》2001-2003年三年的文本,約8000萬字。文章以動(dòng)態(tài)語言知識(shí)更新理論為指導(dǎo),以流通度理論為基礎(chǔ),以年平均流通度閾值(0.5)作為主要篩選依據(jù),運(yùn)用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法對(duì)“熟語單位”(IU)進(jìn)行了初步的提取研究,并對(duì)部分提取結(jié)果的噪聲環(huán)境作了定量與定性分析。    對(duì)于IU的提取,我們采取的策略和基本步驟是:    (1)利用點(diǎn)號(hào)和“的、是、在、和、了、有”等高頻詞(字)將文本化短;自動(dòng)提取時(shí)犧牲包含切分點(diǎn)的字符串,該部分字符串另行補(bǔ)救。    (2)數(shù)據(jù)格式轉(zhuǎn)換。將切分得到的形式上“完整”的2-8字串轉(zhuǎn)為數(shù)據(jù)庫格式。    (3)統(tǒng)計(jì)3-5字串的頻度、散布度和流通度。    (4)用字符串全年的平均流通度閾值進(jìn)行篩選。    (5)對(duì)五音節(jié)(含)以上字串進(jìn)行分詞并加以詞性標(biāo)注,對(duì)其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等語法組合規(guī)則的相鄰字符串(二元組)進(jìn)行抽??;再對(duì)抽取的字符串重復(fù)上面的第(3)和第(4)步。    (6)對(duì)篩選得到的字符串進(jìn)行噪聲剔除,全部進(jìn)行重新切分并加以詞性標(biāo)注,然后運(yùn)用靜態(tài)規(guī)則模板(共30條規(guī)則)再次過濾。    (7)借助輔助手段對(duì)熟語單位進(jìn)行直接抽取。    (8)得到三至五字格熟語單位表(約13500條)。    本書還對(duì)提取出來的2001年的5500個(gè)三字格、2002年的6500個(gè)四字格作了簡(jiǎn)單的分類和例示性的分析說明,重點(diǎn)考察了具有熟語性的短語。    三字格中我們重點(diǎn)探討了音節(jié)為“1+2”式、結(jié)構(gòu)為“V+N/NP”式和音節(jié)為“2+1”式、結(jié)構(gòu)為“V/VP+N”式的兩類,驗(yàn)證了馮勝利有關(guān)三音節(jié)組合的論斷:音節(jié)為“1+2”式的是短語,音節(jié)為“2+1”式的是韻律詞。    四字格中我們重點(diǎn)探討了“N+V”式和“V+N”式。N和V之間存在復(fù)雜的語法、語義以及音節(jié)制約關(guān)系。關(guān)于“N+V”式,通過考察,我們發(fā)現(xiàn):定中關(guān)系的“N+V”式四字格熟語性最強(qiáng),數(shù)量也最多;狀中關(guān)系次之,主謂關(guān)系的四字格熟語性最弱,且N與V之間存在離散性。關(guān)于“V+N”式,我們發(fā)現(xiàn):第一,“V+N”式四字格如果表示通名,它往往是或者容易成為一個(gè)NP習(xí)慣性搭配。第二,“V+N”式四字格中的N如果是比較抽象的雙音節(jié)名詞,則這類四字格構(gòu)成的NP其熟語性相對(duì)較強(qiáng)。第三,“V+N”式四字格中的V如果是雙音節(jié)述賓式動(dòng)詞,那么這種“雙音節(jié)述賓式動(dòng)詞+賓語”形成的NP熟語性很強(qiáng)。    本書還從應(yīng)用的角度對(duì)流行語、字母詞語和插入語進(jìn)行了考察研究,對(duì)流行語的科學(xué)評(píng)定和字母詞語的規(guī)范發(fā)表了意見。    本書對(duì)簡(jiǎn)稱略語的研究主要以《現(xiàn)代漢語詞典》(2002年增補(bǔ)本)所收的134個(gè)簡(jiǎn)稱和報(bào)紙語料中的約350個(gè)簡(jiǎn)稱為考察對(duì)象,將簡(jiǎn)稱分為固定簡(jiǎn)稱和臨時(shí)簡(jiǎn)稱兩種,少數(shù)臨時(shí)簡(jiǎn)稱隨著使用次數(shù)的增加、使用范圍的擴(kuò)寬,可以成為固定簡(jiǎn)稱。我們對(duì)兩種簡(jiǎn)稱的構(gòu)成及固定簡(jiǎn)稱的成因進(jìn)行了初步探討,重點(diǎn)考察了簡(jiǎn)稱在真實(shí)文本中的使用情況。     本書主要有以下三方面的創(chuàng)新:     (1)依據(jù)熟語性定義了“熟語單位”(IU)。IU是基于大眾語感的認(rèn)知結(jié)構(gòu)單位,它使得固定短語的范圍適當(dāng)擴(kuò)大,更加有利于中文信息處理、語言教學(xué)和漢外翻譯等。     (2)第一次基于動(dòng)態(tài)流通語料庫(DCC),從大規(guī)模真實(shí)文本中提取通用的報(bào)紙固定短語,而且是采用相似于公眾共同語感的流通度來由計(jì)算機(jī)自動(dòng)提取。     (3)提出按照文體集合對(duì)應(yīng)語體原則構(gòu)建報(bào)紙分類語料庫的短語提取策略,減少系統(tǒng)處理開銷,提高短語識(shí)別的召回率(recall rate)和準(zhǔn)確率(precision rate)。

作者簡(jiǎn)介

楊建國,北京語言大學(xué)首都國際文化研究基地副研究員,碩士研究生導(dǎo)師。主要研究方向?yàn)檎Z言學(xué)及應(yīng)用語言學(xué)、漢語文化教育等,已發(fā)表語言、文化及教育類論文30余篇。曾參與編寫《四庫大辭典》《中國傳統(tǒng)文化》等工具書及教材。

書籍目錄

摘要Abstract第一章  引論  1.1  本研究提出的背景  1.2  本研究的目標(biāo)  1.3  本研究的意義  1.4  本研究的創(chuàng)新點(diǎn)和難點(diǎn)  1.5  小結(jié)第二章  漢語熟語單位  2.1  熟語單位的界定  2.2  熟語單位的判定原則  2.3  熟語單位的范圍  2.4  熟語單位的判定方法  2.5  小結(jié)第三章  基于200l~2003年《人民日?qǐng)?bào)》的漢語熟語單位提取研究  3.1  語料的選取  3.2  語料庫及語料庫語言學(xué)  3.3  詞語自動(dòng)提取研究的歷史和現(xiàn)狀  3.4  我們對(duì)中文信息處理及漢語的認(rèn)識(shí)  3.5  提取熟語單位的方法和技術(shù)路線  3.6  輔助提取手段分析  3.7  部分結(jié)果驗(yàn)證及相關(guān)分析  3.8  小結(jié)第四章  三字格熟語單位研究  4.1  已有的研究  4.2  三字格概況  4.3  音節(jié)為“1+2”式、結(jié)構(gòu)為“V+N/NP”式的三字格  4.4  音節(jié)為“2+1”式、結(jié)構(gòu)為“V/VP+N”式的三字格  4.5  小結(jié)第五章  四字格熟語單位研究  5.1  已有的研究  5.2  四字格概況  5.3  “N+V”式的四字格  5.4  “V+N”/“V+V”式的四字格  5.5  小結(jié)  5.6  附論五字格第六章  流行語研究  6.1  引言  6.2  關(guān)于“流行”的界定  6.3  關(guān)于流行語的語言學(xué)研究  6.4  流行語的科學(xué)認(rèn)定  6.5  余論第七章  字母詞語研究  7.1  引言  7.2  基于詞典的字母詞語的分類及相關(guān)分析  7.3  基于報(bào)紙語料庫的字母詞語的使用情況舉隅  7.4  關(guān)于字母詞語規(guī)范的兩點(diǎn)思考  7.5  附論插入語第八章  簡(jiǎn)稱考察研究  8.1  引言  8.2  簡(jiǎn)稱的界定  8.3  簡(jiǎn)稱的分類  8.4  固定簡(jiǎn)稱  8.5  臨時(shí)簡(jiǎn)稱  8.6  通過形式標(biāo)記提取的簡(jiǎn)稱例示  8.7  小結(jié)第九章  結(jié)語——兼論熟語單位的應(yīng)用價(jià)值  9.1  本書的研究方法  9.2  熟語單位的應(yīng)用價(jià)值  9.3  存在的問題與下一步工作附錄1  兩本新詞語詞典所收的部分新詞語比較附錄2  基于大學(xué)生的詞語語感調(diào)查表附錄3  從2001~2003年《人民日?qǐng)?bào)》中切出的部分2字串附錄4  從2001~2003年《人民日?qǐng)?bào)》中切出的部分3字串附錄5  從2001~2003年《人民日?qǐng)?bào)》中切出的部分4字串附錄6  從2001~2003年《人民日?qǐng)?bào)》中切出的部分5字串附錄7  從2001~2003年《人民日?qǐng)?bào)》中切出的部分6字串附錄8  從2001~2003年《人民日?qǐng)?bào)》中切出的部分7字串附錄9  從2001~2003年《人民日?qǐng)?bào)》中切出的部分8字串附錄10  2001~2003年《人民日?qǐng)?bào)》的部分三字格熟語單位附錄11  2001~2003年《人民日?qǐng)?bào)》的部分四字格熟語單位附錄12  2001~2003年《人民日?qǐng)?bào)》的部分五字格熟語單位附錄13  2001~2003年《人民日?qǐng)?bào)》中相同的部分熟語單位附錄14  2001年《人民日?qǐng)?bào)》的部分引號(hào)抽取串附錄15  2002年《人民日?qǐng)?bào)》的部分引號(hào)抽取串附錄16  2003年《人民日?qǐng)?bào)》的部分引號(hào)抽取串附錄17  2001~2003年《人民日?qǐng)?bào)》中相同的部分引號(hào)抽取串附錄18  1998年1月《人民日?qǐng)?bào)》的部分“V+V”實(shí)例附錄19  《現(xiàn)代漢語詞典》(2002年增補(bǔ)本)收錄的簡(jiǎn)稱詞條附錄20  2002年《人民日?qǐng)?bào)》中的部分簡(jiǎn)稱附錄21  本書所使用的標(biāo)記集參考文獻(xiàn)后記

章節(jié)摘錄

  如果我們不否認(rèn)熟語也應(yīng)包括俗語(俗話)、諺語、格言、名聯(lián)、名句、流行語等,那么,熟語就應(yīng)該是固定短語的上位概念。我們知道,短語是詞和詞的語法組合,它包括自由短語和固定短語兩類。自由短語是出于表達(dá)需要形成的詞跟詞的臨時(shí)組合(如“看報(bào)、撰寫論文”等)。而固定短語是詞跟詞的固定組合,一般不能任意增減、改換其中詞語。語法學(xué)研究關(guān)注更多的是自由短語,即一般的短語;詞匯學(xué)和詞典學(xué)研究關(guān)注的是固定短語。我們基于中文信息處理、對(duì)外漢語詞匯教學(xué)和漢外翻譯等的需要,關(guān)注的也是固定短語,是新產(chǎn)生的固定短語。雖然我們也關(guān)注句子層面的熟語,但其使用跟短語層面的熟語比起來,要少得多。短語層面的熟語,結(jié)構(gòu)上比較固定,功能上相當(dāng)于一個(gè)詞;是人們常用的定型化了的固定短語,是一種特殊的詞匯單位。由于它們?yōu)槿藗兯R姵S茫虼擞直环Q做習(xí)用語。習(xí)用語的特點(diǎn),簡(jiǎn)言之,就是言簡(jiǎn)意賅,其中大部分源遠(yuǎn)流長(zhǎng),富于表現(xiàn)力?! ∧壳皾h語詞匯學(xué)界除了對(duì)歇后語和成語的認(rèn)識(shí)比較一致以外,對(duì)慣用語、俗語、諺語、縮略語等的認(rèn)識(shí)都存在較大的分歧。對(duì)于歇后語,幾乎沒有什么不同的意見,都承認(rèn)它是由近似于謎面、謎底的兩部分組成的帶有隱語性質(zhì)的口頭用語。對(duì)成語達(dá)成的基本認(rèn)識(shí)是,成語以四字格為主,具有書面語色彩濃厚和相沿習(xí)用兩個(gè)特點(diǎn);爭(zhēng)論主要集中在所謂的新成語和四字格以外的成語上,如“多快好省、莫須有、百聞不如一見”等。對(duì)慣用語達(dá)成的基本認(rèn)識(shí)是,慣用語以三字格為主,具有意義的整體性、結(jié)構(gòu)的凝固性和明顯的口語色彩等特點(diǎn);爭(zhēng)論的焦點(diǎn)主要集中在慣用語是不是具有表意的雙層性上,極端的意見認(rèn)為慣用語應(yīng)該是“原‘慣用語’中除去三字格的部分”,“是非三字格的一部分俗語”(周薦,1998)。對(duì)于俗語和諺語,一般的教科書不加論述。因?yàn)闈h語里的俗語和諺語在內(nèi)容上有一些共同點(diǎn),而且都具有明顯的口語色彩,所以往往俗諺并稱。崔希亮(1997)從形式上給二者作了區(qū)分:俗語都是單體結(jié)構(gòu),而諺語都是復(fù)體結(jié)構(gòu),其中大部分是雙體結(jié)構(gòu)?! ∮捎诮鼉扇暧腥耍ㄍ趿?,2003;曹煒,2004)已經(jīng)對(duì)漢語詞匯的研究成果作了較為清晰的梳理,我們?cè)谶@里再復(fù)述一遍,意義不大。因此,我們除了表明自己不同于前賢觀點(diǎn)之處。

編輯推薦

  《基于動(dòng)態(tài)流通語料庫的漢語熟語單位研究》是作者在其博士論文的基礎(chǔ)上修改而成的?!痘趧?dòng)態(tài)流通語料庫的漢語熟語單位研究》基于漢語詞典學(xué)界和中文信息處理界重“詞”輕“語”的現(xiàn)象,對(duì)詞組研究、熟語研究進(jìn)行了反思,提出了“熟語單位”(IdiomUnit,IU)的概念。基于《人民日?qǐng)?bào)》2001~2003年三年約8000萬字的文本,研究以動(dòng)態(tài)知識(shí)更新理論為指導(dǎo),以流通度理論為基礎(chǔ),以年平均流通度閥值(0.5)作為主要篩選依據(jù),運(yùn)用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法對(duì)“熟語單位”(IU)進(jìn)行初步的提?。徊?duì)部分提取結(jié)果的噪聲環(huán)境作了定量與定性分析。在此基礎(chǔ)上,對(duì)提取出來的三字格、四字格熟語,流行語,字母詞語和插入語,簡(jiǎn)稱略語等分別進(jìn)行了重點(diǎn)考察?! ”狙芯繉h語的難題研究和應(yīng)用研究相結(jié)合,為熟語單位的分析研究提供了豐富的材料和可資借鑒的方法,具有較大的學(xué)術(shù)創(chuàng)新。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    基于動(dòng)態(tài)流通語料庫的漢語熟語單位研究 PDF格式下載


用戶評(píng)論 (總計(jì)1條)

 
 

  •   基于動(dòng)態(tài)流通語料庫的漢語熟語單,作成語研究要看哈
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7