出版時(shí)間:2010-5 出版社:暨南大學(xué)出版社 作者:劉華 頁(yè)數(shù):268
Tag標(biāo)簽:無(wú)
前言
劉華博士的專著《詞語(yǔ)計(jì)算與應(yīng)用》(他謙稱為一本“學(xué)術(shù)上摸索的小書”)就要出版了,希望我為他寫一篇序,我答應(yīng)了。臨近截稿日期了,我還沒有開筆。因?yàn)橛幸恍┘庇谔幚淼氖虑?,而且又臨近我住院的日子,所以我向劉華提出,要不那篇序就算了,有沒有關(guān)系不大,不要耽誤了書的出版。劉華回復(fù)堅(jiān)請(qǐng),說(shuō)還來(lái)得及,就是推遲幾天出版,也要等老師的序來(lái)添色?! ∈虑榫涂梢詮摹疤砩闭f(shuō)起了?! ⌒率兰o(jì)的讀者如果覺得劉華的“小書”《詞語(yǔ)計(jì)算與應(yīng)用》讀起來(lái)有味道、實(shí)用,特別是文科的大學(xué)生、研究生,認(rèn)為有新信息、新內(nèi)容,那是此書本身所存在的“特色”,不是我所能“添”上去的。正如劉華自己所說(shuō),他作為一個(gè)“計(jì)算語(yǔ)言學(xué)的門外漢”,經(jīng)過(guò)幾年在1和0的世界里糾結(jié)、掙扎,才獲得了這些心得和成果。不“糾結(jié)、掙扎”,一個(gè)“門外漢”怎么可能不僅進(jìn)到門里,還登堂人室,拿到博士學(xué)位呢?正所謂天道酬勤,一分耕耘,一分收獲。舒舒服服、投機(jī)取巧混文憑的人是有的,但這終究是自欺欺人,遲早會(huì)暴露。劉華博士的努力是實(shí)在的、痛苦的、反復(fù)的,也是曲折向上的。劉華自2002年起,在北京語(yǔ)言大學(xué)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)博士點(diǎn)下攻讀“語(yǔ)言信息處理”方向的博士學(xué)位。作為一個(gè)文科出身的應(yīng)用語(yǔ)言學(xué)的碩士,要以計(jì)算機(jī)為主要工具,以建設(shè)動(dòng)態(tài)流通語(yǔ)料庫(kù)為主要目標(biāo)和研究手段,以語(yǔ)言信息處理為主要研究?jī)?nèi)容,對(duì)劉華來(lái)說(shuō),確實(shí)困難重重。
內(nèi)容概要
《詞語(yǔ)計(jì)算與應(yīng)用》共有四章,除了附錄、后記外,核心內(nèi)容詞語(yǔ)的計(jì)算與應(yīng)用,主要包括“領(lǐng)域新詞語(yǔ)快速獲取”、“詞語(yǔ)分類和詞語(yǔ)聚類”、“詞語(yǔ)計(jì)算與輔助漢語(yǔ)教學(xué)”、“詞語(yǔ)主題度計(jì)算與自動(dòng)標(biāo)引”幾個(gè)方面,這些也都是目前理工科(包括圖書館的情報(bào)檢索)關(guān)注的熱門課題,屬于人文學(xué)科與理工學(xué)科交叉的邊緣領(lǐng)域。語(yǔ)言信息處理、自然語(yǔ)言理解、人工智能、機(jī)器翻譯等都是這一邊緣領(lǐng)域的學(xué)科或課題。理工專業(yè)人士研究此類項(xiàng)目時(shí),要補(bǔ)充人文專業(yè)知識(shí)(如語(yǔ)言學(xué));人文專業(yè)人士研究此類項(xiàng)目,要補(bǔ)充理工專業(yè)知識(shí)(如計(jì)算機(jī)科學(xué)、數(shù)理科學(xué))。相對(duì)而言,補(bǔ)充人文專業(yè)知識(shí)較容易,補(bǔ)充理工專業(yè)知識(shí)則較困難。也就是說(shuō),搞計(jì)算語(yǔ)言學(xué),文科出身者比理工科出身者面臨的壓力大。通常,理工科的人寫的計(jì)算語(yǔ)言學(xué)的論著,滿篇術(shù)語(yǔ)公式,文科讀者覺得猶如讀“天書”,但是劉華博士的《詞語(yǔ)計(jì)算與應(yīng)用》并非如此。因?yàn)槭俏目瞥錾淼娜藢懡o文科出身的人讀的書,作為一個(gè)“過(guò)來(lái)人”,他能設(shè)身處地為讀者著想,每個(gè)術(shù)語(yǔ)都有詮釋,甚至每個(gè)公式都有解讀,文科的人讀來(lái)并不覺得過(guò)于深?yuàn)W晦澀。
作者簡(jiǎn)介
劉華,男,1975年生,暨南大學(xué)副教授。2005年畢業(yè)于北京語(yǔ)言大學(xué)中文信息處理專業(yè),師從張普教授,獲博士學(xué)位,主攻自動(dòng)標(biāo)引、計(jì)算語(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)輔助漢語(yǔ)教學(xué)。近五年來(lái),在核心期刊發(fā)表論文二十余篇,多篇被EI索引;目前,主持國(guó)家級(jí)課題一項(xiàng),省部級(jí)課題多項(xiàng)。
書籍目錄
序1 領(lǐng)域新詞語(yǔ)快速獲取 1.1 新詞語(yǔ)識(shí)別和聚類綜述 1.2 基于分類網(wǎng)頁(yè)鏈接分析的領(lǐng)域新詞語(yǔ)發(fā)現(xiàn) 1.3 分類新詞語(yǔ)分析 1.3.1 詞語(yǔ)抽取的準(zhǔn)確率與排錯(cuò)處理 1.3.2 抽取詞語(yǔ)的新詞率 1.3.3 新詞語(yǔ)在切分中的作用 1.3.4 新詞語(yǔ)的強(qiáng)文本表示功能 小結(jié) 參考文獻(xiàn)2 詞語(yǔ)分類和詞語(yǔ)聚類 2.1 詞語(yǔ)分類和詞語(yǔ)聚類綜述 2.2 基于分類特征提取的詞語(yǔ)分類 2.2.1 定義說(shuō)明 2.2.2 特征提取方法分析 2.2.3 詞語(yǔ)表與訓(xùn)練語(yǔ)料介紹 2.2.4 算法實(shí)現(xiàn) ……3 詞語(yǔ)計(jì)算與輔助漢語(yǔ)教學(xué)4 詞語(yǔ)主題度計(jì)算與自動(dòng)標(biāo)引附錄1 網(wǎng)絡(luò)新聞?dòng)脤蛹?jí)分類體系附錄2 15大類分類詞語(yǔ)表附錄3 244個(gè)層級(jí)小類分類詞語(yǔ)附錄4 聚類種子詞語(yǔ)附錄5 聚類詞語(yǔ)附錄6 HSK(商務(wù))詞語(yǔ)表后記
章節(jié)摘錄
推而廣之,我們還可以用此方法來(lái)自動(dòng)發(fā)現(xiàn)詞語(yǔ)的多個(gè)義項(xiàng),并進(jìn)行多義項(xiàng)的消歧?! ?.3.4聚類詞語(yǔ)集成 2.3.4.1多類別映射 我們最終完成了5萬(wàn)個(gè)種子詞的詞語(yǔ)聚類詞表的自動(dòng)構(gòu)建。由于聚類是在15大類中各自進(jìn)行的,因此,有些種子詞可能出現(xiàn)于多個(gè)大類中,并最終映射到具體的層級(jí)小類中。例如,“交通”種子詞,就屬于“房產(chǎn)城市建設(shè)交通、汽車 汽車新聞、旅游黃金周、時(shí)政新聞 國(guó)內(nèi)、時(shí)政新聞社會(huì)、經(jīng)濟(jì)消費(fèi)理財(cái)消費(fèi)生活、教育考試培訓(xùn) 職業(yè)技能 國(guó)家公務(wù)員考試、時(shí)政新聞 國(guó)際、科技 科普生活”等9個(gè)層級(jí)小類。 我們這一步的工作就是將種子詞在多個(gè)類中的聚類詞表中進(jìn)行合成,當(dāng)用戶檢索某種子詞時(shí),系統(tǒng)自動(dòng)返回該種子詞在不同類中的聚類詞語(yǔ)表,而且根據(jù)種子詞歸屬于各類的歸屬度將類由高到低排列。例如,“接吻”種子詞,按照其歸屬于各類的歸屬度,從高到低依次屬于“生活男女兩性迷情、時(shí)政新聞社會(huì)、教育性及教育、文藝藝術(shù)、時(shí)政新聞 國(guó)際、科技科普生活艾滋、旅游主題旅游蜜月旅游”,這一結(jié)果也和我們的語(yǔ)感基本一致?! 》N子詞歸屬于各類的歸屬度是自動(dòng)進(jìn)行的,方法如下: 如果種子詞在幾個(gè)類中都有,利用文本分類的向量空間模型算法計(jì)算種子詞的特征向量和這幾個(gè)類的特征向量之間的相似度,按照相似度從高到低排列即可。文本分類的向量空間模型算法參見后文的介紹。
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載