史記字頻研究

出版時間:2006-3  出版社:商務(wù)印書館  作者:李波  
Tag標(biāo)簽:無  

內(nèi)容概要

  本書利用《史記》文獻(xiàn)語料庫和由語料庫得到的文獻(xiàn)數(shù)字化信息,全面描述并分析《史記》用字的量和位?! ≡缭谏蟼€世紀(jì)80年代初期,我就著手籌劃編纂《史記索引》。傳統(tǒng)的索引是依據(jù)選定的文獻(xiàn)底本,手工斷句,剪貼編排而成。燕京哈佛學(xué)社引得編纂處的那些引得,葉圣陶先生的《十三經(jīng)索引》,都是手工編纂索引的先例。前輩編纂索引的經(jīng)驗(yàn)告誡我,人工為20萬字以上的文獻(xiàn)做詳盡的索引是異常困難的,手工操作必然產(chǎn)生的差錯率甚至?xí)嗨颓寥f苦的努力。  計算機(jī)的使用給編纂大型文獻(xiàn)索引帶來轉(zhuǎn)機(jī)。當(dāng)時在黑龍江計算機(jī)領(lǐng)域已經(jīng)嶄露頭角的李曉光告訴我,使用計算機(jī)可以代替人工編纂詳盡的文獻(xiàn)索引。工作程序是先做計算機(jī)機(jī)讀本,制成數(shù)據(jù)庫,再進(jìn)行一系列運(yùn)算,而后即可完成編纂索引的工作。要給《史記》這樣一部大部頭的文獻(xiàn)編纂索引,就非得使用計算機(jī)不可了。那時,所能見到的只是相當(dāng)原始的微型計算機(jī)。即使是那樣的微型機(jī),輪到個人使用也很罕見。為了工作,我必須求得一臺計算機(jī),后來好友王新生竟然從一個小公司里借出來一臺PC機(jī)為我專用。接著,我們尋求到了一塊漢卡,那是如今已經(jīng)很少有人知道的“倉頡輸入法”專用卡。最初的機(jī)讀本《史記》就是借助倉頡漢卡實(shí)現(xiàn)的。在制作《史記》機(jī)讀本和對《史記》語言進(jìn)行分析的時候,問題總是不斷地提出來,用東北話說是“零揪”,這對編程工作來說,無疑是反反復(fù)復(fù)的折磨。合作伙伴李曉光卻總是能在艱苦的條件下,對我提出的各種要求給出完滿的解決方案。當(dāng)時微型計算機(jī)的處理速度和容量,與現(xiàn)在普遍使用的“奔4”相比可能相差千倍有余,處理《史記》這樣一個大部頭文獻(xiàn),僅在計算機(jī)處理能力上的難度就可想而知了。  但是,對計算機(jī)的新鮮感和用計算機(jī)處理大型古籍的憧憬,驅(qū)使我們做成這件事。不懈的努力,終于有了回報,我們的機(jī)讀本《史記》和《史記》語料庫都達(dá)到了令人滿意的地步。1987年5月27日舉行的“使用IBMPC—XT微型電子計算機(jī)處理大型古代文獻(xiàn)——《史記》鑒定會”上,我們的工作得到專家們肯定。鑒定會在哈爾濱師范大學(xué)召開,邀請的專家有:郭錫良(北京大學(xué)教授,鑒定會主任委員)、吳幾康(中科院計算機(jī)研究所研究員)、劉涌泉(中國中文信息協(xié)會研究員)、呂冀平(黑龍江大學(xué)教授)、花柵(哈爾濱船舶工程學(xué)院教授)、郭福順(哈爾濱工業(yè)大學(xué)教授)、曹先擢(國家語言文字工作委員會研究員)、曹乃木(商務(wù)印書館編審)、傅永和(國家語言文字工作委員會副研究員)、葉長陰(哈爾濱師范大學(xué)教授)、劉伯文(黑龍江電子計算機(jī)服務(wù)公司工程師)、張晉梗(哈爾濱師范大學(xué)副教授)、李傳靖(黑龍江電子計算機(jī)服務(wù)公司工程師)、鄭繼志(黑龍江電子研究所工程師)。  鑒定會的成果報告、技術(shù)審查報告、用戶意見和鑒定證書都說  明了這個成果的可靠性和先進(jìn)性。專家們認(rèn)為,在實(shí)現(xiàn)中文文獻(xiàn)檢索的現(xiàn)代化和計算機(jī)的功能開發(fā)方面,這項工作處于全國領(lǐng)先地位。鑒定會以后,《史記索引》順利出版了。這些成果,后來獲得了黑龍江省科委的計算機(jī)軟件獎、社會科學(xué)編著獎等獎項?! 」a良先生在鑒定會座談時曾講,《史記》數(shù)據(jù)庫的實(shí)現(xiàn),就像是挖到了一座金山,吃不完用不盡,對語言研究來說應(yīng)該繼續(xù)往深里挖掘開發(fā)。我覺得可以把文獻(xiàn)語料庫比作冰山,當(dāng)這座大冰山浮出水面以后,在語言學(xué)的研究領(lǐng)域中出現(xiàn)生機(jī),語言各個層面的研究差不多都可以在語料庫的環(huán)境里實(shí)現(xiàn)。就《史記》研究而言,借助《史記》語料庫提供的大量的文獻(xiàn)數(shù)字化信息,以漢字為計量單位,可以極方便地從定量和窮盡兩個方面對《史記》作全面分析,進(jìn)而對《史記》的語言開展多方面的研究,并獲取那些單憑抽樣調(diào)查不可能得出的結(jié)論。然而,這只是冰山的一角。文獻(xiàn)語料庫的出現(xiàn),使語言研究領(lǐng)域中需要做的工作和能夠做的工作一下子增加了許多倍,包括綜合語料庫的建設(shè),數(shù)據(jù)信息的提取,計算方法的探求,等等?! ∈褂梦墨I(xiàn)語料庫作語言研究,要有與之相適應(yīng)的方法。依據(jù)語料庫作研究總是要著眼全局,所研究的內(nèi)容又具有很強(qiáng)的相關(guān)性,為了說明一個問題,必須給出多種量的證明,否則,就不可能發(fā)揮語料庫研究的優(yōu)勢,不能稱其為語料庫語言研究。這樣,一部文獻(xiàn)的語料庫常顯得孤立無援,必須有多部文獻(xiàn)的語料庫才能互相輔證。所以這些年來我和幾個同志坐下來,試著先搞一些文獻(xiàn)語料庫,同時也在學(xué)習(xí)研究漢語文獻(xiàn)的運(yùn)算方法,試圖在開發(fā)語料庫功能的同時解決老問題,發(fā)現(xiàn)新問題?! ‰S著工作的向前推進(jìn)和計算機(jī)功能的急劇拓展,我們陸續(xù)研制出了多部文獻(xiàn)語料庫,包括十三經(jīng)、前四史、《國語》、《戰(zhàn)國策》及《漢語大詞典》辭目語料庫等。利用文獻(xiàn)語料庫進(jìn)行研究的成果之一,就是編纂文獻(xiàn)索引,多部索引已經(jīng)由中國/“播電視出版社出版了。在出版這些索引的時候,我們總是從語言研究的角度考慮,不斷更新這些索引的格式和內(nèi)容,讀者如果手頭有這些索引,按時間順序?qū)⑵渑帕幸幌?,加以比較,就會看到其中改進(jìn)的情況?! ”緯膶懽?,源于戴昭銘先生的建議。我本來想寫一篇文章來表述對《史記》字頻表的分析,介紹我們通過計算《史記》語料庫分析《史記》字表的方法和結(jié)論。戴昭銘先生認(rèn)為,語料庫是有利于大家的東西,字表又是借助語料庫研究文獻(xiàn)語言的大綱,與其只介紹研究的方法,不如用一本小書把研究方法和研究的結(jié)果都公布出來,與研究《史記》的同仁共享。戴先生說得對。我把這個想法跟一些同志談過,他們都很贊同,還認(rèn)為這項工作對一些大型文獻(xiàn)語料庫的研制和使用都會有意義。這部書講述了文獻(xiàn)語料庫的研制和在此基礎(chǔ)上所做的工作,公布了《史記》字表的各個字頻區(qū)的用字,并對其進(jìn)行分析,闡述了字頻表的功能。這些工作是使用《史記》語料庫研究《史記》語言的一部分基礎(chǔ)工作。從長遠(yuǎn)看,使用《史記》語料庫研究《史記》語言,還是使用文獻(xiàn)語料庫研究文獻(xiàn)語言的組成部分,是一項探索性很強(qiáng)的工作。對《史記》語言的深入研究,以及對文獻(xiàn)語言的研究工作,都需要更多的文獻(xiàn)語料庫;大型綜合文獻(xiàn)語料庫的研制和使用,應(yīng)該從現(xiàn)在開展起來。

書籍目錄

前  言第1章  文獻(xiàn)語料庫和文獻(xiàn)的數(shù)字化信息    1.1“例不十,法不立”的原則和窮盡性研究    1.2文獻(xiàn)語料庫的品格和研制思路    1.3漢字的計量優(yōu)勢    1.4《史記≯語料庫和文獻(xiàn)的數(shù)字化信息    1.5文獻(xiàn)用字的坐標(biāo)系第2章  《史記》語料庫的制作    2.1文獻(xiàn)版本的選定    2.2機(jī)讀本《史記》的制作    2.3語言研究的配套程序    2.4參比文獻(xiàn)語料庫第3章  《史記》分卷用字淵查    3.1分卷研究的意義    3.2《史記》130卷的分卷數(shù)據(jù)    3.3《史記》130卷用字?jǐn)?shù)據(jù)分析第4章  《史記》用字概況和字頻區(qū)的劃分    4.1《史記》用字的概況    4.2《史記》語料庫的數(shù)據(jù)提取    4.3《史記》字區(qū)的劃分標(biāo)準(zhǔn)    4.4《史記》的字區(qū)    4.5《史記》與其他典籍?dāng)?shù)據(jù)的比較    4.6《史記》與《十三經(jīng)》、現(xiàn)代漢語字頻的比較    4.7《史記》用字分類研究的方法第5章  《史記》核心字區(qū)的分析    5.1《史記》的核心字區(qū)    5.2核心字的7種數(shù)據(jù)    5.3數(shù)據(jù)和內(nèi)容的討論    5.4數(shù)據(jù)和內(nèi)容的驗(yàn)證    5.5結(jié)論第6章  《史記》高頻字區(qū)的分析    6.1《史記》的高頻字區(qū)    6.2高頻字的7種數(shù)據(jù)    6.3數(shù)據(jù)和內(nèi)容的討論    6.4數(shù)據(jù)和內(nèi)容的驗(yàn)證    6.5結(jié)論第7章  《史記》中頻字區(qū)的分析    7.1《史記》的中頻字區(qū)    7.2中頻字的7種數(shù)據(jù)    7.3數(shù)據(jù)和內(nèi)容的討論    7.4數(shù)據(jù)和內(nèi)容的驗(yàn)證    7.5結(jié)論第8章  《史記》低頻字區(qū)的分析    8.1《史記》的低頻字區(qū)    8.2低頻字的7種數(shù)據(jù)    8.3數(shù)據(jù)和內(nèi)容的討論    8.4數(shù)據(jù)和內(nèi)容的驗(yàn)證    8.5結(jié)論第9章  《史記》罕用字區(qū)的分析    9.1《史記》的罕用字區(qū)    9.2一用字的7種數(shù)據(jù)    9.3數(shù)據(jù)和內(nèi)容的討論    9.4結(jié)論第10章  《史記》的句長    10.1《史記》斷句的依據(jù)    10.2《史記》分篇的句長統(tǒng)計表    10.3句長的有關(guān)數(shù)據(jù)結(jié)語參考文獻(xiàn)

編輯推薦

這部書講述了文獻(xiàn)語料庫的研制和在此基礎(chǔ)上所做的工作,公布了《史記》字表的各個字頻區(qū)的用字,并對其進(jìn)行分析,闡述了字頻表的功能。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    史記字頻研究 PDF格式下載


用戶評論 (總計0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7