漢語成語知識(shí)庫的建構(gòu)理念與新進(jìn)展
王雷 俞士汶 朱學(xué)鋒 羅鳯珠 砂岡和子 姜柄圭
摘要:在漢語中,成語是非常特殊的一個(gè)組成部分,其歷史悠久、形態(tài)穩(wěn)定、結(jié)構(gòu)固定且多用比喻義。本文以描述漢語成語的特點(diǎn)為起點(diǎn),詳細(xì)辨析了成語、熟語、習(xí)語等多詞表達(dá)的共同點(diǎn)和差別,給出了漢語成語面向中文信息處理的準(zhǔn)確定義。重點(diǎn)介紹了北京大學(xué)計(jì)算語言學(xué)研究所建設(shè)的漢語成語知識(shí)庫。作為一個(gè)重要的漢語語言資源,成語知識(shí)庫除了能在機(jī)器翻譯、機(jī)器輔助翻譯、跨語言檢索等自然語言處理任務(wù)中發(fā)揮重要作用外,它還對(duì)漢語語言學(xué)研究、對(duì)外漢語教學(xué)以及語言對(duì)比研究等工作也有重要的指導(dǎo)意義。
關(guān)鍵詞:漢語成語知識(shí)庫;建構(gòu)理念;新進(jìn)展
Principle and New Development of Constructing Chinese Idiom Knowledge Base
Lei Wang1,2Shiwen Yu1Xuefeng Zhu1Fengju Lo3Kazuko Sunaoka4 Byeongkwu Kang5
Key Laboratory of Computational Linguistics of Ministry of Education1
Department of English of Peking University Beijing 1008712
Department of Chinese Linguistics & Literature of Yuan Ze University Taiwan 320033
School of Political Science and Economics of Waseda University Tokyo 16980504
Sogang University5
Abstract: Idioms are distinctive in Chinese for its long history, fixed constitution, continuity and metaphorical meaning in its context. This paper starts with a description of the characteristics of Chinese idioms and analyzes the similarities and differences of multi-word expressions such idioms, idiomatic expressions and phrases, which results in a clear definition of Chinese idioms for the purpose of Chinese information processing. We focus on a Chinese idiom knowledge base built by the Institute of Computational Linguistics at Peking University. As an important Chinese language resource, our idiom knowledge base will not only play a major role in NLP tasks such as machine translation,computer-aided translation, but also provides valuable assistance to cross-language research, linguistic research, teaching Chinese as a foreign language etc.
Key words:Chineseidiom knowledge base; principle of construction;new development
1.引言
成語在語言表達(dá)中有生動(dòng)簡潔、形象鮮明、喻義深刻的特點(diǎn),本身蘊(yùn)含著豐富的歷史、社會(huì)和文化知識(shí),是一個(gè)民族語言最具有特色的組成部分。漢語歷史悠久,大部分成語是從古代歷史典故、寓言傳說、經(jīng)典文獻(xiàn)中相承沿用下來的,通常有著幾千年的歷史,是珍貴的民族文化遺產(chǎn);此外,漢語成語數(shù)量多,使用頻率高,這也是漢語不同于其他語言的一個(gè)顯著特點(diǎn)。在語言教學(xué)中,成語教學(xué)是不可忽視的重要組成部分,教好、學(xué)好成語可以使學(xué)生掌握有關(guān)成語的社會(huì)、歷史和文化知識(shí),開闊眼界,提高表達(dá)、閱讀和寫作能力[1]。在漢語中,成語占有非常重要的地位,研究類似成語、習(xí)語、諺語等多詞表達(dá)(Multi-word Expression)并建設(shè)這種語言單位的知識(shí)庫對(duì)于語言教學(xué)[2]、詞典編纂[3]、自然語言處理[4]等領(lǐng)域的研究和發(fā)展會(huì)具有實(shí)質(zhì)性的意義。近年來隨著中文電化教學(xué)理論日益發(fā)展,相關(guān)實(shí)踐與方法日益得到推廣與普及,大規(guī)模、高質(zhì)量的漢語語言知識(shí)庫(包括各種形式的語料庫)不斷開發(fā)研制出來并應(yīng)用于實(shí)際語言教學(xué)中,這些因素對(duì)于推動(dòng)漢語文教學(xué)、對(duì)外漢語教學(xué)起了非常大的作用。
此外,隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)逐漸成為人們學(xué)習(xí)、工作乃至日常生活的一部分。遇到問題,一些人首先想到用搜索引擎搜索一下,但是當(dāng)前搜索引擎的能力和表現(xiàn)都還不能盡如人意。在進(jìn)行搜索時(shí),搜索對(duì)象限定為網(wǎng)頁中用字符串表示的文字,而我們真正要搜索的是其表達(dá)的內(nèi)容,并不是文字符號(hào)串本身。當(dāng)搜索引擎嘗試對(duì)類似于成語這樣有固定組成結(jié)構(gòu)的多詞表達(dá)進(jìn)行深入的語法、語義分析時(shí),效果并不理想。因此從機(jī)器理解自然語言的角度,深入研究類似詞組、習(xí)語、成語、諺語等這樣的多詞表達(dá)對(duì)于自然語言處理技術(shù)的提升會(huì)具有實(shí)質(zhì)性的意義;而中文信息處理尤其需要大規(guī)模、高質(zhì)量的、具有固定結(jié)構(gòu)的詞組、習(xí)語、成語等語言知識(shí)庫的支持。
2.現(xiàn)代漢語中的成語及其特點(diǎn)
根據(jù)《現(xiàn)代漢語詞典》[5],漢語成語的定義為“人們長期以來習(xí)用的、簡潔精辟的定型詞組或短語。”其中“習(xí)用”一詞表明成語須具有一定的歷史淵源,亦有一個(gè)演變過程,通常時(shí)代感較強(qiáng)。從結(jié)構(gòu)上看,成語書面語言用字較多,通常以四字格的形式出現(xiàn),而其中“2+2“的聯(lián)合結(jié)構(gòu)又占大多數(shù)。從語義角度來看,正是由于成語具有“簡潔精辟”的特點(diǎn),導(dǎo)致其較普通詞語難懂。有些可根據(jù)字面意義推斷,有些必須知道來源或典故才能懂得其含義。描述性成語一般情感色彩比普通詞語強(qiáng),感情表達(dá)強(qiáng)烈。從修辭的角度看,很多成語具有隱喻,具有生動(dòng)形象,寓意深刻的特點(diǎn)。從使用情況上看,中國國家語言文字工作委員會(huì)自2006年起,每年發(fā)布的《中國語言生活狀況報(bào)告》,都包含各種媒體使用成語的情況。如在2011年的10億漢字的語料中,成語出現(xiàn)近200萬次,覆蓋率為0.32%。
但是如果我們仔細(xì)觀察上述對(duì)成語的定義,我們發(fā)現(xiàn)其只是一個(gè)描述性的定義,存在模糊性。如何給漢語成語下一個(gè)精確的定義,無論是從語義、語法還是語用的角度,一直都是一個(gè)難題。在引入多詞表達(dá)概念之前,漢語對(duì)于一些難以明確定義為成語的這類固定結(jié)構(gòu)也稱為“熟語”或者“習(xí)語”。《現(xiàn)代漢語詞典》對(duì)于“熟語”的定義為:固定的詞組,只能整個(gè)應(yīng)用,不能隨意變動(dòng)其中成分,并且往往不能按照一般的構(gòu)詞法來分析,如“慢條斯理、無精打采、不尷不尬、一來二去、亂七八糟、八九不離十等。”[6]在一部有關(guān)“習(xí)語”的專著中,將其定義為:一種多詞的語言單位,常為習(xí)慣用法,具有相對(duì)固定的句法-—語義結(jié)構(gòu)。語言的使用者慣于將它作為一個(gè)整體來用,以增強(qiáng)語體效果。總體上,語言學(xué)家們對(duì)于熟語的一些特點(diǎn)達(dá)成了共識(shí)。文獻(xiàn)[7]認(rèn)為,熟語是語言中定型的詞組和句子,使用時(shí)一般不能任意改變其組織,包括成語、諺語、格言、歇后語等。文獻(xiàn)[8]認(rèn)為,詞匯當(dāng)中,除了許多獨(dú)立運(yùn)用的詞以外,還有一些固定詞組為一般人所經(jīng)常使用的,也作為語言的建筑材料和詞匯的組成部分,這些總稱熟語。熟語的范圍相當(dāng)廣,包括慣用語、成語、歇后語、諺語、格言等。
從以上描述中我們看到,“固定性”是這類語法結(jié)構(gòu)的共同特點(diǎn),而且熟語應(yīng)該包含成語。不承認(rèn)熟語(或按英語稱為“多詞表達(dá)”)的固定性,在自然語言處理任務(wù)中會(huì)出現(xiàn)很多問題。例如對(duì)漢語文本中的句子進(jìn)行分詞,一些成語或者熟語如果按照組成成分進(jìn)行切分和標(biāo)注,將會(huì)給理解造成很大的困難。例如漢語成語“雞飛狗跳”,我們用ICTCLAS 進(jìn)行切分并標(biāo)注會(huì)得到以下結(jié)果:
雞/n? 飛/v? 狗/n? 跳/v
而實(shí)際上這個(gè)成語只是利用兩種動(dòng)物“雞”和“狗”來進(jìn)行比喻,本身并非和這兩種動(dòng)物相關(guān),把它切分開來會(huì)讓人覺得這個(gè)成語的語義和這兩種動(dòng)物相關(guān)。再如諺語“只要功夫深,鐵杵磨成針。”同樣切分后的結(jié)果為:
只要/c? 功夫/n? 深/a? ,/w
鐵杵/n? 磨/v? 成/v? 針/n? 。/w
也容易讓人無法得到該諺語的真正含義。
問題在于熟語和成語的界限究竟在哪里?我們認(rèn)為,漢語成語的定義應(yīng)該符合國際通用的對(duì)成語的定義[9]:An idiom is a multi-word expression that has a figurative meaning that is comprehended in regard to a common use of that expression that is separate from the literal meaning or definition of the words of which it is made.如其所言,是否歸入成語關(guān)鍵是該多詞表達(dá)的語義不能從其組成成分——無論是字還是詞——中推測出來,亦即無法從成語的字面知道其比喻義。這樣漢語中“杯弓蛇影”為成語,而“興高采烈”則不是。
3.現(xiàn)代漢語成語知識(shí)庫的建設(shè)理念
人學(xué)習(xí)第二語言要掌握大量語法、語義知識(shí),讓計(jì)算機(jī)理解人類語言,也要給計(jì)算機(jī)配備語言知識(shí)庫,使之成為計(jì)算機(jī)處理語言的知識(shí)基礎(chǔ)和依據(jù)。而給計(jì)算機(jī)用的語言知識(shí)與給人學(xué)習(xí)的語言知識(shí)是要有區(qū)別的。針對(duì)利用計(jì)算機(jī)對(duì)自然語言進(jìn)行處理,主要要解決三個(gè)問題:一、計(jì)算機(jī)需要什么樣的語言知識(shí)?二、怎樣描述這些語言知識(shí),計(jì)算機(jī)才能接受?三、如何建設(shè)實(shí)用型語言知識(shí)庫以便讓計(jì)算機(jī)能夠方便地處理這些知識(shí)?
圖1 語言知識(shí)庫是支撐語言信息處理發(fā)展的基礎(chǔ)設(shè)施
在自然語言處理領(lǐng)域中,語言知識(shí)庫就好比人類大腦中存儲(chǔ)語言知識(shí)的記憶區(qū)域,是支撐語言信息處理發(fā)展的基礎(chǔ)設(shè)施(如圖1所示)。恰當(dāng)?shù)闹R(shí)表示、快速有效的存儲(chǔ)與讀取機(jī)制、靈活高效的算法等都構(gòu)成了計(jì)算機(jī)用語言知識(shí)庫的必要要素。因此語言知識(shí)庫是自然語言處理系統(tǒng)中不可或缺的組成部分,是這類系統(tǒng)成敗的關(guān)鍵。在用語言知識(shí)庫搭建的平臺(tái)上可以上演威武雄壯生動(dòng)活潑的應(yīng)用系統(tǒng)的劇目(圖2)。
圖2 應(yīng)用程序需要建立在語言知識(shí)庫的平臺(tái)上
從上世紀(jì)八十年代起二十六年來,北京大學(xué)計(jì)算語言學(xué)研究所(以下簡稱“計(jì)算語言學(xué)所”)立足北大文理結(jié)合的基礎(chǔ),發(fā)揮對(duì)母語知識(shí)和文化的認(rèn)知優(yōu)勢(shì),日積月累,終于建成綜合型語言知識(shí)庫(Comprehensive Language Knowledge Base,以下簡稱“CLKB”)。CLKB的語言知識(shí)覆蓋詞、詞組、句子、篇章各級(jí)語言單位和詞法、句法、語義各個(gè)知識(shí)層面,從漢語向多語言輻射,從通用領(lǐng)域深入到專業(yè)領(lǐng)域[10]。一直以來,綜合型語言知識(shí)庫沒有停止發(fā)展。已有的知識(shí)庫的瑕疵不斷被剔除,質(zhì)量不斷提高。新的知識(shí)庫也在建造中。應(yīng)用也在不斷推進(jìn) 。
對(duì)于針對(duì)漢語成語構(gòu)建相應(yīng)的語言知識(shí)庫,俞士汶教授曾指出:“成語在現(xiàn)代漢語中頻繁出現(xiàn),對(duì)成語的理解(包括確切翻譯)是文本內(nèi)容理解的一個(gè)重要組成部分。成語龐大,畢竟有限;成語難懂,畢竟可查。只要建設(shè)好成語知識(shí)庫,絕大部分成語的理解問題就會(huì)迎刃而解。”正是認(rèn)識(shí)到了文本中成語理解的重要性,他提出了構(gòu)建成語知識(shí)庫的設(shè)想,并在國家重點(diǎn)基礎(chǔ)研究課題(973)“文本內(nèi)容理解的數(shù)據(jù)基礎(chǔ)”(課題編號(hào):2004CB318102)中實(shí)踐了這一主張,建成了一個(gè)漢語成語知識(shí)庫,并基于該成語知識(shí)庫開展了多詞表達(dá)、比較語言學(xué)以及計(jì)算機(jī)輔助翻譯方法的研究。在國家973課題的支持下,計(jì)算語言所構(gòu)建了漢語成語知識(shí)庫(Chinese Idiom Knowledge Base,以下簡稱“CIKB”)。
4.成長中的成語知識(shí)庫
計(jì)算語言學(xué)所構(gòu)建的漢語成語知識(shí)庫,其發(fā)展歷程共分三個(gè)階段。第一階段(1986年—2003年)所搜集標(biāo)注的成語是作為《現(xiàn)代漢語語法信息詞典》 (以下簡稱“語法信息詞典”)的組成部分。當(dāng)時(shí)《語法信息詞典》收了8萬余漢語詞語,其中包含的成語和習(xí)語共有9000多條(見圖3)。清華大學(xué)出版社出版了介紹這部電子詞典的專著[11]。
圖3 《語法信息詞典》中所收錄的成語語法屬性標(biāo)注
發(fā)展的第二階段(2004年—2009年)是在973課題中所提出的“綜合型語言知識(shí)庫”的規(guī)劃下,單獨(dú)建庫。收入成語及熟語36000多條。其中除《語法信息詞典》原有的“主語”、“謂語”、“句首”等句法屬性信息外,增設(shè)了11個(gè)新的屬性字段:成語、級(jí)別、變體、近義、反義、直譯、意譯、英語近似、譯者、釋義、詞頻、來源。至此,成語知識(shí)庫中共計(jì)有23個(gè)屬性字段。特別是“直譯”、“意譯”、“英語近似”字段(見圖4)既重要,又難填。現(xiàn)已完成1萬多條成語完整的屬性值填寫,其中英語字段自譯的就有2600多條。
圖4 成語知識(shí)庫中英譯字段標(biāo)注示例
發(fā)展的第三階段(2010年—至今)緣于計(jì)算語言學(xué)所與臺(tái)灣元智大學(xué)合作的“歷代語言知識(shí)庫建置”計(jì)劃。自2010年加入“歷代語言知識(shí)庫建置”計(jì)劃起,成語知識(shí)庫的發(fā)展有了更開闊的視野,更加重視成語知識(shí)庫在漢語教學(xué)特別是東亞地區(qū)的漢語教學(xué)領(lǐng)域所能發(fā)揮的潛能。其進(jìn)展如下:(1)成語知識(shí)庫與歷代語言知識(shí)庫中的另一成果“詩詞曲典故資料庫”進(jìn)行連接,相互參照。兩個(gè)知識(shí)庫中實(shí)現(xiàn)成員的優(yōu)勢(shì)互補(bǔ),提高知識(shí)庫整體品格。例如條目“傾城傾國”經(jīng)過與典故資料庫進(jìn)行影射可以得到如“傾國風(fēng)流、一顧傾城、名花傾國、傾人城、傾城色、傾城國”等古詩詞和文學(xué)作品中的典故。成語與典故的對(duì)應(yīng)使兩個(gè)自立的知識(shí)庫交相輝映,可以讓學(xué)習(xí)者同時(shí)領(lǐng)悟成語與典故的含義,不僅有助于理解使用成語的漢語文本的內(nèi)容,還能增強(qiáng)賞析中國古典文學(xué)瑰寶的能力。(2)建設(shè)了成語典故分階多語教學(xué)網(wǎng)站。網(wǎng)站的內(nèi)容比較豐富,例如進(jìn)行了成語形態(tài)對(duì)比與教學(xué)關(guān)系的探討 (見圖5)。漢語的“走馬看花”,韓語是“走馬看山”,漢語的“異口同聲”日語是“異口同音”,詞匯組成成分不同。漢語的“堂堂正正”,而日、韓語中的形態(tài)是“正正堂堂”,意義相同而詞序不同;日語同時(shí)用[正々堂々]的寫法,讀音則為“せいせいどうどう(seiseidoudou)”;韓語的寫法“正正堂堂”,讀音則是“????(jungjung dang dang)”。
圖5 成語知識(shí)庫中多語形態(tài)比較示例
(3)進(jìn)行了基于成語知識(shí)庫的漢語成語教學(xué)實(shí)踐活動(dòng)。其中包括王雷著《中國成語1000(漢英對(duì)照)》[13]以及發(fā)表的相關(guān)漢語成語知識(shí)庫與漢語教學(xué)的論文[1]。
5.結(jié)語與未來研究
目前,無論是從人的角度還是從機(jī)器的角度,成語的理解與運(yùn)用還存在一定的困難。例如,成語中包含的非常用字:另辟蹊徑、高屋建瓴、言簡意賅、錙銖必較、罄竹難書……;含費(fèi)解的詞:膏火自煎、烏合之眾、獨(dú)具匠心、固若金湯、司空見慣、格物致知……;隱喻的廣泛使用:洛陽紙貴、罄竹難書、一絲不茍、金屋藏嬌等。一些成語與歷史典故關(guān)系密切,在應(yīng)用時(shí)非常依賴語境,稍加不注意就可能造成應(yīng)用不當(dāng)甚至是錯(cuò)誤。例如:胸有成竹、金屋藏嬌、朝三暮四、杯弓蛇影、班門弄斧……等等。
基于成語知識(shí)庫所開展的研究可以分為兩個(gè)角度,從小視野來看主要是成語的理解與運(yùn)用,尤其是面向中文信息處理的應(yīng)用,從而做到既面向機(jī)器又面向人,以面向人的研究為基礎(chǔ),以機(jī)器自動(dòng)理解為最終目標(biāo),兩者相輔相成、相互促進(jìn)。從大視野來看,則須緊扣歷代語言知識(shí)庫的構(gòu)建,對(duì)歷代漢語語言知識(shí)進(jìn)行深層次的分析和研究,探索漢語言演化規(guī)律與社會(huì)環(huán)境變遷的交互影響。
為了支持成語知識(shí)庫繼續(xù)發(fā)展,計(jì)算語言學(xué)所也制定了一些新計(jì)劃,其中包括:1)中國國家自然科學(xué)基金項(xiàng)目“隱喻識(shí)別與理解的理論與方法研究”(2012年-2015年,王治敏博士主持,俞士汶?yún)⒓樱?)中國國家自然科學(xué)基金項(xiàng)目“漢語全文詞義標(biāo)注關(guān)鍵技術(shù)研究”(2013年-2016年,曲維光教授主持,朱學(xué)鋒參加);3)北京大學(xué)計(jì)算語言學(xué)中國教育部重點(diǎn)實(shí)驗(yàn)室開放課題“漢語和英語多詞表達(dá)中的隱喻研究”(2013年起,王雷主持)。
成語知識(shí)庫是一項(xiàng)已歷時(shí)二十余年的大型語言工程,建構(gòu)的全過程都采用人機(jī)互助的方法。自動(dòng)建構(gòu)本質(zhì)上是機(jī)器輔助構(gòu)建,盡可能采用適用的成熟的軟件技術(shù),如數(shù)據(jù)庫技術(shù),機(jī)器學(xué)習(xí)技術(shù)等等,可以保證工程的規(guī)模和進(jìn)度。同時(shí),成語知識(shí)庫又是一項(xiàng)知識(shí)密集型的高級(jí)語言工程。單純依賴自動(dòng)技術(shù)建構(gòu)的語言知識(shí)庫的質(zhì)量不能滿足應(yīng)用的需要,因此必須投入相當(dāng)多的人力,必須投入高水平的專家的力量。專家的知識(shí)和奉獻(xiàn)才是語言知識(shí)庫質(zhì)量的保證。
致謝
本研究工作得到國家自然科學(xué)基金(項(xiàng)目編號(hào)61170163,61272221, 蔣經(jīng)國基金會(huì)(2009)以及北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室開放課題(項(xiàng)目編號(hào)201302)。得到國家高科技研究與發(fā)展項(xiàng)目(863項(xiàng)目)(項(xiàng)目編號(hào) 2012AA011101)部分支持。
參考文獻(xiàn)
[1] 王雷,俞士汶,朱學(xué)鋒,羅鳳珠,漢語成語知識(shí)庫與漢語教學(xué)[A],第八屆中文電化教學(xué)國際研討會(huì)論文集,第83-89頁,2012
[2] Lo, Wing Huen. Best Chinese Idioms (Vol. 3)[M]. Hong Kong: HaiFeng Publishing Co,1997: 20-38.
[3] Fellbaum, Christiane. Idioms and Collocations: Corpus-based Linguistic and Lexicographic Studies (Research in Corpus and Discourse)[M]. London: Continuum International Publishing Group Ltd.2007:157-196.
[4] Lin, Dekang. Automatic Identification of NoncompositionalPhrases[A]. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics[C].1999. Maryland, USA: 317-324.
[5] Fiedler, S.. English Phraseology: A Coursebook[M]. Turbingen: Gunter NarrVerlag(2007).
[6] 社科院詞典編輯室,現(xiàn)代漢語詞典(第三版)[M],北京:商務(wù)印書館,1998
[7] 辭海編輯委員會(huì),辭海(1979年版)[M],上海:上海辭書出版社,1979
[8] 胡裕樹. 現(xiàn)代漢語[M] . 上海: 上海教育出版社,1998.
[9] McArthur, Tom. 1992. The Oxford Companion to the English Language[M]. Oxford University Press, Oxford, UK.
[10] 俞士汶,穗志方,朱學(xué)鋒. 綜合型語言知識(shí)庫及其前景[J]. 中文信息學(xué)報(bào),第二十五卷第六期. 2011年11月:12-20.
[11] 俞士汶,朱學(xué)峰,王惠.《現(xiàn)代漢語語法信息詞典詳解(第二版)》[M].北京:清華大學(xué)出版社,2003:51.
[12] 中國工程院編,《20世紀(jì)我國重大工程技術(shù)成就》[M],廣州:暨南大學(xué)出版社,2002年,第一版31頁
[13] 王雷.《中國成語1000(漢英對(duì)照)》[M].北京大學(xué)出版社, 2011:65-86.
-
作者單位
-
北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室
-
北京大學(xué)外國語學(xué)院
-
臺(tái)灣元智大學(xué)
-
中國語言文學(xué)系
-
早稻田大學(xué)政治與經(jīng)濟(jì)學(xué)院、西江大學(xué)