薛天緯
(新疆師范大學(xué)文學(xué)院)
賴瑞和《唐代基層文官》(中華書局·2008)《自序》中有這樣一段話:“市面上和網(wǎng)上的《全唐詩》電子文庫很多,但多為簡體字版,且校對欠佳,又無卷數(shù)頁數(shù),都不合學(xué)術(shù)用途。最合乎學(xué)界需要,校對精細(xì),且以繁體字制作的,據(jù)我所知就只有陳教授這一套了!贝颂庩惤淌冢侵概_灣東吳大學(xué)中文研究所陳郁夫先生。眾所周知,《全唐詩》是最基本的文學(xué)古籍之一,對于我們這些以唐詩及唐代文學(xué)研究為專業(yè)的人來說,其重要性更是居于任何他書之上。這些年來,我們都習(xí)慣于使用《國學(xué)寶典》版的《全唐詩》,平心而論,這個版本的《全唐詩》也確實(shí)給了我們許多幫助,為我們的研究工作提供了前所未有的方便條件。賴瑞和先生不知是否使用過或見識過《國學(xué)寶典》版《全唐詩》,但按照他的標(biāo)準(zhǔn),一是要用繁體字,二是要校對精細(xì),三是要有卷數(shù)頁數(shù),《國學(xué)寶典》版《全唐詩》除了有卷數(shù)這一點(diǎn)外,其余方面都不符合或不太符合他的要求,即用的是簡體字,校對不甚精細(xì),未標(biāo)明原書頁數(shù)。那么,我們可以想見,賴瑞和先生即使接觸過并了解《國學(xué)寶典》版《全唐詩》,肯定也不會認(rèn)為它是“合學(xué)術(shù)用途”“合乎學(xué)界需要”的版本。賴先生提出的幾個條件,在很大程度上可視為數(shù)字化古籍的一般標(biāo)準(zhǔn)。因此,我們在肯定和感激《國學(xué)寶典》版《全唐詩》的同時,也真誠地希望它能與時俱進(jìn),真正做到如賴瑞和先生所說的“合學(xué)術(shù)用途”“合乎學(xué)界需要”。而要做到這一點(diǎn),最根本的改進(jìn),就是要將錄入改為掃描,即不再對古籍重新進(jìn)行二次性的人工錄入,而是改為選定善本(學(xué)術(shù)意義上的善本,而非收藏意義上的善本)進(jìn)行掃描。之所以需要進(jìn)行這樣的改進(jìn),我所考慮到的理由有以下幾條:
1.避免錯誤,即避免錄入別字。
由于錄入人員并非專業(yè)研究者,其錄入過程一般來說并不伴隨對文義的理解和閱讀,而只是依據(jù)字形“照錄”,而且不能不追求一定的工作速度,所以,出現(xiàn)錯誤就成為不可避免的事情。尤其是形近字、同音字,常常因辨識錯誤或一念之差而錄入別字。如杜甫的名篇《觀公孫大娘弟子舞劍器行》,就有三處錄入錯誤:“一舞劍器動四方”句,“器”誤為同音字“氣”;“晚有弟子傳芬芳”句,“晚”誤為形近字“況”;“風(fēng)塵澒動昏王室”句,“澒”誤為形近字“傾”。同樣以公孫大娘為題材的詩作,還有司空圖《劍器》:“樓下公孫昔擅場,空教女子愛軍裝。潼關(guān)一敗胡兒喜,簇馬驪山看御湯。”第三句中“胡”被錯錄為“吳”,應(yīng)是讀音相近致誤。
又如《宋史·蘇軾傳》有這樣一段話:“微宗立,移廉州,改舒州團(tuán)練副使,徒永州!逼渲小拔ⅰ弊謶(yīng)為“徽”字,“徒”字應(yīng)為“徙”字,兩處都是形近致誤。
類似于上面舉出的錄入錯誤,對于專業(yè)研究者來說,基本屬于常識性問題,因而不難識別,并可自行糾正,但我們實(shí)不敢保證自己的眼睛和水平能夠發(fā)現(xiàn)所有錯誤。所以,保證文字正確,仍是數(shù)字化古籍必須解決的首要問題。如果采用善本古籍掃描,則可從根本上解決這一關(guān)鍵問題,從而保證數(shù)字化古籍的質(zhì)量。
2.解決稀見字錄入的困難。
古籍中往往出現(xiàn)時下各種字庫中很難找到的稀見字,這就成為錄入時無法逾越的障礙。尤其是韓愈、盧仝等常常有意使用冷僻字的作家,錄入他們的某些作品確實(shí)是件很困難的事。為了對付這個難題,目前采用了一些變通的辦法,如把一個字左右分開成兩個字、在括號中錄入兩個字表示一個字、用字母代替等,如韓愈《陸渾山火和皇甫湜用其韻》中,有“月番”“酉爵”“石覃”“目爰”,還有[谷含],這都是一個字的形態(tài)。還有一個字,字形是“上亡下皿”(應(yīng)讀huang),《全唐詩》中錄成了“fI”,實(shí)在不知是什么意思。盧仝《月蝕詩》中,則有〈齒取〉〈齒禺〉這樣的字,還有g(shù)6、gpoA這樣的“字母字”。遇到這種情況,閱讀實(shí)際上無法進(jìn)行下去。這一問題的解決,也必須倚賴善本古籍的直接掃描。
3.增強(qiáng)文獻(xiàn)的使用價值,為讀者提供可資引用的版本。
目下的數(shù)字化古籍,并不是一種真正的版本,不具有原始性質(zhì),所以無法作為正式的文獻(xiàn)資料來使用,尤其是無法加以引用。從根本上說,它只有一定的查閱價值,而不具有如同紙本出版物一樣的使用價值。再加上它在錄入時的錯誤率又遠(yuǎn)遠(yuǎn)高于紙本出版物,其可信度要大打折扣,這就更影響了它的使用價值。換句話說,我雖然有了《國學(xué)寶典》版《全唐詩》,但并不等于我擁有了真正的《全唐詩》,我在一種研究成果的“參考文獻(xiàn)”中,只能列入中華書局版或上海古籍出版社版的《全唐詩》,而不能列入《國學(xué)寶典》版《全唐詩》。其他書亦然。如果將善本古籍原封不動掃描過來,每一種書籍都有版權(quán)頁,都有與原書一樣的頁碼,我們就可將這種數(shù)字化古籍當(dāng)成紙本一樣來使用了。
4.改善閱讀的視覺感受。
目下的數(shù)字化古籍,密密麻麻一片,不分頁,不能進(jìn)行版式設(shè)計(jì),沒有天地空白,沒有字形變化,視覺感受與紙本古籍有很大差別。因此,人們在一般情況下還是愿意使用紙本書,而不是首先打開電腦使用電子書。如果使用掃描法,出現(xiàn)在讀者面前的是一頁頁與紙本一樣的書,相信這種情況會有所改善。
5.大面積并且從根本上解決資料“全”的問題。
以《國學(xué)寶典》為例,目下收入的文獻(xiàn)已經(jīng)很不少,容量已經(jīng)相當(dāng)可觀,但仍遺漏了許多應(yīng)該收入的內(nèi)容。比如,“宋初四大書”,其它三種都收了,惟獨(dú)文學(xué)價值最高的《文苑英華》未收。詩話類著作收了一些,但很重要的《滄浪詩話》未收。尤其是別集類文獻(xiàn),目前《國學(xué)寶典》收的很少,我在上屆會議的論文中就提出過這個問題。對于研究者來說,事實(shí)上別集往往比總集更重要、更有用,總集通常用以檢索,別集則是閱讀和研究的依據(jù)。我們要讀某位唐代詩人的作品,只要他有編就的別集,尤其是經(jīng)過科學(xué)整理的別集,那么,首選應(yīng)是其別集,而不是《全唐詩》。大量收入別集,靠目前的錄入法是很難實(shí)現(xiàn)的。可行的辦法,是挑選別集善本、尤其是經(jīng)今人精校精注的別集,通過掃描加以“復(fù)制”,又快又好地解決這個問題。當(dāng)然,將今人著作制成數(shù)字化文本,可能存在著作權(quán)問題,對此應(yīng)依據(jù)相關(guān)法律條文妥善處理,必要的成本應(yīng)當(dāng)計(jì)入。
總起來說,根據(jù)我個人的經(jīng)驗(yàn),覺得數(shù)字化古籍的優(yōu)越性是便捷、易攜帶,特別是可檢索。但數(shù)字化古籍并不能代替?zhèn)鹘y(tǒng)紙本古籍。紙本的好處是閱讀時便于前后翻動,可以在空白處批注,這是數(shù)字化書做不到的。而且,讀紙本書時總是伴隨著對問題的思考,思維活動比較活躍,讀數(shù)字化書似乎主要是眼睛的活動,而思維活動有所減弱。今后數(shù)字化古籍的發(fā)展,應(yīng)該最大限度地克服其局限性,同時最大限度地發(fā)揮其優(yōu)勢,尤其是可檢索的優(yōu)勢。隨著技術(shù)的進(jìn)步和經(jīng)驗(yàn)的積累,數(shù)字化古籍一定會日臻完美,日益提高學(xué)術(shù)質(zhì)量,同時日益擁有更多的讀者和更大的市場。
發(fā)布日期:2009-08-18