三十年來中國古籍數字化研究綜述1979-2009【1】
(遼寧大學歷史學院)
摘要:作為學術史的古籍數字化研究,30年的研究歷程可以分為三個階段:第一階段是從1979年到1994年,這是起步、探索、介紹的時期;第二階段是從1995年到2001年,這是提高、建設、初步發展的時期,以文淵閣四庫全書電子版為代表的一批全文數字化成果至今仍然在廣泛使用,對學術研究發揮著巨大的影響力;第三階段是從2002年開始,這是基本完善、商業應用、網絡化階段的階段,理論表述逐步成型,各類數據庫建設基本完善,文史學者或多或少擁有了電子數據。
關鍵詞:三十年古籍數字化綜述
分類號:K207 G203
學術的新發展和新進步,端賴新材料和新方法。學人常常引用的陳寅恪先生的名言“一時代之學術,必有其新材料與新問題”【2】來說明材料和問題的重要性,不過新材料和新問題又絕離不開新手段的應用,“取用此材料,以研求問題”的過程就是新方法、新手段的應用過程。可以說,沒有新手段的應用,新材料和新問題就得不得恰當的梳理和總結、分析。隨著計算機軟硬件的水準提升和互聯網的高速發展,學術研究呈現了新的面貌——人文社會科學也不例外——計算機和互聯網同樣在大顯身手。而人文學科的一個極小分支——古籍整理與研究也隨之全面進入了數字化階段。應該說,古籍數字化正在逐步邁向獨立的學科建置。回顧古籍數字化30年所走過的歷程,更有助于我們認識古籍數字化的真正價值,內中學術意義不言自明。
據筆者的初步統計,古籍數字化方面論文大約有800余篇,按年圖示如下。如果以10%-20%的遺漏率計算,則內地發表的相關文章將近1000篇,再約略估計海外、日本、歐美等國有關論文數與之相同,則全部論著數量或可超過2000篇之數,已是蔚為大觀。下面筆者綜合所見論著(多數為內地用中文發表),并參考其他學者的分析,簡單回顧和討論古籍數字化30年來所走過的學術發展之路,以整理材料,俟之高明。
一、起步、探索、介紹階段(1979-1994)
古籍數字化在早期亦多稱電子化或者計算機化,與計算機及信息技術發展密不可分。1979年,力一向國內學術界介紹了蘇聯學者把計算機技術應用于人文科學,其中特別提到已經取得了成果的領域就包括歷史學:“對史料、考古學資料及民族志資料的信息加工”【3】,這應該說是在國內最早關于可以在古籍方面使用計算機的介紹。1980年,江小平介紹了法國在人文社會科學方面使用電子計算機的情況。【4】也許是在這2篇文章的啟發下,到1981年,就有學者使用計算機軟件來處理史料中記載隕石隕落周期,【5】張叔媛和于志鈞可能是內地使用計算機來統計史料的第一人。另外,該文預言:“今后利用電子計算機開發我國古史料的科研工作必將蓬勃發展”,將近30年后,我們很高興的看到預言成真。
1983年召開的全國語言學學科規劃會議上,邀請了中文信息電子化的專家與會,專門介紹了電子計算機在語言學上的應用,同時確立在《論衡》、《朱子語類》、《兒女英雄傳》三部漢語史專書中用計算機編制引得。【6】彭昆侖先生嘗試用電子計算機來分析統計《紅樓夢》中的時間進程和人物年齡問題。1984年,欒貴明、李秦嘗試從理論上闡釋古文獻數字化:“隨著微型機數量的增加、功能發展以及分布的擴大,其信息的貯存量會愈來愈多,并在一定范圍,從一個地區到全國以及世界各地組成網絡,形成一個巨大的資料庫,所有信息資源便可共享。實現了這個目標,我國幾千年來汗牛充棟而又星羅棋布的古文典籍,可盡行收入方寸之地,召之即來。使用微型機對這些古籍進行版本研究、文句校勘、文字訂正、字義詮釋、篇章會注、作品編年、古語今譯,乃至標點、分段等等都將成為現實。”【7】
1987年,深圳大學組織人力,在輸入《紅樓夢》全文并建成多功能檢索系統之后,【8】把全唐詩輸入了電腦。這是古籍數字化工作是比較早的。【9】大約與此同時,中國社會科學院在欒貴明先生的帶領下,也從《全唐詩》入手,陸續建成漢字庫、全唐詩歌數據庫、諸子集成數據庫等。【10】到1988年,更有條理和系統化的分析由曹書杰先生做出,他首先提出了“機整”的概念,并從整理研究對象的確定;各項功能指標和古籍文獻研究、標識工作方案的形成;程序設計和文獻標識;文獻信息庫和必要輔助知識庫的建立;綜合運行等五個方面討論了“機整”工作的方法與步驟。【11】武漢大學在陳光祚教授帶領下,也開始從事地方志全文檢索系統的研究工作,并取得了一定成果。【12】1987年6月,哈爾濱師范大學李波等建成《史記全文檢索系統》,北京師范大學建成了中國年歷日歷譜微機檢索數據庫。【13】而李巖的目光不僅僅局限于古籍的電子化,他提出了計算機在古籍整理工作各個方面的應用前景。【14】
這一時期的古籍數字化工作特色主要是建立了若干文本的索引,很多初涉此道的專家學者都談了這方面的體會,感受到了計算機索引的巨大威力。于曼玲等認為,計算機索引簡便、快速、可靠。【15】而這也是諸多人文學研究者的共同感受。張普在1989年指出“一個計算機與古籍整理相結合的新局面正在形成,更大規模的更加完善的古籍資料庫和數據庫正在籌劃”,因而“從總體上規劃建立計算機存儲介質上的漢語古典文獻庫,建立各種檢索系統,籌劃資源共享、聯機檢索等問題已經應該提上國家有關機構的議事日程了”。【16】1993年召開了“海峽兩岸中國古籍整理研究現代化技術研討會”,臺灣學者演示了二十四史語料庫,十三經語料庫,紅樓夢多媒體系統,大陸學者演示了大漢字中文平臺等。諸多學者認為,計算機整理古籍的理論和技術尚未完善。【17】
這一時期還起步了古籍書目的數字化工作,有學者指出:中國古籍著錄可以采用國際文獻著錄標準和方法,并應該在其基礎上編制機讀目錄;為編輯聯合目錄并合條目所需的條件,不能僅是提供行格字數,應該建立一套每種書的版式描述、版本特征記載、序跋的標題、撰人和撰寫年代、確定版本的具體依據等的版本檔案,構成《版本志》;計算機有寬廣的檢索與組合功能,貯入的資料可隨時調整、修正,陸續積累。【18】1993年柯單介紹了中美兩國聯合編制中文古籍善本書機讀目錄的進展情況。【19】何小清在列舉90年代中期以前完成的《史記索引》等工作后,認為:“機編索引將逐漸主導索引編纂領域,“家庭手工業”模式將一去不復返了”【20】。
從上文的介紹可以看出,1979-1994年間,古籍數字化工作的各個領域工作均已展開,也取得了一定的成績。當然更要看到,這個期間,每年的文章數目均為個位數,13年間累計發文30多篇,內地發表20多篇。公允的說,古籍數字化研究工作仍然是處于介紹、起步和探索階段。
二、提高、建設、初步發展階段(1995-2001)
1995年以后,古籍數字化工作開始高速發展起來。當年7月召開的“中國古籍整理研究出版現代化國際會議”起到了極大的號角作用。本次會議由中國中文信息學會、國家古籍整理出版規劃小組辦公室等聯合主辦,一百多位學者出席,共發文35篇。內容涉及大漢字集平臺、古漢語語料庫、古典文學CAI教學、古籍自動照排、多媒體和估計出版、古籍OCR技術、全文檢索、輔助校勘等諸多方面,【21】這是古籍數字化工作的一次重大集中討論。
姚松指出,當前前亟待解決的問題是需要一個古籍整理計算機通用平臺,以便解決字符集、字型、輸入、輸出問題;同時還要解決輸入方法問題,建設大字符集的掃描識別,輔之文本校對系統;還要做好通用軟件,也就是隨機工具的研究和制作工作。【22】這也受限于當時的計算機發展水平,隨著計算機和網絡技術水準的提高。這些問題也逐步得到了解決。姚俊元認為,缺乏支持古籍整理研究的中文平臺,特別是字庫問題,是當前的突出問題。因此他建議盡快確定大漢字庫標準。同時建設語料庫和漢字屬性字典。【23】與此同時,隨著windows操作系統的開始流行,王涵撰文指出windows和mac系統能較好地解決古籍整理研究工作中的多元混合作業問題。特別以mac機所附帶的HyerCard多媒體軟件為例說明,這種軟件可以把多種文字信息、圖像信息貼合起來,微機可以利用多種媒體進行古籍研究整理的多方面工作。作者特意指出即將來臨的windows時代會淘汰很多已經有的工作,所以建議要有超前意識,盡可能利用最先進的技術手段。【24】
1996年,一項龐大的電子典籍工程提上了日程,就是大藏經電子文庫的制作。當年4月在國家宗教局的主持下,發起了新修《大藏經》的工作。與會的電腦技術專家和文獻研究專家認為,大藏經的電腦化可以提供一個文獻整理的全新的視野,在錄入、校對、斷句、出版等工作中提供一個廣泛參與的機會和最現代化、最有效的手段與方法。可以大大提高典籍文獻的查詢檢索速度,提高資料使用效率,簡化資料收藏保管工作。【25】這是一項非常龐大的計劃,同時擬定了《關于制作大藏經電子文庫的工程技術方案》和《關于制作大藏經電子文庫的技術經濟背景概述》等詳細說明文件。【26】
這一階段,古籍書目的數據庫建設得到了較快發展,這方面主要是圖書情報界的學者和圖書館實務界的專家在進行研究。劉剛認為,古籍書目數據應該納入到統一綜合書目數據庫中,在機讀格式上則應使用北京圖書館提出的CNMARC格式,在著錄標準上應采用GB3792.7《古籍著錄規則》,數據庫應該使用繁體。【27】周秦指出,古籍書目數據庫建設八年來一直未見有影響的數據庫的問世。作者認為,古籍書目數據庫應該與普通圖書合庫處理,同時更要做好建設與利用、維護工作。數據的規范控制,主要是主題規范,特別是主題詞表仍有待于開發。【28】朱巖從信息處理角度對《中國古籍善本書目》的數據作出了分析,以便于檢索的角度對數據進行切分,使之單元化,使之能成為信息系統數據結構設計的依據。【29】秦淑貞認為,規范化的古籍書目數據庫,是指在各種編目軟件支持下做出的在格式、內容、標引依據以及字體等方面都按國家標準作出的一致的古籍書目數據庫。應該在機讀目錄格式、著錄規則、分類法、主題標引依據,字庫、普通圖書庫等方面完全統一。【30】李榮慧也認為,古籍書目數據庫建設仍存在沒有統一完善的古籍分類法,著錄標準欠妥善、未普及,主題詞標引難實施,從業人員知識結構不合理,沒有權威組織協調機構等問題。【31】陳美亞在自建古籍書目數據庫還是以后套錄古籍書目數據庫、本館所建書目數據庫是否能達到規范化要求、古籍叢書子目怎么建庫等方面進行了思考。【32】
關于古籍數字化的一些基礎數據工作也得到了關注。胡海帆等根據拓片元數據的著錄對象、著錄單位、關系等要素特點,把元數據從結構上分為描述性、管理性、地理信息等類。【33】郭小武討論了簡體和繁體的電子文本轉換工作。【34】
在這一時期,古籍全文數據庫建設也取得了突飛猛進的進展。上海圖書館啟動古籍善本全文光盤工程,1996年底初步建成“中國古籍善本查閱系統”,主要提供全文影像,少部分提供全文檢索。【35】遼寧省圖書館利用IBM的TDI數字相機對古籍進行數字化加工,形成了古籍精選、歷史存照等內容。【36】1998年啟動的國家圖書館“中國數字圖書館工程”其中數字方志資源庫、石刻拓片資源庫、甲骨文獻資源庫、館藏各類文獻書目數據庫、永樂大典資源庫等六個子項目均是古籍項目。【37】其他的古籍全文類項目估計約有20余項,其中較為知名的有商務印書館的百衲本《二十四史》電子版光盤、中國地方志宋代人物資料管理系統、續資治通鑒長編全文檢索系統、全唐詩電子檢索系統等。而其中最有代表性的古籍全文軟件當屬迪志公司開發的《文淵閣四庫全書》和兩種《古今圖書集成》,尤其是前者,在文史研究學者,國學愛好者當中的影響和作用極為廣大,特別是由于廣泛傳播所造成的“普及”直接使廣大普通人得以享用饕餮盛宴,當然這對迪志公司相當不公平。
《文淵閣四庫全書》電子版也標志著中文信息處理技術實用化有了重大的突破。使用了unicode編碼下的大文字平臺,通過超大數量和種類繁多的特定人手寫文字光學識別,聯機無紙快速準確的校隊軟件技術,形成了跨平臺和跨語境全球版產品制作技術、全文檢索技術、詞典工具書掛接等高新技術。作為該項目的技術負責人的張軸材在《電子出版》連續4期發表文章,分析了項目的開發技術。【38】劉博認為,“《文淵閣<四庫全書>電子版》綜合地運用著古籍數字化技術的前沿成果,同時在一定程度上又推動了新的技術的開發,取得了寶貴的經驗,該產品的面世,標志著我國古籍數字化處理技術取得了重大突破,為我國大規模的古籍數字化奠定了良好的基礎,同時。該項目也是建設大規模中文數字圖書館的重要嘗試。”【39】
廣西金海灣電子音像出版社和廣西師范大學出版社出版的《古今圖書集成》電子版也是這一時期出版的較為重要的古籍數字化成果。【40】該系統請曾經編制《古今圖書集成索引》的廣西師大林仲湘教授重新編制了電子版數據庫索引。在充分把握原著分類特點和電子檢索功能的基礎上,建立了36個數據庫索引,有36萬條記錄,共約1200萬字。索引與正文聯通,可直接調用相應的正文。特意標注了紙本頁碼,便于查找。較為可惜的是,由于建立的windows98平臺上,隨著windows操作系統的快速更新,已經非常不便于利用,這是一個非常遺憾的事情。
這一時期,有更多的文史學者加入了古籍數字化的應用行列,也發表了一些關于應用古籍數字化成果的論述。如羅鳳珠曾討論過紅樓夢網絡數據中心如何對紅學發展產生了影響。【41】郁默介紹了臺灣“中央研究院漢籍全文資料庫”的主要構成和使用辦法,【42】諸如古籍電子化、數據庫對于文學、古漢語、十三經、古代史等方面的影響都有學者進行表述和介紹。【43】而史睿試圖從理論上闡釋古籍數字化與人文學術研究的關系,認為古籍數字化是現代學術研究的基礎,而古籍數字化的理論比技術更為重要,提出了古籍數字化的解決方案。【44】另外,在很多具體學科門類也出現了應用成果。樓宇烈介紹了日本、韓國、美國以及香港、臺灣等地的電子佛典建設工作,并對內地電子佛典建設提出了建議。【45】中國第一歷史檔案館為加快信息化建設的步伐,實現明清檔案整理、編目、編研、流通、信息發布的自動化和網絡化面向外界招標,清華紫光中標。【46】裴麗則探討了醫古籍文獻資源數字化建設若干原則。【47】
總的看來,古籍數字化的各項工作已經全面鋪開,在這一時期發表的150余篇文章中,已經涉及到古籍數字化的各個方面。說明古籍數字化的理論和實踐正在逐步成熟,特別是以文淵閣四庫全書電子版為代表的一批全文數字化成果至今仍然在廣泛使用,對學術研究仍然發揮著無比巨大的影響力。
三、基本完善、商業應用、網絡化階段(2002-)
2002年以后,古籍數字化工作突飛猛進,在諸多方面都取得了長足的進展,先后出現了多種總結和綜述。作為著名的古文獻專家,祝尚書分析了古籍整理研究數字化、信息化的現狀,并指出版權、重復勞動、盜版、市場化、數字化圖書館和專業古籍出版社如何結合等是困擾當時古籍數字化的主要問題。【48】李弘毅把古籍數字化劃分為準備階段、自動化實施的過渡階段、自動化發展的高級階段。【49】陳立新認為,古籍數字化的當前問題是缺乏統一的古籍機讀目錄,漢字平臺,古籍文獻規范文檔,影像處理標準,適合古籍的Metadata。【50】岳占偉介紹了多種古籍數字化產品后認為,特殊古籍的檢索系統需要開發特定的原字檢索技術,針對特殊古籍的新錄入技術,特殊古籍的文字環境一并錄入,電子出版物與數字化圖書館等是古籍數字化工作面臨的巨大挑戰。【51】陳力的總結則視角更廣,也更系統。他認為,古籍數字化關注焦點過于集中于少數常用特別是叢書類的古籍,而一些學術界需要的古籍鮮有顧及。數據庫封閉,在技術上很難與其它數據庫融為一體,造成知識體系的割裂。不少機構并不采用通行的工業標準,而是自行設定相關的數字化加工與組織標準。不過這些仍然是表面現象,古籍數字化如何定位,特點如何才是深層次問題。陳力指出,古籍數字化是數字圖書館建設的重要組成部分,應該是開放的。古籍數字化應該根據古籍的特點來進行,數字化的過程是一個信息重組并上升為知識的過程。圖書館、讀者、同行,用戶都應該是古籍數字化的參與者。【52】吳家駒把古籍數字化的成果進行了初步的統計。【53】
這一時期的顯著特點之一,就是關于古籍數字化理論和學科建設的深入討論,逐步完善,成熟起來。李明杰認為,古籍數字化最主要的就是實現知識關聯的全文檢索,是實現了語義關聯和知識重組的數字化信息的過程。并討論了什么樣的古籍適合數字化,由誰來實現數字化,并介紹了如何實現數字化的四方面關鍵點。【54】毛建軍在2006年指出,古籍數字化屬于古籍整理的范疇,代表著古籍整理的未來方向。古籍數字化研究中存在著古籍整理學界參與少,理論研究相對滯后的特點。構建古籍數字化系統理論可以為古籍數字化出版提供基礎理論,開拓古籍整理和古典文獻學專業的新視野,為文史研究者提供新思維和新工具。【55】博客如舸齋指出,傳統文獻學是數碼文獻學的基礎,數碼文獻學是傳統文獻學的延伸;傳統文獻學是治學門徑,數碼文獻學是治學利器;傳統文獻學是求真的學問,數碼文獻學是有效的工具。【56】而代表了學科成熟度的教科書出現,說明古籍數字化理論已經較為成熟。毛建軍主編的教科書在分析了學術諸多關于古籍數字化的定義之后認為:古籍數字化就是從利用和保護古籍的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,從而制成電子索引、古籍書目數據庫和古籍全文數據庫,用以解釋古籍文獻信息資源的一項系統工作。【57】教科書的出現,說明古籍數字化工作開始了系統化的梳理,理論建構初步成熟,學科體制已經形成,這是古籍數字化方向的重要成果。
馬少平等介紹了古籍全文數據庫的幾種類型:完全圖像、目錄文本和正文圖像、全文本、全文圖文對照,并設計了古籍數字化的系統流程圖和識別子系統流程圖,對于大型中文古籍的數字化系統提出了自己的解決方案。【58】古籍數字化工作中的基礎工作建設也得到了空前的重視,國家層面上提出了建設《國家數字圖書館標準規范》,并由中國科技信息研究所、中國科學院文獻情報中心和中國國家圖書館聯合發起于2002年啟動了相關工作,得到科技部科技基礎性工作專項資金重點項目資助。主要針對數字圖書館系統的數字資源建設與服務,制定我國數字圖書館標準規范發展戰略與標準規范框架,制定數字圖書館核心標準規范體系,建立數字圖書館標準規范開放建設與開放應用機制。項目一期從2002年10月開始,到2005年9月結束。二期從2006年開始。其中設定了子項目《我國數字圖書館標準規范專門數字對象描述元數據規范》,試圖通過對國內外已有的專門數字對象的元數據標準進行研究,同時針對中文數字資源的特點,選取不同類型的資源對象,以及具有中國文化特色的文獻資料類型(如古籍、拓片、輿圖等),通過試驗研究,最終確定揭示和描述這些對象內容及其特性要采用的元數據標準,建立元數據格式及其擴展和互操作規則等,并提出初步的操作規范與應用指南。其中制定了古籍數字化方面需要遵循的22項數據規范或著錄規則。【59】
古籍書目數據庫建設也是這一時期的重點建設內容,徐清回顧了1995年到2006年間的古籍書目數據庫建設工作,認為古籍書目數據庫建設研究以建庫的標準化、規范化為重點進行了一系列的探討,取得了值得關注的成果。雖然在具體的問題上尚存在諸多分歧,甚至可以說還處于起步和實驗階段。但在古籍聯合目錄數據庫的建設問題上,也達成了一定的共識:編制古籍聯合目錄數據庫是進一步保存保護和開發利用古籍文獻的基礎,它對于學術研究和傳播傳統文化具有重要意義,古籍聯合目錄數據庫的建置需在統籌規劃、合作協調的基礎上,借助于科學的可操作的統一規范來完成。【60】毛建軍對古籍書目數據庫加以定義,認為其是指在統一的機讀目錄格式下按照相應的標準和規范加工而成,并最終以計算機網絡系統形式向用戶提供相關古籍數據資源檢索的大型目錄數據庫。并列表統計了海外、港臺的古籍目錄庫。【61】熊偉華介紹了國內古籍書目檢索網點的總體狀況,并進行了列表統計。認為存在的問題主要是網絡較差,古籍書目檢索時有時無;缺乏對本館古籍資源情況的介紹和對檢索方法的說明;大多數合庫者對古籍書目數據庫并入綜合書目數據庫都未作說明,不便利用;缺乏主題標引,各檢索系統在機讀目錄字段設置、繁簡字使用和分類法使用上也極不統一。【62】
古籍數字化的專題工作也得到了迅猛發展,特別是在農業古籍、民族古籍、中醫古籍、敦煌學等方面表現突出。南京農業大學是農業古籍數字化研究的最優秀者,有多部博士論文論文涉及農業古籍的數字化問題,【63】并由侯漢清主持,獲得了國家社科基金2008年的資助項目《文化典籍整理與開發的智能技術研究》。2005年,常春討論了農業古籍數字化項目的建設意義,并應用競爭情報的SWOT分析法,分析了農業古籍數字化項目的發展策略。【64】盛玲玉指出,建立農業古籍書目數據庫,并建立圖文版的農業古籍庫,是最適合的數字化方式。【65】2004年批準由農業信息研究所承擔的國家科技基礎性工作專項“農業古籍珍藏及全文數字化研究與建設”項目,于2006年12月23日通過驗收。該項目重點完成了基于圖像的數字化農業古籍全文檢索技術研究;國家農業圖書館古籍數字館藏質量控制研究;農業古籍全文數字化檢索技術研究和用戶服務系統完善等。建成適合農業古籍特點、數據內容完備、著錄規范化、標準化程度較高的古籍書目數據庫,總計12,767種,13,044冊,其中重要農書、史書可與一次文獻連接,數字化全文總量達6000余冊,80余萬頁,Tif格式原圖文件700余G,部分為彩色圖像。實現古籍文獻目錄、全文圖像、檢索工具的“一站式”查詢檢索門戶體系建設,為國家農業圖書館古籍網絡化、數字化資源共享,搭建了良好的基礎平臺;設計出“Web農業古漢語電子詞典”(試用版),作為幫助讀者在線閱讀農業古籍的工具,方便用戶利用。【66】在中醫古籍、數字敦煌、民族古籍方面也先后發表了數十篇文章,極大的推動了數字化技術在相關方向的應用。
2002年以來,古籍全文數字化最大的一項工程是《中國基本古籍庫》,由劉俊文總策劃、編纂、監制。北京愛如生公司研發制作,2005年全部完成。共計500張光盤,總字數20億,圖像2000萬頁。收錄了先秦到民國時期的典籍1萬余種,均提供一個通行版本的全文信息和1-2個重要版本的圖像信息。并根據中國古籍分類法,創設了自己的分類辦法,4個子庫,20個大類,100個細目。檢索方便快速,具有良好的閱讀編輯功能。這是古籍數字化建設的極大成就,是古籍數字化建設最高水平的代表之一。不過由于其高昂的價格,只有少部分財力雄厚的大學、研究機構得以購置,使用較為不便,限制了其先進功能和技術能力為學術發展做出更大貢獻的可能性。如何在防止盜版和推進學術之間找到平衡點,是一個高難度的任務。
2002年以來,先后出現了多部較為集中討論古籍數字化的專書。2002年,國家圖書館的內部刊物《文津流觴》第8期,建設了“數字化專輯”,集中刊布了24篇文章,討論了古籍數字化的各個方面,是圖書情報界一次大規模集中的討論,對古籍數字化工作起到了極大的推動作用。【67】本年出版的《西夏文字數字化方法及其應用》在系統介紹和討論了古籍數字化、電子化的一些基本理論之后,介紹了非漢字古籍數字化的方法,討論了西夏字庫的建立和編碼及版面識別等問題,這是第一本系統討論古籍數字化及實現技術的專著,有著極其重要的代表性。【68】2004年,在臺北召開的“古籍聯合目錄數據庫合作建置第三次研討會”集中討論了古籍書目數據庫建設工作。2007年出版的《民國農業文獻數字化整理及信息組織》研究了農業文獻索引和電子圖書編纂以及文獻數據庫建設等問題。【69】而前述2009年出版的毛建軍先生所主編《古籍數字化理論與實踐》,雖然尚存諸多不完善之處,卻仍是古籍數字化理論表述的集大成者。毛建軍2008年完成的南京大學博士畢業論文《古籍數字化理論研究》從古典文獻學和古籍整理學角度系統提出了古籍數字化的基本理論框架,提出了古籍電子索引、古籍書目數據庫以及古籍全文數據庫的概念,對古籍數據庫的規范提出了評價標準。
在文史學者應用當中,陳爽的幾篇文章,再一次普及了古籍數字化知識。【70】吳宣德從使用者角度認為古籍數字化選題內容重復,文件格式繁多,閱讀和資料提取麻煩。項目規劃單調,產品開發缺乏連續性,得到了廣泛的共鳴。【71】王兆鵬介紹了電子古籍文獻檢索資源,【72】劉偉歸納總結了《史記》的相關電子資源,【73】楊琳介紹了數字化的古典文獻。【74】鄭永曉認為,決不能僅僅滿足于把計算機當作一個檢索工具。應當適應并利用其獨特的思維方式,在古籍數字化的基礎上將古代文學研究提升到一個更高境界。計算機人工智能首先在古籍整理方面大有用武之地,在古典文學研究方面也有其契合點。同時對版本意識淡薄、字庫設計不規范以及缺乏合適的程序設計語言等古籍電子化過程中面臨的問題作了探討。【75】
可以說,大部分古籍數字化建設項目都是在2002年左右開始啟動的,有些項目已經建設完成,2002年是古籍數字化建設的一道重要分水嶺。從2002年開始,古籍數字化的理論表述逐步成型,各類數據庫建設基本完善,大規模投入了商業應用,更多采用了網絡化建設手段。若干大型學術會議的召開,特別是《文津流觴·數字化專輯》、《西夏文字數字化方法及其應用》、2004年起陸續推出的《數字圖書館標準規范·專門數字對象描述元數據規范》、《古籍數字化理論與實踐》等論文集、專著、國家標準的出版和發布,基本奠定了古籍數字化的學科體系。CADAL和讀秀則提供了絕大部分圖像格式的古籍數字化產品。讀秀是由超星公司建設的商業化數字化網絡圖書館,可以咨詢部分頁面,由讀秀(超星)制作的大量古籍數字化產品,成為學者的案頭必備。CADAL是公益項目,列入了“十五”期間“211工程”公共服務體系建設的重要組成部分。與“中國高等教育文獻保障系統(CALIS)”一起,共同構成中國高等教育數字圖書館的框架。CADAL采用全文瀏覽方式,以便讓盡可能更多人看到原汁原味的古籍。也較好地解決了通用性問題,它不像“超星”與“書生之家”等系統,需要安裝相應的瀏覽器才可閱讀,用戶僅需在IE瀏覽器上安裝一小插件,便可瀏覽任一CADAL項目中制作的E-BOOK。【76】
隨著國學的普及化,更多的民間網站也投入了古籍數字化的行列。當然,這些民間網站在學術上尚未成熟,但是朝氣蓬勃,人氣也極為旺盛,而一些專業化網站門庭冷落。雖然網站高下不能以人氣衡量,但是完全失去了人氣的網站總是生命力不強的。這類網站多數以bbs形式展現,2003-2004年成熟,活躍在2005-2006年的有讀書中文網,后期由于站長精力及其他因素導致關站,2008年以后轉型成為非常小眾化的網站。2005年左右建立的有國學數典網站(http://bbs.gxsd.com.cn/index.php),是目前同類網站中制度最完善,規模最大,會員最多的一家。2008年建立的龍騰國學網站(http://bbs.ltgx.net/index.php)有充足的空間,完善的架構體系,也是尋找諸多古籍的優秀平臺。另外一些有電子資源存在的網站如儒藏網、愛如生等開閉不時,在網絡中影響較小。總體看來,這些網站的古籍數字化來源較為單一,偶爾有網友掃描的個別圖書。另外,行走在版權邊緣的巨大風險,也是民間古籍數字化網站頭上的不可抗因素。
四、古籍數字化研究歷程的回顧與展望
30年來,古籍數字化研究走過了一條快速發展的道路,成果豐富,效益顯著。對學術研究工作起到了極大的助力作用,文史研究水平在古籍數字化的基礎上得以進一步提高。總的看來,30年來的古籍數字化研究呈現加速度發展的態勢,與計算機軟硬件、互聯網技術發展是同步的。
回顧計算機及網絡技術發展史,我們可以看到,1978年到1994年是網絡初期:1978年,TCP/IP協議建立;1985年,“.com”和“.edu”域被分配出來;1986年,NSFNet建成,掀起與Internet連接高潮;1987年,在德國和中國間建立E-mail連接,錢天白教授發出中國第一封電子郵件;1990年,Internet開始建設。1995到2001年是網絡就緒、影響期:1995年,WWW與搜索引擎成為最熱門技術,;1996年,搜索引擎、JAVA、網絡電話成為最熱門技術,同時出現網絡計算機等新技術;1997年,推送、多址廣播成為最熱門技術,同時出現流媒體等新技術;1998年,電子商務、網絡拍賣、網絡門戶網站發展得如火如荼,電子貿易、XML、入侵檢測等成為最新被關注的技術。全球電信、IT、互聯網產業,基于同一個基礎平臺進行整合,產業邊界模糊,產業鏈纏繞,標準趨于融合,最終形成.NET和J2EE兩大陣營,激起了產業鏈中的創新變革和橫向融合,產業發展的驅動力向應用服務轉化。2002年至今是網絡效益期:各種新技術、新應用層出不窮,幾乎每個行業都開始享用數字化的饕餮盛宴。
從所述的計算機和網絡發展歷程可以看出,古籍數字化歷程沒有脫離這個基本的發展軌跡,1979-1995是古籍數字化的起步階段,成果少,功能不完善,幾乎大部分最終產品都已經淘汰,甚至絕大部分的原始數據也被更完善更準確的數據取代。1995年-2001年,古籍數字化得到了更加廣泛的關注,圖書情報界、文史界、電子工程界、網絡技術界都在參與古籍數字化工作,今天看來,很多工作啟動比較匆促,成果不盡如人意。這一時期的最重要代表性工作就是由迪志公司和上海人民出版社合作的《文淵閣四庫全書》電子版,其影響力至今尚未消歇,已經成為文史學者的裝機必備。2002年以來,以《中國基本古籍庫》為代表的大型系統成熟,國家數字圖書館標準規范發展戰略與標準規范框架的建立,促使數字圖書館中的古籍數字化建設得到了規范。
據筆者搜集的研究成果論著統計,在古籍數字化發展的30年歷程上,有這樣幾個標志性的成果,理論表述方面:2002年的《文津流觴》第8期數字化專輯和《西夏文字數字化方法及其應用》,2006、2007、2008年完成的4部博士論文,2009年出版的《古籍數字化理論與實踐》;學術會議方面:1995年召開的“中國古籍整理研究出版現代化國際會議”,2004年召開的“古籍聯合目錄數據庫合作建置研討會”,2007年召開的“第一屆中國古籍數字化國際學術研討會”,2009年召開的“第二屆中國古籍數字化國際學術研討會”是其中的較為重要者;單機或網絡文史軟件方面:1999年完成的《文淵閣四庫全書》電子版,1999年完成的《古今圖書集成》電子版,2002年完成的《永川二十五史檢索系統》,2005年完成的開放式中華古籍全文檢索數據庫《國學寶典》,2005年建成的《中國基本古籍庫》等是為翹楚;在古籍書目庫和基本標準建設方面:《古籍著錄規則》(GB3792·7-87),《漢語文古籍機讀目錄格式使用手冊》,國家圖書館館藏善本古籍文獻書目總庫,上海圖書館家譜書目數據庫,海內外圖書館合作編制收藏中文古籍書目資料45萬條的“中文古籍書目數據庫”,2004年開始發布的數字圖書館標準規范專門數字對象描述元數據規范等是其中較有代表性的成果。
總體上看,1995年召開的“中國古籍整理研究出版現代化國際會議”是第一次大規模的系統總結,1999年完成的文淵閣四庫全書電子版是具有重大影響的古籍數字化成果,2002年的出版的《文津流觴》第8期和《西夏文字數字化方法及其應用》是古籍數字化研究的系統梳理,2004年召開的“古籍聯合目錄數據庫合作建置研討會”對于古籍書目數據庫的編目工作推動極大,2005年完成的的中國基本古籍庫是數量最大,系統較為完善的全文數字化成果,《國學寶典》則在普及國學數字化方面貢獻甚大,2007年“第一屆中國古籍數字化國際學術研討會”和2009年出版的《古籍數字化理論與實踐》則標志著學科體系的初步建成。
展望未來,古籍數字化仍有極大發展空間,學術成長的道路還有極多工作需要開展。特別是在智能化檢索的探索,聯機字典的大力完善,以及學科體系建設,并形成個人本地數據庫等方面有著廣闊的未來!
注釋:
【1】本文系中國博士后科學基金面上資助及特別資助項目“唐宋土地制度變遷”、“唐宋鄉村社會控制與生存秩序”成果;遼寧省教育廳人文社會科學研究項目“唐宋賦役政策演變研究”;遼寧大學預申報基金項目“唐宋農民生活狀況研究”;遼寧大學亞洲研究中心項目“均田制研究史”研究成果之一。
【2】陳寅恪:《陳寅恪集·金明館叢稿二編》,三聯書店出版社,2001年,第266頁。
【3】力一:《蘇聯學者談電子計算機用于人文科學》,《國外社會科學》1979年第1期。
【4】江小平:《法國<世界報>談電子計算機進入人文科學問題》,《國外社會科學》1980年第2期。
【5】佚名:《電子計算機開發我國古代科學史料》,《中國科技史雜志》1982年第2期。該文轉載自《北京晚報》1982年5月5日。文中提到該成果1981年曾在東京的國際隕石學術會議上發布。1975年,四川大學曾利用電子計算機來從事甲骨碎片綴合的工作,但這還不是文獻史料的數字化工作。見童恩正:《關于使用電子計算機綴合商代卜甲碎片的初步報告》,《四川大學學報(自然科學版)》1975年第2期。
【6】語言學學科規劃小組:《全國語言學學科規劃會議紀要》,《語文研究》1983年第8期。
【7】欒貴明、李秦:《微電腦與古文獻研究》,《古籍整理與出版情況簡報》第127期,1984年8月20日。
【8】張普:《計算機在中國古籍整理研究領域中的應用(綜述)》,《語文研究》1989年第4期。
【9】共月:《<全唐詩>在我校輸入電腦》,《深圳大學學報(人文社會科學版)》1987年第1期。
【10】田奕:《古籍整理與研究的電腦化》,《中國文化》1994年第1期。
【11】曹書杰:《古籍整理與電子計算機應用研究的思考》,《古籍整理研究學刊》1988年第1期。
【12】劉寧:《漢字全文檢索系統的分析、設計–從湖北省地方志全文檢索系統的研制談系統功能及設計方法》,《現代圖書情報技術》1988年第2期。
【13】張普:《計算機在中國古籍整理研究領域中的應用(綜述)》,《語文研究》1989年第4期。。
【14】李巖:《古籍整理研究技術手段現代化芻議》,《古籍整理研究學刊》1988年第4期。
【15】于曼玲:《用電子計算機編制古籍索引的體會》,《中山大學學報(社會科學版)》1988年第4期。
【16】張普:《計算機在中國古籍整理研究領域中的應用(綜述)》。
【17】師文:《海峽兩岸中國古籍整理研究現代化技術研討會在京舉行》,《語文建設》1993年第12期。
【18】佚名:《一次編制中國古籍善本書機讀聯合目錄的試驗》,《古籍整理出版情況簡報》第225期,1990年5月1日。
【19】柯單:《美中聯合編制中文古籍善本書機讀目錄進展情況》,《古籍整理出版情況簡報》第267期,1993年2月。
【20】何小清:《我國古籍索引的新發展》,《辭書研究》1994年第4期。
【21】會議論文集未見出版。會前發布了通知。見佚名:《中國古籍整理研究出版現代化國際會議將在北京舉行》,《出版參考》1994年第14期。會后簡單綜述見弓長:《首屆中國古籍整理研究出版現代化國際研討會在北京召開》,《語言文字應用》1995年第4期。由于資料缺乏,筆者未能搜集到這35篇文章全文,其文章題目見附錄。
【22】姚松:《計算機用于古籍整理研究的現狀與展望》,《中國典籍與文化》1995年第2期。
【23】姚俊元:《計算機輔助古籍整理研究的現狀與思考》,《圖書情報論壇》1995年第3期。
【24】王涵:《近年來微機操作系統的革命與古籍整理》,《中國典籍與文化》1995年第3期。
【25】本刊通訊員:《大藏經編纂及電腦化座談會紀要》,《世界宗教研究》1996年第2期。
【26】方廣錩主編:《藏外佛教文獻第2輯大藏經編纂及電腦化特輯》,宗教文化出版社1996年。
【27】劉剛:《淺談古籍書目數據庫建設的若干問題》,《國家圖書館學刊》1996年第1期。
【28】周秦:《古籍書目數據庫建設淺議》,《圖書館工作與研究》1997年第2期。
【29】朱巖:《中國古籍書目數據分析》,《國家圖書館學刊》1999年第2期。
【30】秦淑貞:《如何建立規范化的古籍書目數據庫》,《現代圖書情報技術》1999年第2期。
【31】李榮慧:《古籍書目數據庫建設面臨的問題及對策》,《圖書與情報》2000年第1期。
【32】陳美亞:《對建立古籍書目數據庫的思考》,《江西圖書館學刊》2001年第3期。
【33】胡海帆等:《北京大學古籍數字圖書館拓片元數據標準的設計及其結構》,《圖書館雜志》2001年第8期。
【34】郭小武:《電子文本的簡繁轉換——關于簡體古籍逆向工程的實驗報告》,《語言文字應用》2000年第4期。
【35】陳秉仁:《古籍善本數字化的嘗試——中國古籍善本查閱系統述略》,《現代圖書情報技術》1998年第1期。
【36】喬紅霞《關于古籍全文數據庫建設工作的思考》,《河南圖書館學刊》2001年第4期。
【37】國家圖書館數字資源建設指導小組:《國家圖書館數字資源建設(2003-2005年規劃)》,http://ich.cass.cn/Article_Show.asp?ArticleID=378。
【38】張軸材:《<四庫全書>電子出版工程與中文信息技術》,《電子出版》1999年第2、3、4、5期。
【39】劉博:《基于<文淵閣>四庫全書電子版分析我國古籍數字化問題與對策研究》,鄭州大學碩士論文,2006.
【40】唐建設:《古今合璧<古今圖書集成>電子版》,《中國電子出版》1999年第4期。
【41】羅鳳珠:《以“互動觀念”建立“紅樓夢網絡數據中心”對紅學發展之影響》,《紅樓夢學刊》1997年增刊。
【42】郁默:《臺灣中央研究院漢籍全文資料庫》,《中國典籍與文化》1998年第3期。
【43】薛亞軍:《古籍電子化對中國古代文學研究的影響》,《松遼學刊(社會科學版)》1999年第5期;陳海波:《關于數據庫在古漢語研究中的應用》,《古漢語研究》2000年第3期;甘銳:《<十三經詞語索引>系統的設計和建立》,《辭書研究》2000年第6期;袁林:《中國古代史研究數字化文獻資源與利用》,《中國史研究動態》2000年第12期;張奇:《中國家譜上網現狀與思考》,《圖書館雜志》2000年第5期;范子燁:《古籍電子化與中國古代文學研究——近年來若干古籍電子化工程及有關專業網站掃描》,“第一屆全國高校中國古代文學科研與教學研討會”,上海,復旦大學,2000年4月。
【44】史睿:《試論中國古籍數字化與人文學術研究》,《漢字的應用與傳播’99漢字應用與傳播國際學術研討會論文集》,華語教學出版社,2000年,第368頁。
【45】施言:《樓宇烈教授談電子世界的佛典》,《世界宗教文化》2000年第1期。
【46】鄧小軍:《一史館招標清華紫光中標明清檔案管理將實現現代化》,《中國檔案》2001年第4期。
【47】裴麗:《中醫古籍文獻資源數字化建設探討》,《圖書館學研究》2001年第6期。
【48】祝尚書:《試論古籍整理研究數字化、信息化的現狀與問題》,《“中國傳統文化與21世紀”國際學術研討會論文集》,中華書局,2003年,第193頁。
【49】李弘毅:《淺論古籍數字化的發展階段》,《上海高校圖書情報學刊》2002年第2期。
【50】陳立新:《古籍數字化的進展與問題》,《上海高校圖書情報工作研究》2003年第2期。
【51】岳占偉:《中文古籍數字化的成就與挑戰》,《殷都學刊》2004年第4期。
【52】陳力:《中國古籍數字化的現狀與展望》,《古籍整理出版情況簡報》2004年第4期。
【53】吳家駒:《中文古籍數字化進展與主要成果述評》,《南京師范大學文學院學報》2004年第3期。
【54】李明杰:《中文古籍數字化基本理論問題芻議》,《圖書館論壇》2005年第5期。
【55】毛建軍:《關于古籍數字化理論建構的思考》,《高校社科動態》2006年第4期。
【56】如舸齋:《數碼文獻學與傳統文獻學》,http://blog.sina.com.cn/s/blog_42990e1901008vyh.html。
【57】毛建軍主編:《古籍數字化的理論與實踐》,航空工業出版社,2009年,第5頁。
【58】馬少平等:《大型中文古籍數字化系統的設計與實現》,第八屆全國漢字識別學術會議,北京,2002年。
【59】該項目設有專門網站,http://cdls.nstl.gov.cn/,2009年8月6日檢索,大部分標準已無法下載。
【60】徐清:《近十年古籍書目數據庫建設研究概述》,《圖書情報知識》2006年第5期。
【61】毛建軍:《中文古籍書目數據庫的調查與分析》,《圖書館論壇》2007年第5期。
【62】熊偉華:《古籍書目檢索網站述略》,《現代圖書情報技術》2004年第9期。
【63】曹玲:《農業古籍數字化整理研究》,南京農業大學科學技術史2006年博士畢業論文;常娥:《古籍智能處理技術研究——農業古籍自動編纂和自動校勘的研究》,南京農業大學科學技術史2007年博士畢業論文;何琳:《古農學本體的半自動構建及檢索研究》,南京農業大學科學技術史007年博士畢業論文。
【64】常春:《農業古籍數字化項目的建設意義和SWOT分析》,《情報雜志》2005年第11期。
【65】盛玲玉:《國家農業圖書館農業古籍數據化的探討與實現》,《農業圖書情報學刊》2005年第12期。
【66】農業信息研究所:《國家科技基礎性工作專項“農業古籍珍藏及全文數字化研究與建設”項目通過驗收》,http://www.caas.net.cn/caas/showarticle.asp?id=3845。
【67】《文津流觴》,第8期,http://www.nlc.gov.cn/old/old/wjls/html/8mulu.htm。
【68】馬希榮、王行愚:《西夏文字數字化方法及其應用》,甘肅文化出版社,2002年。
【69】王雅戈:《民國農業文獻數字化整理及信息組織》,中國三峽出版社,2007年。
【70】陳爽:《網絡文史資料庫一覽》,《文史知識》2002年第6期;《網絡文史信息的檢索、瀏覽與存儲》,《文史知識》2002年第1期。
【71】吳宣德:《古籍數字化:現狀、問題與趨勢——從一個使用者的角度看》,澳門:“漢文化聯盟”第二屆漢文化資料庫國際學術研討會,2002年。
【72】王兆鵬:《電子古籍文獻檢索資源概述》,《古典文學知識》2003年第4期。
【73】劉偉:《<史記>電子資源述評》,《史學月刊》2003年第.10期。
【74】楊琳:《數字化古典文獻綜述》,《中國史研究動態》2004年第4期。
【75】鄭永曉:《古籍數字化與古典文學研究的未來》,《文學遺產》2005年第5期。
【76】肖卓:《CADAL項目與古籍整理》,《圖書與情報》2005年第4期。