wwwxxx国产_蜜桃精品视频_久久成人国产精品_91精品国产91热久久久做人人_久久91久久_亚洲成人在线视频网

基于內(nèi)容的古籍檢索技術(shù)研究

(北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院)

  古籍?dāng)?shù)字化是伴隨信息技術(shù)的進(jìn)步發(fā)展起來(lái)的一個(gè)新領(lǐng)域,與古籍整理、文獻(xiàn)保護(hù)、文化傳承緊密相關(guān),對(duì)古籍的數(shù)字化是文化產(chǎn)業(yè)與信息產(chǎn)業(yè)結(jié)合的核心內(nèi)容。古籍?dāng)?shù)字化是指采用現(xiàn)代化技術(shù),對(duì)古籍文獻(xiàn)進(jìn)行加工處理。具體而言就是借助計(jì)算機(jī)對(duì)古籍進(jìn)行保護(hù)、整理、加工和傳播,將古籍通過(guò)數(shù)字代碼的形式存放。

  隨著信息技術(shù)特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,用數(shù)字化手段對(duì)現(xiàn)存的古籍進(jìn)行數(shù)字化加工處理,給傳統(tǒng)的古籍研究帶來(lái)了生機(jī)和新的機(jī)遇,對(duì)于實(shí)現(xiàn)古籍資源共享,保護(hù)珍貴的古籍資源具有極其重要的意義。它會(huì)使以往繁重的古籍保護(hù)工作變得更加便利、快捷,利用信息技術(shù)、網(wǎng)絡(luò)技術(shù),也能使我們的古籍保護(hù)、展示和研究手段達(dá)到一個(gè)新的層次。
  
  古籍檢索是古籍?dāng)?shù)字化研究為古籍使用者提供的一種古籍使用方式,就是對(duì)海量的數(shù)字化古籍進(jìn)行快捷、精確、多維特征的查詢、展示等,從而大大提高古籍使用的效率,是一種直接面向用戶的古籍?dāng)?shù)字化服務(wù)。

  在接下來(lái)的內(nèi)容中,本文將就古籍檢索技術(shù)研究的現(xiàn)狀、技術(shù)探索及制約檢索質(zhì)量的幾個(gè)因素進(jìn)行探討。

一、古籍檢索技術(shù)現(xiàn)狀

  我國(guó)的古籍?dāng)?shù)字化經(jīng)歷了數(shù)據(jù)庫(kù)版、光盤版、網(wǎng)絡(luò)版三個(gè)建設(shè)階段。數(shù)據(jù)庫(kù)版古籍包括書目數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)兩種形式。光盤版古籍一般有圖像版、全文版和圖文版三種類型。網(wǎng)絡(luò)版古籍主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無(wú)償發(fā)布,供互聯(lián)網(wǎng)用戶使用,這是目前古籍?dāng)?shù)字化的主要目標(biāo)。

  目前,數(shù)字化古籍檢索的核心技術(shù)仍然是傳統(tǒng)的全文檢索方法。全文數(shù)據(jù)庫(kù)檢索系統(tǒng)主要采用逐字標(biāo)引形式,基于讀者輸入的檢索字或詞,在數(shù)據(jù)庫(kù)中查找完全匹配的結(jié)果以返回給用戶。但這種檢索技術(shù)只是單純基于關(guān)鍵詞的檢索,不論是單詞檢索,還是組合檢索,都只能檢索到與輸入的詞語(yǔ)嚴(yán)格匹配的資料,一是不可避免地帶來(lái)檢索效率低的問(wèn)題,二是忽視了古籍文獻(xiàn)中具有不同形式的內(nèi)容間潛在的語(yǔ)義關(guān)聯(lián)。

  由于古籍文獻(xiàn)對(duì)歷史研究、文化探討領(lǐng)域是非常珍貴的資源,有的甚至屬孤本,大都具有非常重要的保存和利用價(jià)值,因此對(duì)這些古籍實(shí)施信息化的管理和網(wǎng)絡(luò)共享,有利于對(duì)古籍知識(shí)的有效積累和應(yīng)用,從長(zhǎng)遠(yuǎn)來(lái)說(shuō),也是古籍研究發(fā)展的重要推動(dòng)力。但目前,數(shù)字化古籍的檢索領(lǐng)域仍然存在一些技術(shù)問(wèn)題:

  1.古籍?dāng)?shù)字化工作缺乏統(tǒng)一標(biāo)準(zhǔn),制作時(shí)使用不同的格式和分辨率等,獲得的古籍?dāng)?shù)字化文件格式多樣,閱讀器不同且不兼容,造成多數(shù)據(jù)來(lái)源下數(shù)字化古籍信息集成、數(shù)據(jù)交換困難;

  2.未充分考慮古籍?dāng)?shù)字化的領(lǐng)域特點(diǎn),對(duì)異形同義、異形近義、同形異義等問(wèn)題未做深入探討,其根本是未解決古籍檢索技術(shù)中的關(guān)鍵性技術(shù)——古漢語(yǔ)詞典切分技術(shù),影響了古籍自動(dòng)標(biāo)引、名稱主題檢索及專有名詞檢索等的實(shí)現(xiàn);

  3.古籍?dāng)?shù)字化的工作仍局限將古典文獻(xiàn)掃描形成電子出版物,并非建立在正確理解原文基礎(chǔ)上的文字轉(zhuǎn)化,這樣的數(shù)字化方式只適用于保存,既不利于學(xué)者檢索,也不利于傳統(tǒng)文化的傳播,但掃描只是數(shù)字化工作的預(yù)處理部分,并不能代替面向古籍保護(hù)領(lǐng)域的前期考證、標(biāo)引以及字體轉(zhuǎn)換、排版等;

  4.僅提供基于關(guān)鍵詞檢索的查詢、展示方式,缺乏智能化的、個(gè)性化的、多元化的關(guān)聯(lián)檢索方式。

  基于上述介紹,我們認(rèn)為古籍?dāng)?shù)字化在檢索方面的技術(shù)處理同用戶的使用需求之間仍然存在很大距離。

二、基于內(nèi)容的古籍檢索技術(shù)探索

  通過(guò)古籍?dāng)?shù)字化及檢索系統(tǒng)建設(shè),可以將多數(shù)據(jù)來(lái)源下的海量古籍文獻(xiàn)資料(如文本、圖片、報(bào)表等)在統(tǒng)一的管理平臺(tái)上進(jìn)行科學(xué)的組織、分類和管理,并通過(guò)有效的手段發(fā)布分享,使之成為群體知識(shí)和共享成果,提供古籍研究互動(dòng)交流的平臺(tái),實(shí)現(xiàn)古籍資料收藏?cái)?shù)字化、操作電腦化、傳遞網(wǎng)絡(luò)化、信息存貯自由化和資源共享化。

  通過(guò)多種信息采集手段得到的海量古籍?dāng)?shù)字化信息存儲(chǔ)在古籍?dāng)?shù)據(jù)庫(kù)中,除了通過(guò)各種手段展現(xiàn)給用戶外,提供高效、方便的檢索功能也是十分重要和必不可少的。對(duì)于古籍的檢索,除了普通的關(guān)鍵字檢索、分類檢索外,還應(yīng)該提供具有特色的檢索方式—-基于內(nèi)容的檢索。

  基于內(nèi)容的檢索基本思路是:先通過(guò)對(duì)古籍內(nèi)容的分析,自動(dòng)或半自動(dòng)的從中抽取古籍文獻(xiàn)的特征,并利用基于這些特征定義的相似度量函數(shù)計(jì)算特征之間的相似性,從而將最相似的古籍文獻(xiàn)作為檢索結(jié)果返回給用戶。

  基于內(nèi)容檢索的目的不是去理解或識(shí)別古籍文獻(xiàn)目標(biāo),它所關(guān)注的是能否基于內(nèi)容快速發(fā)現(xiàn)信息,并在一定的響應(yīng)時(shí)間內(nèi)從古籍?dāng)?shù)據(jù)庫(kù)中查詢到符合要求的文獻(xiàn)。

  基于內(nèi)容的古籍檢索,由于內(nèi)容表達(dá)的不精確性,必然是一種近似的檢索,結(jié)果中往往出現(xiàn)誤檢和遺漏,同時(shí)還需要注意以下兩點(diǎn):

  1.大型數(shù)據(jù)庫(kù)的快速檢索。在實(shí)際的古籍?dāng)?shù)據(jù)庫(kù)中,不僅數(shù)據(jù)量巨大,而且種類和數(shù)量繁多,因此要求檢索技術(shù)能夠快速、準(zhǔn)確的完成對(duì)古籍文獻(xiàn)信息的檢索。

  2.作為一種檢索技術(shù),它具有很強(qiáng)的交互性,以相關(guān)反饋?zhàn)鳛闄z索的有效手段。通過(guò)用戶的相關(guān)反饋,檢索系統(tǒng)學(xué)習(xí)用戶的意圖和準(zhǔn)則來(lái)指導(dǎo)古籍檢索過(guò)程,能夠有效提高古籍檢索的效率。

  完整有效的古籍信息檢索系統(tǒng)應(yīng)該包括常規(guī)的基于客觀屬性(關(guān)鍵字等)的檢索、基于內(nèi)容的檢索、對(duì)象關(guān)聯(lián)檢索及在這些檢索之上的概念查詢。對(duì)象關(guān)聯(lián)檢索以古籍對(duì)象之間的潛在關(guān)系和古籍對(duì)象之間的語(yǔ)義關(guān)聯(lián)為線索進(jìn)行檢索,檢索結(jié)果可能是滿足查詢要求的關(guān)聯(lián)所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)。概念查詢以這些檢索技術(shù)為基礎(chǔ),針對(duì)用戶提出的查詢概念要求,對(duì)古籍?dāng)?shù)據(jù)庫(kù)(集)進(jìn)行檢索。上述描述及典型用戶的需求表明,基于內(nèi)容的古籍檢索技術(shù)研究涉及以下幾個(gè)方面:

  ·基于內(nèi)容的智能化檢索

  要實(shí)現(xiàn)智能化的檢索,數(shù)字化古籍檢索系統(tǒng)必須能自動(dòng)識(shí)別出我們所需要的、與關(guān)鍵詞相關(guān)的資料。簡(jiǎn)言之,即將傳統(tǒng)的數(shù)字化古籍檢索由單一檢索轉(zhuǎn)換為多元檢索、由定向檢索轉(zhuǎn)換為關(guān)聯(lián)檢索、由靜態(tài)檢索轉(zhuǎn)換為動(dòng)態(tài)檢索。

  建立智能化古籍檢索系統(tǒng)的基礎(chǔ)是多維、多屬性的古籍?dāng)?shù)據(jù)庫(kù)建設(shè),即將古籍?dāng)?shù)字化、信息化的同時(shí),在古籍?dāng)?shù)據(jù)庫(kù)建設(shè)初期就抽取出古籍資料的眾多特征,將簡(jiǎn)單的古籍存儲(chǔ)形式擴(kuò)展為多維的、多屬性的古籍–特征模式,為后來(lái)的關(guān)聯(lián)檢索提供接口。這樣,在進(jìn)行古籍檢索時(shí),輸入一個(gè)關(guān)鍵詞后,不僅能檢索到與關(guān)鍵詞匹配的資料,也能檢索到與關(guān)鍵詞語(yǔ)義或語(yǔ)用關(guān)聯(lián)的資料,還可以動(dòng)態(tài)地生成相關(guān)資料和數(shù)據(jù)。

  目前,大量古籍資料的數(shù)字化過(guò)程是將其進(jìn)行掃描,同時(shí)以圖片及文本形式存儲(chǔ)。考慮到圖像數(shù)據(jù)庫(kù)的索引方式區(qū)別于傳統(tǒng)的文本數(shù)據(jù)庫(kù),可以將二者分開(kāi)進(jìn)行存儲(chǔ)、管理,但保持兩個(gè)數(shù)據(jù)庫(kù)中存儲(chǔ)內(nèi)容在語(yǔ)義、語(yǔ)用等方面的關(guān)聯(lián),以此為基礎(chǔ)進(jìn)行多維信息上的深度挖掘,獲得多個(gè)古籍資料在屬性或特征上的潛在相關(guān)性,從而為用戶提供更全面的、更準(zhǔn)確的檢索結(jié)果。

  ·個(gè)性化檢索

  根據(jù)用戶自己的個(gè)性化需求,支持檢索條件、展示方式等的自主訂制。

  由于古籍檢索系統(tǒng)用戶的研究目的、方向、領(lǐng)域等各不相同,因此即使利用相同的數(shù)據(jù)庫(kù),用戶需要的信息或希望了解的內(nèi)容也不盡相同。古籍檢索系統(tǒng)提供的個(gè)性化檢索功能支持用戶訪問(wèn)數(shù)據(jù)的個(gè)性化設(shè)置,提供個(gè)性化的信息挖掘及個(gè)性化輸出等,從而更好地滿足不同用戶的研究需求。

  ·自動(dòng)化的統(tǒng)計(jì)及對(duì)比功能

  古籍檢索系統(tǒng)在提供基本檢索功能的同時(shí),還需支持對(duì)古籍資料的深入分析及信息挖掘,最典型的手段是資料的統(tǒng)計(jì)及對(duì)比功能。

  通過(guò)對(duì)古籍資料某些屬性或特征的定量分析,由檢索系統(tǒng)自動(dòng)統(tǒng)計(jì)并生成用戶需要的統(tǒng)計(jì)數(shù)據(jù),從數(shù)字的角度說(shuō)明古籍資料在時(shí)間、空間等維度上的描述一致性、連續(xù)性等。

  基于古籍特征的比較及相關(guān)統(tǒng)計(jì)數(shù)據(jù)的比較,可以發(fā)現(xiàn)古籍資料間的內(nèi)在聯(lián)系,也可以減少人工完成的繁復(fù)勞動(dòng),降低人工統(tǒng)計(jì)的錯(cuò)誤可能。

  完整的古籍檢索系統(tǒng)在為用戶提供更多的名稱主題及專題檢索等研究支持功能以外,也需要在格式轉(zhuǎn)換工具、版本轉(zhuǎn)換工具等方面得到進(jìn)一步拓展。

  基于內(nèi)容的古籍檢索系統(tǒng)由兩個(gè)子系統(tǒng)構(gòu)成,即數(shù)據(jù)庫(kù)生成子系統(tǒng)和查詢子系統(tǒng),每個(gè)子系統(tǒng)均由相應(yīng)的功能模塊和部件組成。

  1.對(duì)象標(biāo)識(shí)

  為用戶提供一種工具,以全自動(dòng)或半自動(dòng)(需用戶部分干預(yù))的方式對(duì)數(shù)字化古籍文獻(xiàn)中用戶關(guān)注的屬性及特征進(jìn)行標(biāo)識(shí),以便針對(duì)古籍對(duì)象進(jìn)行特征提取、描述和查詢。如果檢索是針對(duì)整體數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行的,則檢索可以利用全局的內(nèi)容特征,而不采用對(duì)象標(biāo)識(shí)功能,也就是說(shuō),對(duì)象標(biāo)識(shí)是可選的。

  2.特征提取

  針對(duì)數(shù)字化古籍?dāng)?shù)據(jù),自動(dòng)或半自動(dòng)地提取用戶感興趣的、適于檢索的特征或?qū)傩浴L卣魈崛】梢允侨中缘模玑槍?duì)整篇古籍文獻(xiàn)的,也可以是針對(duì)文獻(xiàn)當(dāng)中某個(gè)具體研究對(duì)象的,如古籍的作者、古籍的年代等。

  3.數(shù)據(jù)庫(kù)

  數(shù)據(jù)庫(kù)由古籍庫(kù)、特征庫(kù)和知識(shí)庫(kù)組成。古籍庫(kù)包含多數(shù)據(jù)來(lái)源下的數(shù)字化古籍?dāng)?shù)據(jù),并且這些古籍?dāng)?shù)據(jù)可能包括多種存儲(chǔ)形式,如文本、圖像、視頻、音頻等;特征庫(kù)包含用戶輸入的客觀特征和預(yù)處理自動(dòng)提取的內(nèi)容特征;知識(shí)庫(kù)包含古籍研究的領(lǐng)域知識(shí)和通用知識(shí),其中的知識(shí)表達(dá)可以隨用戶需求進(jìn)行更換,以適應(yīng)不同領(lǐng)域的應(yīng)用要求。

  4.用戶查詢和瀏覽接口

  主要以示例查詢和模糊描述等可視查詢形式向用戶提供查詢接口。查詢?cè)试S針對(duì)古籍?dāng)?shù)據(jù)、完整的古籍?dāng)?shù)據(jù)庫(kù)、古籍?dāng)?shù)據(jù)屬性以及任意屬性或特征的組合形式進(jìn)行。由于古籍?dāng)?shù)據(jù)的視覺(jué)特性,不僅查詢時(shí)需要通過(guò)瀏覽掃描的數(shù)字版本確定查詢要求,在查詢后返回結(jié)果時(shí)也需要提供古籍瀏覽的功能。

  5.檢索(匹配)引擎

  檢索是利用特征之間的距離函數(shù)來(lái)進(jìn)行相似性匹配,模仿人類的認(rèn)知過(guò)程,近似得到數(shù)據(jù)庫(kù)的認(rèn)知排序。對(duì)于不同來(lái)源、不同領(lǐng)域的數(shù)字化古籍,需采用不同的相似性測(cè)度算法,即在檢索(匹配)引擎中包括一個(gè)較為有效、可靠的相似性測(cè)度函數(shù)集。

  盡管用戶向系統(tǒng)提供了自己認(rèn)為很重要或很有代表性的古籍資料,系統(tǒng)也有可能無(wú)法精確地滿足用戶所希望的相似性需要。“相似性”對(duì)系統(tǒng)而言是一些特征值的相似,雖然系統(tǒng)盡可能地用特征值相似來(lái)模擬語(yǔ)義或語(yǔ)用上的相似性,但這兩者之間總不可避免地存在一些差異。

  6.索引/過(guò)濾器

  檢索引擎通過(guò)索引/過(guò)濾機(jī)制來(lái)達(dá)到快速搜索的目的,從而可以應(yīng)用于大型古籍?dāng)?shù)據(jù)集。過(guò)濾器作用于全部數(shù)據(jù),過(guò)濾出的數(shù)據(jù)集合再用高維特征匹配來(lái)檢索。索引用于低維特征,可以利用R*樹(shù)以加快檢索速度。古籍的基本索引信息至少包括:古籍名稱、創(chuàng)作時(shí)間、作者、資料類型、全文文本、全文圖片等。

  上述系統(tǒng)不能僅實(shí)現(xiàn)對(duì)古籍資料的目錄查詢和檢索,還必須提供古籍資料的全文瀏覽功能,因此系統(tǒng)開(kāi)發(fā)過(guò)程中應(yīng)添加全文瀏覽、下載、批注等功能,實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)進(jìn)行古籍文本資料、圖片資料及其它文件等資料的全文瀏覽、下載及共享等功能。

  基于內(nèi)容的查詢和檢索是一個(gè)逐步求精的過(guò)程,即一個(gè)不斷進(jìn)行特征調(diào)整、重新匹配的循環(huán)過(guò)程:

  1.初始查詢說(shuō)明。用戶查找一個(gè)對(duì)象時(shí),最初可以用QBE或查詢語(yǔ)言形成一個(gè)查詢。系統(tǒng)提取該示例的特征或把查詢描述映射為具體的特征矢量。

  2.相似性匹配。將查詢特征與特征庫(kù)中的特征按照一定的匹配算法進(jìn)行相似匹配。

  3.滿足一定相似性條件的一組候選結(jié)果,按相似度大小排列后返回給用戶。

  4.特征調(diào)整。對(duì)系統(tǒng)返回的查詢結(jié)果,用戶可以通過(guò)遍歷(瀏覽)來(lái)挑選,直至得到滿意的結(jié)果,或者從候選結(jié)果中選擇一個(gè)示例,經(jīng)過(guò)特征調(diào)整后,形成一個(gè)新的查詢。

  5.利用上述過(guò)程逐步縮小查詢的范圍,直到用戶對(duì)查詢結(jié)果滿意為止。

三、古籍檢索技術(shù)發(fā)展的前提

  古籍?dāng)?shù)字化工作中目前仍然存在不少問(wèn)題,制約了古籍檢索系統(tǒng)的發(fā)展,嚴(yán)重影響古籍檢索的性能,如生僻字的錄入、顯示問(wèn)題,數(shù)字化古籍的不規(guī)范性,瀏覽軟件不通用等等。因此,要提高古籍檢索的效果及效率,首先要從數(shù)字化階段的工作入手,規(guī)范古籍加工整理的電子數(shù)據(jù)格式及瀏覽手段,研究簡(jiǎn)、繁體轉(zhuǎn)換及古籍切詞問(wèn)題,運(yùn)用現(xiàn)有成果解決古籍?dāng)?shù)字庫(kù)中的字形處理等。

  要保證古籍檢索的性能,追本溯源應(yīng)著重研究古籍資料的全息無(wú)損清晰掃描。由于所有的古籍資料都是歷史上遺留下來(lái)寶貴的檔案,所以數(shù)字化工作不能對(duì)原始文檔實(shí)行拆訂掃描整理,只能采用全息無(wú)損清晰掃描。紙質(zhì)文檔資料無(wú)損掃描最關(guān)鍵的問(wèn)題是遇到一些頁(yè)數(shù)較多的資料時(shí),會(huì)出現(xiàn)書頁(yè)的裝訂線一側(cè)無(wú)法清晰掃描或出現(xiàn)孤度的問(wèn)題。為保證掃描圖像的平整,確保頁(yè)數(shù)較厚的資料裝訂線一側(cè)能夠掃描清楚、平整,必須使用全息書刊掃描技術(shù)及設(shè)備,實(shí)現(xiàn)零邊距掃描。

  之后,還需進(jìn)行掃描成果去噪。掃描的圖片歪斜,不清晰以及污點(diǎn)、折痕、噪點(diǎn)等,對(duì)以后OCR識(shí)別的影響都會(huì)很大,所以在掃描識(shí)別后要使用專業(yè)的圖象處理軟件對(duì)圖片進(jìn)行糾偏和清晰度調(diào)整,包括圖文糾編、去黑邊、去噪聲、任意旋轉(zhuǎn)、影像增強(qiáng)等,以確保較高的識(shí)別率。

  三是古籍圖像的壓縮存儲(chǔ)。通常一頁(yè)文檔按300dpi分辨率掃描后的圖像大小是900多K約1M,相對(duì)來(lái)說(shuō)體積比較大。采用高倍的圖像壓縮比,以及二值化處理可對(duì)圖文對(duì)象進(jìn)行有效消腫,減小圖文對(duì)象的存儲(chǔ)空間,大大提高在線閱覽和下載的速度。

  

Comments are closed.

主站蜘蛛池模板: 热久久久久久 | 国产精品一区二区三区网站 | 国产中文字幕一区 | 成人免费在线播放 | 涩爱av一区二区三区 | 国产一区二区三区四区三区四 | 中文字幕高清 | av网站黄色| 亚洲综合黄色 | 久久久久成人精品 | 六月婷婷久久 | 欧美精品一区视频 | 国产二三区 | 日韩精品成人 | 久久国产精品一区二区 | 国产精品爱啪在线线免费观看 | 超碰亚洲| 日韩电影一区 | 国产成人综合在线 | 精品一区二区三区日本 | 精品麻豆 | 国产欧美一区二区精品久导航 | 91久久国产综合久久91猫猫 | 欧美成人精品一区二区男人看 | 综合久久婷婷 | 日本不卡中文字幕 | 黄色毛片小视频 | 日韩免费高清 | 中国一级黄色毛片 | www.日韩高清 | 日韩精品免费一区二区夜夜嗨 | 久久久网 | 久一在线| 91免费国产在线 | av片在线观看| 日日日操 | 日日爱av| 成人h视频在线观看 | 国产精品一区二区三区免费看 | 美女毛片在线看 | 国产一区二区三区久久 |