日韩做爰视频免费,国产美女爽到喷白浆的,日韩.www

（北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院）

　　古籍?dāng)?shù)字化是伴隨信息技術(shù)的進(jìn)步發(fā)展起來(lái)的一個(gè)新領(lǐng)域，與古籍整理、文獻(xiàn)保護(hù)、文化傳承緊密相關(guān)，對(duì)古籍的數(shù)字化是文化產(chǎn)業(yè)與信息產(chǎn)業(yè)結(jié)合的核心內(nèi)容。古籍?dāng)?shù)字化是指采用現(xiàn)代化技術(shù)，對(duì)古籍文獻(xiàn)進(jìn)行加工處理。具體而言就是借助計(jì)算機(jī)對(duì)古籍進(jìn)行保護(hù)、整理、加工和傳播，將古籍通過(guò)數(shù)字代碼的形式存放。

　　隨著信息技術(shù)特別是網(wǎng)絡(luò)技術(shù)的發(fā)展，用數(shù)字化手段對(duì)現(xiàn)存的古籍進(jìn)行數(shù)字化加工處理，給傳統(tǒng)的古籍研究帶來(lái)了生機(jī)和新的機(jī)遇，對(duì)于實(shí)現(xiàn)古籍資源共享，保護(hù)珍貴的古籍資源具有極其重要的意義。它會(huì)使以往繁重的古籍保護(hù)工作變得更加便利、快捷，利用信息技術(shù)、網(wǎng)絡(luò)技術(shù)，也能使我們的古籍保護(hù)、展示和研究手段達(dá)到一個(gè)新的層次。
　　
　　古籍檢索是古籍?dāng)?shù)字化研究為古籍使用者提供的一種古籍使用方式，就是對(duì)海量的數(shù)字化古籍進(jìn)行快捷、精確、多維特征的查詢、展示等，從而大大提高古籍使用的效率，是一種直接面向用戶的古籍?dāng)?shù)字化服務(wù)。

　　在接下來(lái)的內(nèi)容中，本文將就古籍檢索技術(shù)研究的現(xiàn)狀、技術(shù)探索及制約檢索質(zhì)量的幾個(gè)因素進(jìn)行探討。

一、古籍檢索技術(shù)現(xiàn)狀

　　我國(guó)的古籍?dāng)?shù)字化經(jīng)歷了數(shù)據(jù)庫(kù)版、光盤版、網(wǎng)絡(luò)版三個(gè)建設(shè)階段。數(shù)據(jù)庫(kù)版古籍包括書目數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)兩種形式。光盤版古籍一般有圖像版、全文版和圖文版三種類型。網(wǎng)絡(luò)版古籍主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無(wú)償發(fā)布，供互聯(lián)網(wǎng)用戶使用，這是目前古籍?dāng)?shù)字化的主要目標(biāo)。

　　目前，數(shù)字化古籍檢索的核心技術(shù)仍然是傳統(tǒng)的全文檢索方法。全文數(shù)據(jù)庫(kù)檢索系統(tǒng)主要采用逐字標(biāo)引形式，基于讀者輸入的檢索字或詞，在數(shù)據(jù)庫(kù)中查找完全匹配的結(jié)果以返回給用戶。但這種檢索技術(shù)只是單純基于關(guān)鍵詞的檢索，不論是單詞檢索，還是組合檢索，都只能檢索到與輸入的詞語(yǔ)嚴(yán)格匹配的資料，一是不可避免地帶來(lái)檢索效率低的問(wèn)題，二是忽視了古籍文獻(xiàn)中具有不同形式的內(nèi)容間潛在的語(yǔ)義關(guān)聯(lián)。

　　由于古籍文獻(xiàn)對(duì)歷史研究、文化探討領(lǐng)域是非常珍貴的資源，有的甚至屬孤本，大都具有非常重要的保存和利用價(jià)值，因此對(duì)這些古籍實(shí)施信息化的管理和網(wǎng)絡(luò)共享，有利于對(duì)古籍知識(shí)的有效積累和應(yīng)用，從長(zhǎng)遠(yuǎn)來(lái)說(shuō)，也是古籍研究發(fā)展的重要推動(dòng)力。但目前，數(shù)字化古籍的檢索領(lǐng)域仍然存在一些技術(shù)問(wèn)題：

　　1.古籍?dāng)?shù)字化工作缺乏統(tǒng)一標(biāo)準(zhǔn)，制作時(shí)使用不同的格式和分辨率等，獲得的古籍?dāng)?shù)字化文件格式多樣，閱讀器不同且不兼容，造成多數(shù)據(jù)來(lái)源下數(shù)字化古籍信息集成、數(shù)據(jù)交換困難；

　　2.未充分考慮古籍?dāng)?shù)字化的領(lǐng)域特點(diǎn)，對(duì)異形同義、異形近義、同形異義等問(wèn)題未做深入探討，其根本是未解決古籍檢索技術(shù)中的關(guān)鍵性技術(shù)——古漢語(yǔ)詞典切分技術(shù)，影響了古籍自動(dòng)標(biāo)引、名稱主題檢索及專有名詞檢索等的實(shí)現(xiàn)；

　　3.古籍?dāng)?shù)字化的工作仍局限將古典文獻(xiàn)掃描形成電子出版物，并非建立在正確理解原文基礎(chǔ)上的文字轉(zhuǎn)化，這樣的數(shù)字化方式只適用于保存，既不利于學(xué)者檢索，也不利于傳統(tǒng)文化的傳播，但掃描只是數(shù)字化工作的預(yù)處理部分，并不能代替面向古籍保護(hù)領(lǐng)域的前期考證、標(biāo)引以及字體轉(zhuǎn)換、排版等；

　　4.僅提供基于關(guān)鍵詞檢索的查詢、展示方式，缺乏智能化的、個(gè)性化的、多元化的關(guān)聯(lián)檢索方式。

　　基于上述介紹，我們認(rèn)為古籍?dāng)?shù)字化在檢索方面的技術(shù)處理同用戶的使用需求之間仍然存在很大距離。

二、基于內(nèi)容的古籍檢索技術(shù)探索

　　通過(guò)古籍?dāng)?shù)字化及檢索系統(tǒng)建設(shè)，可以將多數(shù)據(jù)來(lái)源下的海量古籍文獻(xiàn)資料（如文本、圖片、報(bào)表等）在統(tǒng)一的管理平臺(tái)上進(jìn)行科學(xué)的組織、分類和管理，并通過(guò)有效的手段發(fā)布分享，使之成為群體知識(shí)和共享成果，提供古籍研究互動(dòng)交流的平臺(tái)，實(shí)現(xiàn)古籍資料收藏?cái)?shù)字化、操作電腦化、傳遞網(wǎng)絡(luò)化、信息存貯自由化和資源共享化。

　　通過(guò)多種信息采集手段得到的海量古籍?dāng)?shù)字化信息存儲(chǔ)在古籍?dāng)?shù)據(jù)庫(kù)中，除了通過(guò)各種手段展現(xiàn)給用戶外，提供高效、方便的檢索功能也是十分重要和必不可少的。對(duì)于古籍的檢索，除了普通的關(guān)鍵字檢索、分類檢索外，還應(yīng)該提供具有特色的檢索方式—-基于內(nèi)容的檢索。

　　基于內(nèi)容的檢索基本思路是：先通過(guò)對(duì)古籍內(nèi)容的分析，自動(dòng)或半自動(dòng)的從中抽取古籍文獻(xiàn)的特征，并利用基于這些特征定義的相似度量函數(shù)計(jì)算特征之間的相似性，從而將最相似的古籍文獻(xiàn)作為檢索結(jié)果返回給用戶。

　　基于內(nèi)容檢索的目的不是去理解或識(shí)別古籍文獻(xiàn)目標(biāo)，它所關(guān)注的是能否基于內(nèi)容快速發(fā)現(xiàn)信息，并在一定的響應(yīng)時(shí)間內(nèi)從古籍?dāng)?shù)據(jù)庫(kù)中查詢到符合要求的文獻(xiàn)。

　　基于內(nèi)容的古籍檢索，由于內(nèi)容表達(dá)的不精確性，必然是一種近似的檢索，結(jié)果中往往出現(xiàn)誤檢和遺漏，同時(shí)還需要注意以下兩點(diǎn)：

　　1.大型數(shù)據(jù)庫(kù)的快速檢索。在實(shí)際的古籍?dāng)?shù)據(jù)庫(kù)中，不僅數(shù)據(jù)量巨大，而且種類和數(shù)量繁多，因此要求檢索技術(shù)能夠快速、準(zhǔn)確的完成對(duì)古籍文獻(xiàn)信息的檢索。

　　2.作為一種檢索技術(shù)，它具有很強(qiáng)的交互性，以相關(guān)反饋?zhàn)鳛闄z索的有效手段。通過(guò)用戶的相關(guān)反饋，檢索系統(tǒng)學(xué)習(xí)用戶的意圖和準(zhǔn)則來(lái)指導(dǎo)古籍檢索過(guò)程，能夠有效提高古籍檢索的效率。

　　完整有效的古籍信息檢索系統(tǒng)應(yīng)該包括常規(guī)的基于客觀屬性（關(guān)鍵字等）的檢索、基于內(nèi)容的檢索、對(duì)象關(guān)聯(lián)檢索及在這些檢索之上的概念查詢。對(duì)象關(guān)聯(lián)檢索以古籍對(duì)象之間的潛在關(guān)系和古籍對(duì)象之間的語(yǔ)義關(guān)聯(lián)為線索進(jìn)行檢索，檢索結(jié)果可能是滿足查詢要求的關(guān)聯(lián)所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)。概念查詢以這些檢索技術(shù)為基礎(chǔ)，針對(duì)用戶提出的查詢概念要求，對(duì)古籍?dāng)?shù)據(jù)庫(kù)（集）進(jìn)行檢索。上述描述及典型用戶的需求表明，基于內(nèi)容的古籍檢索技術(shù)研究涉及以下幾個(gè)方面：

　　·基于內(nèi)容的智能化檢索

　　要實(shí)現(xiàn)智能化的檢索，數(shù)字化古籍檢索系統(tǒng)必須能自動(dòng)識(shí)別出我們所需要的、與關(guān)鍵詞相關(guān)的資料。簡(jiǎn)言之，即將傳統(tǒng)的數(shù)字化古籍檢索由單一檢索轉(zhuǎn)換為多元檢索、由定向檢索轉(zhuǎn)換為關(guān)聯(lián)檢索、由靜態(tài)檢索轉(zhuǎn)換為動(dòng)態(tài)檢索。

　　建立智能化古籍檢索系統(tǒng)的基礎(chǔ)是多維、多屬性的古籍?dāng)?shù)據(jù)庫(kù)建設(shè)，即將古籍?dāng)?shù)字化、信息化的同時(shí)，在古籍?dāng)?shù)據(jù)庫(kù)建設(shè)初期就抽取出古籍資料的眾多特征，將簡(jiǎn)單的古籍存儲(chǔ)形式擴(kuò)展為多維的、多屬性的古籍–特征模式，為后來(lái)的關(guān)聯(lián)檢索提供接口。這樣，在進(jìn)行古籍檢索時(shí)，輸入一個(gè)關(guān)鍵詞后，不僅能檢索到與關(guān)鍵詞匹配的資料，也能檢索到與關(guān)鍵詞語(yǔ)義或語(yǔ)用關(guān)聯(lián)的資料，還可以動(dòng)態(tài)地生成相關(guān)資料和數(shù)據(jù)。

　　目前，大量古籍資料的數(shù)字化過(guò)程是將其進(jìn)行掃描，同時(shí)以圖片及文本形式存儲(chǔ)。考慮到圖像數(shù)據(jù)庫(kù)的索引方式區(qū)別于傳統(tǒng)的文本數(shù)據(jù)庫(kù)，可以將二者分開(kāi)進(jìn)行存儲(chǔ)、管理，但保持兩個(gè)數(shù)據(jù)庫(kù)中存儲(chǔ)內(nèi)容在語(yǔ)義、語(yǔ)用等方面的關(guān)聯(lián)，以此為基礎(chǔ)進(jìn)行多維信息上的深度挖掘，獲得多個(gè)古籍資料在屬性或特征上的潛在相關(guān)性，從而為用戶提供更全面的、更準(zhǔn)確的檢索結(jié)果。

　　·個(gè)性化檢索

　　根據(jù)用戶自己的個(gè)性化需求，支持檢索條件、展示方式等的自主訂制。

　　由于古籍檢索系統(tǒng)用戶的研究目的、方向、領(lǐng)域等各不相同，因此即使利用相同的數(shù)據(jù)庫(kù)，用戶需要的信息或希望了解的內(nèi)容也不盡相同。古籍檢索系統(tǒng)提供的個(gè)性化檢索功能支持用戶訪問(wèn)數(shù)據(jù)的個(gè)性化設(shè)置，提供個(gè)性化的信息挖掘及個(gè)性化輸出等，從而更好地滿足不同用戶的研究需求。

　　·自動(dòng)化的統(tǒng)計(jì)及對(duì)比功能

　　古籍檢索系統(tǒng)在提供基本檢索功能的同時(shí)，還需支持對(duì)古籍資料的深入分析及信息挖掘，最典型的手段是資料的統(tǒng)計(jì)及對(duì)比功能。

　　通過(guò)對(duì)古籍資料某些屬性或特征的定量分析，由檢索系統(tǒng)自動(dòng)統(tǒng)計(jì)并生成用戶需要的統(tǒng)計(jì)數(shù)據(jù)，從數(shù)字的角度說(shuō)明古籍資料在時(shí)間、空間等維度上的描述一致性、連續(xù)性等。

　　基于古籍特征的比較及相關(guān)統(tǒng)計(jì)數(shù)據(jù)的比較，可以發(fā)現(xiàn)古籍資料間的內(nèi)在聯(lián)系，也可以減少人工完成的繁復(fù)勞動(dòng)，降低人工統(tǒng)計(jì)的錯(cuò)誤可能。

　　完整的古籍檢索系統(tǒng)在為用戶提供更多的名稱主題及專題檢索等研究支持功能以外，也需要在格式轉(zhuǎn)換工具、版本轉(zhuǎn)換工具等方面得到進(jìn)一步拓展。

　　基于內(nèi)容的古籍檢索系統(tǒng)由兩個(gè)子系統(tǒng)構(gòu)成，即數(shù)據(jù)庫(kù)生成子系統(tǒng)和查詢子系統(tǒng)，每個(gè)子系統(tǒng)均由相應(yīng)的功能模塊和部件組成。

　　1.對(duì)象標(biāo)識(shí)

　　為用戶提供一種工具，以全自動(dòng)或半自動(dòng)（需用戶部分干預(yù)）的方式對(duì)數(shù)字化古籍文獻(xiàn)中用戶關(guān)注的屬性及特征進(jìn)行標(biāo)識(shí)，以便針對(duì)古籍對(duì)象進(jìn)行特征提取、描述和查詢。如果檢索是針對(duì)整體數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行的，則檢索可以利用全局的內(nèi)容特征，而不采用對(duì)象標(biāo)識(shí)功能，也就是說(shuō)，對(duì)象標(biāo)識(shí)是可選的。

　　2.特征提取

　　針對(duì)數(shù)字化古籍?dāng)?shù)據(jù)，自動(dòng)或半自動(dòng)地提取用戶感興趣的、適于檢索的特征或?qū)傩浴Ｌ卣魈崛】梢允侨中缘模玑槍?duì)整篇古籍文獻(xiàn)的，也可以是針對(duì)文獻(xiàn)當(dāng)中某個(gè)具體研究對(duì)象的，如古籍的作者、古籍的年代等。

　　3.數(shù)據(jù)庫(kù)

　　數(shù)據(jù)庫(kù)由古籍庫(kù)、特征庫(kù)和知識(shí)庫(kù)組成。古籍庫(kù)包含多數(shù)據(jù)來(lái)源下的數(shù)字化古籍?dāng)?shù)據(jù)，并且這些古籍?dāng)?shù)據(jù)可能包括多種存儲(chǔ)形式，如文本、圖像、視頻、音頻等；特征庫(kù)包含用戶輸入的客觀特征和預(yù)處理自動(dòng)提取的內(nèi)容特征；知識(shí)庫(kù)包含古籍研究的領(lǐng)域知識(shí)和通用知識(shí)，其中的知識(shí)表達(dá)可以隨用戶需求進(jìn)行更換，以適應(yīng)不同領(lǐng)域的應(yīng)用要求。

　　4.用戶查詢和瀏覽接口

　　主要以示例查詢和模糊描述等可視查詢形式向用戶提供查詢接口。查詢?cè)试S針對(duì)古籍?dāng)?shù)據(jù)、完整的古籍?dāng)?shù)據(jù)庫(kù)、古籍?dāng)?shù)據(jù)屬性以及任意屬性或特征的組合形式進(jìn)行。由于古籍?dāng)?shù)據(jù)的視覺(jué)特性，不僅查詢時(shí)需要通過(guò)瀏覽掃描的數(shù)字版本確定查詢要求，在查詢后返回結(jié)果時(shí)也需要提供古籍瀏覽的功能。

　　5.檢索（匹配）引擎

　　檢索是利用特征之間的距離函數(shù)來(lái)進(jìn)行相似性匹配，模仿人類的認(rèn)知過(guò)程，近似得到數(shù)據(jù)庫(kù)的認(rèn)知排序。對(duì)于不同來(lái)源、不同領(lǐng)域的數(shù)字化古籍，需采用不同的相似性測(cè)度算法，即在檢索（匹配）引擎中包括一個(gè)較為有效、可靠的相似性測(cè)度函數(shù)集。

　　盡管用戶向系統(tǒng)提供了自己認(rèn)為很重要或很有代表性的古籍資料，系統(tǒng)也有可能無(wú)法精確地滿足用戶所希望的相似性需要。“相似性”對(duì)系統(tǒng)而言是一些特征值的相似，雖然系統(tǒng)盡可能地用特征值相似來(lái)模擬語(yǔ)義或語(yǔ)用上的相似性，但這兩者之間總不可避免地存在一些差異。

　　6.索引/過(guò)濾器

　　檢索引擎通過(guò)索引/過(guò)濾機(jī)制來(lái)達(dá)到快速搜索的目的，從而可以應(yīng)用于大型古籍?dāng)?shù)據(jù)集。過(guò)濾器作用于全部數(shù)據(jù)，過(guò)濾出的數(shù)據(jù)集合再用高維特征匹配來(lái)檢索。索引用于低維特征,可以利用R*樹(shù)以加快檢索速度。古籍的基本索引信息至少包括：古籍名稱、創(chuàng)作時(shí)間、作者、資料類型、全文文本、全文圖片等。

　　上述系統(tǒng)不能僅實(shí)現(xiàn)對(duì)古籍資料的目錄查詢和檢索，還必須提供古籍資料的全文瀏覽功能，因此系統(tǒng)開(kāi)發(fā)過(guò)程中應(yīng)添加全文瀏覽、下載、批注等功能，實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)進(jìn)行古籍文本資料、圖片資料及其它文件等資料的全文瀏覽、下載及共享等功能。

　　基于內(nèi)容的查詢和檢索是一個(gè)逐步求精的過(guò)程，即一個(gè)不斷進(jìn)行特征調(diào)整、重新匹配的循環(huán)過(guò)程：

　　1.初始查詢說(shuō)明。用戶查找一個(gè)對(duì)象時(shí)，最初可以用QBE或查詢語(yǔ)言形成一個(gè)查詢。系統(tǒng)提取該示例的特征或把查詢描述映射為具體的特征矢量。

　　2.相似性匹配。將查詢特征與特征庫(kù)中的特征按照一定的匹配算法進(jìn)行相似匹配。

　　3.滿足一定相似性條件的一組候選結(jié)果，按相似度大小排列后返回給用戶。

　　4.特征調(diào)整。對(duì)系統(tǒng)返回的查詢結(jié)果，用戶可以通過(guò)遍歷（瀏覽）來(lái)挑選，直至得到滿意的結(jié)果，或者從候選結(jié)果中選擇一個(gè)示例，經(jīng)過(guò)特征調(diào)整后，形成一個(gè)新的查詢。

　　5.利用上述過(guò)程逐步縮小查詢的范圍，直到用戶對(duì)查詢結(jié)果滿意為止。

三、古籍檢索技術(shù)發(fā)展的前提

　　古籍?dāng)?shù)字化工作中目前仍然存在不少問(wèn)題，制約了古籍檢索系統(tǒng)的發(fā)展，嚴(yán)重影響古籍檢索的性能，如生僻字的錄入、顯示問(wèn)題，數(shù)字化古籍的不規(guī)范性，瀏覽軟件不通用等等。因此，要提高古籍檢索的效果及效率，首先要從數(shù)字化階段的工作入手，規(guī)范古籍加工整理的電子數(shù)據(jù)格式及瀏覽手段，研究簡(jiǎn)、繁體轉(zhuǎn)換及古籍切詞問(wèn)題，運(yùn)用現(xiàn)有成果解決古籍?dāng)?shù)字庫(kù)中的字形處理等。

　　要保證古籍檢索的性能，追本溯源應(yīng)著重研究古籍資料的全息無(wú)損清晰掃描。由于所有的古籍資料都是歷史上遺留下來(lái)寶貴的檔案，所以數(shù)字化工作不能對(duì)原始文檔實(shí)行拆訂掃描整理，只能采用全息無(wú)損清晰掃描。紙質(zhì)文檔資料無(wú)損掃描最關(guān)鍵的問(wèn)題是遇到一些頁(yè)數(shù)較多的資料時(shí)，會(huì)出現(xiàn)書頁(yè)的裝訂線一側(cè)無(wú)法清晰掃描或出現(xiàn)孤度的問(wèn)題。為保證掃描圖像的平整，確保頁(yè)數(shù)較厚的資料裝訂線一側(cè)能夠掃描清楚、平整，必須使用全息書刊掃描技術(shù)及設(shè)備，實(shí)現(xiàn)零邊距掃描。

　　之后，還需進(jìn)行掃描成果去噪。掃描的圖片歪斜，不清晰以及污點(diǎn)、折痕、噪點(diǎn)等，對(duì)以后OCR識(shí)別的影響都會(huì)很大，所以在掃描識(shí)別后要使用專業(yè)的圖象處理軟件對(duì)圖片進(jìn)行糾偏和清晰度調(diào)整，包括圖文糾編、去黑邊、去噪聲、任意旋轉(zhuǎn)、影像增強(qiáng)等，以確保較高的識(shí)別率。

　　三是古籍圖像的壓縮存儲(chǔ)。通常一頁(yè)文檔按300dpi分辨率掃描后的圖像大小是900多K約1M，相對(duì)來(lái)說(shuō)體積比較大。采用高倍的圖像壓縮比，以及二值化處理可對(duì)圖文對(duì)象進(jìn)行有效消腫，減小圖文對(duì)象的存儲(chǔ)空間，大大提高在線閱覽和下載的速度。

點(diǎn)擊：2,724 發(fā)布：2009-08-18 14:06 責(zé)編：xiaoben 來(lái)源：國(guó)學(xué)網(wǎng)

【版權(quán)聲明】本網(wǎng)頁(yè)中圖片引用自網(wǎng)絡(luò)的，如有版權(quán)方煩請(qǐng)及時(shí)聯(lián)系我們刪除，謝謝！　【聯(lián)系我們】010-68900123

wwwxxx国产_蜜桃精品视频_久久成人国产精品_91精品国产91热久久久做人人_久久91久久_亚洲成人在线视频网

基于內(nèi)容的古籍檢索技術(shù)研究

相關(guān)文章