1. <tt id="5hhch"><source id="5hhch"></source></tt>
    1. <xmp id="5hhch"></xmp>

  2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

    <rp id="5hhch"></rp>
        <dfn id="5hhch"></dfn>

      1. “互聯網+”時代的古籍數字化新思路論文

        時間:2024-07-16 20:42:44 研究生論文 我要投稿
        • 相關推薦

        “互聯網+”時代的古籍數字化新思路論文

          摘要:本文分析了目前中文古籍數字化過程中遇到的問題,在“互聯網+”的驅動下,通過借鑒成熟的“reCAPTCHA”技術,構建基于互聯網知識網絡的古籍數字化平臺。

        “互聯網+”時代的古籍數字化新思路論文

          關鍵詞:古籍 互聯網 大數據 知識網絡 驗證碼 數字化

          一、古籍數字化出現的問題

          1、古籍數字化研究現狀

          古籍又稱典籍、文獻,是指沒有采用現代印刷技術來印制的書籍。中華文明五千年從甲骨文、簡牘、卷軸再到線裝,留下了大量寶貴的古籍,作為中華文明文化延續的印證,古籍整理是非常重要的。

          古籍整理的傳統方法,是通過對古籍進行審校釋(審定、校勘、注釋)等加工整理后形成新版本,便于現代人進行閱讀。古籍整理的傳統方法主要依賴手工進行,有著操作過程繁雜、效率低的缺點,而且新版本仍然是書本形式,難以再次利用。在計算機技術出現后,古籍整理有了新的工具和方法,即古籍數字化技術。通過利用信息技術將古籍文獻進行加工和整理,并使其轉化為電子數據,可以通過光盤、網絡進行保存和傳播,有效解決了傳統古籍整理的缺點。

          中文古籍的數字化最早是二十世紀七十年代,從計算機技術發達的美國開始的。我國在引入相關技術后,產生了大批有價值的成果。國家圖書館的“古籍特藏文獻數字化計劃”,完成了“甲骨文”、“數字方志”、“碑砧菁華”、“敦煌遺珍”、“西夏碎金”、“永樂大典”等成果。其他研究機構也推出了大量產品,其中北京大學所著的《中國基本古籍光盤庫》,將收錄古籍萬余種。另外,在CALIS項目和CANAL項目中涉及到的古籍子項目也有很好的成果。

          國際上,拉丁文體系古籍的數字化工作也進行了大量研究工作。由歐盟二十六家圖書館聯合推出的IMPACT(Improving Access to Text)項目,是一個通過研究OCR(Optical Character Recognition,光學字符識別)技術,來推動拉丁體系文字古籍數字化工程。

          2、古籍數字化的發展與瓶頸

          我國古籍數字化的發展經歷了聯合目錄階段、目錄+影像階段和全文檢索三個階段。

          第一階段是20世紀80年代,聯合目錄為古籍數據庫檢索系統的開發,以數據庫的形式儲存。通過利用計算機,對古籍資料進行目錄檢索、內容整理、儲存、數量統計,以及編制索引,極大的改進了古籍文獻的檢索方式,是古籍研究的輔助工具。最初的古籍數據庫主要是書目數據庫,很多省市級圖書館都建立了書目數據庫,其中南京圖書館建立了40萬條中文古籍書目數據。

          第二階段是20世紀90年代的目錄+影像階段。這個階段形成了以光盤為載體,可通過目錄進行查詢、瀏覽原文的影像頁的古籍文獻或古籍數據庫,所以又稱為光盤版古籍。1997年武漢大學出版社推出的“四庫全書光盤版”共150張光盤,以文淵閣本《四庫全書》為底本,將全書兩百余萬頁逐頁掃描成電子文件。

          第三階段,2000年起古籍數字化進入了全文檢索階段。將古籍的全文錄入進數據庫系統,通過文本與檢索項匹配,實現直接到段落的精確查找。并且配置網絡化,以各地區的圖書館為節點、網絡為紐帶建立了網絡上的聯合數據庫。

          通過網絡共享服務,可以不再依賴個人存儲也能得到海量資源。然而古籍數字資源不足,影響了網絡化的發展。古籍數字化加工有著很多的問題。

          2.1機器難以提高對古籍的識別能力

          整理好的古籍進行數字化的第一步,便是古籍錄入。

          圖書數字化錄入的方法有兩種,分別是人工鍵盤輸入和計算機光學字符識別(OCR)掃描輸入。人工鍵盤輸入屬于手工作業,需要由錄入人員看著圖書,逐字錄入,有著效率低、成本高的缺點。OCR是一種先進的自動化技術,通過機器來大量識別圖像為文本,是大量圖書數字化的主要手段。但是,如果圖書是古籍的情況下,機器的錄入難度就增加了不少。

          缺字:

          由于計算機對文字的處理要通過編碼來完成,國標字庫(GB2312)收錄有6763個字,國標擴展漢字字庫(GBK)收錄有20902個字。而古籍中通用字約有四萬,常用的異體字約為兩萬。相對古籍中的繁體字、通假字、異體字、避諱字而言,計算機的編碼庫無法滿足古籍輸入要求。

          排版:

          古籍不僅僅是豎排版的問題,有無鈐印、句讀、欄線,標注分為單行標注和雙行標注,寫本、刻本、家譜、碑拓等等,甚至出現手寫字體,都會讓計算機無法識別。

          所以,要提高古籍識別系統的可用性和可靠性,必須建立一套自我學習系統,讓它盡可能接觸更多古籍:從中提取新字樣來擴充字符集,識別新版式來增強版面分析能力。

          2.2專業要求強、投入不足

          現代人能將古文順利“認出”,就是一件非常難的事情。

          句讀:

          古文是沒有標點符號的,在閱讀古文時要做到正確表達和語氣順暢,必須注意文句間起承轉合。不懂句讀會造成誤讀、誤解原意,所以古人在《三字經》中要求“明句讀”。唐代文學家韓愈在《師說》中就提到“句讀之不知,惑之不解,或師焉,或不焉,小學而大遺,吾未見其明也”。除非進行專門的學習和研究,現代人很難讀懂古文。

          生僻字:

          漢字是在不斷發展和變化的。中國最早商代甲骨文中的文字有三千多字,漢代《訓纂篇》有五千多字,《說文解字》有九千多字,晉代《字林》有一萬二千多字,后魏《字統》有一萬三千多字,唐代《玉篇》有兩萬二千多字,宋代《類篇》三萬一千多字,清代《康熙字典》四萬七千多字。1915年,歐陽博存的《中華大字典》四萬八千多字。1970年,由張其昀主編的《中文大辭典》四萬九千多字。1990年,由徐仲舒主編的《漢語大字典》五萬四千多字。1994年,冷玉龍等的《中華字海》收入大量廢棄的字,總字數多達八萬五千字。而新課標在義務教育階段對學生的識字要求僅有三千五百個。

          異體字:

          同一個漢字在古今也存在多種寫法,比如有部分古書會把“嫦娥”中的“嫦”寫成“!。魯迅作品中的孔乙己強調茴香豆的“茴”有四種寫法,這些字統稱為異體字。古籍整理要求把幾個異體字改為一個字,需要有很多古文經驗并結合上下文的理解,要求整理者有很深的古文專業知識。

          所以古籍整理工作只能依賴于專業人員。古籍資源數字化是傳統文化學習與現代信息技術的結合,現在的古籍整理專業人員多為文科學生,很少有懂得計算機技術,而懂得計算機技術的人員又缺少古文知識。同時進行兩個學科人才的培養,要求教育機構提供跨學科的教育。從目前的情況來看,投入是遠遠不足的。

          二、搭建基于互聯網的古籍數字化新平臺

          經過了十幾年的飛速發展,互聯網從早期的由網站編輯人員主導發布內容,進化為由網絡用戶主導發布內容的互聯網產品模式,也就是web2.0概念。產生了如知識網絡(維基百科、百度百科、百度知道)、社交網絡(微博、微信)等等大量依賴用戶做內容和推廣的成功產品。隨著大數據、云計算等新技術的成熟,將互聯網轉化為數據庫、向人工智能進化成為了可能,這些由用戶上傳、維護的內容,通過數據挖掘,將會產生難以想象的更高的價值。

          那么古籍數字化這種專業性這么強的東西,如何交給互聯網用戶呢?互聯網最大的特點就是海量數據的匯集,有時作為一個用戶提交的看似很少的數據,在千萬個互聯網用戶那里就形成了知識庫。我們使用一種知識網絡為核心,通過驗證碼技術做為內容來源,搭建一個基于互聯網的古籍數字化平臺。

          圖1.知識網絡為核心的古籍數字化平臺架構

          1、互聯網驗證碼的活用

          我們回到古籍輸入。既然古籍OCR那么困難,專業人才又不足。是否有方法避開ORC這個過程,不需要依賴專家,又能完成古籍的輸入呢?

          互聯網給了我們一個非常簡單、而且每天可能遇到很多次的辦法,那就是各大網站系統的“驗證碼”。

          在網絡剛誕生的時候,是沒有驗證碼這種東西的,網絡上的用戶注冊,就像進入一個沒有門鈴、敞開大門的屋子。這造成的結果是,偽裝成用戶的惡意程序,可以隨意在網站注冊,將垃圾評論和垃圾郵件肆意傳播。

          互聯網時代早期,美國雅虎公司是最重要的免費郵件提供商之一,由于郵箱用戶每天會收到大量這樣的垃圾郵件,為此雅虎公司耗費了大量資源來阻止這些垃圾郵件。通過工程師的分析,郵件的發出者正是來自于自己的服務器,惡意程序假冒用戶申請了免費郵箱,每天有大量的垃圾郵件通過免費郵箱發出。雅虎為此對人機辨識問題進行了研究。

          最后雅虎選取了Luis Von Ahn提出的,通過驗證碼識別惡意程序的方案。由于當時計算機辨識技術落后,對于經過扭曲、字跡有污染的文字(圖4),計算機是不能辨識的,而人類只要看一眼就可以輕松認出這些文字。計算機先是產生一個隨機包含字母和數字的字符串,然后生成圖像,用程序將圖像上的字符串進行隨機的污染、扭曲,再將圖像推送到網站注冊、登錄的入口。凡是能夠準確辨識這些字符的視為人類,可以繼續下一步服務。

          圖2.扭曲的文字使得機器OCR識別困難

          僅僅幾秒鐘,驗證碼技術帶給了計算機網絡安全,全世界每天都有數以十億計的人通過幾秒鐘的時間辨認這些驗證碼?▋然仿〈髮W的研究室有一個新的想法,每一次識別都有一次的輸入,如何把這么多的輸入都利用起來。

          由于過去落后的印刷技術,歪歪扭扭的古籍文字天生能達到驗證碼的要求,為此卡內基梅隆大學成立了“reCAPTCHA計劃”,以古籍錄入為目標的驗證碼輸入系統。這個計劃先將古籍僅做掃描后,由計算機程序切割成小段圖像(圖5),顯示在驗證碼圖像中。網友在看驗證碼圖像后用人腦識別然后輸入,輸入的結果匯集到服務器中。通過“reCAPTCHA計劃”,整個紐約時報130年的報紙存檔的數字化,原本無法估算的時間和成本,由網友用了幾個月就完成了。

          圖3.reCAPTCHA計劃中數字化文檔生成的驗證碼

          沒有輸入過的古籍是沒有正確答案的,為了避免用戶隨意輸入,為此卡內基梅隆大學改進了傳統的驗證碼。在新的驗證碼中,有兩個字會被顯示出來;一個是未辨別的字,另一個是知道答案的字。如果驗證碼輸入者正確的回答出已知答案的字,那么就假設他所輸入的另一個沒有答案的字也是經過認真考慮填寫的,系統將這個結果作為正常輸入而不是隨便輸入。

          中國古籍中的漢字識別是非常困難的,要依賴字體、字庫、需要學習等等,我們是否跳過這些操作去完成古籍數字化?“reCAPTCHA計劃”給了我們很大的啟示。漢字作為“圖像”來分離非常簡單,只需要使用最基本的圖像灰度掃描技術,便能非常清晰的將漢字所在的區域,一個一個的分離開。然后就將分離開的圖像,發送到互聯網的一個一個頁面中,由網友完成識別。

          2、知識網絡的建立

          驗證碼只能解決從圖像到文字這個過程,究竟得到的“文字”是否正確,“reCAPTCHA計劃”在解決中文古籍數字化時候就束手無策了。

          英文從古至今,一共就26個字母。而漢字究竟有多少個,至今沒有一個統一的說法,光康熙詞典中就收錄了47035個,而且大量的異體字、生僻字。不僅僅是識別,計算機是否對字庫有支持,會給識別出的漢字的錄入也帶來極大的困難。

          為了解決這個問題,我們引入互聯網的知識網絡。

          圖4.知識網絡流程

          用知識網絡來進行古籍數字化資料整理:

          使用簡單

          知識網絡的展現方式為超文本頁面,可以快速生成、存儲、更改,使維護更簡單;使用簡單的格式標記代替HTML格式標記,并通過簡單標記,直接通過關鍵字名來建立鏈接;關鍵字名作為頁面名稱,并且被置于一個單層的平面空間中。這樣,不光是一本古籍,古籍中的一個段落,甚至是古籍中的一個字,都可以作為一個頁面,成為一條單獨的知識。任何成員都可以建立想建立的古籍條目。   有組織

          不僅僅是頁面內容,整個超文本的組織結構也是可以修改、演化的,這就給了知識體系一個組織性。而且內容重復的頁面可以通過超文本匯聚于一個,并改變相應的鏈接結構。解決了同一本古籍資料,由多人以不同名稱多次創建的問題。

          可增長

          知識網絡中可以隨時創建新的知識條目,而沒有內容。新的知識條目以鏈接方式存在,通過點擊鏈接,就可以創建頁面內容,從而使系統得到增長。頁面內容創建和修改的記錄也是可以記錄的,可以獲取每一個修改過的版本。由于古文的釋義、句讀等,即使是專家也可能有多個意見,這樣保證了網友可以看到同一條知識的不同理解。

          新型古籍數字化平臺包含了我們經常使用到的服務,以知識網絡為主要代表,“一對多”和“多對多”的傳播模式并存。

          知識網絡為古籍數字化建立相應的欄目后,以書、冊、章節、段落,甚至一個漢字,都可以建立一個條目。包括由驗證碼系統分拆的每一個圖像以及合并后的整頁圖像。對“reCAPTCHA計劃”的另一項重要改進是,為了保證用戶在輸入驗證碼時的正確性,在知識網絡中可以實現“多機識別”,即認為“大多數人是正確的”這樣的一個思路,將同一條驗證碼,由多人進行識別判斷,最后通過百分比來確定最終的識別結果。

          事情到了這里還沒有結束,為了保證更準確的結果,我們利用知識網絡有組織的特點,由專家完成對爭議內容的最終修改,專家給出批示,又可以再次作為一個知識點,通過網絡二次傳播。這樣就不光完成了對古籍數字化,還解決了古籍研究人才不足的問題,還可以通過網絡培養更多的人才。高效、有效的完成了古籍數字化和文化傳播的兩重重任。

          三、互聯網+古籍數字化

          李克強總理在政府的工作報告“新興產業和新興業態是競爭高地”中提出的“互聯網+”行動計劃,是互聯網公司“互聯網改造傳統產業”基礎上的進一步深入和發展。

          “互聯網+”實際上是互聯網發展新形態,通過互聯網的云計算技術和大數據技術,來組建一個知識社會,進而推動傳統產業發展!盎ヂ摼W+”所面臨的不光是互聯網移動,也不是僅僅應用于某一個傳統行業,在加入了云計算、大數據和知識后,從而造就了創新,進而改變了人們的生產、工作、生活方式;ヂ摼W+古籍數字化工作就是“互聯網+”浪潮中的一個創新:

          1、用戶參與內容制造。與原有的古籍數字化單向信息發布的模式不同,新型古籍數字化平臺的內容通常是網絡用戶發布的,網絡用戶不僅僅是知識體系的瀏覽者同時也成為了知識體系的制造者,這也就意味著新型古籍數字化平臺為用戶提供了更多參與的機會。

          2、全方位交互性。以知識網絡為架構的新古籍數字化平臺,不僅實現了用戶在發布內容過程中與網絡服務器之間交互,而且也實現了同一網站不同用戶之間的交互,所發布內容之間的交互。

          3、輕便訪問的網站。早期的古籍數字化成骨展示平臺是以局域網訪問為目的設計,即使是在進入全文檢索階段后實現了網絡化訪問,仍然是重系統輕內容的設計。知識網絡架構的古籍數字化平臺,網站設計代碼規范,并且減少了大量冗余代碼,減輕了網絡帶寬壓力,加快了網站訪問速度,而且對于用戶和搜索引擎更加友好。

          4、與原有網絡化的古籍數字化網站沒有絕對的界限。新的古籍數字化平臺,可以成為原有的古籍數字化模式的工具,新產生的內容可以回饋原有的網站和平臺。

          “互聯網+”的模式,并不是從此讓傳統產業消失,而是給他們注入一股新的活力,更高效的發揮作用;ヂ摼W最大的貢獻就是“參與”。通過互聯網+古籍數字化,讓更多人體驗古籍的收集、整理、還原的過程,實現優秀中國傳統文化的再現與保護;在古籍中尋找現代,增強中國傳統文化的傳承價值和受眾范圍,推動民族發展,實現中國夢這一偉大目標。

          參考文獻:

          [1]王斌君,王靖亞,杜凱選,韓宇.驗證碼技術的攻防對策研究.計算機應用研究, Application Research of Computers,2013,009

          [2]洪偉銘.武漢科技學院學報, Journal of Wuhan Institute of Science and Technology,2007,004

          [3]王濤,顧新.知識網絡的結構及其知識活動分析.圖書情報工作, Library and Information Service,2011,016

          [4]古籍數字化.百度百科.http://baike.baidu.com/view/4360427.htm

          [5]互聯網+.百度百科.http://baike.baidu.com/view/10991568.htm

          [6]陳陽.中文古籍數字化的成果與存在問題.出版科學

        【“互聯網+”時代的古籍數字化新思路論文】相關文章:

        互聯網時代的審美與藝術論文06-11

        數字化時代背景下美術教育論文(精選8篇)02-02

        物流信息化新思路論文11-17

        畢業論文開題報告創新思路11-23

        班級管理工作新思路論文11-20

        工程材料實驗課程革新思路論文11-10

        “互聯網+”時代產業轉型思維03-10

        芻觀數字化時代的影視制作03-01

        遠程教育與傳統農業教育的新思路論文12-03

        国产高潮无套免费视频_久久九九兔免费精品6_99精品热6080YY久久_国产91久久久久久无码

        1. <tt id="5hhch"><source id="5hhch"></source></tt>
          1. <xmp id="5hhch"></xmp>

        2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

          <rp id="5hhch"></rp>
              <dfn id="5hhch"></dfn>