中評社北京2月12日電/據科技日報報導,兩個古籍數據庫於2月8日在國家圖書館同步發布:一個是“《永樂大典》高清影像數據庫”,一個是“《國家珍貴古籍名錄》知識庫”。
兩個庫均為全國古籍整理出版規劃領導小組“2021年度國家古籍數字化工程專項經費資助項目”,已於2022年11月順利結項,讀者可免費登錄使用。這次,國家圖書館、北京大學和字節跳動合作,為古籍數字人文建設提供了一個合作樣板。
多項技術實現古籍傳承與創造性利用
《永樂大典》是明成祖(朱棣)永樂年間編纂的一部大型百科全書,其副本目前僅發現有400餘册800餘卷及部分零葉存世,總數不及原書的4%。國家圖書館共收藏《永樂大典》224册,占存世《永樂大典》的一半以上。
為完整保存和全面傳達《永樂大典》相關信息,國家圖書館委托國家圖書館出版社進行《永樂大典》高清數據庫項目的製作,後者於2021年12月委托北京大學數字人文研究中心承擔該項目的設計與研發工作。該研究中心以北京大學-字節跳動數字人文開放實驗室為基地,整合學校和字節跳動雙方力量,建成了《永樂大典》高清影像數據庫。
項目第一輯收錄國家圖書館藏《永樂大典》四十册、七十五卷的內容,共涉及14個韵部、17個韵字、1800部書,除呈現《永樂大典》高精圖像、整體風貌及相關知識外,還嘗試對部分大典內容做了知識標引示範,為後續《永樂大典》的知識體系化、利用智能化進行探索。
北京大學數字人文研究中心主任王軍表示,這一數據庫在互聯網環境下以可交互、可視化的方式向大眾傳播古籍知識,它展現了以數字人文手段實現古籍活化的技術路徑,實現了古籍的創造性轉化和創新性應用。
國家圖書館(國家古籍保護中心)聯合北京大學數字人文研究中心研發的“《國家珍貴古籍名錄》知識庫”,包含了已批准公布的六批《國家珍貴古籍名錄》,還收錄了《國家珍貴古籍名錄圖錄》中包含的書影圖像、說明文字內容。該項目綜合應用現有數字人文的多項技術,將珍貴古籍名錄書目數據重構為知識庫,以多維度知識圖譜、GIS等多種可視化形式展示歷史時空構架下書與書、書與人、人與人之間的多維關係。
推進古籍數字化需多方合力
2022年,中共中央辦公廳、國務院辦公廳發布《關於推進新時代古籍工作的意見》。其指出,要深入推進中華優秀傳統文化創造性轉化、創新性發展,加強古籍搶救保護、整理研究和出版利用,促進古籍事業發展,為實現中華民族偉大復興提供精神力量。
長期從事相關工作,王軍對古籍數字化也有一些感悟。他指出,古籍活化利用的關鍵,在於“數據加工+學術保障+設計轉化”,即需要圖書館的開放理念、高校的學術轉化和企業的研發與傳播平台攜手。
參與此次合作的字節跳動方相關負責人建議,可以通過行業共建,引入更多學術資源,並以百科、圖文、短視頻、直播、數字讀物、VR交互等多種形態進行內容導讀,不斷完善數字環境下古籍保護與傳承的生態體系建設。圖書館是古籍收藏和保護機構,高校是教學和研究機構,出版社是出版和發行單位,互聯網可以作為古籍活化和傳播的平台,四者都是鏈條上的關鍵環節。
北京大學信息管理系主任張久珍提到了目前大熱的聊天機器人ChatGPT。在古籍數字化工作中,人工智能也將成為新常態。假如讓類似的人工智能學習浩如煙海的中華歷史典籍,它能成為一個擁有中華智慧的“人”嗎,如果大家跟它聊天會怎樣?“我們古籍數字化的目標還可以定得更高一些。”張久珍說。
在她看來,ChatGPT還存在一些硬傷和短板。比如它的回答看似邏輯嚴密工整,但是論點欠缺專業性,論據無法溯源,這可能是因為數據源權威性存在問題,數據基礎建得不夠好。“這也給古籍數字化提了一個醒,一定要從一開始就重視中華古籍的數字基礎設施建設。”張久珍說。
“數字化和智能化的信息環境使得千餘年來基於紙本傳播和利用知識的方式發生根本性變革。將中華典籍遷移到數字環境下,用數智技術挖掘古籍資源所蘊含的文化價值、用融媒體手段呈現典籍的精神魅力,是當代人義不容辭的歷史責任。”北京大學副校長王博這樣感嘆。 |