一本古籍,如何從紙頁“搬”到網頁?
進入“識典古籍”平台,平台設計者、北京大學人工智能研究院副研究員楊浩開始演示:“古籍的數字化分為兩步。一是圖像化,我們與海內外古籍收藏單位合作,廣泛收集古籍數字化圖像資料。二是文本化,利用人工智能技術對古籍文字進行識別、排序、校對、結構整理、標點、實體識別等,對內容作精細化處理。”
楊浩上傳了一頁古籍圖像,不一會兒,文字自動識別處理完成。古籍圖像上顯現出不同顔色的小方框,“每個方框對應一個文字,先切分再調整順序。紅色方框是提醒此處需要人工介入,來進一步判斷和處理。”
與此同時,古籍圖像旁已自動識別出一段文字,並可比照原圖像進行修改調整。楊浩繼續解釋:“這個過程中,主要使用了文字識別、自動標點和命名實體識別等人工智能技術。文字識別技術,是對古籍數字圖像中的文字進行單個切分,再進行文字識別和順序讀出;自動標點技術,是通過序列標注的方式對古籍自動進行現代標點;命名實體識別技術,則是通過序列標注方法識別出文本中的人名、地名、書名、時間、官職等信息。”同時,在機器自動識別後,會有專人復查結果,進一步提升準確率。
據悉,“識典古籍”平台文字識別的準確率達到96%以上,自動句讀的準確率達到94%,命名實體識別在中古史料上的準確率接近98%。
“大部分古籍閱讀平台或只提供掃描文稿,或只提供文本內容,有些商業數據庫收費高昂,獲取資源十分不便。”北京大學歷史學系學生劉沐含說,“識典古籍”平台有著豐富的檢索功能以及分類與年代篩選功能,可以輔助開展學術研究。
一個全流程的智能化整理平台
集納展示古籍數字版本,不是“識典古籍”平台的全部。團隊有著更大的設想——在一個平台實現古籍智能整理的全部環節。
“‘識典古籍’平台由兩部分組成,前端是閱讀平台,後端是古籍整理平台。”王軍作了一個比喻,“就像是餐廳的前廳和後廚。” |