中國海外古籍“數字化回歸”項目“漢典重光”平臺18日下午在北京中國科技館正式發(fā)布,通過(guò)先進(jìn)的人工智能(AI)技術(shù),一批珍藏于美國加州大學(xué)伯克利分校的中文古籍善本,以數字化方式回歸故土,落地“漢典重光”古籍平臺。
“漢典重光”平臺稱(chēng),首批20萬(wàn)頁(yè)古籍已完成數字化,并沉淀為覆蓋3萬(wàn)多字的古籍字典,公眾可通過(guò)該平臺翻閱、檢索古籍,這20萬(wàn)頁(yè)古籍的識別準確率達到97.5%。
“漢典重光”項目由阿里巴巴公益基金會(huì )、四川大學(xué)、美國加州大學(xué)伯克利分校、中國國家圖書(shū)館、浙江圖書(shū)館合作開(kāi)展,旨在尋覓流散海外的中國古籍并將其數字化、公共化,讓普通人也能親近古籍,通過(guò)古籍與先賢對話(huà),與優(yōu)秀傳統文化對話(huà)。
2019年,阿里巴巴和四川大學(xué)提出“數字化回歸”設想,獲得中文藏書(shū)量排名全美第三的加州大學(xué)伯克利分校支持并達成共識,將伯克利東亞圖書(shū)館的中文古籍善本逐步數字化。
本次首批數字化的20萬(wàn)頁(yè)古籍中,包含40余種珍貴宋元刻本、寫(xiě)本;明清至民國時(shí)期著(zhù)名學(xué)者錢(qián)謙益、翁方綱、王韜的抄本、稿本;著(zhù)名藏書(shū)樓嘉業(yè)堂、密韻樓的抄本,還有清文瀾閣《四庫全書(shū)》零本等。
為將伯克利提供古籍的掃描圖片和編目數據全部文字化,阿里巴巴達摩院技術(shù)團隊與四川大學(xué)專(zhuān)家聯(lián)手研發(fā)出一套全新的古籍識別系統,以97.5%的準確率完成對20萬(wàn)頁(yè)古籍的整體識別。目前,該系統已能批量識別百本古籍,并沉淀覆蓋3萬(wàn)多字的古籍字典。
比起專(zhuān)家錄入,這套人機交互的識別系統將效率提升近30倍。隨著(zhù)古籍識別規模的擴增,機器還會(huì )自我進(jìn)化,不斷提升準確率和效率。阿里巴巴達摩院院長(cháng)張建鋒表示,阿里計劃將這套技術(shù)工具連同古籍數字化平臺一并捐贈,交由權威公共機構長(cháng)期運營(yíng),同時(shí),阿里仍將在古籍數字化工作上持續投入人力物力。
據了解,因邦交、貿易、戰亂等,歷史上中國古籍時(shí)有出海,近代以來(lái),戰爭和動(dòng)蕩更加劇了古籍的損毀和流散。據不完全估計,散居海外的中國古籍超過(guò)40萬(wàn)部、400萬(wàn)冊,包括甲骨簡(jiǎn)牘、敦煌遺書(shū)、宋元善本、明清精槧、拓本輿圖、少數民族文獻等。(來(lái)源:中新社 記者 孫自法)
