1900年,道士王圓箓在敦煌莫高窟清理流沙時,偶然發(fā)現(xiàn)藏經(jīng)洞,意外打開了一座藝術(shù)寶庫。但遺憾的是,此后,藏經(jīng)洞出土的7.3萬件文物中,有約4.7萬件漂洋過海散落世界各地,被收藏于不同國家的近百家公私機(jī)構(gòu)中。百余年來,以藏經(jīng)洞出土文物為重要研究資料的敦煌學(xué),受到不少人的關(guān)注。
5月31日,“數(shù)字藏經(jīng)洞”數(shù)據(jù)庫平臺正式上線發(fā)布,首次實(shí)現(xiàn)利用數(shù)字化技術(shù)對藏經(jīng)洞文物全面呈現(xiàn)、解讀和共享,搭建起貫通古今的敦煌千年數(shù)字圖書館,引發(fā)了國內(nèi)外敦煌學(xué)研究者的高度關(guān)注。
敦煌研究院院長蘇伯民在發(fā)布會上說,近些年,隨著敦煌學(xué)研究愈深入、交流愈密切,海內(nèi)外各機(jī)構(gòu)意識到,應(yīng)加強(qiáng)學(xué)術(shù)合作,共同建設(shè)一個統(tǒng)一完整、開放共享、便捷智能的學(xué)術(shù)平臺,實(shí)現(xiàn)敦煌文化藝術(shù)資源的全球共享。
在中國各級政府及相關(guān)部門的鼎力支持,英國、法國、美國、匈牙利等多國公私收藏機(jī)構(gòu)的密切配合下,敦煌研究院借助數(shù)字化、信息化和人工智能技術(shù),開展了“流失海外敦煌文物數(shù)字化復(fù)原項(xiàng)目”,并在國際敦煌項(xiàng)目(IDP)的基礎(chǔ)上,推進(jìn)建設(shè)“數(shù)字藏經(jīng)洞”數(shù)據(jù)庫平臺。
當(dāng)天上線發(fā)布的“數(shù)字藏經(jīng)洞”數(shù)據(jù)庫平臺,已經(jīng)錄入敦煌藏經(jīng)洞出土文物目錄74651條,發(fā)布敦煌文書經(jīng)卷9900多卷、圖像60700多幅,經(jīng)卷內(nèi)容識別840多萬字,首次實(shí)現(xiàn)利用數(shù)字化技術(shù)對藏經(jīng)洞文物全面呈現(xiàn)、解讀和共享。
“該平臺運(yùn)用人工智能技術(shù)對經(jīng)卷文字進(jìn)行自動識別并基于人機(jī)協(xié)同審核校正標(biāo)注結(jié)果,不僅整合了流失海外敦煌文物目錄、珍貴圖像,還納入海量國內(nèi)外敦煌學(xué)研究成果,同時具備圖像拼接、圖像綴合、知識圖譜構(gòu)建、全文檢索等多項(xiàng)功能。”蘇伯民說。
敦煌研究院副院長俞天秀介紹,藏經(jīng)洞經(jīng)卷上文字多為古文手寫,本身難讀,再加上部分經(jīng)卷里沒有標(biāo)點(diǎn)符號,更加難讀。“數(shù)字藏經(jīng)洞”在展示時,設(shè)有“字對照閱讀、字讀音與糾錯、行對照閱讀、全文對照閱讀”等功能,幫助各個領(lǐng)域、不同訴求的人群都能讀通、讀懂。
“目前,通過人工智能賦能,平臺的經(jīng)卷原文已支持中文、英文、法文、日文等多語種呈現(xiàn)。”俞天秀說,“同時,平臺還可以幫助大眾快速釋譯經(jīng)卷原文、凝練經(jīng)卷主旨,并提供一些背景資料,以供參考。”
美國加州大學(xué)伯克利分校東亞圖書館館長周欣平表示:“平臺將敦煌文獻(xiàn)的圖像本全面識讀并轉(zhuǎn)換為文字本,再利用文字本來做信息檢索和知識發(fā)現(xiàn)等,更加有利于敦煌學(xué)的廣泛深入研究。”
當(dāng)天還舉行了“數(shù)字藏經(jīng)洞”管理咨詢座談會,并形成了以下共識:“數(shù)字藏經(jīng)洞”為一個國際性的共建共享數(shù)據(jù)庫平臺,綜合運(yùn)用人工智能等關(guān)鍵技術(shù)實(shí)現(xiàn)全球敦煌藏經(jīng)洞文物數(shù)字資源的統(tǒng)一管理和共享,數(shù)據(jù)庫平臺合作伙伴之間可無償交換共享藏經(jīng)洞文物數(shù)字資源,面向大眾共享敦煌文物數(shù)字資源。
(本報(bào)記者 尚杰 王冰雅 本報(bào)通訊員 蘇家英)
