10′38″
中国考古报道

视频 | 数字技术赋能 甲骨文研究跑出“加速度”

中国考古报道

看看新闻Knews记者王珏

2024-05-07 09:05

你知道这几个甲骨文分别是什么字吗?



这三个字翻译过来是“人”、“车”、“林”。如果这些比较好猜,那再来看看这几个字。



其实这些字我们和甲骨文专家也都不认识。我们称它们为“未识字”。


在已知近4000个甲骨文单字中,成功破译约1160字,而其余三分之二的甲骨文仍然是难啃的硬骨头。“考释难度很大的字,它基本上都是一些人名、地名,这些人名、地名在现代已经不再使用了,我们离商朝太远了。”中国文字博物馆文物征集部研究中心助理馆员刘浩告诉我们。


考释甲骨文难度极大。曾有学者说“释出一字,好比发现一颗新的行星”。2016年,中国文字博物馆面向社会发出的悬赏令——破译一个甲骨文奖励10万元。但8年来,“摘星者”屈指可数。考释工作注重逻辑推导,不仅要释读出这个字,还要连缀上下文。然而,甲骨拓片和相关的研究成果,散见于各类出版物和网络平台,有一定的滞后性。在甲骨文研究过程中,往往按照传统方法,学者需要翻书查阅甲骨拓片,耗费大量的时间精力。将甲骨文进行材料整理、信息整合,是甲骨文研究走向数字化的第一步。


中国文字博物馆文物征集部研究中心助理馆员刘浩表示:“如果能够数字化整理,就能节约研究者相当多的时间去做更深入的工作。不然的话,像现在,我们古文字的学者研究甲骨文的话,他入门就可能会需要10年时间。”



甲骨缀合是甲骨文研究中的一项重要工作,专家综合各方面信息,将碎片拼接成完整或较为完整的卜辞。然而,甲骨碎片的拓片图分散在不同出版物和网络平台,非常不便于查找。“我初学甲骨的时候,因为对这方面都比较陌生,在找寻甲骨缀合信息的过程中碰到了很多困难,我非常希望能够有这样的检索工具。”复旦大学出土文献与古文字研究中心博士生程名卉告诉记者。


为了方便学者更加便捷找到甲骨缀合的信息,缩短研究前期资料收集阶段的时间,复旦大学出土文献与古文字研究中心的博士生杨熠、黄博、程名卉共同联手打造了“缀玉联珠”甲骨缀合信息库,汇集了《甲骨文合集》出版以来众多学者的甲骨缀合成果6700多组。“学者缀合的专书、散见的文章、海外期刊,大陆期刊、集刊、网络发表的文章,还有甲骨收藏单位和发表单位发布的信息,我们全部都汇集甲骨缀合信息库中。”杨熠介绍。



每一组缀合完成的甲骨文都有一个编号,注录都有统一的格式体例。通过检索编号,缀合出自何处,如何拼接而成,一目了然。


信息库2023年2月上线,现在已经获得了300多万访问量,这不仅成为学界检索甲骨缀合主要成果的线上工具,也让不少象牙塔外的甲骨文爱好者有机会共同参与甲骨碎片的“破案”工作,提供勘误和新的甲骨缀合信息。


“如果未来我们甲骨学或者古文字研究要往跟AI合作的方向去发展的话,我们必然会需要有很多大量的数据标注跟数据基础,相当于我们现在正在进行这个数据基础的步骤。”程名卉说。


近年来,各大高校联合科技企业纷纷研发打造甲骨文数字化平台,殷契文渊甲骨文大数据平台、缀多多甲骨缀合软件、甲骨校重助手等工具陆续上线。通过大数据、人工智能等技术集纳、研判、拼合,逐渐由学者的构想变为现实。


腾讯优图高级研究员罗栋豪介绍:“拓片和摹本不一定能够把甲骨片上的细节信息还原得非常清楚,我们目的是通过算法,让甲骨文‘看得清’和‘找得到’。”



2023年,安阳师范学院、腾讯、厦门大学等团队共同研发甲骨文全信息模型,尝试实现甲骨文实物的高保真数字还原,以及甲骨文字的高效率数字查找。


甲骨文信息处理教育部重点实验室主任刘永革介绍:“去年我们做了实验,对考古队的80多片甲骨进行采集。为了我们看清甲骨的刻痕,用光照矩阵的形式,用1亿像素的相机进行拍摄,一个甲骨片正面拍150张,背面拍150张,再合成一张高清图片。”


完成高精度数字采集后,团队运用微痕增强技术,将科学影像等信息分类分层,高保真看清甲骨实物上的文字起笔收笔、钻凿形态、卜兆裂纹。“增强效果以后,甲骨字的刻痕清晰显现,笔画叠压关系也能看得非常清楚,这个信息在拓片上是看不出来的。”刘永革说。



同时,他们研发了“字形匹配”等人工智能算法,实现以字搜字、以字搜图,形成古文字智能搜索组件,沉淀了143万字的单字字形库。这些单字均可索引至原拓片,然后基于清晰字形数据训练的字形匹配算法,为任意甲骨单字字形在字形库中检索与其字形相似的单字,并按照相似度进行排序。“可能给专家提供一些线索或者是灵感,这两个字可能在字形上面,有这种关联性,可以大大缩短专家在考释过程中查找相似字形的时间。”罗栋豪介绍。


近几年,人工智能技术在古文字研究领域有许多令人惊喜的成果。2022年,人工智能团队Deepmind用深度神经网络伊萨卡修复古希腊受损的石碑铭文,修复准确率提升了47%。2024年,三位来自埃及、瑞士和美国的大学生通过人工智能技术攻破了2000年前碳化的上古卷轴,目前破译了近5%的内容。


中国文字博物馆文物征集部研究中心助理馆员刘浩表示:“这是由文字的特性决定的。它们表音文字实际上是由字母组成,识别的难度远远低于汉字。像甲骨文的话,有很多表意的成分,它就有随机性,这一部分就需要建立特别的规则去映射,其实这个难度就很大。在我们目前对甲骨文研究,都还无法做到人工智能破译这一点。”


龟甲或兽骨上的文字、爆裂的纹路,钻凿的圆孔,火烧的痕迹,都将随着时间逐渐变浅,甚至消失。甲骨质地脆弱,表面疏松粉化与残损的情况普遍发生,保存、展示、利用都很不易。近16万片甲骨分别收藏于国内外博物馆、图书馆、科研机构、高校等至少174家机构,要想从物理形式中把甲骨重新集中起来进行研究困难重重。


复旦大学出土文献与古文字研究中心博士生杨熠表示:“甲骨文16万片,我们现在只能真正看到拓片或者照片的一共只有8万片,实际上还有一半的材料都没有公布。如果是这部分材料能够以某种形式,比如说数字化的形式推进公布的话,对整个甲骨文研究的推进,我想应该是非常大的。”


甲骨文数字化服务资源建设,尤其是以大数据、人工智能为技术基础的甲骨文数字化工程,可以最大程度地保存甲骨及其承载文字的原始信息。散落世界各地的殷墟甲骨以数字化形式回归故里的日子,不再遥远。


腾讯优图高级研究员罗栋豪表示:“我们想通过技术化的手段,让甲骨片能够永久停留在我们给它建模的时间段。因为数字化不存在信息的流失或者损坏。”


2017年10月30日,联合国教科文组织将甲骨文选入《世界记忆名录》。数代前贤学者前赴后继、不懈努力地守护历史。如今,用数字化的形式或许可以永久地保留这份遗产,让这些珍贵的数据信息永续留存,焕发新生。

编辑: 王珏
视频编辑: 刘奕达
美术编辑: 李佳 郭浩
摄像: 李响 刘宽漾 朱晓荣
责编: 王琳琳
相关推荐 更多精彩内容

暂无列表

APP 内打开
打开看看新闻参与讨论