HTK新闻网

西北师范大学张强团队建设简牍字符检测与识别数据集算法提升“眼力”,读懂出土简牍

一声轻鸣,灯光亮起,高光谱成像仪启动,一枚躺在玻璃管里的简牍被缓缓推入。不到半分钟,简牍的高光谱成像图已经出现在屏幕上。

在甘肃省简牍智能计算与数字人文工程研究中心的实验室里,研究中心负责人、西北师范大学教授张强盯着红外图像和光谱曲线仔细分析:“很多简牍文物封存在玻璃管里,不能轻易打开。利用高光谱成像仪扫描和算法处理,可以清晰提取其红外图像信息,为数据集提供更多支持。”

张强所说的数据集,是指简牍字符检测与识别大规模数据集,名为DeepJiandu数据集。今年3月,张强团队联合甘肃简牍博物馆等单位推出数据集,面向全球开放。

甘肃是全国简牍出土最丰富的地区之一。20世纪以来,甘肃出土7万余枚简牍,以汉简居多,内容涉及军事、政务、医药、民俗等。

简牍材料相对脆弱,经过长期埋藏,经常出现字符模糊、字迹缺损等情况。传统的简牍研究,处理一枚简牍的工作量非常大,从定位文字、辨认字形,到记录保存、成果分享都需要人工完成。

张强长期从事计算机科学与管理科学交叉研究工作,“我们如何通过多学科交叉融合,运用人工智能为简牍学研究赋能?”张强带领团队,联合甘肃简牍博物馆、上海中西书局、甘肃文化出版社等,先后收集4万多枚简牍图版,整理4.5万多条释文、近20万个字形等数据。去年6月,简牍学术资源数据共享平台正式上线,面向全球公开免费使用。

在共享平台的研发、应用中,张强团队提出了推出DeepJiandu数据集的想法。“大量看似复杂的简牍特征信息是可以被提取的,该数据集为利用人工智能实现简牍文字智能识别的特征提取提供了基础和可能。”张强说。

数据集就像“养料”,张强团队不断地将其“喂给”各类分析算法。例如,对于一枚简牍,团队通过图像增强、补全、定位等算法,通过大量数据模型训练和算法优化,就能对其文字进行智能检测和识别。

制作这样的数据集,并非简单地“把文字粘贴到表格里”。有些简牍字迹模糊、书写风格复杂,有些简牍还存在着弯曲、断裂等物理变形,加上不同简牍的年代、地域不同,字体形态差异巨大、规范性差……经过反复试错、细致标注,一个字一个字地“抠”,团队开展了多轮对比测试。不断调整优化后,基于DeepJiandu数据集的文字检测精度提升至92%以上,对于一些常见汉字,数据集的表现更加稳定。

两年中,张强团队从不到5人扩展到30多人,人员学术背景构成也拓展到计算机、历史、文学和管理等学科领域,目前正在稳步开展智能识别简牍书写风格、残简断简智能缀合、简牍知识图谱构建等研究项目。“希望更多人愿意加入进来,挖掘简牍学的宝贵价值。”张强说。(宋朝军)