人工智能与甲骨文研究的学科交叉探索
人工智能是引领未来的战略性技术,世界主要发达国家近年来都把发展人工智能作为提升国家竞争力、维护国家安全的重大战略。人工智能技术在语言处理领域的深度运用推动语言处理实现了更高程度的云端化、自动化、技术化、专业化、平台化。其中,人工智能技术与甲骨文研究的创新性结合,以其前瞻性、战略性、引领性等特点,吸引了不少专家学者的目光。经过不断尝试与探索,人工智能技术在甲骨文智能缀合、智能校重等领域已取得阶段性成果。
然而,随着学科交叉的不断深入,单一学科的研究范式与思维模式难以实现科技创新、解决复杂问题等弊端逐渐显现。这些弊端在人工智能与甲骨文研究这两个差异性巨大的交叉学科研究中表现得尤为明显,这就对研究目标的选定、研究方法的设计以及研究者的科学素养提出了更高要求。作为新时代的甲骨文研究者,应当努力克服传统研究思路与新技术、新目标不匹配的问题,冲破学科壁垒。同时,应以培养具有使用人工智能技术能力的甲骨文研究人才为导向,注重交叉人才综合素质的培养,推动甲骨文研究步入新时代。
智能甲骨文研究的尝试
近年来,得益于机器学习技术的飞速发展和国家对甲骨文等冷门“绝学”研究重视程度的不断提高,利用人工智能技术处理甲骨文信息得到了人工智能专家的广泛关注并取得了一系列显著成果。众所周知,提高机器学习模型准确率的基础在于给机器提供足够数量的“教材”。在人工智能领域,这些“教材”被称为数据集,其制作通常需要进行大量人工标注。使用被标注数据指导计算机实现特定的任务目标,是人工智能技术的基本研究范式。具体到人工智能技术助力甲骨文研究领域,目前专家尝试过的任务目标涉及甲骨文字形识别、拓片甲骨字的检测、跨时期甲骨字生成、甲骨片的智能缀合、校重等多个领域。
甲骨文字形识别是目前人工智能专家尝试最多的应用方向之一。一般而言,字形识别是通过计算机分类模型将待识别的输入单字图像转化为字形的类别标识,如“人”“比”“北”等。然而,在多数情况下,甲骨文字形识别在数据集的类别选取方面是受限的,因为很难实现对所有甲骨字进行类别标注。在甲骨文字形识别任务研究中,研究者所使用的训练数据通常会使用自己标注的数据,其数据规模不尽相同。例如微软亚洲研究院在识别研究中提到的数据集Oracle-20K包含261个字头共计20039张图片,清华大学的甲骨文识别系统使用的数据集则包含1621个字头共计20420张图片。目前最大的甲骨文数据集是安阳师范学院甲骨文信息处理教育部重点实验室联合华南理工大学公开发布的OBC306,该数据集共包含由306个甲骨文字头构成的309551张甲骨单字图像。
但由于数据集的整理标注任务艰巨,多数情况下,甲骨文识别被认为是一个小样本的任务。例如上海交通大学尝试使用1000张图片实现50个甲骨字的识别,华东师范大学搜集了100个甲骨字共计4748张图像作为训练数据,日本立命馆大学探索使用来自《上海博物馆所藏甲骨》中记录的4257张字形图像实现125个甲骨字的识别。众所周知,目前发现的甲骨文大约有4500个,仅实现数百个甲骨字的识别,这对甲骨文研究起到的推动作用十分有限。
当前智能甲骨文研究的困境
人工智能模型可识别的甲骨字数受限的主要原因在于很难建立具有足量数据且标注正确的数据集,因为甲骨文字形识别标注与通用人工智能模型的标注在难度方面具有本质差别。通用人工智能模型虽需要大量的数据标注,但通常不需要标注者具有专业领域知识,在标注人员的选择上具有更大的机动性、灵活性。而甲骨文标注则需要标注者具备可识别一定数量甲骨字的能力,符合这一条件的标注人员少之又少。甲骨文数据标注的知识门槛使得大部分甲骨文字形识别研究仅使用容易获取的部分字形作为数据集,这就限制了人工智能技术在甲骨文研究中的适用范围。
鉴于甲骨文数据标注的知识门槛较高,目前可利用的解决方案是使用工具书进行辅助标注,如利用《甲骨文字编》的字头划分辅助标注者找到更多的字形。但这一方法同样存在问题,具体表现为:专家在编撰工具书时,进行字头划分的依据并非完全通过字形,还需结合该字在拓片上的卜辞、文例等信息进行判断。然而,最终呈现在工具书中的成果,以及利用工具书辅助标注的数据集中,甲骨文识别模型可依靠的仅有单字图像,这就导致模型推理时可利用的信息与对数据集进行人工标注时可利用的信息相比是有衰减的,这一现象被称为信息衰减。要求模型利用衰减的信息得到可以与专业标注相同的推理结果违背了信息论的基本原则,对人工智能模型来说也是不可能完成的任务。
除人工数据标注困难、模型可利用信息衰减外,甲骨文字形识别数据还存在通用识别模型的数据极少涉及的问题,即数据分布的极度不均衡。通用模型的样本案例在生活中随处可见,每个类别都可以轻易地找到足够多的图片作为样本。但对甲骨文而言,每个字出现频率不一,对于原始数据中的低频甲骨字,人工智能模型很难达到理想的识别效果。为解决该问题,中国科学院自动化研究所提出了融入度量学习的分类方法,西交利物浦大学尝试了混合边界决策方法,安阳师范学院则通过生成足量的手写甲骨字形进行数据扩增等方法,提高模型识别能力。即便如此,由于许多字形出现次数过少,当这些字形的异体字或其他异写在新的研究材料中出现时,智能模型能否正确识别它们依然有待验证。
当然,数据标注问题并非仅存在于甲骨文字形识别这一领域中,该问题在智能甲骨文研究的其他领域同样存在。如拓片甲骨字的检测所使用的数据集通常仅有数千张甲骨片被标注,断代跨期的甲骨字生成、识别任务可利用的数据,通常只有数百对字形图像,甲骨文智能缀合研究甚至仅有数十组正确的缀合结果可作为训练数据。表面上,当前人工智能助力甲骨文研究的主要阻碍是数据标注问题,但究其本质,其根源在于人工智能的研究方法与甲骨文研究现状的不适配。同样以甲骨文字形识别为例,甲骨文字形识别在人工智能领域中是一个封闭数据集的分类问题,要解决这一问题,必须明确数据集中甲骨文字形的类别数量。而对甲骨文研究而言,目前仍有许多甲骨字未被完全破译,这就导致在个别甲骨字类型的归属问题上存在学术分歧,进而造成甲骨文一共可以分为多少类这样的基础问题都难有定论。可见,人工智能研究范式在甲骨文研究领域中的路线不兼容才是交叉学科所面临的数据困境存在的根本原因。
数据困境下的学科交叉新探索
甲骨文字形识别作为智能甲骨文研究领域的代表性研究方向之一,在研究过程中遇到的数据困境是目前学科交叉所面临问题的缩影。一方面,目前人工智能训练出的通用模型被大量应用于各类生活场景,在更精确、更细致地处理文本和语音数据方面有巨大的潜力。但另一方面,对甲骨文研究这类科学研究场景而言,通用模型的不适配性也逐渐显现,智能算法对数据有着严格的要求,但很多时候,科学研究场景却无法为智能算法提供理想的数据支撑。要想释放人工智能在甲骨文研究中的巨大潜力,在泾渭分明的两条研究路径上找到容易贯通的突破口,需要两个学科的研究人员都在固有研究路线上做出更大的改变。
对人工智能研究者来说,需要研究者在具备扎实的人工智能专业知识的同时,具有甲骨文研究的学术洞察力,发掘真正有助于甲骨文研究的算法研发范式。随着学科交叉的不断深入,越来越多的学者开始尝试更适合甲骨文研究的人工智能任务,其中比较有代表性的工作包括智能甲骨缀合与拓片校重。以甲骨缀合为例,在人工智能视角下,甲骨缀合问题被转化为了图像轮廓的拟合问题。具体研究路径为:使用计算机视觉算法提取甲骨片的轮廓曲线之后,再选择两个甲骨碎片的部分边缘计算曲线相似度以进行甲骨拼合判定。针对碎片顶部曲线与底部曲线的拼接,河南大学的张重生团队提出了一种将甲骨边界线转化为时间序列并进行自监督拼接的网络模型——“缀多多”。西南大学的陈善雄课题组使用度量学习的思路提出了一种基于前馈神经网络与孪生网络的相似特征混合模型——SFF-Siam。这两种方法均展现出良好的模型性能,在前15个检索结果中发现正确拼合碎片的概率高于90%。显然,如果将这些方法大规模投入使用,有望大幅提高甲骨缀合的研究进度,促进甲骨缀合成果的爆发式增长。但截至目前,只有“缀多多”于2020年先后发布三十组新的缀合成果供甲骨文专家进行验证。可见,虽然人工智能专家已经在学科交叉方面有所突破,但对甲骨文研究起到的帮助依然十分有限。
对甲骨文研究者而言,则需要在认识人工智能研究范式局限性的基础上,接纳学科视角差异带来的不适,并积极使用智能工具进行甲骨文研究。同样以甲骨缀合为例,一方面,人工智能研究范式受限于算法设计。一般情况下,对于算法设计成功与否的评价方式为:在标注好的测试数据中验证算法并统计正确率。但由于甲骨文数据标注困难,可用于测试的标注数据有限。例如,“缀多多”的测试范围是1000张甲骨碎片图像,SSF-Siam的测试范围是480对可拼接拓片与1083张未验证拓片。在数万张甲骨拓片中进行拼接查询的正确率能否达到预期,依然是一个有待验证的问题。另一方面,在人工智能学科视角下,其研究任务主要是设计具有高正确率的缀合模型,一旦完成算法设计,即可视为达成研究目标。而在甲骨文研究视角下,其研究目标是找到更多之前未发现的缀合成果,智能缀合模型仅可视为一种可供选择的甲骨文研究工具。更何况甲骨文研究作为冷门“绝学”,该领域专家主要从事考古学、文字学、历史学等领域的研究,一般不具备人工智能学科背景,如何使用智能算法从事甲骨文研究,对他们而言也是一个挑战。这就导致虽然专家学者认同人工智能在甲骨文研究领域的潜力与作用,但真正使用该工具解决甲骨文研究实际问题的案例并不丰富。因此,培养具有使用算法编程能力,并真正将人工智能作为工具进行甲骨文研究的交叉学科人才,已是目前人才培养的当务之急。
目前,已有部分专家学者意识到,在学科交叉背景下,只有实现研究者在研究思路上的适配,人工智能技术才有可能为甲骨文研究提供持续的成果产出。安阳师范学院甲骨文信息处理教育部重点实验室的智能缀合研究便是一个典型案例。他们在完成算法研发的同时开发了基于智能算法的计算机工具,并培养了能够使用工具进行甲骨缀合的研究人员。自2019年起,该实验室开始持续发布缀合成果,截至目前已发布44组,且成果的正确性均通过了多名专家验证。
此外,智能校重工作在研究思路交叉融合的基础上也取得了丰富的成果产出。首都师范大学甲骨文研究中心与微软亚洲研究院合作,共同开发了用于甲骨校重的模型——“甲骨文校重助手piner”,应用深度神经网络提取全局特征,根据特征相似性度量来判断是否为重片。该模型新校《甲骨文合集》(下文简称《合》)自重50例,《合》与《甲骨文合集补编》(下文简称《合补》)互重140例,《合补》自重10例,并补充《合》《合补》材料来源表100例。在此基础上,安阳师范学院甲骨文信息处理教育部重点实验室联合腾讯公司结合拓片甲骨字检测、拓片甲骨字降噪、甲骨字字形匹配等多个人工智能模型,通过拓片内容的相似性进行校重,新校《合补》自重25例。与传统人工智能助力甲骨文研究思路不同,智能校重研究不再以算法性能研究作为主要目标,而是直接产出校重结果。这种研究方式使人工智能技术真正起到了辅助甲骨文研究的作用,为未来甲骨文研究与人工智能技术交叉学科的融合发展起到了很好的示范引领作用。
国家之魂,文以化之,文以铸之。习近平总书记在致甲骨文发现和研究120周年的贺信中指出,甲骨文是汉字的源头和中华优秀传统文化的根脉,值得倍加珍视、更好传承发展。综合运用人工智能识别等技术手段,促进多学科交叉融合,推动研究实现新突破是进一步深化甲骨文研究和应用的题中应有之义。而要深入推进学科交叉,使人工智能技术能够为甲骨文研究成果的产出起到直接作用,则要求研究者同时具备两个学科的基本素养,在进行智能算法设计时,能够发现合理的任务目标,在甲骨文研究中,又具有利用智能算法进行辅助研究的能力。只有这样,才能真正使两个学科发生更深层次的碰撞,推动甲骨文等古文字研究的创造性转化,创新性发展,为推动中华现代文明发展和人类社会进步作出新的更大贡献。
本文系古文字与中华文明传承发展工程规划项目“殷契文渊——甲骨文数据化平台”(G2812)、“甲骨文献中异构数据的识别与提取技术”(G1806)阶段性成果
作者:李邦(安阳师范学院甲骨文信息处理教育部重点实验室大数据分析研究室主任、讲师);宋镇豪(中国社会科学院学部委员、郑州大学汉字文明研究中心首席教授)
文章来源:中国社会科学网