当古籍修复遇上人工智能

时间：2022-04-11 来源：作者：亚星艺术网点击次数：

由北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究所联合主办的“古籍智能信息处理”系列研讨会日前在网上举行。

研讨会上，北京大学数字人文研究中心主任王军算了一笔账：中国现存古籍约有20万种。从1949年到2019年，恢复出版了近3.8万种。照这样下去，可能要花三百年的时间才能恢复和整理好现存的所有古籍。但如果用人工智能技术辅助修复整理，大概二三十年就能完成。

王军的“利用人工智能技术修复古籍”并不是遥远的科学构想，它正在成为现实中的生动实践。“古籍智能信息处理”系列研讨会第一场讲座开始后不久，字节跳动宣布向北京大学教育基金会捐款，支持北京大学-字节跳动数字人文开放实验室开发“古籍数字化平台”，利用智能技术加速中国古籍资源数字化建设。预计三年内完成10000本精选古籍的智能修复整理。

古籍文本转化正在智能化

长期以来，古籍保护主要采用原始保护方式，即将古籍作为“文物”进行保护。后来出现了再生保护方法，使古籍影印、影像保存，使古籍可以以纸质或微缩胶片的形式存在。现存的数字古籍很多都是由微缩胶片转换而来，分辨率较低，多为黑白图像。

即使所有的古籍都通过数字化手段影印出版，古籍也是“死”的，人们无法方便地使用。北京大学中文系教授杨海正举了一个简单的例子：3354本影印古籍没有标点符号，阅读起来很不方便。另外，这也不利于搜索古籍内容。如果要查阅某一内容，就得一页一页地阅读原文，很难快速找到想要的知识。因此，要提高传统古籍的利用率，必须将古籍内容转换成数字文本。以往这种转化主要依靠专家手工输入，时间成本极高。

“信息技术的发展，特别是人工智能和大数据技术的出现，给古籍修复整理带来了革命性的变化。”王军表示，近年来，包括北京大学在内的许多高校和科研机构在古籍数字化方面开展了大量的开创性工作，在OCR(光学字符识别)、AI读句、实体识别等方面积累了相对成熟的技术和经验。以OCR应用为例，纸质古籍一旦被电子设备扫描，古籍的内容就会被转录到计算机中，并生成相应的数字文档。效率比人工输入高1000万倍以上。

据了解，通过运用人工智能和大数据技术，北京大学数字人文中心在对先秦至明清大规模古文的整理中，实现了古文的自动读句，平均准确率达94%。同时还实现了人名、地名、时代、官名、爵位的自动识别，在中世纪史料中准确率接近98%。

在这些方面，字节跳动等互联网公司积累了大量的经验和技术。比如OCR技术在今日头条、Tik Tok等平台的广泛应用，比如图像文字识别、字幕翻译，以及商业业务中各种卡片、票据、行业文件的识别等。“这些技术可以逐渐向古籍智能化数字化方向迁移。在古籍数字化平台的开发上，我们可以和北大在技术上实现互补，进行有效的沟通和整合。”字节跳动人工智能实验室主任李航说。

王军介绍，“古籍数字化平台”将进一步完善

四川大学中华文化全球传播大数据中心教授王兆鹏认为，技术进步给古籍修复整理的智能化带来了两个方面：一是古籍文本转化的智能化，二是古籍利用的智能化。

将纸质古籍内容转化为数字文本，只是古籍修复整理的第一步。在此基础上，另一个需要解决的问题是如何对海量晦涩难懂的古籍进行整理归类，形成可交互、可触摸、可视化的数字人文作品，以方便人们的查阅和使用。否则，进入电脑的古籍将继续“休眠”。

基于人工智能技术，目前国内已经建立了很多古籍整理的自动化、可视化平台。例如，王军主持设计开发了“《宋元学案》知识图谱可视化系统”，对240万字的《宋元学案》文本进行了处理和分析，提取了2000多位理学家和近百个学术流派构建知识图谱。但是很多平台的智能化水平还是较低，比如输入关键词，搜索到的内容孤立无序。王兆鹏认为，一个更智能的古籍整理和利用平台应该从1.0版本进化到2.0版本。比如内容检索要“按类别互相跟随”，检索到的内容要互相关联，用人工智能有机分类。

与字节跳动大学合作研发的“古籍数字化平台”是提高古籍整理和利用智能化水平的一种尝试。“我们合作的技术核心是将人工智能和大数据应用于大量古籍，实现古籍文本知识图谱的自动生成和古籍的智能整理，让古籍以文本的形式被搜索、阅读和深度挖掘。”李航表示，未来“古籍数字化平台”不仅是古籍的智能整理平台，也是读者的数字化阅读工具，将提供免费开放的获取服务。

王军预计，随着人工智能技术的应用，古籍中蕴含的古代历史文化知识将被不断提取并构建成各种知识库，以知识图谱的形式支撑互联网的前端应用。

由于在互联网产品的研发和设计方面有优势，互联网公司等社会力量的参与将会推进。

需要跨学科通力合作

随着人工智能技术在古籍修复整理领域的广泛应用，作为古典文献专业的老师，杨海峥经常被学生们问到一个问题：“学古典文献的同时，还要学人工智能吗？”虽然杨海峥不能确定，但一个事实是，人工智能技术与古籍修复整理的结合，将开辟出全新的交叉学科领域，利用人工智能技术修复整理古籍肯定需要更多复合型人才。

王军认为，在这种情况下，高校古典文献学等相关专业如何培养兼具技术与学术能力的古典文献学人才，如何形成多学科交叉的课程体系等，都是亟待解决的问题。

此外，人工智能并非“绝顶聪明”。在华南理工大学电子与信息学院教授金连文看来，古籍图像增强、修复，复杂版式古籍文档图像版面分析等问题都有待解决。而在对古籍内容的分析整理中，目前最大的技术难点是人工智能对古籍中人名、地名等专有名词识别后，如何进一步实现关系提取，从而为古代历史文化知识图谱的自动生成准备技术条件。

因此，杨海峥认为，在古籍整理中，人文社科学者还是要积极介入，并加强与技术人员的合作，那样才能更好地利用机器而不是被机器牵着鼻子走，从而保证结果的准确性。

人工智能技术的发展带来了古籍整理研究方法、思路的根本改变。业内的一个共识是，利用人工智能推进古籍修复整理需要进行跨学科、跨环境、跨文化、跨地区合作。正如王军所言，“古籍保护需要社会各界的共同努力，应欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人加入，这样才能打造出一个开放的‘古籍数字化平台’”。

本文来自亚星艺术网转载请注明

艺术品展览

艺术评论

高仿字画收藏误区：有地位有名气的
　　“名利双收，作品未必有价值”　　记者:有谁喜欢大量消费仿书画呢?　　吴为超:大致有四种:企业家、收藏家、商业捐赠者和少数白领。一般来说，有实力的企业家和资

-----2021-08-28

复制市场坎坷发展
　　20世纪90年代末，中国的艺术复制市场被激活并启动。流行艺术产品将数字技术引入古代书画仿真制作领域。每个复制公司都有自己独特的技术。临摹一幅很难临摹的画大约需要一

-----2019-12-28

水墨画所体现的艺术方向
　　长期以来，我一直认为中国画的造型意义在图像时代没有太大的价值。如果一幅国画想要表达社会问题，也可以用其他方式来表达。如果不得不直接使用水墨，主要原因是它直接延续了

-----2019-12-28

拍卖名人书信会触犯书画家的权益
　　据报道，一年前，一起名人寄信侵犯隐私权的事件引起了持续关注。这源于北京中国国际贸易盛嘉拍卖有限公司于2013年6月22日在北京举办一场名为“亦收藏”—&m

-----2019-12-25

高仿字画的魅力在于物美价廉
　　长期以来，高仿书画因其质优价廉而受到众多书画爱好者的关注。高仿的书法和绘画也是许多相互馈赠的首选。为什么高仿书法和绘画如此受欢迎?让我们一个一个来:　　首先，高仿

-----2019-12-21

收藏书画要具备那两个方面的能力
　　书画收藏是很有学问的。为了满足精华的需求，收藏者必须具备两种能力。　　一是要有欣赏书画的能力。从古至今，这种能力都是一个成功的收藏家必备的素质。欣赏能力主要来自

-----2019-12-19

收藏沾有“官气”的书画应三思而
　　收藏书画的首选是名人的作品。这对每个收藏家来说都是一个明确的做法，有些人也理解名人效应。因此,当收集字画,他们特别注意的总统艺术学院,艺术协会、书法协会的主席,总

-----2019-12-19

一幅好的作品必须具备的基本要素
　　什么样的工作是好工作?一般来说，一部好的作品必须具备以下几个要素:　　1. 工作必须有个性。如果你没有个性，你就不能谈论风格。如果你总是跟随别人，你将一事无成　　不创

-----2019-12-17

中国传统书画步入老年期了吗？
　　之前甘肃书画院曾在兰州金城盆景公园举办了书画展。这次书画展展出了100幅书画作品。记者在现场看到，虽然有很多人在读书和画展，但是年轻人很少。基本上，老年人是来参观书

-----2019-12-16

一幅好画必须具备四方面条件
　　一幅好画经得起历史的检验，它才能真正存在于艺术史中。要做好一幅画，成为一名优秀的画家，我们需要具备四个条件。　　首先，所有的艺术作品都必须有特殊的情感，表达特殊的情感

-----2019-12-13

别让书画艺术成为权力下的玩物
　　古时候，提起名人书画，人们首先想到的是文人墨客。这些有才华的书画名人大多是因其才华和作品而达到一定艺术水平的名人。如王羲之、汤伯虎的书画作品，因其艺术造诣之高，成为

-----2019-12-11

诗书画的结合能触动灵魂
　　中国书法从象形到抽象，从实用到诗情画意，都具有当代艺术的特点，笔触和姿态成为书画家毕生的追求。这也是书法线条美的概括。它有一个连贯的氛围，拍下所有事物的图像，并移动它

-----2019-12-10

艺术知识