当古籍修复遇上人工智能
时间:2022-04-11 来源: 作者:华纳艺术网  点击次数:
由北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究所联合主办的“古籍智能信息处理”系列研讨会日前在网上举行。
研讨会上,北京大学数字人文研究中心主任王军算了一笔账:中国现存古籍约有20万种。从1949年到2019年,恢复出版了近3.8万种。照这样下去,可能要花三百年的时间才能恢复和整理好现存的所有古籍。但如果用人工智能技术辅助修复整理,大概二三十年就能完成。
王军的“利用人工智能技术修复古籍”并不是遥远的科学构想,它正在成为现实中的生动实践。“古籍智能信息处理”系列研讨会第一场讲座开始后不久,字节跳动宣布向北京大学教育基金会捐款,支持北京大学-字节跳动数字人文开放实验室开发“古籍数字化平台”,利用智能技术加速中国古籍资源数字化建设。预计三年内完成10000本精选古籍的智能修复整理。
古籍文本转化正在智能化
长期以来,古籍保护主要采用原始保护方式,即将古籍作为“文物”进行保护。后来出现了再生保护方法,使古籍影印、影像保存,使古籍可以以纸质或微缩胶片的形式存在。现存的数字古籍很多都是由微缩胶片转换而来,分辨率较低,多为黑白图像。
即使所有的古籍都通过数字化手段影印出版,古籍也是“死”的,人们无法方便地使用。北京大学中文系教授杨海正举了一个简单的例子:3354本影印古籍没有标点符号,阅读起来很不方便。另外,这也不利于搜索古籍内容。如果要查阅某一内容,就得一页一页地阅读原文,很难快速找到想要的知识。因此,要提高传统古籍的利用率,必须将古籍内容转换成数字文本。以往这种转化主要依靠专家手工输入,时间成本极高。
“信息技术的发展,特别是人工智能和大数据技术的出现,给古籍修复整理带来了革命性的变化。”王军表示,近年来,包括北京大学在内的许多高校和科研机构在古籍数字化方面开展了大量的开创性工作,在OCR(光学字符识别)、AI读句、实体识别等方面积累了相对成熟的技术和经验。以OCR应用为例,纸质古籍一旦被电子设备扫描,古籍的内容就会被转录到计算机中,并生成相应的数字文档。效率比人工输入高1000万倍以上。
据了解,通过运用人工智能和大数据技术,北京大学数字人文中心在对先秦至明清大规模古文的整理中,实现了古文的自动读句,平均准确率达94%。同时还实现了人名、地名、时代、官名、爵位的自动识别,在中世纪史料中准确率接近98%。
在这些方面,字节跳动等互联网公司积累了大量的经验和技术。比如OCR技术在今日头条、Tik Tok等平台的广泛应用,比如图像文字识别、字幕翻译,以及商业业务中各种卡片、票据、行业文件的识别等。“这些技术可以逐渐向古籍智能化数字化方向迁移。在古籍数字化平台的开发上,我们可以和北大在技术上实现互补,进行有效的沟通和整合。”字节跳动人工智能实验室主任李航说。
王军介绍,“古籍数字化平台”将进一步完善
四川大学中华文化全球传播大数据中心教授王兆鹏认为,技术进步给古籍修复整理的智能化带来了两个方面:一是古籍文本转化的智能化,二是古籍利用的智能化。
将纸质古籍内容转化为数字文本,只是古籍修复整理的第一步。在此基础上,另一个需要解决的问题是如何对海量晦涩难懂的古籍进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便人们的查阅和使用。否则,进入电脑的古籍将继续“休眠”。
基于人工智能技术,目前国内已经建立了很多古籍整理的自动化、可视化平台。例如,王军主持设计开发了“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》文本进行了处理和分析,提取了2000多位理学家和近百个学术流派构建知识图谱。但是很多平台的智能化水平还是较低,比如输入关键词,搜索到的内容孤立无序。王兆鹏认为,一个更智能的古籍整理和利用平台应该从1.0版本进化到2.0版本。比如内容检索要“按类别互相跟随”,检索到的内容要互相关联,用人工智能有机分类。
与字节跳动大学合作研发的“古籍数字化平台”是提高古籍整理和利用智能化水平的一种尝试。“我们合作的技术核心是将人工智能和大数据应用于大量古籍,实现古籍文本知识图谱的自动生成和古籍的智能整理,让古籍以文本的形式被搜索、阅读和深度挖掘。”李航表示,未来“古籍数字化平台”不仅是古籍的智能整理平台,也是读者的数字化阅读工具,将提供免费开放的获取服务。
王军预计,随着人工智能技术的应用,古籍中蕴含的古代历史文化知识将被不断提取并构建成各种知识库,以知识图谱的形式支撑互联网的前端应用。
由于在互联网产品的研发和设计方面有优势,互联网公司等社会力量的参与将会推进。
一步保障古籍数字化平台的服务质量。“我们有优秀的产品经理、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,提供更好的用户体验。”北京字节跳动企业社会责任部产品总经理唐垲鑫表示,目前今日头条的设计团队和抖音的开发、测试团队已经加入“古籍数字化平台”的开发工作。需要跨学科通力合作
随着人工智能技术在古籍修复整理领域的广泛应用,作为古典文献专业的老师,杨海峥经常被学生们问到一个问题:“学古典文献的同时,还要学人工智能吗?”虽然杨海峥不能确定,但一个事实是,人工智能技术与古籍修复整理的结合,将开辟出全新的交叉学科领域,利用人工智能技术修复整理古籍肯定需要更多复合型人才。
王军认为,在这种情况下,高校古典文献学等相关专业如何培养兼具技术与学术能力的古典文献学人才,如何形成多学科交叉的课程体系等,都是亟待解决的问题。
此外,人工智能并非“绝顶聪明”。在华南理工大学电子与信息学院教授金连文看来,古籍图像增强、修复,复杂版式古籍文档图像版面分析等问题都有待解决。而在对古籍内容的分析整理中,目前最大的技术难点是人工智能对古籍中人名、地名等专有名词识别后,如何进一步实现关系提取,从而为古代历史文化知识图谱的自动生成准备技术条件。
因此,杨海峥认为,在古籍整理中,人文社科学者还是要积极介入,并加强与技术人员的合作,那样才能更好地利用机器而不是被机器牵着鼻子走,从而保证结果的准确性。
人工智能技术的发展带来了古籍整理研究方法、思路的根本改变。业内的一个共识是,利用人工智能推进古籍修复整理需要进行跨学科、跨环境、跨文化、跨地区合作。正如王军所言,“古籍保护需要社会各界的共同努力,应欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人加入,这样才能打造出一个开放的‘古籍数字化平台’”。
本文来自华纳艺术网 转载请注明
上一篇
下一篇