数字科技助力古籍保护与利用
时间:2022-03-24 来源: 作者:亚星艺术网  点击次数:
古籍蕴含着中华民族灿烂的文明和优秀的传统文化。保护古籍对于继承和弘扬中华优秀传统文化,增强文化自信具有重要意义。在今年的政府工作报告中,明确提出“加强文物古籍保护利用和非物质文化遗产保护传承”,体现了对提高古籍保护水平、扩大社会参与广度和深度的重视。
但从古籍保护现状来看,我国仍面临数字化程度低、文本形式数字化的古籍数量少、检索困难等问题。数据显示,中国有20万种古籍。据不完全统计,数字化的扫描图像有8万种,数字化的文字只有3万到4万种。
为了改变这一现状,3月17日,字节跳动向北京大学教育基金会捐款,支持“北京大学-字节跳动数字人文开放实验室”,研发古籍数字化平台,利用智能技术加速中国古籍资源数字化建设,面向全社会提供公益服务。实验室将调动相关资源,力争在三年内完成1万本精选古籍的智能整理。提供开放、体验的阅读服务和基础文本数据库,借助知识图谱等技术,帮助学者高效搜索和利用古籍中的信息。同时,项目还将推出一站式古籍自动智能整理平台,融合OCR字符识别、句子阅读、实体识别、知识图谱等技术,免费向公众开放,方便收藏者、研究人员、相关专业的师生和古籍爱好者自行完成古籍数字化工作,加快整个行业的古籍数字化效率。
中国社会科学院教授郑多年来一直从事数字人文的实践和理论探索,并参与了古典文献数字化的早期实践。他说,在过去的20年里,中国在古籍数字化和古籍数据库建设方面的成就是巨大的。然而,目前古籍数据库的建设也面临着发展的瓶颈。“虽然像《中华经典古籍库》1《四部丛刊》这样的各种工具,如在线词典、年龄转换、标注等等,都有很大的实用价值,但从根本上说,这些数据库的主要内容都是非结构化数据,无法帮助学者完成除全文检索之外的其他工作。因此,升级古代文献数据库势在必行。”
在郑看来,未来的古籍数据库应该结合数据挖掘技术、自然语言处理技术和相关学者的深度参与,在古籍词频分析、版本分析比较、计算机辅助句子阅读等方面取得实实在在的进展。他说:“要利用人工智能、大数据等最新技术,努力完成人力难以完成的宏观分析和微观比较,辅助学者进行多维度的统计、比较和分析,产生新的知识和思想。”
“我们希望与北京大学跨学科团队在OCR字符识别、自然语言处理、知识图谱等技术领域全面合作,充分利用人工智能技术,加快古籍的数字化整理、研究和利用,让更多的研究者和爱好者以更高效便捷的方式获取古籍中蕴含的丰富知识。”字节跳动的负责人说。
本文来自亚星艺术网 转载请注明
上一篇
下一篇