古籍文本的转换有望通过智能化实现,还需要跨学科的合作
由北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的“经典智能信息处理”系列研讨会日前在线召开。
研讨会上,北京大学数字人文研究中心主任王军算了一笔账。 我国现存古籍约有20万种,从1949年到2019年,共修复出版古籍近38000种。 以这个速度,修复和整理所有现存古籍,可能需要300年。 但是,如果利用人工智能技术辅助修复整理,大约二三十年就可以完成。
王军说的“利用人工智能技术修复古籍”,已不是遥远的科学构想,而是现实的生动实践。 “古籍智能信息处理”系列研讨会第一场演讲启动后不久,字节跳动向北大教育基金提供捐款,支持北京大学-字节跳动数字人文开放实验室开发“古籍数字化平台”,利用智能技术加快中华古籍资源数字化建设,三年内实现110年内
古籍文本转换智能化
长期以来,古籍的保护主要采用原生的保护方式。 也就是说,将古籍作为“文化财产”进行保护。 后来出现了再生性保护方式,对古籍进行了复制、再生和图像保存,古籍可以纸本或缩微胶片的形式存在。 现有的数字化古籍大多由缩微胶片转换而来,分辨率低,图像多为黑白。
即使将所有古籍通过数字化手段复制出版,古籍也“死了”,人们无法方便地使用。 北京大学中文系教授杨海峥举了一个简单的例子——复印的古籍没有标点符号,非常难读。 另外,也不利于检索古籍的内容,想调查某些内容时,必须一页一页地阅读原文,很难迅速找到想要的知识。 因此,为了提高传统古籍的利用率,有必要将古籍内容转换为数字文本。 以往,这种转变主要依靠专家人工输入,时间成本极高。
“信息技术的发展,特别是人工智能和大数据技术的出现,给古籍的修复整理带来了革命性的变化。 ”王军表示,近年来,包括北京大学在内的许多高校、科研机构在古籍数字化方面开展了大量开拓性工作,在光学字符识别( OCR )、AI文读、实体识别等方面积累了比较成熟的技术和经验。 以OCR的应用为例,用电子设备清理纸质古籍后,古籍上的内容被复制到计算机上,生成相应的数字文档,与人工输入相比,效率可提高数千万倍以上。
利用人工智能和大数据技术,北京大学数字人文中心在先秦至明清大规模古籍文本词汇整理中,已实现古籍自动识读,平均准确率达94%,同时实现人名、地名、时代名称、职称、书名的自动识别,中古史料在这些方面,字节跳动等互联网公司也有很多经验和技术的积累。 例如,OCR技术广泛应用于今日头条、嘀嘀打车等平台的图文识别、字幕翻译、商业化业务中的各类票券和行业文档识别等领域。 “这些技术可以逐渐向古籍智能数字化的方向转移。 我们在古籍数字化平台的开发上,与北大在技术上优势互补,进行着有效的开通和融合。 ”。 字节跳动人工智能实验室总监李航表示。
王军表示,“古籍数字化平台”将进一步提升古籍整理准确度、智能化水平和开放度。 一方面可以精校重点文本,满足专家学者对资料准确性的要求;另一方面,借助智能平台上的文字识别、校对工具,学者和古籍爱好者可以在线一站式进行古籍整理工作,一如既往
利用古籍有望实现智慧化
四川大学中国文化全球传播大数据中心教授王兆鹏认为,技术进步给古籍修复整理智能化带来了两个方面。 一个是古籍文本的智能化,另一个是古籍的利用智慧化。
将纸质古籍内容转换为数字文本,只是古籍修复整理的第一步。 在此基础上,需要解决的另一个问题是如何对庞大而费解的古籍内容进行整理分类,形成交互式、可触摸、可视化的数字人文作品,便于人们查阅和使用。 否则,输入计算机的古籍依然“沉睡”。
基于人工智能技术,目前中国已经建立了许多古籍整理的自动化和可视化平台。 例如,王军主持设计和研发的“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行文档处理和分析,提取出2000多名宋元理学家、近百个学术流派的人物、时间、地点、著作等但许多平台的智能化水平仍然很低,如输入关键词,搜索到的内容分别孤立、无序。 王兆鹏认为,更有智慧的古籍整理利用平台应该从1.0版发展到2.0版。 例如,内容搜索应当“相似”,并且搜索到的内容应当相互关联,并且应当被有机地分类为人工智能。
北京大学与字节跳动合作开发“古籍数字化平台”,是提升古籍整理利用智慧化水平的一次尝试。 “我们合作的技术核心是将人工智能和大数据应用于海量的古文字,实现古文字知识图谱的自动生成和古文字内容的智能组织,使古文字能够以文本的形式检索、相关阅读、深度挖掘利用。 ”李航表示,未来,“古籍数字化平台”不仅是古籍的智能整理平台,也是面向读者的数字化阅读工具,提供免费开放的访问服务。王军预计,随着人工智能技术的运用,古文字中蕴藏的古代历史文化知识将不断被提取,建立各种知识库,以知识图谱的形式支持互联网前端应用。
由于在互联网产品的开发、设计方面具有优势,互联网公司等社会力量的加入将进一步保障古籍数字化平台的服务质量。 “我们拥有优秀的产品经理、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,提供更好的用户体验。 ”北京字节跳动企业社会责任部产品总经理唐垲鑫表示,目前,顶级设计团队和嘀嘀开发、测试团队已经参与了“古籍数字化平台”的开发。
需要跨学科的合作
随着人工智能技术在古典修复整理领域的广泛应用,作为古典文献专业的老师,杨海峥经常被学生们问:“在学习古典文献的同时,还会学习人工智能吗?” 虽然杨海峥不能确定,但一个事实是,人工智能技术与古籍修复整理的结合,开辟了一个全新的交叉学科领域,利用人工智能技术修复整理古籍,需要更多的复合型人才。
在这种情况下,大学古典文献学等相关专业如何培养技术与学术能力兼具的古典文献学人才,如何形成多学科交叉的课程体系等,王军认为是一个亟待解决的问题。
另外,人工智能不是“绝顶聪明”。 华南理工大学电子信息学院教授金连文表示,古籍图像增强、修复、复杂版式古籍文献图像版式分析等问题都有待解决。 在对古籍内容的分析整理中,目前最大的技术难点是人工智能识别古籍中的人名、地名等专有名词后,如何进一步实现关系提取,为古代历史文化知识图谱的自动生成准备技术条件。
因此,杨海峥认为,在古籍整理中,人文社会科学家必须积极介入,加强与技术人员的合作。 这样,可以更好地利用机器,而不是被机器牵着鼻子走,保证结果的正确性。
人工智能技术的发展带来了古籍整理研究方法、思路的根本性变化。 业内的一个共识是,利用人工智能推进古籍修复整理,需要跨学科、环境、文化、区域的合作。 正如王军所说,“保护古籍需要社会各界的共同努力,必须欢迎更多古籍收藏机构、研究机构和热爱古籍事业的个人参与,才能打造开放的‘古籍数字化平台’。”
相关文章
发表评论
评论列表
- 这篇文章还没有收到评论,赶紧来抢沙发吧~