我滴生活日记

您现在的位置是:首页 > 美文摘抄 > 正文

美文摘抄

“古典古书”来了! 3年上线1万种儒家经典

admin2022-10-13美文摘抄557
  10月11日,“北京大学——字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台覆盖390部古典古书,主要来自《四部丛刊》,共计3000多万字,即日起向公众免

  10月11日,“北京大学——字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。 目前,该平台覆盖390部古典古书,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。 未来三年,《知识典古籍》将陆续完成万种古籍智能化整理工作,基本覆盖儒家、道家、佛学核心典籍目录,届时全部部将免费开放。


  据了解,上述实验室于今年3月由北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。 “经典古书”平台上线是双方合作的最新进展。


  目前,我国古籍数字化面临着技术难度大、资金缺口大、人才紧张等难点。 据有关资料显示,现存20多万种古籍中,只有8万种完成了图像的数字化扫描,约4万种完成了文本数字化。 据专家统计,从1949年到2019年,国内修复整理出版古籍近3.8万种,要将现存古籍全部修复整理到部,可能需要300年的时间。 如果利用人工智能技术辅助修复整理,大概二三十年就可以完成。 据“经典古书”项目负责人介绍,该平台目前主要使用字符识别、自动标点、命名实体识别三大技术。 文字识别技术是将古籍的影印版文字单独截取,进行文字识别和顺序识别。 自动标点符号技术是对古典按顺序书写自动分配标点符号的技术。 实体识别技术是指通过序列标记识别文本中的人名、地名、书籍、时间、官职等信息。 据悉,目前业内的OCR识别精度平均为93%至94%,《古典书籍》的精度为96%至97%。


  与其他古籍数字化平台相比,“知识典古籍”页面简洁,浏览流畅,提供影印原件作为参考,还具备主题词检索和繁体字转换功能,方便专业研究者、广大古籍爱好者使用。 同时,《知识典古籍》书目持续更新,未来手机移动版上线。


  未来,《知识典古籍》将向全社会开放古籍阅读检索研究能力,实现全自动整理校对,更高效实现存量古籍全部数字化。 同时,平台鼓励拥有文献的学者自行上传文献,用户可以参与重新创作和重新诠释,帮助古籍文化的传承和研究。


发表评论

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~