在古籍修复过程中引入人工智能技术的创新探索与未来展望

北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的“古籍智能信息处理”系列研讨会日前在线上举办。

在研讨会上,北京大学数字人文研究中心主任王军算了一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,照此速度,要将现存古籍全部修复整理出来,可能需要三百年的时间。不过,若利用人工智能技术辅助修复整理,大概二三十年就能完成。

王军所说的“利用人工智能技术修复古籍”,并非遥远的科学设想,它正在成为现实中的生动实践。“古籍智能信息处理”系列研讨会第一讲开讲后不久,字节跳动宣布向北大教育基金会提供捐赠,支持北京大学—字节跳动数字人文开放实验室研发“古籍数字化平台”,利用智能技术加速中华古籍资源的数字化建设,预计三年内完成10000种精选古籍的智能化修复整理。

古籍文本转化正在智能化

很长一段时间里,古籍保护主要采用原生性保护方式,即把古籍当作“文物”保护起来。后来出现再生性保护方式,对古籍进行影印再造和影像保存,让古籍得以以纸本或缩微胶片的形式存在。现有的数字化古籍很多是由缩微胶片转换而成,分辨率较低且影像多为黑白色。

即便将所有古籍用数字化手段影印出版,古籍也是“死”的,人们无法方便地使用。北京大学中文系教授杨海峥举了个简单的例子——影印的古籍没有标点符号,非常不便于阅读。另外,这也不利于对古籍内容进行检索,想查阅某个内容,得逐篇逐页阅读原文,很难快速找到想要的知识。因此,要提升传统古籍的利用率,必须将古籍内容转化为数字文本。过去,这种转化主要依靠专家人工录入,时间成本极高。

“信息技术的发展,尤其是人工智能和大数据技术的出现,为古籍的修复整理带来了革命性变化。”王军说,近年来,包括北京大学在内的不少高校、科研机构在古籍数字化上开展了不少开拓性的工作,在OCR(光学字符识别)、AI句读、实体识别等方面积累了比较成熟的技术和经验。以OCR应用为例,用电子设备对纸本古籍一扫,古籍上的内容就会转录到计算机中,并生成相应的数字文档,效率比人工录入提升了不止千万倍。

据了解,利用人工智能和大数据技术,北京大学数字人文中心在从先秦到明清跨时代的大规模古籍文本语料整理上,已实现对古文本的自动句读,平均准确率达到94%,同时还实现了对人名、地名、时代名、职官名、书名的自动识别,在中古史料上的准确率接近98%。

在这些方面,字节跳动等互联网公司也有很多经验和技术积累。例如,OCR技术在今日头条、抖音等平台的图片文字识别、字幕翻译,以及商业化业务中的各类卡证票据及行业文档识别等领域均有广泛应用。“这些技术可以逐渐向古籍智能数字化的方向上迁移。我们在古籍数字化平台开发中,与北大在技术上能优势互补,进行有效的打通与融合。”字节跳动人工智能实验室总监李航表示。

王军介绍,“古籍数字化平台”将会进一步提升古籍整理的准确率、智能化水平和开放度。一方面,可以对重点文本进行精校,满足专家学者对资料准确度的要求;另一方面,利用智能平台上的文字识别、校对工具,学者和古籍爱好者可以在线上一站式完成古籍整理工作,而不用像以前那样先在word文档中进行整理编辑,再传递相关的文档,在提高效率的同时,也方便公众参与。

古籍利用有望智慧化

四川大学中国文化全球传播大数据中心教授王兆鹏认为,技术的进步为古籍修复整理智能化带来两个面向:一是古籍文本转化智能化,二是古籍利用智慧化。

把纸质古籍上的内容转化成数字文本,只是古籍修复整理的第一步。在此基础上,要解决的另一个问题是,如何将海量晦涩难懂的古籍内容进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便人们查阅使用。否则,录入计算机的古籍依然会继续“沉睡”。

基于人工智能技术,目前我国已建立多个古籍整理自动化和可视化平台。比如,王军主持设计和研发的“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行了文本处理和分析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。然而,不少平台的智能化水平仍然较低,比如输入关键词,搜索出的内容各自孤立、凌乱无序。王兆鹏认为,更智慧的古籍整理利用平台,应该从1.0版向2.0版演进,比如内容检索应“以类相从”,检索出的内容应彼此关联,且由人工智能进行有机分类。

北京大学与字节跳动合作研发“古籍数字化平台”是提升古籍整理和利用智慧化水平的一次尝试。“我们合作的技术核心是将人工智能和大数据应用在海量的古籍文献上,实现古文本知识图谱的自动生成和对古籍内容的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘利用。”李航说,未来,“古籍数字化平台”不仅是一个古籍智能整理平台,还将是一个面向读者的数字化阅读工具,将提供免费开放的访问服务。

王军预计,随着人工智能技术的运用,古籍文献中所蕴藏的古代历史文化知识将不断被抽取出来,构造成各种各样的知识库,并将会以知识图谱的形式支持互联网前端应用。

由于在互联网产品研发、设计方面存在优势,互联网公司等社会力量的加入会进一步保障古籍数字化平台的服务质量。“我们有优秀的产品经理、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,提供更好的用户体验。”北京字节跳动企业社会责任部产品总经理唐垲鑫表示,目前今日头条的设计团队和抖音的开发、测试团队已经加入“古籍数字化平台”的开发工作。

需要跨学科通力合作

随着人工智能技术在古籍修复整理领域的广泛应用,作为古典文献专业的老师,杨海峥经常被学生们问到一个问题:“学古典文献的同时,还要学人工智能吗?”虽然杨海峥不能确定,但一个事实是,人工智能技术与古籍修复整理的结合,将开辟出全新的交叉学科领域,利用人工智能技术修复整理古籍肯定需要更多复合型人才。

王军认为,在这种情况下,高校古典文献学等相关专业如何培养兼具技术与学术能力的古典文献学人才,如何形成多学科交叉的课程体系等,都是亟待解决的问题。

此外,人工智能并非“绝顶聪明”。在华南理工大学电子与信息学院教授金连文看来,古籍图像增强、修复,复杂版式古籍文档图像版面分析等问题都有待解决。而在对古籍内容的分析整理中,目前最大的技术难点是人工智能对古籍中人名、地名等专有名词识别后,如何进一步实现关系提取,从而为古代历史文化知识图谱的自动生成准备技术条件。

因此,杨海峥认为,在古籍整理中,人文社科学者还是要积极介入,并加强与技术人员的合作,那样才能更好地利用机器而不是被机器牵着鼻子走,从而保证结果的准确性。

人工智能技术的发展带来了古籍整理研究方法、思路的根本改变。业内的一个共识是,利用人工智能推进古籍修复整理需要进行跨学科、跨环境、跨文化、跨地区合作。正如王军所言,“古籍保护需要社会各界的共同努力,应欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人加入,这样才能打造出一个开放的‘古籍数字化平台’”。

猜你喜欢

OpenAI 专家分析:你所认为的社交媒体上的 AI 炒作其实要复杂得多!
OpenAI 专家分析:你所认为的社交媒体上的 AI 炒作其实要复杂得多!

在社交媒体上,OpenAI 的人工智能推理专家诺姆・布朗(Noam Brown)表示,目前存在大量关于人工智能的 “模糊

微软正式测试 Windows AI 搜索功能,旨在显著提升用户的文件查找体验
微软正式测试 Windows AI 搜索功能,旨在显著提升用户的文件查找体验

微软最近在 Windows11Insider 测试者的最新开发频道版本中推出了 AI 驱动的 Windows 搜索功能。

淘天推出全新对齐技术,以有效应对视觉大模型中的幻觉表现问题
淘天推出全新对齐技术,以有效应对视觉大模型中的幻觉表现问题

近年来,视觉大模型(Large Vision Language Models, LVLMs)在图像理解和跨模态任务中展现

ChatGPT API被发现存在安全隐患,可能成为发动DDoS攻击的工具
ChatGPT API被发现存在安全隐患,可能成为发动DDoS攻击的工具

最近,一位德国安全研究员本杰明・弗莱施在微软的 GitHub 上发布了一份报告,指出 OpenAI 的 ChatGPT

全球首发亿级参数地震波大模型“谛听”,预计2025年将全面向公众开放
全球首发亿级参数地震波大模型“谛听”,预计2025年将全面向公众开放

在地震监测和分析领域,一项重大的技术突破于1月17日在国家超级计算机成都中心正式发布。全球首个亿级参数量的地震波大模型

AI 基准组织因未及时披露与 OpenAI 资金相关的信息而受到外界的广泛批评和关注
AI 基准组织因未及时披露与 OpenAI 资金相关的信息而受到外界的广泛批评和关注

近期,开发 AI 数学基准的非营利组织 Epoch AI 因未及时披露其获得 OpenAI 资金而引发争议。该组织于12

三年大片高清影视大全:一场视觉盛宴的时光之旅
三年大片高清影视大全:一场视觉盛宴的时光之旅

三年大片高清影视大全乃是近年来影坛之盛举,汇聚浩瀚光影作品,呈现众多经典与佳片。观众可在此中领略纷繁丰富之情感,体会多元文化之碰撞

苹果即将推出全新邮件应用于Mac平台,涵盖AI智能分类功能的创新体验
苹果即将推出全新邮件应用于Mac平台,涵盖AI智能分类功能的创新体验

据彭博社记者马克·古尔曼报道,苹果公司计划通过即将发布的macOS15 4版本,为Mac用户带来全新设计的邮件应用。这款

北汽极狐阿尔法 S5 实现重大 OTA 升级:AI 大模型 2.0 和新型哨兵模式齐亮相,科技助力智能驾驶
北汽极狐阿尔法 S5 实现重大 OTA 升级:AI 大模型 2.0 和新型哨兵模式齐亮相,科技助力智能驾驶

近日,北汽极狐正式宣布旗下阿尔法 S5车型进行了一次重要的 OTA(Over-The-Air)升级,尽管具体的版本号尚未

AIGC 应用用户活跃度突破一亿,豆包占据市场份额的一半以上
AIGC 应用用户活跃度突破一亿,豆包占据市场份额的一半以上

根据研究机构 QuestMobile 的最新数据显示,截至2024年11月底,中国的 AIGC(人工智能生成内容)应用月