数字化,让古籍触手可及

数智人2024-01-12产业资讯104
核心阅读我国现存古籍约有20万种,修复整理现存的全部古籍,可能需要300余年。古籍数字化迫在眉睫。一本古籍,如何从纸页“搬”到网页?广泛收集图像资料、利用现代技术精细化处理……自2022年10月上线以来,“识典古籍”平台已陆续汇集经、史、子、集等2200余部古籍,免费面向公众开放,为解决古籍保护和利用矛盾进行了有益尝试。“青蒿一握,以水二升渍,绞取汁,尽服之”,屠呦呦从古籍中获得灵感,由此发现青蒿素;在浩瀚古籍中寻幽入微,竺可桢绘制出一条物候变迁的曲线——“竺可桢曲线”,浓缩出五千年中华大地的冷暖变化图景。卷帙浩繁的中华古籍,凝结着先人的智慧,记载着璀璨的文化,诉说着绵延不绝的中华文明。岁月不居,书阙有间,部分古籍正慢慢“老去”,褪色、脆化、腐蚀,甚至稍一翻阅就会损毁。当古老典籍遇到现代技术,会产生什么奇妙反应?“初见”“流光”“惊鸿”“珠联”“缀玉”……点击网页上的标签,《永乐大典》的前世今生、编纂方法、历史价值等信息,伴随着动画音效,呈现于眼前。点击页面右上角“阅读大典”,进入文本阅读平台。《永乐大典》原本影像与数字化文本相互对照,繁简体文字随时切换。遇生僻词句,可选中文本,点击“查看引用”,出处清晰可考。《永乐大典》是我国古代规模最大的类书,汇集先秦至明初各类典籍,被誉为“世界有史以来最大的百科全书”。但几经散佚,副本存世不及原书的4%。对学者而言,《永乐大典》是进行学术研究的重要资料;对普通读者来说,古籍文本往往艰涩难懂,且接触机会不多。如今,《永乐大典》高清影像数据库(第一辑)在古籍数字化平台“识典古籍”正式上线,免费面向公众开放。借助现代数字技术,厚重典籍浓缩在方寸之间,尘封已久的历史画卷徐徐展开,成为触手可及的文化资源。“互动化、可视化的呈现方式更加符合当代人的阅读习惯,沉浸式阅读体验拉近了古籍与普通读者之间的距离。”“识典古籍”平台项目负责人之一、北京大学信息管理系助理教授位通说。自2022年10月上线以来,“识典古籍”平台已陆续汇集经、史、子、集等2200余部古籍,面向海内外读者免费开放。该平台由北京大学与抖音合作共建,致力于为用户提供免费、公开、稳定、快速、方便的检索和阅读古籍服务。“识典古籍”平台项目负责人、北京大学数字人文研究中心主任王军希望,“识典古籍”平台能推动散落海外的中华古籍回流,促成古籍的开放共享。王军算过一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近3.8万种,修复整理现存的全部古籍,可能需要300余年。可以说,古籍修复速度赶不上老化速度。修复整理,只是数字化的第一步。古籍具有文物和文献的双重属性,修复好的古籍若只被束之高阁,后续研究就无法开展,更无法发挥其文化传承的价值。因此,数字化是一场生产效率的变革,也是一次解决古籍保护和利用矛盾的尝试。进入“识典古籍”平台,平台设计者、北京大学人工智能研究院副研究员杨浩开始演示:“古籍的数字化分为两步。一是图像化,我们与海内外古籍收藏单位合作,广泛收集古籍数字化图像资料。二是文本化,利用人工智能技术对古籍文字进行识别、排序、校对、结构整理、标点、实体识别等,对内容作精细化处理。”杨浩上传了一页古籍图像,不一会儿,文字自动识别处理完成。古籍图像上显现出不同颜色的小方框,“每个方框对应一个文字,先切分再调整顺序。红色方框是提醒此处需要人工介入,来进一步判断和处理。”与此同时,古籍图像旁已自动识别出一段文字,并可比照原图像进行修改调整。杨浩继续解释:“这个过程中,主要使用了文字识别、自动标点和命名实体识别等人工智能技术。文字识别技术,是对古籍数字图像中的文字进行单个切分,再进行文字识别和顺序读出;自动标点技术,是通过序列标注的方式对古籍自动进行现代标点;命名实体识别技术,则是通过序列标注方法识别出文本中的人名、地名、书名、时间、官职等信息。”同时,在机器自动识别后,会有专人复查结果,进一步提升准确率。据悉,“识典古籍”平台文字识别的准确率达到96%以上,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98%。“大部分古籍阅读平台或只提供扫描文稿,或只提供文本内容,有些商业数据库收费高昂,获取资源十分不便。”北京大学历史学系学生刘沐含说,“识典古籍”平台有着丰富的检索功能以及分类与年代筛选功能,可以辅助开展学术研究。集纳展示古籍数字版本,不是“识典古籍”平台的全部。团队有着更大的设想——在一个平台实现古籍智能整理的全部环节。“‘识典古籍’平台由两部分组成,前端是阅读平台,后端是古籍整理平台。”王军作了一个比喻,“就像是餐厅的前厅和后厨。”目前,作为“后厨”的古籍整理平台,已经设定了团队管理员、书目管理员、审订员、整理员等各种用户角色。下一步,将吸引各行各业的古籍爱好者、研究者,以众包校对、协同审核等形式,推进古籍整理项目和数据库建设,打造“古籍图像上传—文本校对整理—高质量标记—文本输出”的全流程系统。哈尔滨师范大学历史文化学院学生刘钰昕,提前体验了一回“整理员”角色。“希望能为损毁严重的古籍做点力所能及的事情。”2022年4月,看到北大数字人文研究中心的招募信息,刘钰昕第一时间报名,成为“识典古籍”平台的一名志愿者。“我参与了《春秋左传注》《史记》《汉书》等古籍的校对工作。”谈及志愿工作,刘钰昕的热爱之情溢于言表,“印象最深的就是,为了制定魏晋南北朝官职标注规则,我查阅了大量的文献,还详细翻阅了《文献通考》的‘职官考’二十一考。”“新时代古籍事业发展,需要一批对古典文献学、古籍保护、信息技术以及数字化流程都比较熟悉,又能将各方面有机融合的复合型人才。”北京大学中文系教授杨海峥建议,应加强古籍学科理论构建和课程体系建设,编写适合新时代古籍工作需要的专业教材,并多为学生提供实践机会,以推进新时代古籍人才队伍建设。“古籍是中华文明延续数千年未曾中断的有力证明,希望通过‘识典古籍’平台以及暑期工作坊、学术研讨等活动,推动中华文明传承发展,向世界展示和传播我们的文化之美。”王军说。新年伊始,杨浩写下了新的展望:“泱泱中华,历史何其悠久,文明何其博大。2024年,希望能收集更多古籍、提升整理质量,更好守护古籍这个文明之根!”(厉烨参与采写)转自:人民日报海外版 原文链接://shuzhiren.com/post/96345.html

相关文章

快递旺季畅通迎峰 行业如何开足马力保障旺季畅通?

“双11”的快递都收到了吗?国家邮政局监测数据显示,11月1日至11日,全国邮政快递企业共处理快递包裹42.72亿件,日均处理量是日常业务量的1.3倍。其中,11月11日当天共处理快递包裹5.52亿件...

我国将建一批未来产业孵化器和先导区

工业和信息化部等七部门近日联合印发关于推动未来产业创新发展的实施意见,提出到2025年,我国未来产业技术创新、产业培育、安全治理等全面发展,部分领域达到国际先进水平,产业规模稳步提升。建设一批未来产业...

《关键数字技术专利分类体系(2023)》印发

近日,国家知识产权局印发《关键数字技术专利分类体系(2023)》,加强对关键数字技术专利规模、结构、质量的统计监测,助力数字经济关键核心技术攻关,推动数字技术成果转化,促进数字经济和实体经济深度融合,...

中国新能源汽车产业“链接”全球

“中车电动”制造的自动驾驶客车在法国巴黎大众运输公司393号线路部分路段进行路况实测。新华社记者高静摄观众在曼谷举行的第39届泰国国际车展哪吒汽车展台拍摄。新华社记者王腾摄编者按中国新能源汽车的产业链...

6家逆变器公司去年净利同比增超100% 光伏、储能带动市场持续扩容

在“碳中和”、清洁能源转型等因素的共同推动下,近年来光伏行业景气度持续提升,全球光伏新增装机高速增长。受此影响,作为光伏发电系统、储能系统的核心部件,逆变器市场快速拓展,多家逆变器上市公司2022年业...

天津2030年将累计建成高标准农田463万亩

日前,天津市政府批复《天津市高标准农田建设规划(2021—2030年)》(以下简称《规划》),要求各涉农区相关部门认真组织实施,为保障国家粮食安全和重要农产品有效供给提供坚实基础。《规划》提出,到20...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。