作者|西西弗 最近,有关“故天将降大任于‘是人’还是‘斯人’”的话题登上网络热搜。不少网友表示,记忆中,语文教材里这句里是“斯人也”,现在却改为“是人也”。 对此,北京大学中文系教授孙玉文接受采访时表示,古代传下来的文献记录中,孟子这句用的就是“是人”。 事实上,到底是“斯人”还是“是人”,不仅可以查阅教科书,也可以在字节跳动新开发的识典古籍平台直接搜索古籍原文。 (《四库全书-孟子注疏》) 多年前,张一鸣就希望今日头条能做成一个百科全书。 他提到,当读到朱自清《背影》的时候,能不能马上在今日头条上看到背景知识?当时朱自清和父亲闹别扭好几年,而且是不说话的那种别扭,在这种背景下,他目送父亲回去,才会看着背影有感而发。如果能知道这些,用户对《背影》的理解可能会完全不一样。 而当下,字节跳动的古籍数字化公益项目——识典古籍,就是一个百科全书式的尝试,收录其中的,是比《背影》年代更久远的中国古籍。 据统计,中国现存古籍约20万种,建国以来,中国实现文本数字化的大概3-4万种,平均每年500多种,按照这个速度,实现古籍文本数字化大概需要两三百年。 能否借助AI的力量,加快中国古籍古籍数字化的步伐? 近日,由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。目前,字节跳动内部已经有15个项目组参与到古籍数字化当中来。 不只是将古籍通过OCR(图像转文字)技术进行数字化,更重要的是,通过NLP技术,让AI学会读古文,从而实现对古文进行断句、分词、打标点,进而实现古籍信息的搜索。 “过往我们如果想了解哪些文献提到了中国古建筑里的‘斗拱’,可能需要去图书馆一本一本的翻古籍,未来,我们可以通过识典古籍的平台一键搜索。”抖音集团企业社会责任部产品经理唐垲鑫举例说。 在过去的几年中,谷歌等国内外的科技公司都曾经提出古籍数字化的计划,但部分项目因为技术、版权等种种原因而阻力重重。 在字节跳动的规划中,这一平台将完全对公众免费开放,并尝试用“众包”的方式,邀请全社会一起参与到古籍数字化中来。 这一次,字节跳动能成功吗? 古籍数字化有哪些难点? 中华文明是人类文明史上唯一没有中断的古老文明。而没有中断的证据,就体现在中国拥有海量古籍上,但古籍的“续命”早已迫在眉睫。 全国高校古籍整理研究工作委员会主任安平秋曾将全国古籍工作比喻成一条大河,国家图书馆等中直机关在上游负责原版善本保存,中游高等院校和古籍研究所进行整理研究,再由古籍出版社进行整理、出版,最后还要进入一个大海,进行阐释应用,也就是传播和推广。 因此,从一条大河再到汪洋大海,其中涵盖的工作量可想而知。但在2015年之前,全国做古籍修复的人不到100人,而且连本科以上的高学历人才都没有。 目前,全国专业与半专业的古籍保护和研究人员,包括整理研究的出版的加在一块不到1万人。相比上千万册亟待修复的古籍来说,人才培养任重道远。
天将降大任于是人还是斯人?隐藏在古籍数字化里的问题
用AI做古籍修复,可以怎么做?