达摩院的扫地僧两年抄了20万页古

宋刻本《后村居士集》、北宋《金粟山大藏经》写本、清文澜阁《四库全书》零本……5月18日,20万页古籍以数字化的方式回归了。当天,“汉典重光”平台在北京中国科技馆正式发布,通过先进的人工智能(AI)技术,一批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地“汉典重光”古籍平台。目前,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过该平台翻阅、检索古籍,阿里巴巴达摩院AI对20万页古籍的识别准确率达到97.5%。“汉典重光”项目到底是怎么来的,背后藏着哪些黑科技,记者采访了阿里巴巴达摩院技术团队中那些深藏不露的“扫地僧”们和浙江图书馆、浙江大学古籍研究所专家等,还原了这个与古籍做朋友项目背后的全过程。多年前,20万页古籍流落海外达摩院“扫地僧”接下AI录古书任务年(清咸丰10年),清朝正处于风雨飘摇中。北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。南有太平军进入杭州,藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。最终,该书四分之一被丁氏兄弟抢救,四分之三不知所踪。直到20世纪50年代,清代曹庭栋辑纂的《宋百家诗存》(卷七),出现在美国加州大学伯克利分校东亚图书馆。而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。据不完全估计,近代散居海外的中国古籍超过40万部、万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等。年,阿里巴巴和四川大学提出“数字化回归”设想,获得美国汉学研究重镇、中文藏书量排名全美第三的加州大学伯克利分校支持并达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。本次首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有清文澜阁《四库全书》零本等。为将伯克利提供古籍的扫描图片和编目数据全部文字化,阿里达摩院技术团队与四川大学专家联手研发出一套全新的古籍识别系统,以97.5%的准确率完成对20万页古籍的整体识别。目前,该系统已能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。比起专家录入,这套人机交互的识别系统将效率提升近30倍。随着古籍识别规模的扩增,机器还会自我进化,不断提升准确率和效率。阿里巴巴达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时,阿里仍将在古籍数字化工作上持续投入人力物力。教计算机学会认字有多难看上去一模一样的两个字代码不同古籍文字的类别极其庞大。现代汉语常用字不过多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内。但是据估计,古籍文字多达几十万。古书中经常遇到“一对多”和“多对一”的问题,同一个字,在不同的时代有不同的刻法和写法。有时甚至在同一时代的同一本书里,也会出现不同写法。最近网上谈论很多的“刺史”、“刾史”,就是同一个字在不同时代有不同写法的案例。异体字与正字在汉字编码时通常有两个不同的编码,对于计算机来说,它们就是两个不同的字。人则需要具备一定的文字学素养,才能理解两个不同的字符背后的同一种意思。在达摩院汉典重光项目算法负责人何梦超眼中几乎一模一样的“鍊”、“錬”二字情况也类似:计算机能够区分它们。“鍊”的CJK的字符代码是“A”,“錬”的CJK的字符代码是“C”,因此计算机会按两个不同的字来对它们作处理。但对后道的审校专家和技术人员来说,人眼区分“鍊”与“錬”却难得多。目前汉典重光的识别系统按照“所见即所得”的方式呈现机器识别文字的结果,也就是说,机器见到的单字图片为“錬”,就识别为“錬”字。机器见到的单字图片为“鍊”,就识别为“鍊”字。在一组近似字中找出不同的字,在看似相同的字中找出属于不同汉字编码的字,虽然它们可能是同一个字。达摩院专门为古籍识别开发出了新的系统,用AI替代人工,在两个环节大幅压缩了专家标注工作量。2年,20万页,平均每天页。在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。相比人工专家录入,百万字书籍的数字化工作量从0天降低到了35天,效率提升近30倍。阿里达摩院的AI古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。浙江图书馆也参与了汉典重光想让更多人看见古籍在这次汉典重光的项目中,浙江图书馆参与了项目的早期论证以及产品不同阶段的跟踪检查,还参加了多次论证会,提供了参考意见。浙江图书馆古籍部主任陈谊告诉记者:“古籍的数字化回归,这件事情非常有意义。像这次把某个图书馆藏的中国古籍藏品善本数字化回来,是很少见的,很值得肯定。”他说,这次古籍数字化,还能实现刻本、写本的汉字识别,在技术上也是很大的突破。“我们还以公共藏书机构(身份)参与其中,未来也会把本馆藏的数字化古籍资源,一起发布到汉典重光平台,建成这样的资源体系。我们也将组织读者试用,让更专业的科研工作者在‘汉典重光’的域界内使用古籍数字化资源,更大程度提高古籍数字资源使用率,发挥更好的社会效能。”陈谊表示,这次参与汉典重光也是浙江图书馆与省内科技企业合作的一次探索,在数字化开发和使用上,为省内和国内数字化服务发展提供助力。浙江古籍出版社社长王旭斌表示,中国有很多由于种种原因流失海外的古籍,分布在世界各地,其中有一些是十分珍稀的文献。“这些古籍的实物回归十分困难,但对我们中华文明的传承和弘扬具有非常重要的价值意义。通过数字化的方式回归,在学术上可以为国内学者专家研究提供便利,省去了很多查找古籍文献的时间和费用,是一件十分有意义的事情。”古籍像朋友也是文化使者浙大的古籍研究所前身是杭州大学古籍研究所,年经教育部批准成立,年,中国古典文献学被评为国家重点学科,是浙江大学文科类最早的国家重点学科。“浙大古籍研究,在全国乃至世界应该是处于前列的。”冯国栋是浙江大学古籍研究所副所长、人文学院副院长,他每天的任务就是跟古籍打交道,看竖排无标点的书是他们的日常。年,冯国栋在哈佛大学当访问学者一年,基本天天去哈佛燕京图书馆看古籍,他也曾去大英图书馆看过敦煌卷子。“这些书都是通过种种渠道外流的,当然希望这些‘孩子’能回家。”他说,另一方面,古籍是人类命运共同体的一部分,流落海外的这些古籍更像一个文化使者,说明我们古老的文明对全人类都具有吸引力。谈到这次汉典重光,用数字化的方式让古籍回归故土。“我们研究古代,特别强调‘同情的理解’,同情,我觉得机器还不能做到,理解可能会实现。”冯教授说,之前研究古籍时,也用过一些点断软件,最开始时,出错率很高,后来机器学习进步很快,点断的错误降低得很快。“我觉得AI可以减少很多不必要的人工活动,是对古籍工作者的一种解放,当然机器没有情感,他能点对,但我觉得他却不能和古人对话。我们常说‘尚友古人’,就是和古人交朋友,交朋友更多是一种情感的交流,我觉得机器现在还不能做到。”“网上看到‘汉典重光’古籍数字化平台的开发,感到很兴奋。让深藏在各公私图书馆的珍贵古籍成为在书房里点击一下就可以获取的资料,这是每个古籍人心中的梦想。”浙江大学文科资深教授、中国敦煌吐鲁番学会前副会长张涌泉,毕生致力于敦煌文献研究,他说,汉典重光的开发,让他的梦想逐渐变得清晰。他希望,借助科技能整理流落在英法俄等国的敦煌文献,让海外流散敦煌写本也能够数字化回归。(原标题《达摩院的扫地僧两年“抄”了20万页古籍专家期待的“游子”回家了》。编辑王金帅)本文来源:浙江日报


转载请注明:http://www.aierlanlan.com/rzdk/7736.html