中国几千年辉煌的华夏文明,留下了海量的古籍文献资料,这些文字记录承载着丰富的历史信息和文化传承。其中,根据《滇川黔桂彝文字集》,在民间流通使用的原生态彝文——“古彝文”就多达87046字。作为一门“濒临”消亡的语言,其典籍的数字化之路也面临着巨大的挑战。
近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术,对七万多个字符开展统一编码并编制成精简的字典,帮助人们降低古彝文书籍、文献阅读的门槛,是古文字数字化的重要成果之一。
古彝文典籍编码、识别过程(图源:西南彝志)
据了解,本次构建古彝文基础编码数据库建设中的学术性、技术性难点主要有两个方面:一方面是文字符集庞大,且缺乏成熟的手写样本库,异体字、变体字丰富,字符和释义呈“一对多、多对一”的常态;其次是文字大多被记录在岩书、布书、竹简等不利于潮湿环境储存的材质上,造成模糊不清或残缺不全,难以直接完整提取字符信息。
图像处理对于文档处理中所涉及的文字识别等后续流程非常关键,构建古彝文“大字典”需要解决的首要问题就是在文字识别之前的低质量图片资料处理。在古彝文语料收集过程中,研究团队选取合合信息旗下的智能扫描产品“扫描全能王”作为古籍图片采集工具。
扫描全能王“智能高清滤镜”古籍扫描效果(图源:西南彝志)
扫描全能王的“智能高清滤镜”功能基于AI技术及智能扫描引擎,自动检测图像中存在的问题,智能判定图像的优化方式,实现模糊、阴影、手指、屏幕纹等干扰因素一键处理。对于污渍、残破的彝文古籍,只需用“智能高清滤镜”轻轻一扫,即可得到一张清晰、平整的图片,减轻后续图片处理工作,缩短内容识别、编码的操作周期。
值得一提的是,合合信息在智能文字识别领域已有多年深耕经验。此前公司已在AI识别甲骨文、西周钟鼎文(金文)领域进行了领先的探索和研究,为此次古彝文识别工作积累了重要经验,并奠定了良好的技术基础。其相关项目曾获得央视、新华社、《人民日报》等多家主流媒体的关注。
文化数据要素和人工智能技术的融合,已经成为文化�;び氪械男峦揪�,合合信息在未来也将继续用技术服务,让更多优秀文明成果被看见,推动文化数字化战略的有效实施和文化产业的高质量发展。
(新媒体责编:wa12)
声明:
1、凡本网注明“人民交通杂志”/人民交通网,所有自采新闻(含图片),如需授权转载应在授权范围内使用,并注明来源。
2、部分内容转自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行。电话:010-67683008
人民交通24小时值班手机:17801261553 商务合作:010-67683008转602 E-mail:[email protected]
Copyright 人民交通杂志 All Rights Reserved 版权所有 复制必究 百度统计 地址:北京市丰台区南三环东路6号A座四层
增值电信业务经营许可证号:京B2-20201704 本刊法律顾问:北京京师(兰州)律师事务所 李大伟
京公网安备 11010602130064号 京ICP备18014261号-2 广播电视节目制作经营许可证:(京)字第16597号