完美体育·(中国)官方网站
完美体育古文字有了“身份证”!合合信息、上海大学、华南理工大合发布首个古彝文编码
发布:2023-10-10 12:54:29 浏览:

  完美体育古文字有了“身份证”!合合信息、上海大学、华南理工大合发布首个古彝文编码“大字典”中华民族共同体意识的形成之路,离不开与各民族间在历史、经济、文化层面的共建共享。伴随着小康社会的发展,国家对于传统文化保护、传承的重视程度正在不断加强。2021、2022年,国务院办公厅接连印发《关于进一步加强非物质文化遗产保护工作的意见》 、《关于推进实施国家文化数字化战略的意见》,强调了非遗及少数民族文化保护对于延续历史文脉、坚定文化自信、推动文明交流互鉴、建设社会主义文化强国的重要意义,明确提出“中华文化全景呈现,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。

  作为世界上最古老的文字之一,古彝文是中华文明地图上神秘而耀眼的印记。合合信息联合上海大学、华南理工大学团队针对现有的《西南彝志》、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库(简称“数据库”)。

完美体育古文字有了“身份证”!合合信息、上海大学、华南理工大合发布首个古彝文编码(图1)

  据悉,数据库包含上千个古彝文基础编码,通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛,以数字化手段助力传统文化保护、创新之路。

  古彝文至今已有千年历史。“古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》,古彝文多达87046字,比《康熙字典》还要多,是记录少数民族历史沿革、管理制度、民风民俗的重要载体。

  研究古彝文字集,有助于理解尚未被翻译成汉文完美体育、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护,同时通过建立古彝文数据库,填补当前国内外研究的空白。合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院,共同解决数据库建设中的学术性、技术性难点。

  要获取古彝文原籍并非易事。“研究者要向持有经书的布摩(彝族祭司)购买某本祖传书籍,一般来说他们是不愿意的,布摩以卖书为耻辱,有的人在入葬时要求与自己的经书一同火化。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑提到,有一部分较为开明的布摩愿意转让经书,让古彝文的研究得以进行,这对于学术研究、文化保护而言无疑是幸运的。

  获取了古籍资料,文字识别的技术层也面临着挑战。项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号能够将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。

完美体育古文字有了“身份证”!合合信息、上海大学、华南理工大合发布首个古彝文编码(图2)

完美体育古文字有了“身份证”!合合信息、上海大学、华南理工大合发布首个古彝文编码(图3)

  据了解,传统的古彝文来源于岩书、布书、竹简等,在潮湿的自然环境下难以完整保存,即便被拍摄成图片,斑驳的画面也影响了后续的内容识别。在收集语料收集过程中,研究团队采用了合合信息旗下扫描全能王的“智能高清滤镜”功能,高效解决古彝文图像电子化的问题。

  基于AI技术及智能扫描引擎,“智能高清滤镜”可以自动检测图像中存在的问题并判定图像的优化方式,实现模糊、阴影、屏幕纹等干扰因素一键全处理。比如,对于污渍、残破的彝文古籍,只需通过“智能高清滤镜”轻轻一扫,即可得到一张清晰、平整的图片。

  “智能高清滤镜”可通过深度学习技术,让AI代替人去“思考”,达成图像识别、检测、分析、处理的全链路闭环,最终为用户自动选择出最优处理方案。作为AI届的“老兵”,创立于2006年的结合信息已在智能文字识别、智能图像处理领域进行了十几年深耕,该技术也是合合信息技术优势的典型表现。

  前瞻性的技术研究,也让古彝文识别成为一件“水到渠成”的事情。2021年、2022年世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文识别、西周钟鼎文(金文)识别中的应用。甲骨文和古彝文追溯源头都属于骨刻文,文字自骨刻文起,后发展出甲骨文、金文、小篆、隶书、楷书等。文字间的识别有相通之处,AI技术的精进,或将为人类破译古文字密码带来更多的可能。

  近年来,以甲骨文AI识别、敦煌数字藏经洞为代表的“智能文保”项目,让更多传统优秀文化成果被看见,古彝文亦是如此。

完美体育古文字有了“身份证”!合合信息、上海大学、华南理工大合发布首个古彝文编码(图4)

完美体育古文字有了“身份证”!合合信息、上海大学、华南理工大合发布首个古彝文编码(图5)

  “古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究,文化保护也需要全社会的参与。语言文明是历史留给人类的宝贵财富,承载着过去的民族记忆,也终将成为当下和未来的创新之源。

  中华民族共同体意识的形成之路,离不开与各民族间在历史、经济、文化层面的共建共享。伴随着小康社会的发展,国家对于传统文化保护、传承的重视程度正在不断加强。2021、2022年,国务院办公厅接连印发《关于进一步加强非物质文化遗产保护工作的意见》 完美体育、《关于推进实施国家文化数字化战略的意见》,强调了非遗及少数民族文化保护对于延续历史文脉、坚定文化自信、推动文明交流互鉴、建设社会主义文化强国的重要意义,明确提出“中华文化全景呈现完美体育,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。