自动识别方言

自动识别方言方言是一个宝库，里边蕴含的东西太多了。如果只剩下普通话，就缺乏了语言的乐趣。但目前方言正在消失，方言应用的窗口期大约是二三十年，AI识别方言的实际困难很大，经济价值不大，所以很少有人愿意推动做这件事。”各地方言常以口语形式流传，缺乏对应文字，并且难以收集，可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据，如果能够取消数据获取的壁垒，将语音数据开放成公共资产，对研究者而言是一大利好。

尽管信也科技金融业务带来的客服语音积累了方言语料，但从大量语音中提取方言数据又是另一个挑战，从10000小时的语音数据中找出100小时的方言犹如大海捞针。识别方言的距离有助于解决这一难题，但这只是AI识别方言的解决方案之一，仍有其他解决方案可以探索。

在倪博溢看来，AI识别繁多的方言，不能依靠逐个击破，而是要研究方言的底层逻辑和特点，构建统一识别框架。同时大模型的预训练可以自我学习，探索借助大模型技术提高识别准确性。倪博溢提出一种设想，由于音标是固定的，能否利用国际音标序列标注各种方言，构建语言模型识别方言，他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题（即持续性常态赛题，参赛者可长期打擂台），支持社区共建语音语料和模型算法，以较低成本服务于方言保护

首页标题 ꄲ 产品 ꄲ 自动识别方言

ꄴ前一个：无

ꄲ后一个：无

넶浏览量：0