方言种类识别 AI 挑战赛
赛事简介
利用开放的方言语音数据集进行模型训练,优化方言种类的识别效果。
联合国教科文组织统计,世界范围内,每两周就有一种语言消失。语言是文化的载体,中国幅员辽阔, 方言众多,保护方言,刻不容缓。科大讯飞基于“方言保护计划”,面向全球首次开放珍贵的中文方言语音数据集,聚焦方言种类识别问题,向广大人工智能开发者发起挑战,共同推进关于方言的算法研究和保护传承。
赛题详情
方言种类识别 AI 挑战赛任务为汉语方言语言种类识别,即根据给定语音,判断该语音属于哪个方言。科大讯飞全球首次开放覆盖中国六大方言区,总时长约 60 小时的 10 种汉语方言语音数据集,供参加竞赛的科研单位以及开发者免费使用。
方言识别 AI 挑战赛结果评价指标为分类正确率:即分类正确的语音条数/所有语音条数。训练集合与开发集合供参加竞赛的科研单位以及开发者调试系统使用,测试集合不开放,最终排名以参赛者提交的系统在线上测试集合上的结果为准,分类正确率越高排名越靠前。
开放数据
初赛共有六种方言,分别来源于六大方言区,具体为:长沙话(changsha)、河北话(hebei)、南昌话(nanchang)、上海话(shanghai)、闽南话(minnan)和客家话(kejia)。每种方言平均包含6小时的朗读风格语音数据,覆盖40个说话人。数据由各个型号的智能手机采集,录制环境包含安静环境和噪声环境。数据以采样率16000Hz,16比特量化的PCM格式存储。
数据集包含训练集、开发集和测试集三个部分。训练集每种方言有6000句语音,包含30个说话人,其中15位男性和15位女性,每个说话人200句语音;开发集和测试集分别每种方言包含5个说话人,其中开发集为2名女性和3名男性,测试集为3名女性和2名男性。开发集数据根据语音段的时长分为两类(根据数据集目录区分),一类是小于等于3秒的短时数据,另一类是大于3秒的为长时数据,其中每个说话人两类数据各50句,共100句,开发集按时长分成两类的目的在于让参赛者评估系统对不同时长音频的分类效果。训练集、开发集、测试集的说话人均没有重复。(数据具体描述请至PC端查看)。
注:此次比赛仅需完成大于3秒的任务,小于3秒的任务不做要求。
为了增加本次比赛技术方案的多样性,每条语音对应文本内容的音素序列标注也将同样提供。
参赛系统
参赛系统的搭建方法不限,所有机器学习的方法均可以使用,并且参赛系统可以是多种方法以任意形式的结合,比如投票法等等。两个不同的比赛任务可以采用两套完全独立的系统。比赛采用离线测试的方式进行,因此本次比赛对参赛系统的响应时间不做要求。
同时,考虑到复赛和初赛的难度差异,复赛和初赛也可以采用不同的系统。
评测方式
本次比赛的测试集是不公开的,因此需要参赛者提交自己的系统(不提供训练所需的计算平台,模型由参赛者自行训练完成),具体操作方式如下:
a) 初赛提交系统时,请提交参赛者名称、第一作者、该系统对应的任务、参赛系统(提交方式见下面详述)
b) 复赛提交系统时,需要额外提交一份参赛系统的论文或者说明书(最好能够附带提供源代码),详细介绍系统的构成、训练方法和对应的参数
c) 如无特殊情况,每天上午11点在官方网页上公布各个参赛者在测试集上的分类正确率并对结果进行排序(每个参赛单位的结果以最新提交的为准)
为了能够正确的进行测试,所有测试均在相同配置的Linux 64位服务器上统一采用CPU进行测试。因此提交的系统不能是windows等其他操作系统下的程序,并且不能和GPU、FPGA等其他硬件相关联。同时为了方便参赛者更好的参加比赛,本次比赛制定了详细的参赛系统提交和评估系统(为了更好地观看体验,具体介绍请至PC端查看)。
限制条件
为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。
不符合规定的情况包括以下几种:
a) 参赛系统搭建过程中有任何一个环节(包括数据加噪、模型初始化等)用到了官方发布的训练数据集之外的其他数据
b) 人工对发布数据集的音素序列标注进行矫正或改动
c) 其他对发布数据集的人工处理,比如人工对数据集进行语音端点检测等
以下情况是允许的:
a) 仅利用官方发布的训练数据集进行数据的机器仿真和加噪
b) 利用官方发布数据集中已公布的所有信息,包括性别、说话人等
FAQ
1. 我如何了解自己的参赛状态以及提交作品?
请前往“个人中心”(通过大赛官网的菜单栏中“个人中心”进入)查看自己已报名的比赛,点击已报名的比赛可进入相应赛题的专题页面查看赛题详情以及提交作品查看成绩等。
2. 如何和组委会取得联系。
您可以通过以下三种方法联系大赛组委会:
(1) 发送邮件至:aicompetition@iflytek.com
(2) 加入官方微信群:请添加AI大赛助手微信号——iFLYTEKAI(不区分大小写),AI大赛助手会邀请您进入AI大赛官方微信群
(3) 前往大赛论坛