点击报名参赛

登录或注册

讯飞开放平台

填写报名信息

个人中心查看

已报名比赛

排名 参赛者姓名 团队名称 分数
    跳转

    赛事简介

    利用开放的方言语音数据集进行模型训练,优化方言种类的识别效果。

    联合国教科文组织统计,世界范围内,每两周就有一种语言消失。语言是文化的载体,中国幅员辽阔, 方言众多,保护方言,刻不容缓。科大讯飞基于“方言保护计划”,面向全球首次开放珍贵的中文方言语音数据集,聚焦方言种类识别问题,向广大人工智能开发者发起挑战,共同推进关于方言的算法研究和保护传承。


    参赛人群:高校师生、企业单位、科研机构、创业团队、个人开发者等。可以以个人或者团队名义参赛,每支队伍规模不超过7人。

    (备注:大赛组委会等有机会提前接触赛题和数据的工作人员禁止参赛,科大讯飞集团员工可以参加比赛排名,但无评奖资格,若名次在获奖范围之列,实际获奖团队顺延)

    大赛日程

    1

    报名 3月22日——7月10日

    1)3月22日启动报名,初赛语音数据集将于4月10日正式开放,参赛选手届时可通过大赛官网下载训练集和开发集。

    2)5月25日-6月19日, 参赛选手可通过大赛官网提交结果进行测试(测试排名结果不计入初赛)。

    2

    初赛 6月20日——7月19日

    1)初赛成绩以参赛选手在初赛时间段内最优成绩为准(不含测试排名)。

    3

    复赛 7月29日——9月19日

    1)大赛官网将公示复赛选手信息。复赛选手通过大赛官网下载新增的训练集和开发集,本地调试算法,在线提交结果(限1次/日)。

    2)复赛成绩以参赛选手在复赛时间段内最优成绩为准。

    3)复赛结果于9月19日11:00公布 。TOP32选手将受邀参加2018全球1024全球开发者节,并获得参赛证书。TOP 8选手获得决赛资格。

    4

    决赛选手支持辅导 9月20日——10月19日

    1)TOP8选手获得讯飞研究院资深科学家的定向支持辅导。

    2)TOP8选手提交决赛答辩 PPT。

    5

    决赛 10月24日

    1)TOP8选手将于全球1024开发者节现场进行决赛。

    2)决赛以答辩(5min陈述+10min问答)的形式进行。根据答辩成绩和复赛成绩综合评分, 评选冠亚季军以及算法菁英奖。

    赛题详情

    方言种类识别 AI 挑战赛任务为汉语方言语言种类识别,即根据给定语音,判断该语音属于哪个方言。科大讯飞全球首次开放覆盖中国六大方言区,总时长约 60 小时的 10 种汉语方言语音数据集,供参加竞赛的科研单位以及开发者免费使用。

    方言识别 AI 挑战赛结果评价指标为分类正确率:即分类正确的语音条数/所有语音条数。训练集合与开发集合供参加竞赛的科研单位以及开发者调试系统使用,测试集合不开放,最终排名以参赛者提交的系统在线上测试集合上的结果为准,分类正确率越高排名越靠前。

    开放数据

    初赛共有六种方言,分别来源于六大方言区,具体为:长沙话(changsha)、河北话(hebei)、南昌话(nanchang)、上海话(shanghai)、闽南话(minnan)和客家话(kejia)。每种方言平均包含6小时的朗读风格语音数据,覆盖40个说话人。数据由各个型号的智能手机采集,录制环境包含安静环境和噪声环境。数据以采样率16000Hz,16比特量化的PCM格式存储。

    数据集包含训练集、开发集和测试集三个部分。训练集每种方言有6000句语音,包含30个说话人,其中15位男性和15位女性,每个说话人200句语音;开发集和测试集分别每种方言包含5个说话人,其中开发集为2名女性和3名男性,测试集为3名女性和2名男性。开发集数据根据语音段的时长分为两类(根据数据集目录区分),一类是小于等于3秒的短时数据,另一类是大于3秒的为长时数据,其中每个说话人两类数据各50句,共100句。训练集、开发集、测试集的说话人均没有重复。数据具体描述见表1。

    注:此次比赛仅需完成大于3秒的任务,小于3秒的任务不做要求。

    为了增加本次比赛技术方案的多样性,每条语音对应文本内容的音素序列标注也将同样提供。

    初赛数据集 训练集 开发集 测试集
    ≤3s >3s
    方言代码 方言 口音区域 说话人 每人句数 句子总数 说话人 每人句数 句子总数 说话人 每人句数 句子总数 说话人 每人句数 句子总数
    nignxia 宁夏话 固原县(原州区)、彭阳县、泾源县 30 200 6000 5 50 250 5 50 250 5 100 500
    hefei 合肥话 合肥 肥西 肥东 30 200 6000 5 50 250 5 50 250 5 100 500
    sichuan 四川话 成都 德阳 绵阳 30 200 6000 5 50 250 5 50 250 5 100 500
    shan3xi 陕西话 西安市 铜川市 咸阳市 渭南市 商洛市 30 200 6000 5 50 250 5 50 250 5 100 500
    changsha 长沙话 长沙及周边地区 30 200 6000 5 50 250 5 50 250 5 100 500
    hebei 河北话 石家庄、保定、衡水及周边地区 30 200 6000 5 50 250 5 50 250 5 100 500
    nanchang 南昌话 南昌及周边地区 30 200 6000 5 50 250 5 50 250 5 100 500
    shanghai 上海话 上海及周边地区 30 200 6000 5 50 250 5 50 250 5 100 500
    kejia 客家话 梅县、梅州、惠阳等及周边地区 30 200 6000 5 50 250 5 50 250 5 100 500
    minnan 闽南话 厦门、漳州、泉州等周边地区 30 200 6000 5 50 250 5 50 250 5 100 500

    表1 数据详细描述(注:高亮字体部分为复赛新增数据集)

    参赛系统

    参赛系统的搭建方法不限,所有机器学习的方法均可以使用,并且参赛系统可以是多种方法以任意形式的结合,比如投票法等等。两个不同的比赛任务可以采用两套完全独立的系统。比赛采用离线测试的方式进行,因此本次比赛对参赛系统的响应时间不做要求。


    同时,考虑到复赛和初赛的难度差异,复赛和初赛也可以采用不同的系统。


    评测方式

    本次比赛的测试集是不公开的,因此需要参赛者提交自己的系统(不提供训练所需的计算平台,模型由参赛者自行训练完成),具体操作方式如下:


    a)初赛提交系统时,请提交参赛者名称、第一作者、该系统对应的任务、参赛系统(提交方式见下面详述)、训练集和开发集上的分类正确率


    b)复赛提交系统时,需要额外提交一份参赛系统的论文或者说明书(最好能够附带提供源代码),详细介绍系统的构成、训练方法和对应的参数


    c)如无特殊情况,每天上午11点在官方网页上公布各个参赛者在测试集上的分类正确率并对结果进行排序(每个参赛单位的结果以最新提交的为准)


    为了能够正确的进行测试,所有测试均在相同配置的Linux 64位服务器上统一采用CPU进行测试。因此提交的系统不能是windows等其他操作系统下的程序,并且不能和GPU、FPGA等其他硬件相关联。同时为了方便参赛者更好的参加比赛,本次比赛制定了详细的参赛系统提交和评估系统,介绍如下:


    评测系统

    1.评测系统目录结构


    /dataset………………………………………………测试数据目录,评测代码必须遍历此目录下所有音频文件(后缀名为pcm)进行测试


    /inference……………………………………………..评测代码及资源目录,系统运行的当前路径


    /result…………………………………………….评测代码中要创建此目录,并请将评测结果以result.txt命名,存放在此目录,文件格式见《result.txt》


    2.本地开发调试


    a)训练——参赛者下载训练集和开发集,自行训练


    可参考基线系统的LSTM模型方案,使用开源深度学习框架进行模型训练,也可以采用其他技术方案。完成模型训练后再进行本地评测调试。


    b)本地评测调试——使用开源深度学习训练框架(推荐)


    请从公开镜像仓库下载对应版本的深度学习镜像CPU版本,编写本地程序进行评测。以 pytorch 工具为例:


    I.下载镜像,docker pull floydhub/pytorch:0.4.0-py2.29


    II.下载开发集,并存放到 /dataset目录,将评测代码inference.sh及评测所需资源复制到 /inference目录


    III.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result floydhub/pytorch:0.4.0-py2.29 /inference/inference.sh


    IV.查看输出结果(result\result.txt文件),并检查该输出结果的正确性


    其他框架与此类似。


    c)使用非开源深度学习训练框架


    首先,要将使用的深度学习训练框架制作成docker镜像,上传至公开镜像仓库(推荐使用国内稳定镜像仓库服务,如UCloud),制作详情可参考docker官方文档,具体操作如下:


    I.在hub.docker.com注册账号,并创建仓库


    II.本地执行docker tag your_demo your_account/your_demo:latest


    III.本地执行docker push account/your_demo:latest,等待命令执行成功后,即可在hub.docker.com网页上,看到新提交的镜像信息


    镜像提交完成后,参考使用开源深度学习训练框架中的步骤,进行本地开发和调试,具体的为:


    IV. 下载上传的镜像,docker pull yourtoolname


    V.下载开发集到 /dataset目录,将评测代码inference.sh及评测所需资源复制到 /inference目录


    VI.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result yourtoolname /inference/inference.sh


    VII.查看输出结果,并检查该输出结果的正确性


    3.提交评测系统


    a)将/inference目录打包成tar文件,tar –cvf inference.tar inference/


    b)在比赛官网中评测系统提交页面进行上传


    4.线上验证及评测


    a)配置系统所需的镜像仓库地址,镜像入口及验证参数(/dataset目录由系统自动将开发集挂载到镜像内)


    b)点击”运行”,等待评测结果,确保提交的测试程序能够遍历运行环境下/dataset目录内所有pcm文件


    c)如评测报错或效果异常,请排查/inference目录结构、镜像等配置信息


    基线系统介绍

    官方提供一个基于神经网络的端到端方言识别系统。该系统采用LSTM(Long Short-Term Memory,LSTM)模型,并以CE(cross entropy,CE)准则优化模型。其中语音特征采用40维的FB(Filter Bank,FB)特征,并对特征进行整句均值规整处理;LSTM是隐层节点为128的1层单向结构,再连接全连接层后进行softmax,并做帧级输出值的平均,用于预测方言的类别标签,此处用于预测方言的个数为6。在测试时,待测语音经过LSTM模型后会得到维度等于方言个数(6)的得分向量,维度最高值对应的方言即为判定的方言种类。


    System Acc(dev set >3s) Acc(dev set ≤3s) Acc(test set >3s) Acc(test set ≤3s)
    Baseline 71.93 57.40 66.20 54.53

    限制条件

    为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。不符合规定的情况包括以下几种:


    a)参赛系统搭建过程中有任何一个环节(包括数据加噪、模型初始化等)用到了官方发布的训练数据集之外的其他数据


    b)人工对发布数据集的音素序列标注进行矫正或改动


    c)其他对发布数据集的人工处理,比如人工对数据集进行语音端点检测等


    以下情况是允许的:


    a)仅利用官方发布的训练数据集进行数据的机器仿真和加噪


    b)利用官方发布数据集中已公布的所有信息,包括性别、说话人等


    数据集

    数据集样例 | 下载

    注:完整的初赛数据集请在报名成功后前往个人中心-我的比赛,进入方言识别比赛专题页面进行下载


    FAQ

    1、我如何了解自己的参赛状态以及提交作品?


    请前往“个人中心”(通过大赛官网的菜单栏中“个人中心”进入)查看自己已报名的比赛,点击已报名的比赛可进入相应赛题的专题页面查看赛题详情以及提交作品查看成绩等。


    2、如何和组委会取得联系?


    您可以通过以下三种方法联系大赛组委会:


    (1)发送邮件至:aicompetition@iflytek.com


    (2)加入官方微信群:请添加AI大赛助手微信号——iFLYTEKAI(不区分大小写),AI大赛助手会邀请您进入AI大赛官方微信群


    (3)前往大赛论坛