正在寻找可用于训练支持语音的应用程序的开源多语言数据集语音的开发人员、爱好者和制造商,可能有兴趣知道NVIDIA和 Mozilla 发布了最新的通用语音数据集,超过 13,000 小时的众包语音数据,如并向语料库添加另外 16 种语言。Common Voice 是世界上最大的开放数据语音数据集,旨在实现语音技术的大众化,并已被世界各地的开发人员、研究人员和学者使用。
“NVIDIA 已在 NGC 中免费发布多语言语音识别模型,作为实现语音技术民主化的合作伙伴使命的一部分。NeMo 是一个开源工具包,供研究人员开发最先进的对话式 AI 模型。研究人员可以在多语言数据集上进一步微调这些模型。请参阅此笔记本中的示例,该示例在 MCV 日语数据集上微调英语语音识别模型。
贡献者动员他们自己的社区将语音数据捐赠给 MCV 公共数据库,然后任何人都可以使用它来训练语音技术。作为 NVIDIA 与 Mozilla Common Voice 合作的一部分,在此数据集和其他公共数据集上训练的模型可通过名为 NVIDIA NeMo 的开源工具包免费提供。”
最新的通用语音数据集现在包含 13,905 小时,比之前的版本增加了 4,622 小时,并在数据集中引入了 16 种新语言,包括巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语、豪萨语。按总小时数计算,通用语音数据集中的前五种语言是英语(2,630 小时)、基尼亚卢旺达语(2,260 小时)、德语(1,040 小时)、加泰罗尼亚语(920 小时)和世界语(840 小时)。
“百分比增长最多的语言是泰语(增长近 20 倍,从 12 小时增长到 250 小时)、卢干达语(增长 9 倍,从 8 小时增长到 80 小时)、世界语(增长超过 7 倍,从 100 小时增长到 840 小时) )和泰米尔语(增长超过 8 倍,从 24 小时到 220 小时)。”
标签: 应用程序