频道栏目
首页 > 资讯 > IT资讯 > 正文

谷歌开源语音命令数据集,以此帮助开发者搭建基础的语音交互

2017-08-25 16:32:00         来源:红黑联盟   作者:小邓
收藏   我要投稿

谷歌公司的研发工程师经常在一些场所被问到的一个问题,

怎么才能够使 手机的智能学习设备做到语音识别和其它 音频的识别,其中就有关键词或者指令!

虽然,现在市场上出现了些很优秀的开源语音识别系统,其中就有Kaldi,就能把神经网络作为其中的一个模块。但其高度复杂性,让它们并不适合作为解决简单任务的指南。更重要的是,在对于新手而言,免费、可公开获取的数据集并不多,经过预处理的、或适合于简单的关键词检测的也是相对很少。

谷歌开源语音命令数据集,帮助开发者搭建基础的语音交互

为解决这样一种问题,谷歌的TensorFlow 和 AIY 团队共同创建了Speech Commands Dataset,即“语音命令数据集”,并且基于它向TensorFlow 添加训练和推理的示例代码。

据外部消息,谷歌在今日宣布开源该数据集。

对 30 个命令短语,该数据集有 65000 次的长约一秒钟的发音。这来自数千个不同的人向AIY 网站提交的贡献。它以 Creative Commons BY 4.0 许可发布,随着新贡献的添加,该数据集在未来会不断扩大。

建立这个数据集的目的,是帮助大家为应用创建基础但有用的语音交互,比如“Yes”、“No”、数字、方向等词语。谷歌也已经将开发这一数据集的基础设施开源,并且希望看到更多人借此创建更多版本的数据集,尤其是在对冷门语言和应用。

一开始还有一些用户不知道怎么使用谷歌基于该数据集开发的识别技术,下面小编就简诉这一使用步骤,用户通过下载预建的TensorFlow 安卓演示 APP,打开“TF Speech”,另外,用户还可以通过TensorFlow.org 的音频识别tutorial学习怎么开发你自己的模型。

上一篇:Facebook最具吸引力的视频主题竟是食品
下一篇:微软申请增强现实魔杖专利:开发一款魔杖式控制器
相关文章
图文推荐
文章
推荐
热门新闻

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站