同步操作将从 雪山凌狐/百度智能云语音识别m4aTotxt(支持扩展其他音频,批量识别) 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
本程序为百度智能云的语音识别标准版的封装示例demo,可直接使用。
百度官方技术文档:https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre
百度智能云控制台(可以到这里申请appid、apikey、secretkey信息):https://console.bce.baidu.com/ai/#/ai/speech/overview/index
(目前百度智能云的语音识别标准版免费使用,调用次数无限制,欢迎使用哦)(20210624 更新,目前标准版需要开通付费才能使用了,但单词识别的价格不贵,支持按量付费,如果你少量测试使用的话,开通按量付费是一个比较好的选择)
官方除了标准版还有个极速版,极速版用完免费次数后需要收费。标准版速度不算特别快,不是秒回的,一分钟的文件识别大约需要2-3秒,对速度有要求的朋友情自行改为使用极速版。
本程序借助使用了开源工具ffmpeg和ffprobe,项目已附带目前官网下载的最新静态独立版本。
首先请到前文提到的百度智能云官网注册(可使用百度账号登录),认证为开发者后,创建应用,应用权限需包含“段语音识别”。获取到你对应的appid、apikey、secretkey。
下载项目到本地并解压,将baidu-yuyin-m4aTotxt-share.py这个文件重命名为baidu-yuyin-m4aTotxt.py。打开baidu-yuyin-m4aTotxt.py这个文件,在配置部分填入你申请的appid、apikey、secretkey并保存。
安装环境依赖:
本python程序在python3.8.1版本中开发。你的包依赖可以安装到系统python中或virtualenv中。
使用cmd运行如下代码安装:
pip install -r requirements.txt
复制粘贴你要识别的音频文件(默认支持m4a格式,其他可轻松修改代码扩展)到audio文件夹(文件夹名可配置)内,支持多层文件夹复制进来。(含有子目录的,识别结果会保存到对应子目录你这个音频文件旁)支持批量识别,所以可以把所有的文件都复制进来。
使用cmd运行程序识别:
python baidu-yuyin-m4aTotxt.py
运行过程中会输出识别结果,现在在做什么和总进度提醒,中间尽量不要去操作audio文件夹,待结束后再看。
V1.1 更新日志 20200215:
V1.0 更新日志 20200215:
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。