当前仓库属于关闭状态,部分功能使用受限,详情请查阅 仓库状态说明
1 Star 0 Fork 8

jsaon_wei / 百度智能云语音识别m4aTotxt(支持扩展其他音频,批量识别)
关闭

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MIT

项目介绍

本程序为百度智能云的语音识别标准版的封装示例demo,可直接使用。

百度官方技术文档:https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre

百度智能云控制台(可以到这里申请appid、apikey、secretkey信息):https://console.bce.baidu.com/ai/#/ai/speech/overview/index

(目前百度智能云的语音识别标准版免费使用,调用次数无限制,欢迎使用哦)(20210624 更新,目前标准版需要开通付费才能使用了,但单词识别的价格不贵,支持按量付费,如果你少量测试使用的话,开通按量付费是一个比较好的选择)

官方除了标准版还有个极速版,极速版用完免费次数后需要收费。标准版速度不算特别快,不是秒回的,一分钟的文件识别大约需要2-3秒,对速度有要求的朋友情自行改为使用极速版。

本程序借助使用了开源工具ffmpeg和ffprobe,项目已附带目前官网下载的最新静态独立版本。

程序特色

  1. 默认仅支持苹果录音的m4a格式识别,单文件识别后写到单文件的txt中。
  2. 轻松支持格式扩展,预计可通过加一两句代码实现mp3,wav,amr等其他音频格式的语音识别(已经加了说明在代码中,扩展方便)
  3. 支持多文件批量识别,子目录文件识别。
  4. 全面支持中文文件名或目录。
  5. 支持展示识别结果,总体进度和总消耗时间。
  6. 支持长语音识别(无论多长都行),程序会自动拆分成60秒语音分别识别。(因为目前百度智能云限制单次识别最多60秒)
  7. 支持设定QPS(每秒调用次数)限制数,避免识别速度过快异常。(目前看免费版默认是QPS = 5)
  8. 还有其他各种特色等待你去挖掘哦~

如何使用

  1. 首先请到前文提到的百度智能云官网注册(可使用百度账号登录),认证为开发者后,创建应用,应用权限需包含“段语音识别”。获取到你对应的appid、apikey、secretkey。

  2. 下载项目到本地并解压,将baidu-yuyin-m4aTotxt-share.py这个文件重命名为baidu-yuyin-m4aTotxt.py。打开baidu-yuyin-m4aTotxt.py这个文件,在配置部分填入你申请的appid、apikey、secretkey并保存。

  3. 安装环境依赖:

    本python程序在python3.8.1版本中开发。你的包依赖可以安装到系统python中或virtualenv中。

    使用cmd运行如下代码安装:

    pip install -r requirements.txt
  4. 复制粘贴你要识别的音频文件(默认支持m4a格式,其他可轻松修改代码扩展)到audio文件夹(文件夹名可配置)内,支持多层文件夹复制进来。(含有子目录的,识别结果会保存到对应子目录你这个音频文件旁)支持批量识别,所以可以把所有的文件都复制进来。

  5. 使用cmd运行程序识别:

    python baidu-yuyin-m4aTotxt.py

    运行过程中会输出识别结果,现在在做什么和总进度提醒,中间尽量不要去操作audio文件夹,待结束后再看。

更新日志

V1.1 更新日志 20200215:

  1. 补充上一版本漏上传的audio文件夹。

V1.0 更新日志 20200215:

  1. 版本初始发布,已经多次经过测试,并优化了控制台输出内容。
MIT License Copyright (c) 2020 雪山凌狐 Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

简介

本程序为百度智能云的语音识别标准版的封装示例demo,可直接使用。 展开 收起
Python
MIT
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/jason_wei/baidu-yuyin-m4aTotxt.git
git@gitee.com:jason_wei/baidu-yuyin-m4aTotxt.git
jason_wei
baidu-yuyin-m4aTotxt
百度智能云语音识别m4aTotxt(支持扩展其他音频,批量识别)
master

搜索帮助

14c37bed 8189591 565d56ea 8189591