1 Star 0 Fork 0

mpc852 / MASR

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
create_data.py 2.28 KB
一键复制 编辑 原始数据 按行查看 历史
yeyupiaoling 提交于 2023-03-29 22:23 . 修改创建WenetSpeech方式
import argparse
import functools
from masr.trainer import MASRTrainer
from masr.utils.utils import add_arguments, print_arguments
parser = argparse.ArgumentParser(description=__doc__)
add_arg = functools.partial(add_arguments, argparser=parser)
add_arg('configs', str, 'configs/conformer.yml', '配置文件')
add_arg('annotation_path', str, 'dataset/annotation/', '标注文件的路径')
add_arg('noise_path', str, 'dataset/audio/noise', '噪声音频存放的文件夹路径')
add_arg('save_audio_path', str, 'dataset/audio/merge_audio','合并音频的保存路径')
add_arg('is_change_frame_rate', bool, False, '是否统一改变音频的采样率')
add_arg('only_keep_zh_en', bool, True, '是否只保留中文和英文字符,训练其他语言可以设置为False')
add_arg('max_test_manifest', int, 10000, '生成测试数据列表的最大数量,如果annotation_path包含了test.txt,就全部使用test.txt的数据')
add_arg('count_threshold', int, 2, '字符计数的截断阈值,0为不做限制')
add_arg('num_workers', int, 8, '读取数据的线程数量')
add_arg('num_samples', int, 1000000, '用于计算均值和标准值得音频数量,当为-1使用全部数据')
add_arg('is_merge_audio', bool, False, '是否将多个短音频合并成长音频,以减少音频文件数量,注意会自动删除原始音频文件')
add_arg('max_duration', int, 600, '合并音频的最大长度,单位秒')
args = parser.parse_args()
print_arguments(args=args)
# 获取训练器
trainer = MASRTrainer(configs=args.configs)
# 创建训练数据列表和归一化文件
trainer.create_data(annotation_path=args.annotation_path,
noise_path=args.noise_path,
num_samples=args.num_samples,
count_threshold=args.count_threshold,
is_change_frame_rate=args.is_change_frame_rate,
max_test_manifest=args.max_test_manifest,
only_keep_zh_en=args.only_keep_zh_en,
is_merge_audio=args.is_merge_audio,
save_audio_path=args.save_audio_path,
max_duration=args.max_duration)
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/mpc852/MASR.git
git@gitee.com:mpc852/MASR.git
mpc852
MASR
MASR
release/2.3.x

搜索帮助

344bd9b3 5694891 D2dac590 5694891