2.3K Star 8.1K Fork 4.3K

GVPMindSpore / mindspore

 / 详情

[ST][MS][MF][r2.3][qwen_7b/14b][batch推理][910B3 1P]网络batch推理性能劣化严重,generated tokens: 1743 tokens; generate speed: 6.325214114084491 tokens/s

DONE
Bug-Report
创建于  
2024-04-18 11:17
name about labels
Bug Report Use this template for reporting a bug kind/bug

Describe the current behavior / 问题描述 (Mandatory / 必填)

[r2.3][qwen_7b/14b][910B3 8P]网络训练失败,ValueError: Can't find class type optimizer class name AdamWeightDecayX in class registry
模型仓地址:https://gitee.com/mindspore/mindformers/blob/dev/research/qwen/qwen.md

Environment / 环境信息 (Mandatory / 必填)

  • Hardware Environment(Ascend/GPU/CPU) / 硬件环境:

Please delete the backend not involved / 请删除不涉及的后端:
/device ascend/

  • Software Environment / 软件环境 (Mandatory / 必填):
    -- MindSpore version (e.g., 1.7.0.Bxxx) :
    -- Python version (e.g., Python 3.7.5) :
    -- OS platform and distribution (e.g., Linux Ubuntu 16.04):
    -- GCC/Compiler version (if compiled from source):

CANN版本:MILAN-Florence-ASL/ABL V100R001C17SPC001B240 Alpha
Mindspore版本:MindSpore_r2.3_d51c17c7(MindSporeDaily)
MindFormers版本:MindFormers_dev_a4fc9e6d(MindFormersDaily)

  • Excute Mode / 执行模式 (Mandatory / 必填)(PyNative/Graph):

Please delete the mode not involved / 请删除不涉及的模式:
/mode graph

Related testcase / 关联用例 (Mandatory / 必填)

用例仓地址:MindFormers_Test/cases/qwen/14b/train/
用例:
test_mf_qwen_7b_infer_batch_incremental_1p_0001
test_mf_qwen_14b_infer_alpaca_batch_incremental_1p_0001

Steps to reproduce the issue / 重现步骤 (Mandatory / 必填)

  1. get code from mindformers
  2. cd mindformers/reserach
  3. 修改配置文件中的权重、数据集路径
  4. bash run_singlenode.sh "python qwen/run_qwen.py --config qwen/run_qwen_14b.yaml --load_checkpoint /home/workspace/large_model_ckpt/qwen/14b/ --use_parallel True --run_mode finetune --auto_trans_ckpt True --train_data /home/workspace/large_model_dataset/qwen/alpaca-fastchat2048_qwen_all.mindrecord" /home/workspace/config/hccl_8p.json [0,8] 8
  5. 验证网络是否推理成功
  6. 验证网络编译时间是否达标

Describe the expected behavior / 预期结果 (Mandatory / 必填)

网络训推理成功,编译时间达标,性能达标

Related log / screenshot / 日志 / 截图 (Mandatory / 必填)

2024-04-17 23:06:50,784 - mindformers[mindformers/generation/text_generator.py:664] - WARNING - When do_sample is set to False, top_k will be set to 1 and top_p will be set to 0, making them inactive.
2024-04-17 23:06:50,784 - mindformers[mindformers/generation/text_generator.py:668] - INFO - Generation Config is: {'max_length': 128, 'max_new_tokens': None, 'min_length': 0, 'min_new_tokens': None, 'num_beams': 1, 'do_sample': False, 'use_past': False, 'temperature': 1.0, 'top_k': 0, 'top_p': 1.0, 'repetition_penalty': 1, 'encoder_repetition_penalty': 1.0, 'renormalize_logits': False, 'pad_token_id': 151643, 'bos_token_id': 1, 'eos_token_id': 151643, '_from_model_config': True}
2024-04-17 23:06:50,785 - mindformers[mindformers/generation/text_generator.py:223] - INFO - The generation mode will be **GREEDY_SEARCH**.
2024-04-17 23:11:26,349 - mindformers[mindformers/generation/text_generator.py:847] - INFO - total time: 275.56379413604736 s; generated tokens: 1743 tokens; generate speed: 6.325214114084491 tokens/s

Special notes for this issue/备注 (Optional / 选填)

走给李洋

评论 (6)

sunjiawei999 创建了Bug-Report
sunjiawei999 复制于任务 I9HO47
sunjiawei999 添加了
 
kind/bug
标签
sunjiawei999 添加了
 
attr/function
标签
sunjiawei999 添加了
 
stage/func-debug
标签
sunjiawei999 添加了
 
sig/mindformers
标签
sunjiawei999 添加了
 
device/ascend
标签
sunjiawei999 添加了
 
v2.3.0
标签
展开全部操作日志

Please assign maintainer to check this issue.
请为此issue分配处理人。
@sunjiawei999

感谢您的提问,您可以评论//mindspore-assistant更快获取帮助:

  1. 如果您刚刚接触MindSpore,或许您可以在教程找到答案
  2. 如果您是资深Pytorch用户,您或许需要:
  1. 如果您遇到动态图问题,可以设置set_context(pynative_synchronize=True)查看报错栈协助定位
  2. 模型精度调优问题可参考官网调优指南
  3. 如果您反馈的是框架BUG,请确认您在ISSUE中提供了MindSpore版本、使用的后端类型(CPU、GPU、Ascend)、环境、训练的代码官方链接以及可以复现报错的代码的启动方式等必要的定位信息
  4. 如果您已经定位出问题根因,欢迎提交PR参与MindSpore开源社区,我们会尽快review
sunjiawei999 修改了标题
sunjiawei999 修改了描述
sunjiawei999 修改了描述
sunjiawei999 复制了任务 I9HOHZ
sunjiawei999 移除了
 
v2.3.0
标签
sunjiawei999 移除了
 
v2.3.0
标签
sunjiawei999 添加了
 
v2.3.0
标签
sunjiawei999 移除了
 
v2.3.0
标签
sunjiawei999 添加了
 
v2.3.0.rc2
标签
xiangminshan 负责人xiangminshan 修改为liyang
fangwenyi 添加了
 
v2.3.0
标签
fangwenyi 移除了
 
v2.3.0.rc2
标签
fangwenyi 移除了
 
v2.3.0.rc2
标签
fangwenyi 添加了
 
v2.3.0.rc2
标签
fangwenyi 移除了
 
v2.3.0.rc2
标签
xiangminshan 添加了
 
v2.3.0.rc2
标签
hsshuai 移除了
 
v2.3.0
标签
hsshuai 移除了
 
v2.3.0
标签

可以调整测试脚本,根据测试用例中的seq_length修改yaml中的seq_length

@liyang

  1. 和测试确认用例中推理使用seq_length;
  2. qwen文档中更新seq_length;
hsshuai 添加了
 
rct/bugfix
标签
hsshuai 添加了
 
rca/codelogic
标签
hsshuai 添加了
 
ctl/solutiontest
标签
hsshuai 里程碑B-SIG-MindFormers 修改为B-SolutionTest
hsshuai 负责人liyang 修改为sunjiawei999
hsshuai 添加协作者liyang
hsshuai 任务状态TODO 修改为VALIDATION

Appearance & Root Cause

qwen7B、14B长序列特性配置文件默认给出的seq_length=8k,测试安装默认配置文件里的8192序列长度跑的推理,与先前1024性能有很大差异

Fix Solution

Redeme里推理给出的序列长度设置为1024

Relation PR:
https://e.gitee.com/mind_spore/repos/mindspore/mindformers/pulls/2811

Selftest Result:
见pr

Self-test Report & DT Review
是否需要补充ST/UT:否
原因:文档不涉及ST/UT

回归版本:Mf:dev_20240428121529_730fcee31a4fea
MS:master_20240428093621_915305f3f8
回归步骤:参考issue步骤
基本问题:不通过

这个问题单跟踪 # I9IVS6

回归人员:孙佳伟

回归时间:2024-4
输入图片说明

i-robot 添加了
 
foruda
标签
sunjiawei999 任务状态VALIDATION 修改为DONE

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(6)
11016979 xiangmd 1654824581
Python
1
https://gitee.com/mindspore/mindspore.git
git@gitee.com:mindspore/mindspore.git
mindspore
mindspore
mindspore

搜索帮助