name | about | labels |
---|---|---|
Bug Report | Use this template for reporting a bug | kind/bug |
[ST][MS][MF][glm3-6b-32k]网络KBK推理性能劣化,低于竞品的0.5倍
模型仓地址:https://gitee.com/mindspore/mindformers/blob/dev/docs/model_cards/glm3.md
Ascend
/GPU
/CPU
) / 硬件环境:Please delete the backend not involved / 请删除不涉及的后端:
/device ascend
【CANN版本】:MILAN-Florence-ASL/ABL Milan-ASL V100R001C18B512 Alpha
【MindSpore版本】:MindSpore_master_1286b531(MindSpore2.3.0B522)
【MindFormers版本】:MindFormers_dev_babf7ed1(MindFormers2.3.0B522)
PyNative
/Graph
):Please delete the mode not involved / 请删除不涉及的模式:
/mode pynative
/mode graph
用例仓地址:/MindFormers_Test/cases/llama2/7b/train/
用例:
test_mf_chatglm3_6b_32k_kbk_infer_batch_incremental_1p_0001
test_mf_chatglm3_6b_32k_kbk_infer_incremental_1p_0001
get code from mindformers
cd mindformers/scripts
python glm3_6b_32k_generate.py --tokenizer_path /home/workspace/large_model_ckpt//glm3_32k/tokenizer.model --checkpoint_path /home/workspace/large_model_ckpt//glm3_32k/glm32k.ckpt --yaml_file /data/jenkins_workspace/TDT_deployment/MindFormers_Test/cases/glm3/32k/infer/test_mf_chatglm3_6b_32k_kbk_infer_incremental_1p_0001/research/glm32k/predict_glm.yaml --seq_length 256 --batch_size 1 --block_size 16 --num_blocks 32 > /data/jenkins_workspace/TDT_deployment/MindFormers_Test/cases/glm3/32k/infer/test_mf_chatglm3_6b_32k_kbk_infer_incremental_1p_0001/glm3_6b_incre_infer.log 2>&1 &
验证网络是否推理成功
网络推理成功
bs=1,seq-length=256 : 46.3 < 56.04554375
bs=1,seq-length=512 : 43.82 < 55.3338401
bs=1,seq-length=1024 : 44.23 < 53.00737235
bs=1,seq-length=2048 : 43.97 < 49.80754538
bs=8,seq-length=256 : 351.92 < 398.4384892
走给吴致远
Please assign maintainer to check this issue.
请为此issue分配处理人。
@sunjiawei999
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
感谢您的提问,您可以评论//mindspore-assistant更快获取帮助:
mindformers时延
vllm时延
需设置环境变量
export RUN_MODE=predict
export CUSTOM_MATMUL_SHUFFLE=on
export MS_INTERNAL_ENABLE_CUSTOM_KERNEL_LIST=MatMulAllReduce
登录 后才可以发表评论