全参微调qwen-7b时，会报优化器与模型并行分片不相等错误

全参微调qwen-7b时，设置dp1 tp4 pp2，请问该如何解决
报错如下：
ValueError: The optimizer sharding step 1 is not equal to the model parallel sharding size 4.
mindspore:2.2.11
mindformers:v1.0.1

修改 qwen_model.py 中 lm_head 的切分策略即可解决此问题

@@ -189,7 +196,7 @@ class QwenForCausalLM(QwenPreTrainedModel):
         if parallel_config.vocab_emb_dp:
             self.lm_head.shard(strategy_matmul=((dp, 1), (1, 1)))
         else:
-            self.lm_head.shard(strategy_matmul=((1, 1), (dp * mp, 1)))
+            self.lm_head.shard(strategy_matmul=((dp, 1), (mp, 1)))

不过根据目前的测试效果，单机8卡上面dp1 mp4 pp2还要开重计算才能拉起全参微调任务，而且训练速度大概只有dp8的一半

收到，感谢

MindSpore / mindformers

内容风险标识

评论 (2)

MindSpore / mindformers .gitee-modal { width: 500px !important; }

内容风险标识

全参微调qwen-7b时，会报优化器与模型并行分片不相等错误

评论 (2)

搜索帮助

MindSpore / mindformers