代码拉取完成,页面将自动刷新
全参微调qwen-7b时,设置dp1 tp4 pp2,请问该如何解决
报错如下:
ValueError: The optimizer sharding step 1 is not equal to the model parallel sharding size 4.
mindspore:2.2.11
mindformers:v1.0.1
修改 qwen_model.py 中 lm_head 的切分策略即可解决此问题
@@ -189,7 +196,7 @@ class QwenForCausalLM(QwenPreTrainedModel):
if parallel_config.vocab_emb_dp:
self.lm_head.shard(strategy_matmul=((dp, 1), (1, 1)))
else:
- self.lm_head.shard(strategy_matmul=((1, 1), (dp * mp, 1)))
+ self.lm_head.shard(strategy_matmul=((dp, 1), (mp, 1)))
不过根据目前的测试效果,单机8卡上面dp1 mp4 pp2还要开重计算才能拉起全参微调任务,而且训练速度大概只有dp8的一半
收到,感谢
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
登录 后才可以发表评论