208 Star 857 Fork 636

GVPMindSpore / mindscience

 / 详情

[MDT][MT][MindChemistry][Ascend910B]Allegro网络单卡训练loss=nan,性能不达标

TODO
Bug-Report
创建于  
2024-05-20 16:32
name about labels
Bug Report Use this template for reporting a bug kind/bug

Describe the current behavior / 问题描述 (Mandatory / 必填)

Allegro网络单卡训练loss=nan,性能不达标

Environment / 环境信息 (Mandatory / 必填)

  • Hardware Environment(Ascend/GPU/CPU) / 硬件环境:

Please delete the backend not involved / 请删除不涉及的后端:
/device Ascend910B

  • Software Environment / 软件环境 (Mandatory / 必填):
    -- MindSpore version (e.g., 1.7.0.Bxxx) :2.3.0rc1
    -- Python version (e.g., Python 3.7.5) :3.8.0
    -- OS platform and distribution (e.g., Linux Ubuntu 16.04):Linux 10-90-66-192 4.15.0-45-generic #48-Ubuntu
    -- GCC/Compiler version (if compiled from source): 7.5.0

  • Excute Mode / 执行模式 (Mandatory / 必填)(PyNative/Graph):

Please delete the mode not involved / 请删除不涉及的模式:
/mode graph

Related testcase / 关联用例 (Mandatory / 必填)

暂无

Steps to reproduce the issue / 重现步骤 (Mandatory / 必填)

1.git clone https://gitee.com/mindspore/mindscience.git
2.cd MindChemistry/applications/allegro
3.python {allegro_path}train.py

Describe the expected behavior / 预期结果 (Mandatory / 必填)

Allegro网络训练loss正常,Epoch2到Epoch5500每个epoch小于24s

Related log / screenshot / 日志 / 截图 (Mandatory / 必填)

train loss: nan, time gap: 26.6766

Special notes for this issue/备注 (Optional / 选填)

评论 (0)

rhxry 创建了Bug-Report
rhxry 添加了
 
kind/bug
标签
rhxry 添加了
 
sig/mindscience
标签
rhxry 添加了
 
attr/accuracy
标签
rhxry 添加了
 
attr/performance
标签
rhxry 添加了
 
v2.3.0
标签
rhxry 添加协作者rhxry
rhxry 修改了描述
展开全部操作日志

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(1)
1
https://gitee.com/mindspore/mindscience.git
git@gitee.com:mindspore/mindscience.git
mindspore
mindscience
mindscience

搜索帮助

344bd9b3 5694891 D2dac590 5694891