6 Star 5 Fork 1

Lin / 计算中心项目FAQ

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
WTFPL

项目FAQ

前言

为了使各阶段项目能够顺利进展,本FAQ用于规范和记录各项目在开发和云上调试调优过程中所遇到的问题以及解决方案,方便后续其他人员能够快速查阅,缩短问题周期,加快项目开发进度,各位老师可以共同参与问题记录和维护,一起参与到改善优化mindspore框架的队伍中来,将知识和问题沉淀和赋能到众多的社区开发者。

  • FAQ维护地址:https://gitee.com/Lin-Bert/aicc-project-guide/tree/master

  • 计算中心平台学习材料:https://gitee.com/Lin-Bert/aicc-project-guide/tree/master/material

  • 问题求助流程:

    方式一

    方式二

    MindSpore gitee官网 提issue(判定为mindspore机制bug或者未满足的需求,须通过issue推动解决)

    • Step1: 进入MindSpore开源仓新建一个Issue MindSpore gitee官网新建Issue

      image-20220330154818783

    • Step2:按照以下规范填写Issue内容,请点击**“创建”进入下一步, 请勿直接点击“创建并继续”**!!!

    image-20220330160332720

    image-20220330160747452

    Tips: mindspore上面issue填写过于复杂,可直接复制以下信息再填入自己的关键内容

    ### 问题描述
    
    *****请描述自己的问题
     
    ### 环境信息
    - **Hardware Environment(`Ascend`/`GPU`/`CPU`)  / 硬件环境**: 
    > Please delete the backend not involved / 请删除不涉及的后端:
    > /device ascend
    
    - **软件环境**:
    -- MindSpore version (e.g.,r1.6 commit_id=xxxx) : r1.6
    -- Python version (e.g., Python 3.7.5) : Python 3.7.5
    -- OS platform and distribution (e.g., Linux Ubuntu 16.04): openEuler 21.04
    -- GCC/Compiler version (if compiled from source): gcc version 7.3.0 (GCC)
    
    - **执行模式(`PyNative`/`Graph`)**: 
    > 请删除不涉及的模式:
    > /mode pynative
    > /mode graph
    
    ### Describe the expected behavior / 预期结果
     
    ### Related log / screenshot / 日志 / 截图
     
    • Step3:创建好Issue之后需按照以下规范指定负责人和标签

      image-20220330161039358

    • Step4:将Issue链接发给华为昇腾大模型研发接口人,推动解决!

计算中心平台使用问题

一、计算中心平台使用手册

参见计算中心平台使用指南

二、云上训练作业常见问题

1. 训练任务创建问题

请参考计算中心平台使用指南或者询问自动化所项目组其他成员

2. 训练作业任务一直排队中,不往下进行

  • 情况1: 查看当前运行任务,是否节点已不足!
  • 情况2:节点充足情况下,请将任务job_id发给华为计算中心FAE查看

3. 训练作业任务一直卡在初始化,不往下进行

  • 情况1:进入Modelarts控制台,点击专属资源池里面的“pool-2782”,点击配置NAS-VPC,将“连通NAS VPC”选项打开(ON状态),确定后再回到训练作业任务处,直接将一直初始化的任务删除,然后重新拉起一个训练任务即可!

image-20211201171623654

  • 情况2:可能是机器的节点出现问题,请将任务job_id发给华为计算中心FAE查看

3. 训练任务中的日志不显示(打开一片空白)

  • 情况1:后台通常只保存七天内的日志,过于久远的日志会自动清楚,这一点需要注意!
  • 情况2:后台机器容器内存耗尽,请联系华为接口人帮忙查看日志是否存在!

4. 训练任务运行中,但迟迟不开启训练

请耐心等待,通常训练任务启动需要一段时间,真正执行训练通常需要等1~30min不等,如果超过30min可选择停止重新拉起训练任务,如果还是不行,请联系华为接口人处理!!!

5.

DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE Version 2, December 2004 Copyright (C) 2004 Sam Hocevar <sam@hocevar.net> Everyone is permitted to copy and distribute verbatim or modified copies of this license document, and changing it is allowed as long as the name is changed. DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE TERMS AND CONDITIONS FOR COPYING, DISTRIBUTION AND MODIFICATION 0. You just DO WHAT THE FUCK YOU WANT TO.

简介

计算中心项目相关指南参考和常见问题FAQ 展开 收起
Python
WTFPL
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/Lin-Bert/aicc-project-guide.git
git@gitee.com:Lin-Bert/aicc-project-guide.git
Lin-Bert
aicc-project-guide
计算中心项目FAQ
master

搜索帮助