代码拉取完成,页面将自动刷新
English | 简体中文
paddle.distributed.launch
或者fleetrun
的接口启动训练任务即可。下面为运行脚本示例。fleetrun \
--selected_gpu 0,1,2,3,4,5,6,7 \
tools/train.py -c configs/ppyoloe/ppyoloe_crn_s_300e_coco.yml \
--eval &>logs.txt 2>&1 &
--ips
的参数,该参数表示需要参与分布式训练的机器的ip列表,不同机器的ip用逗号隔开。下面为运行代码示例。ip_list="10.127.6.17,10.127.5.142,10.127.45.13,10.127.44.151"
fleetrun \
--ips=${ip_list} \
--selected_gpu 0,1,2,3,4,5,6,7 \
tools/train.py -c configs/ppyoloe/ppyoloe_crn_s_300e_coco.yml \
--eval &>logs.txt 2>&1 &
注:
ifconfig
或者ipconfig
查看。ip_list
中的第一台机器的第一块设备是trainer0,以此类推。export FLAGS_START_PORT=17000
,端口值建议在10000~20000
之间。机器 | 精度 | 耗时 |
---|---|---|
单机8卡 | 42.7% | 39h |
4机8卡 | 42.1% | 13h |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。