您好,欢迎来到世旅网。
搜索
您的当前位置:首页accelerate launch 启动多节点训练 实际进程数少于预期

accelerate launch 启动多节点训练 实际进程数少于预期

来源:世旅网

问题现象

在多个节点上用accelerate launch启动多节点训练,预计有3个节点,每个节点8张卡,结果运行程序后发现每个节点上只有两个训练进程。

问题分析

原因是设置--num_processes时填错数字了,这个参数应当提供的是全局的总进程数。如果有3个节点,每个节点8张卡,应当填--num_processes 24 --num_machines 3。而笔者当时填了--num_processes 8 --num --machines 3,导致每个节点只有8 // 3 = 2个训练进程。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- esig.cn 版权所有 湘ICP备2023023988号-3

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务