在多个节点上用accelerate launch启动多节点训练,预计有3个节点,每个节点8张卡,结果运行程序后发现每个节点上只有两个训练进程。
原因是设置--num_processes
时填错数字了,这个参数应当提供的是全局的总进程数。如果有3个节点,每个节点8张卡,应当填--num_processes 24 --num_machines 3
。而笔者当时填了--num_processes 8 --num --machines 3
,导致每个节点只有8 // 3 = 2
个训练进程。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- esig.cn 版权所有 湘ICP备2023023988号-3
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务