全栈工程师开发手册 (作者:栾鹏)https://blog.51cto.com/u_15858929/6117117
一站式云原生机器学习平台
ray 多机分布式
有时候单台机器多进程也无法快速完成代码运行,这个时候就需要多机器实现:
1、单机器算力有限,核数不足
2、有些运行有机器白名单显示,需要多台机器ip增加并发处理
分布式计算集群
为了方便的实现一个ray多机分布式集群,这里直接使用
https://github.com/tencentmusic/cube-studio 开源的云原生一站式机器学习平台。
使用ray这个模板,填上自己的worker数量,初始化脚本和python启动命令
分布式原理和代码
基本原则
driver端就是启动脚本的地方,driver端解析要处理那些任务,并把每个任务发送给headnode,headnode会根据slavenode的运行情况分发这些任务,当当前有空闲slavenode时,driveiu会发起新的任务。
主要变更
原有代码
新代码
单机运行使用ray.init()启动会自动使用多进程
多级运行时使用ray.util.connect(head_host) 会自动链接多机环境
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/ai/309050.html