本地集群部署Vega,需满足如下条件:
Ubuntu 16.04 or later (其他Linux发行版和版本未测试)。
Python 3.7 下载
安装pip
集群在部署时,需要预先安装一些必备的软件包,可下载脚本install_dependencies.sh后安装:
bash install_dependencies.sh
安装MPI
软件, 可参考附录安装MPI完成安装过程。
安装 MMDetection
(可选, 物体检测类算法所需的组件), 可参考附录安装MMDetection完成安装过程。
以上准备工作完成后,请从Vega库中下载如下部署包vega deploy package,部署包含有如下脚本,准备开始部署:
deploy_local_cluster.py
verify_local_cluster.py
start_slave_worker.py
首先配置部署信息到deploy.yml
文件中,文件格式如下:
master: n.n.n.n # master节点的IP地址
listen_port: 8786 # 端口号
slaves: ["n.n.n.n", "n.n.n.n", "n.n.n.n"] # slave节点地址
然后执行部署脚本
在集群主节点中将deploy_local_cluster.py
、verify_local_cluster.py
、vega-1.0.0.whl
、deploy.yml
、install_dependencies.sh
放到同一个文件夹中,执行如下命令,将Vega部署到主节点和从节点中:
python deploy_local_cluster.py
执行完成后,自动验证各个节点,会显示如下信息:
success.
下载MMDetection源码:
在https://github.com/open-mmlab/mmdetection下载最新版本的MMDetection。
安装:
切换到mmdetection目录下,执行下述命令即可编译安装:
sudo python3 setup.py develop
安装MPI:
使用apt工具直接安装mpi
sudo apt-get install mpi
运行如下命令检查MPI是否可以运行
mpirun
Apex需要从官网上获取最新的源码安装,不能直接使用pip库中的apex版本
下载apex源码: 在https://github.com/NVIDIA/apex下载最新版本的apex。
切换到apex目录下,执行下述命令即可编译安装:
pip3 install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./
网络任意两台主机都需要支持SSH互信,配置方法为:
安装ssh:
sudo apt-get install sshd
分别生成密钥:
ssh-keygen -t rsa
会在~/.ssh/文件下生成id_rsa, id_rsa.pub两个文件,其中id_rsa.pub是公钥
确认目录下的authorized_keys文件:
若不存在需要创建, 并chmod 600 ~/.ssh/authorized_keys
改变权限。
拷贝公钥: 分别将公钥id_rsa.pub内容拷贝到其他机器的authorized_keys文件中。
服务器端:
安装NFS服务器:
sudo apt install nfs-kernel-server
编写配置文件,将共享路径写入配置文件中:
sudo echo "/data *(rw,sync,no_subtree_check,no_root_squash)" >> /etc/exports
创建共享目录:
sudo mkdir -p /data
重启nfs服务器:
sudo service nfs-kernel-server restart
客户端:
安装客户端工具:
sudo apt install nfs-common
创建本地挂载目录
sudo mkdir -p /data
挂载共享目录:
sudo mount -t nfs 服务器ip:/data /data
注意:上述的共享目录(/data
)的名字可以是任意的, 但需要保证主机和客户端的名字相同。
Ubuntu下cuda安装
在英伟达官网下载安装包cuda_10.0.130_410.48_linux.run
执行安装命令: 命令如下:
sudo sh cuda_10.0.130_410.48_linux.run
在执行过程中,会有一系列提示,选择默认设置即可。需要注意的是其中有个选择,询问是否安装NVIDIA Accelerated Graphics Driver
:
Install NVIDIA Accelerated Graphics Driver for Linux‐x86_64?
请选择 no
环境变量配置: 执行:
sudo gedit /etc/profile
在profile文件的最后面添加内容:
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
保存profile文件,并执行以下命令,使环境变量立即生效
source /etc/profile
安装cuda sample: 进入/usr/local/cuda/samples, 执行下列命令来build samples:
sudo make all -j8
全部编译完成后, 进入/usr/local/cuda/samples/1_Utilities/deviceQuery, 运行deviceQuery:
./deviceQuery
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。