从零开始折腾服务器

之前用的好端端的服务器,最后不知道什么原因突然就系统盘GG,联系了实验室老师一顿操作后重装了系统,于是要从零开始折腾这个服务器了,做一些记录如下:


  1. 配置ip地址

一开始的ip地址是一个动态的dhcp地址,然后要把它配置成静态的ip地址。(一开始看到ifconfig的inet addr是192.168.3.185,我们要把它修改为192.168.3.212)

然后就是修改这个文件/etc/network/interfaces,修改的内容如下(除了ip地址其它我都是复制的222机器的配置,配置完之后记得reboot再看ifconfig就更新过来了、同时也不能用192.168.3.185来登录了):

  1. 安装cuda
    出了一点小插曲,一开始装的是cuda8.0,然后遇到一个问题就是在我的docker容器里一开始还是能跑gpu的,但是过了一会就不能再跑了,查了原因是宿主机的cuda版本比docker容器里的版本要低(我用的docker镜像是需要cuda9.0)的版本,启动带runtime=nvidia的参数的docker命令时会报--utility --require=cuda>=9.0的错误。于是就重新去安装cuda9.0的版本。在nvidia的官方版本支持中找到对应的版本。因为我之前已经安装了cuda8.0的版本又没有能够很好地卸载(我那个/usr/local/cuda-8.0/bin文件夹里没有卸载的那个可执行文件)导致总是报The package cuda-repo-ubuntu1604-8-0-local-ga2 needs to be reinstalled, but I can't find an archive for it.的错误。遂通过先重新装上8.0,再dpkg -l | awk '{print $2}' | grep cuda | sudo xargs dpkg --purge来移除掉对应的8.0的东西,然后再sudo dpkg -i cuda-repo-ubuntu1604-9-0-local_9.0.176-1_amd64-debsudo apt-get updatesudo apt-get install cuda 就OK了。

卸载旧版本的cuda:
中间遇到的一个问题是Could not resolve host developer.download.nvidia.cn,查了下这个是dns的问题,于是抱着试试看的态度把/etc/resolv.conf这个文件最上面加了nameserver 114.114.114.114,居然就好了,OK。(参考了这个帖子

主要命令如下:

配置vimrc就用GitHub上的最高star的项目就好了,命令如下:

git clone –depth=1 https://github.com/amix/vimrc.git ~/.vim_runtime && sh ~/.vim_runtime/install_awesome_vimrc.sh && echo “set nu” >> ~/.vimrc && echo “let g:go_version_warning = 0” >> ~/.vimrc


在配置我自己的主机的时候,我遇到的一个问题就是tensorflow安装的时候又报了libcublas.so.10.0: cannot open shared object file: No such file or directory的错误,然后把cuda版本从10.1安装成10.0就好了。参考这个回答:https://github.com/tensorflow/tensorflow/issues/26209#issuecomment-468749963

conda为了避免每次都需要activate,我直接在~/.bashrc里面将python等alias到了conda对应的。

pytorch的安装直接在官网https://pytorch.org/get-started/locally/ 选择对应的系统,它就会告诉你命令,相当方便的。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注