Linux查看GPU信息和使用情况 - nvidia

半兽人 发表于: 2019-07-25   最后更新时间: 2019-07-26  

运行程序前使用CUDA_VISIBLE_DEVICES=GPU编号来指定使用哪块显卡,用多显卡的话在程序里写好,不要直接python ***.py,这样会占用全部显卡

这个terminal上有两个table,都是连接的服务器,运行程序的话最好在第一个上,第一个使用了tmux,电脑关机程序仍然可以运行,运行程序时调代码可以在另一个table上。

Linux查看显卡信息:

lspci | grep -i vga

使用nvidia GPU可以:

# lspci | grep -i nvidia

3b:00.0 3D controller: NVIDIA Corporation GP104GL [Tesla P4] (rev a1)
5e:00.0 3D controller: NVIDIA Corporation GP104GL [Tesla P4] (rev a1)
86:00.0 3D controller: NVIDIA Corporation GP104GL [Tesla P4] (rev a1)
87:00.0 3D controller: NVIDIA Corporation GP104GL [Tesla P4] (rev a1)
af:00.0 3D controller: NVIDIA Corporation GP104GL [Tesla P4] (rev a1)
d8:00.0 3D controller: NVIDIA Corporation GP104GL [Tesla P4] (rev a1)

前边的序号 "00:0f.0"是显卡的代号(这里是用的虚拟机);

查看指定显卡的详细信息用以下指令:

lspci -v -s 00:0f.0

Linux查看Nvidia显卡信息及使用情况

Nvidia自带一个命令行工具可以查看显存的使用情况:

nvidia-smi

screenshot

表头释义:

  • Fan:显示风扇转速,数值在0到100%之间,是计算机的期望转速,如果计算机不是通过风扇冷却或者风扇坏了- ,显示出来就是N/A;
  • Temp:显卡内部的温度,单位是摄氏度;
  • Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;
  • Pwr:能耗表示;
  • Bus-Id:涉及GPU总线的相关信息;
  • Disp.A:是Display Active的意思,表示GPU的显示是否初始化;
  • Memory Usage:显存的使用率;
  • Volatile GPU-Util:浮动的GPU利用率;
  • Compute M:计算模式;
  • 下边的Processes显示每块GPU上每个进程所使用的显存情况。

最后,持续周期性的输出显卡的使用情况,可以用watch指令实现:

watch -n 10 nvidia-smi

命令行参数-n后边跟的是执行命令的周期,以为单位。



您需要解锁本帖隐藏内容请: 点击这里
本帖隐藏的内容




上一条: linux之sysctl介绍
下一条: centos7切换启动内核