怎么看GPU服务器的显卡信息

2024-08-22 264 0

查看GPU服务器的显卡信息通常使用NVIDIA提供的`nvidiasmi`命令(NVIDIA System Management Interface)。这个命令行工具能够显示关于NVIDIA GPU的多种信息,包括但不限于显卡型号、驱动版本、显存使用情况、GPU利用率、温度、功耗等。

以下是使用`nvidiasmi`查看显卡信息的步骤:

1. 登录服务器:首先,需要通过SSH或其他方式登录到GPU服务器

2. 运行nvidiasmi命令:在服务器的命令行终端中输入以下命令:

   nvidiasmi

执行此命令后,你将看到类似以下格式的输出信息:

   +-----------------------------------------------------------------------------+
   | NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
   |-------------------------------+----------------------+----------------------+
   | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
   | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
   |                               |                      |               MIG M. |
   |===============================+======================+======================|
   |   0  Tesla V100-SXM2...  Off  | 00000000:00:1E.0 Off |                    0 |
   | N/A   35C    P0    57W / 300W |   10938MiB / 16160MiB |     88%      Default |
   |                               |                      |                  N/A |
   +-------------------------------+----------------------+----------------------+
   ...
   +-----------------------------------------------------------------------------+
   | Processes:                                                                  |
   |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
   |        ID   ID                                                   Usage      |
   |=============================================================================|
   |    0     0     0      1234      C   python                           10938MiB |
   |    0     0     0      5678      C   tensorflow                        2048MiB |
   +-----------------------------------------------------------------------------+

3. 查看具体信息:输出中包含了以下信息:

GPU Name:GPU型号名称。

PersistenceM:GPU持久模式状态。

BusId:GPU总线ID。

Disp.A:显示设备状态(Off表示没有连接显示器)。

Volatile Uncorr. ECC:易失性未更正的ECC错误计数。

Fan, Temp, Perf, Pwr:风扇转速、温度、性能状态、功耗。

MemoryUsage:显存使用情况。

GPUUtil:GPU利用率。

Compute M.:计算模式。

MIG M.:多实例GPU状态(如果支持)。

Processes:运行在GPU上的进程及其资源使用情况。

4. 定期监控:如果需要定期监控GPU状态,可以使用`watch`命令:

   watch n 1 nvidiasmi

这将每秒更新一次GPU信息。

确保服务器上已安装了正确的NVIDIA驱动程序,`nvidiasmi`命令才能正常工作。如果没有安装驱动或驱动不兼容,该命令可能无法执行或返回错误信息。

    相关文章

    专属宿主机和裸金属服务器的区别
    专属宿主机和裸金属服务器的优缺点分别是什么?
    专属宿主机和裸金属服务器如何选择?
    香港服务器如何测宽带网速
    如何判断一台网站服务器的带宽大小
    服务器带宽突然增高一般是什么原因

    发布评论