nvidia-smi -q
: 显示GPU的详细信息,包括硬件规格、驱动版本、显存信息、功耗管理、温度控制、GPU拓扑结构等信息。使用该命令可以了解GPU的硬件配置、驱动版本、显存大小、功耗管理策略、温度控制策略等信息,以及GPU的连接关系、拓扑结构等信息。
nvidia-smi -i [device_index] -q
: 显示指定GPU设备的详细信息。使用该命令可以查看指定GPU设备的详细信息,例如该设备的硬件规格、驱动版本、显存信息、功耗管理、温度控制等信息。
nvidia-smi --query-gpu=name,temperature.gpu,utilization.gpu,memory.total,memory.used,memory.free --format=csv
: 显示当前系统上所有Nvidia GPU设备的使用情况,并输出到CSV文件中,方便后续分析。使用该命令可以显示当前系统上所有Nvidia GPU设备的使用情况,例如GPU的温度、利用率、显存使用情况等信息,并将信息输出到CSV文件中,方便后续分析。
nvidia-settings
: 显示GPU设备的详细配置信息,包括显卡型号、GPU核心时钟、内存时钟、电压等信息。使用该命令可以配置GPU设备的参数,例如GPU的核心时钟、内存时钟、电压等参数。
nvidia-smi -i [device_index] -e 0x20
: 显示指定GPU设备的ECC错误日志。使用该命令可以查看指定GPU设备的ECC错误日志,以帮助排查硬件问题。
nvidia-smi topo -m
: 显示GPU拓扑结构和连接关系,可用于识别GPU间连接的带宽和延迟等信息。使用该命令可以了解GPU设备之间的连接关系和拓扑结构,以及GPU设备之间的带宽和延迟等信息。