环境
Server: Ubuntu 22.04.2 LTS (GNU/Linux 5.15.0-76-generic x86_64) GPU: nvidia 4090
解决思路
明确问题,排查原因
观察法
nvidia-smi -l记录保存到文件,回溯问题原因,温度尚可,功率也正常。排除可能的散热问题。
s-tui可以追踪功率变化,帮助排查电源问题(可能性通常较小,不建议优先考虑)。
实验法(可能的解决方案)
增加ups设备保障供电稳定(该情况其实很少发生,但是因为实验室发生过类似问题故考虑其中)卸载重装显卡驱动:按照教程卸载干净后重装内核更新禁用:参考文章
以上方法均无法解决该问题,但过程中有发现:按照标准流程安装驱动后,运行nvidia-smi 依然会出现问题: NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 但是通过命令ll /usr/src/ 能找到已安装的驱动文件,也可通过dpkg -l | grep nvidia 确认已安装相应版本驱动。 因此在驱动安装成功的基础上,排除内核不匹配的可能原因之后,很可能是通信本身的问题(尤其是nvcc也可正常搜到,万事俱备只欠东风),通过继续检索,一篇文章的评论里提醒到我:关闭 secure boot ! 尝试进入bios后disable secure boot(一般在settings 的security里面)之后,在没有重装驱动的情况下,nvidia-smi可以正常运行,故此推测是这个设定影响了主板和显卡的通信(仅瞎猜,欢迎将可靠的解释分享在评论区)。