❤️

程序运行中显卡驱动掉线,重启能恢复但问题仍频出,如何解决

程序运行中显卡驱动掉线,重启能恢复但问题仍频出,如何解决

环境

Server: Ubuntu 22.04.2 LTS (GNU/Linux 5.15.0-76-generic x86_64) GPU: nvidia 4090

解决思路

明确问题,排查原因

观察法

nvidia-smi -l记录保存到文件,回溯问题原因,温度尚可,功率也正常。排除可能的散热问题。

s-tui可以追踪功率变化,帮助排查电源问题(可能性通常较小,不建议优先考虑)。

实验法(可能的解决方案)

增加ups设备保障供电稳定(该情况其实很少发生,但是因为实验室发生过类似问题故考虑其中)卸载重装显卡驱动:按照教程卸载干净后重装内核更新禁用:参考文章

以上方法均无法解决该问题,但过程中有发现:按照标准流程安装驱动后,运行nvidia-smi 依然会出现问题: NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 但是通过命令ll /usr/src/ 能找到已安装的驱动文件,也可通过dpkg -l | grep nvidia 确认已安装相应版本驱动。 因此在驱动安装成功的基础上,排除内核不匹配的可能原因之后,很可能是通信本身的问题(尤其是nvcc也可正常搜到,万事俱备只欠东风),通过继续检索,一篇文章的评论里提醒到我:关闭 secure boot ! 尝试进入bios后disable secure boot(一般在settings 的security里面)之后,在没有重装驱动的情况下,nvidia-smi可以正常运行,故此推测是这个设定影响了主板和显卡的通信(仅瞎猜,欢迎将可靠的解释分享在评论区)。

🎀 相关推荐

世界杯108将NO.23
365bet线

世界杯108将NO.23

📅 09-12 👀 4266
50兆宽带一年多少钱 揭宽带收费标准
英国365bet体育在线

50兆宽带一年多少钱 揭宽带收费标准

📅 08-18 👀 9378
闲鱼买家付款后钱在哪可以看到?故意不确认收货怎么办?