阿里云GPU云服务器常见问题解答FAQ

  • A+
所属分类:GPU云服务器

阿里云GPU云服务器是基于GPU应用的计算服务,适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景,InstanceTypes分享GPU云服务器的常见问题及解决方法FAQ:

Nvidia驱动安装成功,但是nvidia-smi无效,显示驱动未安装。

  • 问题分析:kernel-devel和kernel版本不一致,导致在安装driver rpm过程中driver编译出错。
  • 解决方案:

    查看kernel版本号,网上下载对应的kernel-devel包,在实例里运行rpm –qa | grep kernel检测版本是否一致。确认版本后,再重新安装驱动。

    gn5和gn5i的Windows实例安装官网驱动时断网。

  • 问题分析:Nvidia对图形功能做了限制,需要特定的驱动并认证License。
  • 解决方案:

    当前只在特定可用区(华北5、华北2可用区E)安装测试版本的驱动可用,保证不断网,测试驱动有效时间为7−100天。100天后需要认证的License。

    以下是针对不同版本Windows的测试驱动下载地址:
    Windows Server 2016
    Window Server 2008 或 2012

    Windows图形不支持DirectX等功能。

  • 问题分析:对于Windows系统,GPU驱动安装生效后,Windows自带的远程连接(RDP)协议不支持DirectX、OpenGL等相关应用。
  • 解决方案:

    您需要自行安装VNC服务和客户端,或其它支持的协议,例如PCOIP、XenDeskop HDX 3D等。

    ga1实例使用云市场预装AMD驱动的镜像,但是进入Windows设备管理器时显示GPU驱动未能正常加载。

    登录实例后,打开 设备管理器,右击GPU设备名称,单击 更新驱动程序软件,再选择 自动搜索更新的驱动程序软件。待Windows系统完成设备驱动更新,重启系统即可。

    使用云市场预装AMD驱动的镜像,启动实例时蓝屏。

    阿里云会更新云市场中预装驱动镜像里所包含的驱动程序来修复此问题。如果您使用的是老版本镜像,可以通过更新GPU驱动程序来避免此问题。

    如果出现蓝屏无法启动实例,您必须进入 安全模式,卸载之前的驱动程序,再正常启动Windows系统,然后安装新版的GPU驱动。

    GPU实例支持安卓模拟器吗?

    不支持。

    我能变更GPU云服务器的配置吗?

    带本地盘的GPU云服务器规格族,如ga1、gn5,不能变更配置。不带本地盘的GPU云服务器实例,您可以变更它们的规格。

    按量付费GPU云服务器支持停机不收费功能吗?

    不带本地盘的GPU云服务器规格族,包括 gn4(Nvidia M40)、gn5i(Nvidia P4)和 gn6v(Nvidia V100),支持按量付费实例停机不收费功能。关于这个功能的更多信息,请参考 按量付费实例停机不收费。

    如何查看GPU监控数据?

    您可以通过 云监控控制台 或 DescribeMetricList 来查看GPU监控数据。

    参考文档

    官方文档:GPU实例常见问题 - 阿里云

    注意:购买阿里云优惠ECS云服务器,可以领取阿里云2000元代金券,结算时抵扣现金。

    阿里云服务器优惠

    发表评论

    :?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: