阿里云代理商-阿里云服务器-阿里云数据库-重庆典名科技

GPU云服务器常用操作导航、创建配备NVIDIA GPU的实例

发布时间: 2020-11-10 14:13:11文章作者: 网站编辑阅读量: 283
  典名科技本文介绍阿里云GPU云服务器的用户指南教程,云服务器ECS的常用操作导航,创建配备NVIDIA GPU的实例。
  
  常用操作导航

  典名科技提醒在使用云服务器ECS时,您可能会遇到各种问题,例如远程连接、更换操作系统、扩容云盘、升高或降低实例配置、使用快照或镜像等。本文介绍了云服务器ECS的常用操作,仅供参考,有疑问可以联系我们。

使用限制

  • 使用云服务器ECS的注意事项,请参见使用须知
  • 使用云服务器ECS的资源规格限制,请参见使用限制查看和提升配额(新版)
  • 如果云服务器需要备案,则云服务器有购买要求,且每台ECS实例可申请的备案服务号数量有限。详情请参见备案服务器(接入信息)准备与检查。备案流程请参见ICP备案流程概述

创建并管理ECS实例

  • 您可以按以下步骤操作ECS实例的生命周期:
    1. 使用向导创建实例
    2. 远程连接ECS实例
    3. 停止实例
    4. 释放实例
  • 如果当前的实例规格或网络配置无法满足业务需求,您可以变更实例规格、IP地址和公网带宽峰值:
    • 包年包月实例:
      • 包年包月实例升级配置
      • 续费降配
      • 包年包月实例临时升级带宽
    • 按量付费实例:
      • 按量付费实例变更实例规格
      • 按量付费实例修改公网带宽
    • ECS实例IP地址操作:
      • 修改公网IP地址
      • 专有网络类型ECS公网IP转为弹性公网IP
  • 如果当前的操作系统无法满足需求,您可以更换操作系统。详情请参见更换操作系统
  • 您可以使用以下功能精细化控制和管理ECS实例:
    • 实例自定义数据
    • 实例元数据
    • 实例标识
    • 实例RAM角色

管理计费

  • 包年包月实例:

    您可以使用不同的方式续费包年包月实例:

    • 手动续费实例
    • 开通自动续费
    • 续费降配
    • 续费变配
    • 设置统一到期日
  • 按量付费实例:

    您可以为按量付费实例开启停机不收费,详情请参见按量付费实例停机不收费

  • 转换实例计费方式:
    • 按量付费转包年包月
    • 包年包月转按量付费

提高计费性价比

  • 您可以购买抢占式实例,降低部分场景下的使用成本,搭配弹性供应实现自动化交付。详细步骤请参见创建弹性供应组创建抢占式实例
  • 您可以购买预留实例券,提高实例抵扣方式灵活性和降低成本。详细步骤请参见购买预留实例券
  • 您可以购买存储容量单位包,抵扣同一地域下按量付费云盘的计费账单。详细步骤请参见创建存储容量单位包

创建并管理云盘

创建并管理云盘

当云盘作数据盘用时,您可以按以下步骤使用云盘:
  1. 创建云盘
  2. 挂载数据盘
  3. Linux格式化数据盘Windows格式化数据盘
  4. 创建快照备份数据。详细步骤请参见创建普通快照
  5. 如果已有的云盘容量无法满足需求,您可以扩容云盘。详细步骤请参见以下步骤:
    • 在线扩容云盘(Linux系统)
    • 离线扩容云盘(Linux系统)
    • 在线扩容云盘(Windows系统)
    • 离线扩容云盘(Windows系统)
  6. 如果云盘数据出错,您可以使用某个时刻的云盘快照回滚云盘。详细步骤请参见使用快照回滚云盘
  7. 如果要将云盘恢复到初始状态,您可以重新初始化云盘。详细步骤请参见重新初始化数据盘
  8. 卸载数据盘
  9. 释放云盘

创建和管理快照



您可以按以下步骤使用快照:
  1. 创建快照,可分为:
    • 创建普通快照
    • 创建本地快照
    • 使用自动快照策略,定期自动创建快照。详细步骤请参见执行或取消自动快照策略
  2. 查看快照容量
  3. 为了节省快照存储空间,删除不必要的快照。详细步骤请参见优化快照使用成本

快照的常见应用场景如下所示:

  • 用于拷贝或恢复数据:您可以使用快照创建云盘或者回滚云盘。详细步骤请参见使用快照创建云盘使用快照回滚云盘
  • 用于快速部署环境:您可以使用系统盘快照创建自定义镜像,并使用自定义镜像创建实例。详细步骤请参见使用快照创建自定义镜像使用自定义镜像创建实例

创建并管理自定义镜像


控制台上操作的主要都是自定义镜像。使用自定义镜像,您可以快速部署业务环境。您可以通过以下方式获取自定义镜像。
  • 使用快照创建自定义镜像
  • 使用实例创建自定义镜像
  • 使用Packer创建自定义镜像
  • 不同地域之间复制镜像。详细步骤请参见复制镜像
  • 不同账号之间共享镜像。详细步骤请参见共享镜像
  • 导入自定义镜像
  • 使用Packer创建并导入本地镜像

您可以导出镜像备份环境。详细步骤请参见导出镜像

创建并管理安全组

您可以按以下步骤使用安全组

  1. 创建安全组
  2. 添加安全组规则
  3. ECS实例加入安全组
  4. 删除安全组规则
  5. 删除安全组

为了方便部署业务,您可以跨地域、跨网络类型克隆安全组。详细步骤请参见克隆安全组

如果新的安全组规则对线上业务产生了不利影响,您可以全部或部分还原安全组规则。详细步骤请参见还原安全组规则

创建并授予实例RAM角色

您可以按以下步骤使用密钥对:
  1. (可选)为RAM用户授予操作实例RAM角色的权限策略。详细步骤请参见授权RAM用户使用实例RAM角色
  2. 创建并授予实例RAM角色。详细步骤请参见授予实例RAM角色
  3. 在使用过程中,您可以随时更换实例RAM角色。详细步骤请参见更换实例RAM角色

创建并使用密钥对

您可以按以下步骤使用密钥对:
  1. 创建SSH密钥对或者导入SSH密钥对
  2. 绑定SSH密钥对
  3. 使用SSH密钥对连接Linux实例
  4. 解绑SSH密钥对
  5. 删除SSH密钥对

创建并使用弹性网卡

您可以按以下步骤使用弹性网卡:

  1. 创建弹性网卡
  2. 将弹性网卡附加到实例或者在创建实例时附加弹性网卡
  3. (可选)配置弹性网卡
  4. 分配辅助私网IP地址
  5. 解绑弹性网卡
  6. 删除弹性网卡

搭建IPv6专有网络

  • 运行Windows Server操作系统的ECS实例请参见Windows实例使用IPv6导航
  • 运行Linux操作系统的ECS实例请参见Linux实例使用IPv6导航

使用标签

您可以使用标签管理各种资源,提高效率。您可以按以下步骤使用标签:
  1. 新建并绑定标签
  2. 使用标签检索资源
  3. 删除或解绑标签

使用实例启动模板

实例启动模板帮助您快速创建相同配置的ECS实例,您可以按以下步骤使用实例启动模板:
  1. 创建实例启动模板
  2. 创建实例启动模板的新版本
  3. 删除实例启动模板和版本

使用部署集

部署集帮助您提供底层应用的高可用性,您可以按以下步骤使用部署集:
  1. 创建部署集
  2. 在部署集内创建ECS实例
  3. 修改实例的部署集
  4. 删除部署集

使用云助手

云助手可以发送远程命令,免去了运维过程中的使用跳板机的不便。您可以按以下步骤使用云助手:
  1. (可选)部分ECS实例需要您手动安装和配置云助手客户端。详细步骤请参见安装云助手客户端
  2. 创建命令
  3. 执行命令
  4. 查看执行结果

创建配备NVIDIA GPU的实例


配备NVIDIA GPU的实例必须安装驱动才可以使用GPU,涉及的驱动包括GPU驱动和GRID驱动。您可以在创建实例时设置自动安装驱动,也可以在创建实例后手动安装驱动。

前提条件

完成创建ECS实例的准备工作:
  1. 创建账号,以及完善账号信息。
    • 注册阿里云账号,并完成实名认证。具体操作,请参见阿里云账号注册流程
    • 如果创建按量付费实例,您的阿里云账户余额、代金券和优惠券的总值不得小于100.00元人民币。具体充值操作,请参见如何充值
  2. 阿里云提供一个默认的专有网络VPC,如果您不想使用默认专有网络VPC,可以在目标地域创建一个专有网络和交换机。具体操作,请参见搭建IPv4专有网络
  3. 阿里云提供一个默认的安全组,如果您不想使用默认安全组,可以在目标地域创建一个安全组。具体操作,请参见创建安全组
如果您需要使用其它扩展功能,也需要完成相应的准备工作,例如:
  • 如果创建Linux实例时要绑定SSH密钥对,需要在目标地域创建一个SSH密钥对。具体操作,请参见创建SSH密钥对
  • 如果要设置自定义数据,需要准备实例自定义数据。具体操作,请参见生成实例自定义数据
  • 如果要为ECS实例关联某个角色,需要创建、授权实例RAM角色,并将其授予ECS实例。具体操作,请参见授予实例RAM角色

背景信息

配备NVIDIA GPU的实例涉及以下驱动:
  • GPU驱动:用于驱动物理GPU。仅非vGPU的GPU实例支持安装GPU驱动。
  • GRID驱动:用于获得图形加速能力。配备vGPU的GPU实例(vgn6i和vgn5i)和非vGPU的GPU实例均支持安装GRID驱动,以获得GPU的图形加速能力。
GPU实例的驱动支持情况如下表所示。
驱动类型配备vGPU的GPU实例(vgn6i和vgn5i)非vGPU的GPU实例
GPU驱动不支持支持
GRID驱动支持支持

操作步骤

本步骤重点介绍配备NVIDIA GPU的实例相关的配置,如果您想了解其他通用配置,请参见使用向导创建实例

  1. 前往实例创建页
  2. 完成基础配置。
    说明 GPU实例在特定地域和可用区售卖,您可以前往ECS实例可购买地域页面查看。选择您需要的付费模式,输入实例规格名称搜索即可。

    vgn6i和vgn5i实例配备的是分片虚拟化后的虚拟GPU,只支持安装GRID驱动,请根据实例规格完成实例和镜像配置。

    • 创建配备vGPU的GPU实例(vgn6i和vgn5i)
      • 实例:定位到异构计算GPU/FPGA/NPU > GPU虚拟化型,然后按需选择实例规格。
      • 镜像:操作系统类型影响GRID驱动的安装方式,如下所示:
        • Windows:在镜像市场中搜索关键词GRID,并选用预装GRID驱动的收费镜像。这些收费镜像带有已经激活License的GRID驱动,不用再手动安装GRID驱动。

      • Linux:您需要自行购买GRID License,并在创建实例后手动安装GRID驱动和激活License,具体步骤请参见在vgn6i和vgn5i实例中安装GRID驱动(Linux)
  • 创建非vGPU的GPU实例
    • 实例:定位到异构计算GPU/FPGA/NPU > GPU计算型,然后按需选择实例规格。
    • 镜像:非vGPU的GPU实例支持安装GPU驱动,安装方式如下所示:
      说明 如果您使用共享镜像和自定义镜像,需要自行保证安装了需要的GPU驱动和相关软件。
      • 设置自动安装GPU驱动。
        公共镜像是由阿里云官方或第三方合作商家提供的系统基础镜像,部分Linux镜像支持自动安装GPU驱动,如下所示:
        • CentOS 64位(目前提供的所有自营版本均支持)
        • Ubuntu16.04 64位镜像
        • Ubuntu18.04 64位镜像
        • SUSE Linux Enterprise Server 12 SP2 64位镜像
        • Aliyun Linux 64位镜像

        如果您选择的镜像支持自动安装GPU驱动,选中自动安装GPU驱动复选框,并选择GPU驱动、CUDA、cuDNN库版本。如果是新业务系统,建议选择最新的版本。

        选中自动安装GPU驱动复选框后,您可以选择是否自动安装GPU云加速器。GPU云加速器提供了飞天AI加速器AIACC(Apsara AI Accelerator),可以帮助您快速搭建高性能分布式深度学习训练系统并加速AI训练性能,更多详情请参见GPU云加速器
        说明 CentOS 8、CentOS 6、SUSE Linux、Aliyun Linux暂时不支持GPU云加速器。

        对于支持自动安装GPU驱动的镜像,如果您清除自动安装GPU驱动复选框,仍可以在实例自定义数据模块下配置安装脚本,参考安装脚本请参见自动安装脚本v3.1

        说明 如果调用RunInstances接口创建配备NVIDIA GPU的实例,必须通过UserData参数上传安装脚本,脚本内容需要采用Base64方式编码。

  • 在镜像市场选择预装了GPU驱动和相关软件的镜像。
    镜像市场提供经严格审核的优质镜像,预装操作系统、应用环境和各类软件,无需配置即可一键部署云服务器。例如以下支持深度学习和机器学习的镜像:
    • 如果配备NVIDIA GPU的实例用于机器学习,您可以选择预装RAPIDS加速库的镜像,在镜像市场搜索关键字RAPIDS并选择可用的镜像。目前仅支持Ubuntu16.04。更多信息,请参见在GPU实例上使用RAPIDS加速图像搜索任务
      说明 镜像中预装了NVIDIA RAPIDS机器学习加速库以及TensorFlow、Keras开源深度学习框架,您可以快速使用RAPIDS加速数据准备、机器学习和图像分析任务,并结合深度学习框架进行深度学习训练和推理。
    • NVIDIA GPU Cloud VM Image(虚拟机镜像)是运行针对NVIDIA GPU优化的深度学习框架和HPC应用程序容器的优化环境,更多信息请参见在GPU实例上部署NGC环境
  • 在在创建实例后手动安装GRID驱动,请参见手动安装GPU驱动
非vGPU的GPU实例也支持安装GRID驱动。操作系统类型影响GRID驱动的安装方式,如下所示:
  • Windows:在镜像市场中搜索关键词GRID,并选用预装GRID驱动的收费镜像。这些收费镜像带有已经激活License的GRID驱动,不用再手动安装GRID驱动。

        • Linux:您需要自行购买GRID License,并在创建实例后手动安装GRID驱动和激活License,具体步骤请参见在vgn6i和vgn5i实例中安装GRID驱动(Linux)
  1. 完成网络和安全组配置。
    在选择配置时,请注意:
    • 网络:选择专有网络
    • 公网带宽:请根据您的业务需要选择带宽。
      注意 如果您在基础配置中选用了Windows 2008 R2及以下版本的镜像,在GPU驱动安装生效后,您将无法通过管理终端连接配备NVIDIA GPU的实例,远程连接时会始终显示黑屏或停留在启动界面。您需要在此处选中分配公网IP地址复选框,或者在创建实例后绑定弹性公网IP,以便通过其他协议连接实例,例如RDP(Windows自带的远程连接)、PCOIP、XenDesktop HDX 3D等。其中RDP不支持DirectX、OpenGL等应用,您需要自行安装VNC服务和客户端。
  2. 完成系统配置。
    在选择配置时,请注意:
    • 登录凭证:建议选择密钥对自定义密码。如果您选择创建后设置,通过管理终端登录实例时必须绑定SSH密钥对或者重置密码,然后重启实例使修改生效。如果此时GPU驱动尚未安装完成,重启操作会导致安装失败。
    • 实例自定义数据
      • 如果您在基础配置页面的镜像中选择了自动安装GPU驱动,此处会显示自动安装CUDA和GPU驱动的注意事项和Shell脚本内容。自动安装脚本已更新到v3.1版本。

      • 如果您未选择自动安装GPU驱动,可以在实例自定义数据处配置安装脚本,脚本示例请参见自动安装脚本v3.1
  1. 根据需要完成分组设置并确认订单,完成创建配备NVIDIA GPU的实例。
    如果您配置了自动安装脚本,实例启动后会自动安装GPU驱动。安装完成后实例会自动重启,重启过后GPU驱动才能正常工作。
    说明 GPU驱动在Persistence Mode下工作更稳定。安装脚本会自动开启GPU驱动的Persistence Mode,并将该设置添加到Linux系统服务中,开机自动启动服务,确保实例重启后还能默认开启Persistence Mode。
    自动安装过程受不同实例规格的内网带宽和CPU核数的影响,安装时间约10~20分钟,在安装过程中无法使用GPU,请勿对实例进行任何操作,也不要安装其它GPU相关软件,以防自动安装失败,导致实例不可用。您可以远程连接实例,通过安装日志查看安装进程和结果:
    • 如果正在安装,您可以看到安装进度条。
    • 如果已经安装成功,您可以看到安装结果提示ALL INSTALL OK
    • 如果安装失败,您将看到安装结果提示INSTALL FAIL
    • 详细安装日志位于/root/auto_install/auto_install.log
    说明 如果您在实例创建完成后更换操作系统,请确保使用支持自动安装CUDA和GPU驱动的镜像,避免自动安装失败。

自动安装GPU驱动脚本

实例首次启动时,cloud-init会自动执行Shell脚本安装GPU驱动、CUDA、cuDNN库。

  • 如果您选中了自动安装GPU驱动复选框,可选的GPU驱动、CUDA、cuDNN库版本如下:
    CUDAGPU驱动cuDNN支持的公共镜像版本(仅支持自营镜像)支持的实例规格
    10.2.89440.64.007.6.5
    • Aliyun Linux 2
    • Ubuntu 18.04、16.04
    • Centos 8.x、7.x、6.x
    • gn6v、gn6i、gn6e、gn5、gn5i、gn4
    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
    10.1.168
    • 440.64.00
    • 418.126.02
    • 7.6.5
    • 7.5.0
    • Ubuntu 18.04、16.04
    • Centos 7.x、6.x
    • gn6v、gn6i、gn6e、gn5、gn5i、gn4
    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
    10.0.130
    • 440.64.00
    • 418.126.02
    • 7.6.5
    • 7.5.0
    • 7.4.2
    • 7.3.1
    • Ubuntu 18.04、16.04
    • Centos 7.x、6.x
    • gn6v、gn6i、gn6e、gn5、gn5i、gn4
    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
    9.2.148
    • 440.64.00
    • 418.126.02
    • 390.116
    • 7.6.5
    • 7.5.0
    • 7.4.2
    • 7.3.1
    • 7.1.4
    • Ubuntu 16.04
    • Centos 7.x、6.x
    • gn6v、gn6e、gn5、gn5i、gn4
    • ebmgn6v、ebmgn6e、ebmgn5i
    9.0.176
    • 440.64.00
    • 418.126.02
    • 390.116
    • 7.6.5
    • 7.5.0
    • 7.4.2
    • 7.3.1
    • 7.1.4
    • 7.0.5
    • Ubuntu 16.04
    • Centos 7.x、6.x
    • SUSE 12sp2
    • gn6v、gn6e、gn5、gn5i、gn4
    • ebmgn6v、ebmgn6e、ebmgn5i
    8.0.61
    • 440.64.00
    • 418.126.02
    • 390.116
    • 7.1.3
    • 7.0.5
    • Ubuntu 16.04
    • Centos 7.x、6.x
    • gn5、gn5i、gn4
    • ebmgn5i
  • 如果您在实例自定义数据配置安装脚本,脚本内容请参见自动安装脚本v3.1
    自动安装脚本v3.1具有以下优势:
    • 提供最新版本的CUDA、GPU驱动和cuDNN库。
    • 登录实例后,如果正在安装驱动,您可以看到安装进度条。如果已经安装成功,实例会自动重启,重新登录后,您可以看到安装结果提示ALL INSTALL OK;如果安装失败,您将看到安装结果提示INSTALL FAIL
    使用自动安装脚本v3.1时,您需要修改安装脚本的以下参数,指定GPU驱动、CUDA、cuDNN版本号,以及是否安装AIACC,如果不安装AIACC,则将IS_INSTALL_PERSEUS的值修改为FALSE,例如:
    IS_INSTALL_PERSEUS="FALSE"
    DRIVER_VERSION="440.64.00"
    CUDA_VERSION="10.2.89"
    CUDNN_VERSION="7.6.5"
    说明 如果镜像是CentOS或SUSE操作系统,安装脚本使用.run安装包进行安装,如果镜像是Ubuntu操作系统,安装脚本使用.deb安装包进行安装。

自动安装脚本v3.1

#!/bin/sh

#Please input version to install
IS_INSTALL_PERSEUS=""
DRIVER_VERSION=""
CUDA_VERSION=""
CUDNN_VERSION=""
IS_INSTALL_RAPIDS="FALSE"

INSTALL_DIR="/root/auto_install"

#using .deb to install driver and cuda on ubuntu OS
#using .run to install driver and cuda on ubuntu OS
auto_install_script="auto_install.sh"

script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
echo $script_download_url

mkdir $INSTALL_DIR && cd $INSTALL_DIR
wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_

联系客服免费领取更多阿里云产品新购、续费升级折扣,叠加官网活动折上折更优惠