Skip to content

Latest commit

 

History

History
61 lines (41 loc) · 2.05 KB

ascend910b-support_cn.md

File metadata and controls

61 lines (41 loc) · 2.05 KB

简介

本组件支持复用华为升腾910B设备,并为此提供以下几种与vGPU类似的复用功能,包括:

*** NPU 共享***: 每个任务可以只占用一部分显卡,多个任务可以共享一张显卡

可限制分配的显存大小: 你现在可以用显存值(例如3000M)来分配NPU,本组件会确保任务使用的显存不会超过分配数值

可限制分配的算力大小: 你现在可以用百分比来分配 NPU的算力,本组件会确保任务使用的算力不会超过分配数值

节点需求

  • Ascend docker runtime
  • driver version > 24.1.rc1
  • Ascend device type: 910B(300T A2)

开启NPU复用

kubectl label node {ascend-node} accelerator=huawei-Ascend910
kubectl apply -f ascendplugin-910-hami.yaml

运行NPU任务

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: ubuntu-container
      image: ascendhub.huawei.com/public-ascendhub/ascend-mindspore:23.0.RC3-centos7
      command: ["bash", "-c", "sleep 86400"]
      resources:
        limits:
          huawei.com/Ascend910: 1 # requesting 1 vGPUs
          huawei.com/Ascend910-memory: 2000 # requesting 2000m device memory

注意事项

  1. 目前Ascend910B设备,只支持2种粒度的切分,分别是1/4卡和1/2卡,分配的显存会自动对齐到在分配额之上最近的粒度上

  2. 在init container中无法使用NPU复用功能

  3. 只有申请单MLU的任务可以指定显存Ascend910-memory的数值,若申请的NPU数量大于1,则所有申请的NPU都会被整卡分配