Skip to main content
  1. Docs/

Kubernetes CSI

·7 mins· ·
Owl Dawn
Author
Owl Dawn
Table of Contents

PVC 创建到 pod 挂载持久卷的过程
#

相关组件:
#

  • PV controller:处理集群中的 pvc、pv 对象,控制 pvc 和 pv 的状态流转,进行持久卷的 provision/delete 操作。(static pv 不会触发 provisioner,dynamic 会触发)
  • AD controller:负责 VolumeAttachment 生命周期管理,由 external attacher 将设备挂载到目标节点会从目标节点卸载。VolumeAttachement 是控制块存储设备的 Attach/Detach 操作的逻辑对象
  • kubelete 中包含两个插件:
    • Volume Manager:管理存储卷的 Mount/Unmount 操作、卷设备的格式化等操作(如果当前节点并没有交给 AD Controller 管理,那么就是 volumeManager 负责管理 VolumeAttachement 的生命周期)
    • Volume Plugin:K8S 平台为存储提供商提供存储接入的插件接口,其中包含 in-tree 的多种存储插件和 out-of-tree 的两种存储插件。通过该插件机制进而为容器应用提供各种类型的存储。社区推荐的是 CSI 架构的扩展插件

相关资源:
#

PV:PersistentVolume,集群中存储卷的抽象概念,集群级别的资源,由集群管理员 or External Provisioner 创建。PV 的生命周期独立于使用 PV 的 Pod,PV 的 .Spec 中保存了存储设备的详细信息。

apiVersion: v1
kind: PersistentVolume
metadata:
  annotations:
    pv.kubernetes.io/provisioned-by: ceph2.csi.strato.xxxxxx.com    # 存储提供者
    volume.kubernetes.io/provisioner-deletion-secret-name: csi-rbd-secret2
    volume.kubernetes.io/provisioner-deletion-secret-namespace: strato-csi
  creationTimestamp: "2023-02-21T11:40:06Z"
  finalizers:
  - external-provisioner.volume.kubernetes.io/finalizer
  - kubernetes.io/pv-protection
  name: xxxx-xxxxx-xxx-xxx-xxx-xxxxx
  resourceVersion: "612136592"
  uid: xxxxxx-xxx-xxxx-xxxx-xxxxxx
spec:
  accessModes:
  - ReadWriteOnce
  capacity:
    storage: 32Gi
  claimRef:     # 引用对象, 该pv由哪个pvc创建
    apiVersion: v1
    kind: PersistentVolumeClaim
    name: xx-xxxx-xxxxxxxxxx
    namespace: xxxxx-xxxx
    resourceVersion: "612136592"
    uid: xxxxx-xxx-xxxx-xxxx-xxxxxxxx
  csi:
    controllerExpandSecretRef:
      name: csi-rbd-secret2
      namespace: strato-csi
    driver: ceph2.csi.strato.xxxxxx.com
    fsType: ext4
    nodeStageSecretRef:
      name: csi-rbd-secret2
      namespace: strato-csi
    volumeAttributes:
      clusterID: xxxxxxxxx-xxxxx-xxxx
      imageFeatures: layering,exclusive-lock,object-map,fast-diff,deep-flatten
      imageName: csi-vol-xxxxxx-xxxx-xxxx-xxxx-xxxxx
      journalPool: rbd
      pool: rbd
      storage.kubernetes.io/csiProvisionerIdentity: xxxxxx-5421-ceph2.csi.strato.xxxxxx.com
    volumeHandle: xxxx-xxxx-xxxxxxx-xxxxx-xxxx-xxxx-xxxxx-xxxxx-xxxx-xxx-xxxx-xxxx-xxxxxx   # 使用的存储设备信息
  mountOptions:
  - discard
  persistentVolumeReclaimPolicy: Delete
  storageClassName: xxxxx-csi-ceph-hl2
  volumeMode: Filesystem
status:
  phase: Bound
  # available : 表示当前的 pv 没有被绑定
  # bound:      已经被 pvc 绑定
  # released:   pvc 没有在使用 pv, 需要管理员手工释放 pv
  # failed:    资源回收失败

PVC:PersistentVolumeClaim,命名空间(namespace)级别的资源,由用户 or StatefulSet 控制器根据 VolumeClaimTemplate 创建。PVC 可以请求特定存储卷的大小及访问模

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  annotations:
    pv.kubernetes.io/bind-completed: "yes"
    pv.kubernetes.io/bound-by-controller: "yes"
    volume.beta.kubernetes.io/storage-provisioner: ceph2.csi.strato.xxxxx.com
    volume.kubernetes.io/storage-provisioner: ceph2.csi.strato.xxxxxx.com
  creationTimestamp: "2023-02-21T11:40:06Z"
  finalizers:
  - kubernetes.io/pvc-protection
  labels:
    app: xxxxxxxxxxx
    creator: volume-manager
    resourcerequest: 32Gi
    storageclass: xxxxxxx-csi-ceph-hl2
    workspace.aircode.xxxxxx.net/binding-mode: ""
    workspace.aircode.xxxxxx.net/used: "yes"
  name: xxx-xxxx-xxxxxxxxx
  namespace: xxxxx-xxx
  resourceVersion: "218710561"
  uid: xxxxxx-xxx-xx-xx-xxxxxx
spec:
  accessModes:
  - ReadWriteOnce
  # ReadWriteOnce:被单个节点 mount 为读写 rw 模式
  # ReadOnlyMany  被多个节点 mount 为只读 ro 模式
  # ReadWriteMany 被多个节点 mount 为读写 rw 模式
  resources:
    requests:
      storage: 32Gi
  storageClassName: xxxxx-csi-ceph-hl2  # 使用的sc类型
  volumeMode: Filesystem                # 存储模式,包含 Filesystem(文件系统)和 Block(块设备)
  volumeName: xxx-xxxx-xxx-xxx-xxx-xxx  # 绑定的 pv name
status:
  accessModes:
  - ReadWriteOnce
  capacity:
    storage: 32Gi
  phase: Bound
  # Pending:pvc 刚创建还未与 pv 绑定
  # Bound:pvc 与 pv 完成绑定
  # Lost:对应的 pv 被删除

StorageClass:SC,集群级别的资源,由集群管理员创建,提供了一种动态提供存储卷的模板,Spec 中详细定义了存储卷 PV 的不同服务质量级别、备份策略等等。

allowVolumeExpansion: true # 是否允许扩容
allowedTopologies:
- matchLabelExpressions:
  - key: topology.kubernetes.io/region
    values:
    - IDC-HL
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  annotations:
    kubectl.kubernetes.io/last-applied-configuration: |
      {"allowVolumeExpansion":true,"allowedTopologies":[{"matchLabelExpressions":[{"key":"topology.kubernetes.io/region","values":["IDC-HL"]}]}],"apiVersion":"storage.k8s.io/v1","kind":"StorageClass","metadata":{"annotations":{},"name":"xxxxx-csi-ceph-hl2"},"mountOptions":["discard"],"parameters":{"clusterID":"xxxxxxx-xxxx-xxxx-xxxx-xxxxx","csi.storage.k8s.io/controller-expand-secret-name":"csi-rbd-secret2","csi.storage.k8s.io/controller-expand-secret-namespace":"strato-csi","csi.storage.k8s.io/fstype":"ext4","csi.storage.k8s.io/node-stage-secret-name":"csi-rbd-secret2","csi.storage.k8s.io/node-stage-secret-namespace":"strato-csi","csi.storage.k8s.io/provisioner-secret-name":"csi-rbd-secret2","csi.storage.k8s.io/provisioner-secret-namespace":"strato-csi","imageFeatures":"layering,exclusive-lock,object-map,fast-diff,deep-flatten","pool":"rbd"},"provisioner":"ceph2.csi.strato.xxxxxx.com","reclaimPolicy":"Delete"}      
    storageclass.kubesphere.io/allow-clone: "true"
    storageclass.kubesphere.io/allow-snapshot: "true"
  creationTimestamp: "2022-01-21T07:52:12Z"
  name: xxxxx-csi-ceph-hl2
  resourceVersion: "15736641"
  uid: xxxxx-xxxx-xxxx-xxxx-xxxxxx
mountOptions:
- discard
parameters:
  clusterID: xxxx-xxx-xx-xx-xxxx
  csi.storage.k8s.io/controller-expand-secret-name: csi-rbd-secret2
  csi.storage.k8s.io/controller-expand-secret-namespace: strato-csi
  csi.storage.k8s.io/fstype: ext4
  csi.storage.k8s.io/node-stage-secret-name: csi-rbd-secret2
  csi.storage.k8s.io/node-stage-secret-namespace: strato-csi
  csi.storage.k8s.io/provisioner-secret-name: csi-rbd-secret2
  csi.storage.k8s.io/provisioner-secret-namespace: strato-csi
  imageFeatures: layering,exclusive-lock,object-map,fast-diff,deep-flatten
  pool: rbd
provisioner: ceph2.csi.strato.xxxxx.com
reclaimPolicy: Delete
# 回收策略, pvc 和 pv 解绑,删除了 pvc, pv 里面的数据是否还保留
# Retain: 保留数据, 需要手工删除
# delete: pv删除
volumeBindingMode: Immediate
# Immediate: pv 创建好之后立马将 pvc 和 pv 进行绑定
# WaitForFirstConsumer: 延迟绑定,直到使用 pvc 的 pod 被调度到节点上

CSINode

  • 判断外部 CSI 插件是否注册成功。在 Node Driver Registrar 组件向 Kubelet 注册完毕后,Kubelet 会创建该资源,故不需要显式创建 CSINode 资源
  • 将 Kubernetes 中 Node 资源名称与三方存储系统中节点名称(nodeID)一一对应。此处 Kubelet 会调用外部 CSI 插件 NodeServer 的 GetNodeInfo 函数获取 nodeID。
  • 显示卷拓扑信息。CSINode 中 topologyKeys 用来表示存储节点的拓扑信息,卷拓扑信息会使得 Scheduler 在 Pod 调度时选择合适的存储节点。
apiVersion: storage.k8s.io/v1
kind: CSINode
metadata:
  annotations:
    storage.alpha.kubernetes.io/migrated-plugins: kubernetes.io/aws-ebs,kubernetes.io/azure-disk,kubernetes.io/azure-file,kubernetes.io/cinder,kubernetes.io/gce-pd,kubernetes.io/vsphere-volume
  creationTimestamp: "2023-01-104T08:48:08Z"
  name: xxxx-xxx-xxxx-xxxx
  ownerReferences:
  - apiVersion: v1
    kind: Node
    name: xxxx-xxx-xxxx-xxxx
    uid: xxx-xx-x-x-xx
  resourceVersion: "527526531"
  uid: xxx-xx-x-x-xx
spec:
  drivers:  # 节点上有哪些 driver
  - name: ceph2.csi.strato.xxxxx.com
    nodeID: dc02-p2a-ta02-n029
    topologyKeys: null
  - name: ceph.csi.strato.xxxxx.com
    nodeID: dc02-p2a-ta02-n029
    topologyKeys: null
  - name: ceph-dual.csi.strato.xxxxx.com
    nodeID: dc02-p2a-ta02-n029
    topologyKeys: null

CSIDriver

  • 简化外部 CSI 插件的发现。由集群管理员创建,通过 kubectl get csidriver 即可得知环境上有哪些 CSI 插件。
  • 自定义Kubernetes 行为,如一些外部 CSI 插件不需要执行卷挂接(VolumeAttach)操作,则可以设置 .spec.attachRequired 为 false。
apiVersion: storage.k8s.io/v1
kind: CSIDriver
metadata:
  annotations:
    kubectl.kubernetes.io/last-applied-configuration: |
      {"apiVersion":"storage.k8s.io/v1","kind":"CSIDriver","metadata":{"annotations":{},"name":"ceph2.csi.strato.xxxxx.com"},"spec":{"attachRequired":false,"fsGroupPolicy":"File","podInfoOnMount":false}}      
  creationTimestamp: "2021-01-21T07:22:17Z"
  name: ceph2.csi.strato.xxxxx.com
  resourceVersion: "16623821"
  uid: xxxx-xxx-xx-xx-xxx
spec:
  attachRequired: false # 是否需要 attache 和 mount,只有 evs 需要 attach
  fsGroupPolicy: File
  podInfoOnMount: false
  requiresRepublish: false
  storageCapacity: false
  volumeLifecycleModes:
  - Persistent    # volume生命周期,持久模式

VolumeAttachment:AD Controller 创建一个 VolumeAttachment,而 External-attacher 则通过 list&watch 该 VolumeAttachment,根据其状态属性来进行存储的挂载和卸载操作。

挂载流程
#

PVC 创建到 pod 挂载持久卷的过程:

  1. 创建 pod,pod 中指定了 pvc
  2. scheduler watch 到 pod 的 NodeName 为空,并发起调度。筛选 node,为 pvc 添加 annotation:volume.kubernetes.io/selected-node
  3. pv controller watch 到 pvc 需要动态提供 pv,等待集群中存在 availale 状态的 pv
  4. external-provisioner watch 到 pvc,调用 csi 插件的 provision 函数,使 csi 插件创建存储卷,随后创建 pv 对象
  5. pv controller 将 pv 和 pvc 绑定
  6. scheduler 将 pod 和 node 绑定
  7. AD controller watch 到 pv 发现需要外部的 attacher 处理,创建 attachment 资源
  8. external-watcher watch 到 attachment 资源,调用 csi 插件的 attach 函数,由 csi 插件将存储卷 attach 到节点上
  9. kubelete 调用 csi 插件的 mount 相关函数,将数据卷挂载到对应的路径,映射到容器中
  10. pod 挂载 volume 结束。

延迟绑定
#

kube-scheduler 中有两个绑定,kube-schduler 将 pod 和 node 绑定、pv controller 将 pvc 和 pv 绑定。默认情况 scheduler 会等待 pvc 和 pv 绑定后,根据 pv 所在的 az 选择 node 过滤,再调度 pod;而延迟绑定会延迟 pvc 和 pv 的绑定阶段,kube-scheduler 不等待 pvc 和 pv 绑定,先调度 node,将调度结果写在 pvc 注解中,pv controller 获取到预调度 az 信息后,再完成 pv 创建和绑定。

stroageclass延迟绑定作用字段:VolumeBindingMode

  • Immediate :表示一旦创建了 PersistentVolumeClaim 也就完成了卷绑定和动态制备(不参与调度)。对于由于拓扑限制而非集群所有节点可达的存储后端,PersistentVolume 会在不知道 Pod 调度要求的情况下绑定或者制备。
  • WaitForFirstConsumer :该模式将延迟 PersistentVolume 的绑定和制备,直到使用该 PersistentVolumeClaim 的 Pod 被创建。PersistentVolume 会根据 Pod 调度约束指定的拓扑来选择或制备。这些包括但不限于资源需求、节点筛选器、Pod 亲和性和互斥性以及污点和容忍度。

CSI 插件
#

CSI(Container Storage Interface),为容器编排引擎和存储系统间建立一套标准的存储调用接口,实现解耦,通过该接口能为容器编排引擎提供存储服务。

CSI 架构主要由 CSI driver 和一些 sidecar 组件构成。

CSI driver 一般由存储供应商提供,包含三个主要组成部分:

  • Node Service: 运行在每个 Kubernetes 节点上,负责在节点上挂载和卸载存储卷,并处理节点级别的存储操作
  • Controller Service: 运行在 Kubernetes 控制平面中,负责管理存储卷的生命周期,包括创建、删除和扩容等操作
  • Identity Service: 在 CSI 驱动器注册时提供标识信息,并向 Kubernetes 集群公开驱动器的支持能力。负责告知 Kubernetes 驱动器的存在,提供驱动器的基本信息和功能支持。

对于 sidecar 组件,是 Kubernetes 官方维护的一组标准 external 组件,主要负责监听 K8s 里的资源对象,从而向 CSI Driver 发起 gRPC 调用。这些组件和 CSI driver 部署在同一个 pod 中。

CSI sidecar 组件
#

Node Driver Registrar

负责将外部 CSI 插件注册到 Kubelet,使 Kubelet 通过特定的 Unix Domain Socket 来调用外部 CSI 插件函数。

kubelet 会调用 csi 插件的 NodeGetInfoNodeStageVolumeNodePublishVolumeNodeGetVolumeStats 等函数

External Attacher

负责挂接/摘除存储卷。其会 watch 集群中的 VolumeAttachment 资源和 PersistentVolume 资源。

对于 VolumeAttachment 资源:

  • 从 VolumeAttachment 资源中获得 PV 的所有信息,如 volume ID、node ID、挂载 Secret 等。
  • 判断 VolumeAttachment 的 DeletionTimestamp 字段是否为空来判断其为卷挂接或卷摘除:若为卷挂接则通过特定的 Unix Domain Socket 调用外部 CSI 插件的 ControllerPublishVolume 接口;若为卷摘除则通过特定的 Unix Domain Socket 调用外部 CSI 插件的 ControllerUnpublishVolume 接口。

对于 PersistentVolume 资源:

  • 在挂接时为相关 PV 打上 Finalizer:external-attacher/[driver 名称]。
  • 当 PV 处于删除状态时(DeletionTimestamp 非空),删除 Finalizer:external-attacher/[driver 名称]。

External Provisioner

创建/删除实际的存储卷,以及代表存储卷的 PV 资源。watch 集群中的 PVC 和 PV 资源。通过特定的 Unix Domain Socket 调用外部 CSI 插件的 CreateVolumeDeleteVolume 函数。

External Resizer

负责扩容存储卷。watch 集群中的 PVC 资源,调用外部 CSI 插件的 ControllerExpandVolume 接口并更新 PV 的 .Spec.Capacity。

livenessprobe

检查 CSI 插件是否正常。通过对外暴露一个 / healthz HTTP 端口以服务 kubelet 的探针探测器,内部是通过特定的 Unix Domain Socket 调用外部 CSI 插件的 Probe 接口。

参考
#

Related

Go Relect 机制
·2 mins
Golang
Kubernetes Operator
·11 mins
Golang Channel
·6 mins
Golang
Golang sync.Map
·4 mins
Golang
containerd
·12 mins
性能优化
·7 mins