PVC 创建到 pod 挂载持久卷的过程 #
相关组件: #
- PV controller:处理集群中的 pvc、pv 对象,控制 pvc 和 pv 的状态流转,进行持久卷的 provision/delete 操作。(static pv 不会触发 provisioner,dynamic 会触发)
- AD controller:负责 VolumeAttachment 生命周期管理,由 external attacher 将设备挂载到目标节点会从目标节点卸载。VolumeAttachement 是控制块存储设备的 Attach/Detach 操作的逻辑对象
- kubelete 中包含两个插件:
- Volume Manager:管理存储卷的 Mount/Unmount 操作、卷设备的格式化等操作(如果当前节点并没有交给 AD Controller 管理,那么就是 volumeManager 负责管理 VolumeAttachement 的生命周期)
- Volume Plugin:K8S 平台为存储提供商提供存储接入的插件接口,其中包含 in-tree 的多种存储插件和 out-of-tree 的两种存储插件。通过该插件机制进而为容器应用提供各种类型的存储。社区推荐的是 CSI 架构的扩展插件
相关资源: #
PV:PersistentVolume,集群中存储卷的抽象概念,集群级别的资源,由集群管理员 or External Provisioner 创建。PV 的生命周期独立于使用 PV 的 Pod,PV 的 .Spec 中保存了存储设备的详细信息。
apiVersion: v1
kind: PersistentVolume
metadata:
annotations:
pv.kubernetes.io/provisioned-by: ceph2.csi.strato.xxxxxx.com # 存储提供者
volume.kubernetes.io/provisioner-deletion-secret-name: csi-rbd-secret2
volume.kubernetes.io/provisioner-deletion-secret-namespace: strato-csi
creationTimestamp: "2023-02-21T11:40:06Z"
finalizers:
- external-provisioner.volume.kubernetes.io/finalizer
- kubernetes.io/pv-protection
name: xxxx-xxxxx-xxx-xxx-xxx-xxxxx
resourceVersion: "612136592"
uid: xxxxxx-xxx-xxxx-xxxx-xxxxxx
spec:
accessModes:
- ReadWriteOnce
capacity:
storage: 32Gi
claimRef: # 引用对象, 该pv由哪个pvc创建
apiVersion: v1
kind: PersistentVolumeClaim
name: xx-xxxx-xxxxxxxxxx
namespace: xxxxx-xxxx
resourceVersion: "612136592"
uid: xxxxx-xxx-xxxx-xxxx-xxxxxxxx
csi:
controllerExpandSecretRef:
name: csi-rbd-secret2
namespace: strato-csi
driver: ceph2.csi.strato.xxxxxx.com
fsType: ext4
nodeStageSecretRef:
name: csi-rbd-secret2
namespace: strato-csi
volumeAttributes:
clusterID: xxxxxxxxx-xxxxx-xxxx
imageFeatures: layering,exclusive-lock,object-map,fast-diff,deep-flatten
imageName: csi-vol-xxxxxx-xxxx-xxxx-xxxx-xxxxx
journalPool: rbd
pool: rbd
storage.kubernetes.io/csiProvisionerIdentity: xxxxxx-5421-ceph2.csi.strato.xxxxxx.com
volumeHandle: xxxx-xxxx-xxxxxxx-xxxxx-xxxx-xxxx-xxxxx-xxxxx-xxxx-xxx-xxxx-xxxx-xxxxxx # 使用的存储设备信息
mountOptions:
- discard
persistentVolumeReclaimPolicy: Delete
storageClassName: xxxxx-csi-ceph-hl2
volumeMode: Filesystem
status:
phase: Bound
# available : 表示当前的 pv 没有被绑定
# bound: 已经被 pvc 绑定
# released: pvc 没有在使用 pv, 需要管理员手工释放 pv
# failed: 资源回收失败
PVC:PersistentVolumeClaim,命名空间(namespace)级别的资源,由用户 or StatefulSet 控制器根据 VolumeClaimTemplate 创建。PVC 可以请求特定存储卷的大小及访问模
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
annotations:
pv.kubernetes.io/bind-completed: "yes"
pv.kubernetes.io/bound-by-controller: "yes"
volume.beta.kubernetes.io/storage-provisioner: ceph2.csi.strato.xxxxx.com
volume.kubernetes.io/storage-provisioner: ceph2.csi.strato.xxxxxx.com
creationTimestamp: "2023-02-21T11:40:06Z"
finalizers:
- kubernetes.io/pvc-protection
labels:
app: xxxxxxxxxxx
creator: volume-manager
resourcerequest: 32Gi
storageclass: xxxxxxx-csi-ceph-hl2
workspace.aircode.xxxxxx.net/binding-mode: ""
workspace.aircode.xxxxxx.net/used: "yes"
name: xxx-xxxx-xxxxxxxxx
namespace: xxxxx-xxx
resourceVersion: "218710561"
uid: xxxxxx-xxx-xx-xx-xxxxxx
spec:
accessModes:
- ReadWriteOnce
# ReadWriteOnce:被单个节点 mount 为读写 rw 模式
# ReadOnlyMany 被多个节点 mount 为只读 ro 模式
# ReadWriteMany 被多个节点 mount 为读写 rw 模式
resources:
requests:
storage: 32Gi
storageClassName: xxxxx-csi-ceph-hl2 # 使用的sc类型
volumeMode: Filesystem # 存储模式,包含 Filesystem(文件系统)和 Block(块设备)
volumeName: xxx-xxxx-xxx-xxx-xxx-xxx # 绑定的 pv name
status:
accessModes:
- ReadWriteOnce
capacity:
storage: 32Gi
phase: Bound
# Pending:pvc 刚创建还未与 pv 绑定
# Bound:pvc 与 pv 完成绑定
# Lost:对应的 pv 被删除
StorageClass:SC,集群级别的资源,由集群管理员创建,提供了一种动态提供存储卷的模板,Spec 中详细定义了存储卷 PV 的不同服务质量级别、备份策略等等。
allowVolumeExpansion: true # 是否允许扩容
allowedTopologies:
- matchLabelExpressions:
- key: topology.kubernetes.io/region
values:
- IDC-HL
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
annotations:
kubectl.kubernetes.io/last-applied-configuration: |
{"allowVolumeExpansion":true,"allowedTopologies":[{"matchLabelExpressions":[{"key":"topology.kubernetes.io/region","values":["IDC-HL"]}]}],"apiVersion":"storage.k8s.io/v1","kind":"StorageClass","metadata":{"annotations":{},"name":"xxxxx-csi-ceph-hl2"},"mountOptions":["discard"],"parameters":{"clusterID":"xxxxxxx-xxxx-xxxx-xxxx-xxxxx","csi.storage.k8s.io/controller-expand-secret-name":"csi-rbd-secret2","csi.storage.k8s.io/controller-expand-secret-namespace":"strato-csi","csi.storage.k8s.io/fstype":"ext4","csi.storage.k8s.io/node-stage-secret-name":"csi-rbd-secret2","csi.storage.k8s.io/node-stage-secret-namespace":"strato-csi","csi.storage.k8s.io/provisioner-secret-name":"csi-rbd-secret2","csi.storage.k8s.io/provisioner-secret-namespace":"strato-csi","imageFeatures":"layering,exclusive-lock,object-map,fast-diff,deep-flatten","pool":"rbd"},"provisioner":"ceph2.csi.strato.xxxxxx.com","reclaimPolicy":"Delete"}
storageclass.kubesphere.io/allow-clone: "true"
storageclass.kubesphere.io/allow-snapshot: "true"
creationTimestamp: "2022-01-21T07:52:12Z"
name: xxxxx-csi-ceph-hl2
resourceVersion: "15736641"
uid: xxxxx-xxxx-xxxx-xxxx-xxxxxx
mountOptions:
- discard
parameters:
clusterID: xxxx-xxx-xx-xx-xxxx
csi.storage.k8s.io/controller-expand-secret-name: csi-rbd-secret2
csi.storage.k8s.io/controller-expand-secret-namespace: strato-csi
csi.storage.k8s.io/fstype: ext4
csi.storage.k8s.io/node-stage-secret-name: csi-rbd-secret2
csi.storage.k8s.io/node-stage-secret-namespace: strato-csi
csi.storage.k8s.io/provisioner-secret-name: csi-rbd-secret2
csi.storage.k8s.io/provisioner-secret-namespace: strato-csi
imageFeatures: layering,exclusive-lock,object-map,fast-diff,deep-flatten
pool: rbd
provisioner: ceph2.csi.strato.xxxxx.com
reclaimPolicy: Delete
# 回收策略, pvc 和 pv 解绑,删除了 pvc, pv 里面的数据是否还保留
# Retain: 保留数据, 需要手工删除
# delete: pv删除
volumeBindingMode: Immediate
# Immediate: pv 创建好之后立马将 pvc 和 pv 进行绑定
# WaitForFirstConsumer: 延迟绑定,直到使用 pvc 的 pod 被调度到节点上
CSINode:
- 判断外部 CSI 插件是否注册成功。在 Node Driver Registrar 组件向 Kubelet 注册完毕后,Kubelet 会创建该资源,故不需要显式创建 CSINode 资源
- 将 Kubernetes 中 Node 资源名称与三方存储系统中节点名称(nodeID)一一对应。此处 Kubelet 会调用外部 CSI 插件 NodeServer 的 GetNodeInfo 函数获取 nodeID。
- 显示卷拓扑信息。CSINode 中 topologyKeys 用来表示存储节点的拓扑信息,卷拓扑信息会使得 Scheduler 在 Pod 调度时选择合适的存储节点。
apiVersion: storage.k8s.io/v1
kind: CSINode
metadata:
annotations:
storage.alpha.kubernetes.io/migrated-plugins: kubernetes.io/aws-ebs,kubernetes.io/azure-disk,kubernetes.io/azure-file,kubernetes.io/cinder,kubernetes.io/gce-pd,kubernetes.io/vsphere-volume
creationTimestamp: "2023-01-104T08:48:08Z"
name: xxxx-xxx-xxxx-xxxx
ownerReferences:
- apiVersion: v1
kind: Node
name: xxxx-xxx-xxxx-xxxx
uid: xxx-xx-x-x-xx
resourceVersion: "527526531"
uid: xxx-xx-x-x-xx
spec:
drivers: # 节点上有哪些 driver
- name: ceph2.csi.strato.xxxxx.com
nodeID: dc02-p2a-ta02-n029
topologyKeys: null
- name: ceph.csi.strato.xxxxx.com
nodeID: dc02-p2a-ta02-n029
topologyKeys: null
- name: ceph-dual.csi.strato.xxxxx.com
nodeID: dc02-p2a-ta02-n029
topologyKeys: null
CSIDriver:
- 简化外部 CSI 插件的发现。由集群管理员创建,通过 kubectl get csidriver 即可得知环境上有哪些 CSI 插件。
- 自定义Kubernetes 行为,如一些外部 CSI 插件不需要执行卷挂接(VolumeAttach)操作,则可以设置 .spec.attachRequired 为 false。
apiVersion: storage.k8s.io/v1
kind: CSIDriver
metadata:
annotations:
kubectl.kubernetes.io/last-applied-configuration: |
{"apiVersion":"storage.k8s.io/v1","kind":"CSIDriver","metadata":{"annotations":{},"name":"ceph2.csi.strato.xxxxx.com"},"spec":{"attachRequired":false,"fsGroupPolicy":"File","podInfoOnMount":false}}
creationTimestamp: "2021-01-21T07:22:17Z"
name: ceph2.csi.strato.xxxxx.com
resourceVersion: "16623821"
uid: xxxx-xxx-xx-xx-xxx
spec:
attachRequired: false # 是否需要 attache 和 mount,只有 evs 需要 attach
fsGroupPolicy: File
podInfoOnMount: false
requiresRepublish: false
storageCapacity: false
volumeLifecycleModes:
- Persistent # volume生命周期,持久模式
VolumeAttachment:AD Controller 创建一个 VolumeAttachment,而 External-attacher 则通过 list&watch 该 VolumeAttachment,根据其状态属性来进行存储的挂载和卸载操作。
挂载流程 #
PVC 创建到 pod 挂载持久卷的过程:
- 创建 pod,pod 中指定了 pvc
- scheduler watch 到 pod 的 NodeName 为空,并发起调度。筛选 node,为 pvc 添加 annotation:
volume.kubernetes.io/selected-node
- pv controller watch 到 pvc 需要动态提供 pv,等待集群中存在 availale 状态的 pv
- external-provisioner watch 到 pvc,调用 csi 插件的 provision 函数,使 csi 插件创建存储卷,随后创建 pv 对象
- pv controller 将 pv 和 pvc 绑定
- scheduler 将 pod 和 node 绑定
- AD controller watch 到 pv 发现需要外部的 attacher 处理,创建 attachment 资源
- external-watcher watch 到 attachment 资源,调用 csi 插件的 attach 函数,由 csi 插件将存储卷 attach 到节点上
- kubelete 调用 csi 插件的 mount 相关函数,将数据卷挂载到对应的路径,映射到容器中
- pod 挂载 volume 结束。
延迟绑定 #
kube-scheduler 中有两个绑定,kube-schduler 将 pod 和 node 绑定、pv controller 将 pvc 和 pv 绑定。默认情况 scheduler 会等待 pvc 和 pv 绑定后,根据 pv 所在的 az 选择 node 过滤,再调度 pod;而延迟绑定会延迟 pvc 和 pv 的绑定阶段,kube-scheduler 不等待 pvc 和 pv 绑定,先调度 node,将调度结果写在 pvc 注解中,pv controller 获取到预调度 az 信息后,再完成 pv 创建和绑定。
stroageclass延迟绑定作用字段:VolumeBindingMode
Immediate
:表示一旦创建了 PersistentVolumeClaim 也就完成了卷绑定和动态制备(不参与调度)。对于由于拓扑限制而非集群所有节点可达的存储后端,PersistentVolume 会在不知道 Pod 调度要求的情况下绑定或者制备。WaitForFirstConsumer
:该模式将延迟 PersistentVolume 的绑定和制备,直到使用该 PersistentVolumeClaim 的 Pod 被创建。PersistentVolume 会根据 Pod 调度约束指定的拓扑来选择或制备。这些包括但不限于资源需求、节点筛选器、Pod 亲和性和互斥性以及污点和容忍度。
CSI 插件 #
CSI(Container Storage Interface),为容器编排引擎和存储系统间建立一套标准的存储调用接口,实现解耦,通过该接口能为容器编排引擎提供存储服务。
CSI 架构主要由 CSI driver 和一些 sidecar 组件构成。
CSI driver 一般由存储供应商提供,包含三个主要组成部分:
- Node Service: 运行在每个 Kubernetes 节点上,负责在节点上挂载和卸载存储卷,并处理节点级别的存储操作。
- Controller Service: 运行在 Kubernetes 控制平面中,负责管理存储卷的生命周期,包括创建、删除和扩容等操作。
- Identity Service: 在 CSI 驱动器注册时提供标识信息,并向 Kubernetes 集群公开驱动器的支持能力。负责告知 Kubernetes 驱动器的存在,提供驱动器的基本信息和功能支持。
对于 sidecar 组件,是 Kubernetes 官方维护的一组标准 external 组件,主要负责监听 K8s 里的资源对象,从而向 CSI Driver 发起 gRPC 调用。这些组件和 CSI driver 部署在同一个 pod 中。
CSI sidecar 组件 #
Node Driver Registrar
负责将外部 CSI 插件注册到 Kubelet,使 Kubelet 通过特定的 Unix Domain Socket 来调用外部 CSI 插件函数。
kubelet 会调用 csi 插件的 NodeGetInfo
、NodeStageVolume
、NodePublishVolume
、NodeGetVolumeStats
等函数
External Attacher
负责挂接/摘除存储卷。其会 watch 集群中的 VolumeAttachment 资源和 PersistentVolume 资源。
对于 VolumeAttachment 资源:
- 从 VolumeAttachment 资源中获得 PV 的所有信息,如 volume ID、node ID、挂载 Secret 等。
- 判断 VolumeAttachment 的 DeletionTimestamp 字段是否为空来判断其为卷挂接或卷摘除:若为卷挂接则通过特定的 Unix Domain Socket 调用外部 CSI 插件的
ControllerPublishVolume
接口;若为卷摘除则通过特定的 Unix Domain Socket 调用外部 CSI 插件的ControllerUnpublishVolume
接口。
对于 PersistentVolume 资源:
- 在挂接时为相关 PV 打上 Finalizer:external-attacher/[driver 名称]。
- 当 PV 处于删除状态时(DeletionTimestamp 非空),删除 Finalizer:external-attacher/[driver 名称]。
External Provisioner
创建/删除实际的存储卷,以及代表存储卷的 PV 资源。watch 集群中的 PVC 和 PV 资源。通过特定的 Unix Domain Socket 调用外部 CSI 插件的 CreateVolume
和 DeleteVolume
函数。
External Resizer
负责扩容存储卷。watch 集群中的 PVC 资源,调用外部 CSI 插件的 ControllerExpandVolume
接口并更新 PV 的 .Spec.Capacity。
livenessprobe
检查 CSI 插件是否正常。通过对外暴露一个 / healthz HTTP 端口以服务 kubelet 的探针探测器,内部是通过特定的 Unix Domain Socket 调用外部 CSI 插件的 Probe 接口。
参考 #
- https://www.cloudnative101.net/posts/kubernetes-storage-101-implementing-csi-plugin/
- https://kingjcy.github.io/post/cloud/paas/base/kubernetes/k8s-store-csi/
- https://www.lixueduan.com/posts/kubernetes/14-pv-dynamic-provision-process/
- https://www.huweihuang.com/kubernetes-notes/principle/flow/pvc-flow.html
- https://cloud.tencent.com/developer/article/2382359
- https://developer.aliyun.com/article/783464