集群巡检
平台巡检是一种监测和评估底层系统运行状况的工具,可帮助您快速发现系统中存在的潜在风险并给出相应修复建议。该工具可用于扫描集群中的各个方面,包括系统性能瓶颈、业务组件运行状态、配置问题和镜像安全漏洞等,以提高系统的性能、稳定性和可用性。
主要功能
巡检主要支持 K8s 集群巡检、Rainbond 服务巡检、运行巡检、配置巡检和安全巡检这五类巡检项目。以下篇幅将详细介绍这五类巡检项。
K8s 集群巡检
当对 K8s 集群进行巡检时,通常会检查节点状态、核心组件状态、以及一些资源使用状况。
节点健康状态
- 检查集群中所有节点的 健康状态,包括节点的运行状态、节点可用性、节点文件系统状态等。此外,还需要检查节点内核是否有死锁、docker 是否正常等,以确保整个集群的稳定性和可用性。
K8s 核心组件状态
- K8s 中的核心组件包括 kube-apiserver 、kube-controller-manager 、kube-scheduler 和 etcd 等。对这些核心组件的状态进行检查,可以确保Kubernetes集群的核心功能正常运行。此外,还需要对 K8s 集群证书过期时间进行检查,避免证书过期导致集群问题。
节点资源状况
- K8s 是一个高度动态的系统,它需要确保节点资源的可用性以支持应用程序的正常运行。因此,在对集群进行巡检时,需要检查节点的资源使用情况,包括CPU、内存和磁盘等。通过检查资源使用情况,可以确保节点资源的可用性和可扩展性,并及时发现可能会影响应用程序性能的问题。
Rainbond 服务巡检
当对 Rainbond 底层服务进行巡检时,主要检查各个核心组件的状态以及重启状况。
运行状态
- 检查 Rainbond 底层的核心组件,如 api 服务、网关服务、构建服务、应用运行时服务等组件的运行状态,以确保 Rainbond 的正常运行。
重启状况
- 检查 Rainbond 底层组件的重启情况,如重启次数、重启原因等,可以确保及时发现 Rainbond 自身组件的问题并进行修复。
运行巡检
运行巡检主要针对于平台上运行的业务进行巡检,当进行运行巡检时,主要检查组件 pod 的运行状态和重启状况。
运行状态
- 检查集群内各个 Pod 的运行状态,例如 Pod 是否处于 Running 状态、Pod 是否处于 CrashLoopBackOff 状态、Pod 是否处于 Pending 状态等,以确保及时发现异常 Pod。
重启状况
- 检查集群内各个 Pod 的重启情况,如重启次数、重启原因等, 以确保及时发现 Pod 的问题并进行修复。
配置巡检
配置巡检主要针对于平台上运行的业务资源配置、健康检测配置等进行巡检。主要检查容器镜像标签、容器运行时参数、资源限制设置、存储挂载设置、容器健康检测设置。
容器镜像标签
- 检查容器镜像的标签是否合规,包括是否使用了 latest 标签、是否使用了明确的版本号等。
容器运行时参数
- 检查容器运行时参数是否安全,包括是否禁止使用特权模式、是否开启了安全策略等。
资源限制设置
- 检查容器资源限制设置是否合理,包括 CPU 和内存限制是否设置合理。