集群巡检
平台巡检是一种监测和评估底层系统运行状况的工具,可帮助您快速发现系统中存在的潜在风险并给出相应修复建议。该工具可用于扫描集群中的各个方面,包括系统性能瓶颈、业务组件运行状态、配置问题和镜像安全漏洞等,以提高系统的性能、稳定性和可用性。
主要功能
巡检主要支持 K8s 集群巡检、Rainbond 服务巡检、运行巡检、配置巡检和安全巡检这五类巡检项目。以下篇幅将详细介绍这五类巡检项。
K8s 集群巡检
当对 K8s 集群进行巡检时,通常会检查节点状态、核心组件状态、以及一些资源使用状况。
节点健康状态
- 检查集群中所有节点的健康状态,包括节点的运行状态、节点可用性、节点文件系统状态等。此外,还需要检查节点内核是否有死锁 、docker 是否正常等,以确保整个集群的稳定性和可用性。
K8s 核心组件状态
- K8s 中的核心组件包括 kube-apiserver 、kube-controller-manager 、kube-scheduler 和 etcd 等。对这些核心组件的状态进行检查,可以确保Kubernetes集群的核心功能正常运行。此外,还需要对 K8s 集群证书过期时间进行检查,避免证书过期导致集群问题。
节点资源状况
- K8s 是一个高度动态的系统,它需要确保节点资源的可用性以支持应用程序的正常运行。因此,在对集群进行巡检时,需要检查节点的资源使用情况,包括CPU、内存和磁盘等。通过检查资源使用情况,可以确保节点资源的可用性和可扩展性,并及时发现可能会影响应用程序性能的问题。
Rainbond 服务巡检
当对 Rainbond 底层服务进行巡检时,主要检查各个核心组件的状态以及重启状况。