Skip to main content

观测中心

观测中心是指一组工具和数据可视化看板,用于监视、调试和分析运行在 Kubernetes 集群和 rainbond 平台中的基础设施及应用服务。它提供了一些关键功能,例如:资源监控、流量分析、集群管理、集群巡检、监控报警等,使得运维人员和开发人员可以更加有效地管理和优化部署在集群中的应用程序。

主要功能

对集群和节点进行各项资源监控,能够对日志收集和分析,跟踪和诊断应用和基础设施的性能指标,提供多种工具发现集群问题,更好的管理和优化集群,提高系统的稳定性。 这里主要分为集群总览信息和集群详细信息两部分。

集群总览

展示集群和平台中的资源监控数据、流量分布图、以及提供了大屏监控和集群管理功能入口。

description

资源监控

  • 统计 Kubernetes 集群的 CPU、内存、磁盘使用总量可以更方便的监控集群的性能,预防问题的发生,规划资源,节省成本,并提高集群的可靠性和可用性。
  • 统计 rainbond 平台中的团队、应用、实例数量目的在于了解平台当前资源使用状况,能对资源进行合理预估与分配。

流量分布图

  • 识别热点:服务流量分布图可以帮助我们识别服务的热点,即最常被使用的部分。这些热点可能会导致性能问题,需要特别关注。
  • 优化性能:通过分析服务流量分布图,我们可以找到服务的瓶颈,了解服务的瓶颈位置,进而针对性地进行优化,提高服务的性能。
  • 规划容量:服务流量分布图可以帮助我们了解服务的使用情况,帮助我们规划容量,确保服务能够承受未来的负载压力。

其他功能

  • 提供应用大屏和系统大屏主要为了查看集群和平台的实时使用状况,对资源的使用和分配更加明确,对排查一些性能问题很有帮助;而集群管理可以直接对目标集群进行操作,包括集群信息编辑以及节点的一些调度,标签,污点等。

集群详情

展示集群的详细信息,比如健康指标、组件健康数、资源使用、集群网络、节点状况等。

description

健康指标

  • 健康指标通过检查 k8s 集群、rainbond 服务、运行组件、配置问题和镜像漏洞问题来反映集群综合的健康状况。

组件健康数

  • 如果集群出现网络、内存、磁盘等性能方面的问题,可能会对很多运行在集群中的组件造成影响,可以通过组件健康总数来观察情况。

资源使用

  • 资源展示 CPU、内存的使用占比,过高会影响集群的性能和稳定性,部署在集群中的应用程序性能下降,也可能导致集群崩溃。

网络

  • 集群网络的稳定性也很重要,对于服务通信,节点通信以及集群通信方面有很大影响,通过网络折线图反映使用状况。

节点状况

  • 在集群中,每个节点的运行状况也至关重要,通过监控每个节点的资源使用情况,包括 CPU、内存、存储和状态等。可以更好地了解节点的负载情况,从而优化资源调度和管理,提高资源利用率和效率,使每个节点能正常运行。

使用手册

通过各项指标数据进行分析,集群和平台的健康状况和资源使用情况,合理分配资源,利用多种工具保障集群及业务的稳定性。

集群总览

  1. 统计了集群数量以及所使用的资源总量;如 CPU、内存、磁盘。

  2. 展示平台当前的使用情况,如创建的团队数量,部署的应用数量,运行的实例数量。

  3. 提供了一些其他功能入口,比如应用大屏、系统大屏、集群管理等。

  • 应用大屏和系统大屏集成了可视化监控系统,主要也是对集群和平台的各项资源数据进行实时统计。
  • 集群管理入口可以直接对目标集群进行操作,如节点的调度、节点污点、标签的增删改查等。
  1. 流量结构分布图主要用于展示访问流量的流动与分布,具体链路为 域名->应用->团队->集群

集群详情

  1. 展示每个集群详细的资源使用情况,例如节点数、组件数、组件健康、网络、CPU及内存的使用占比。
  • CPU和内存占比过高会影响集群的性能和稳定性,部署在集群中的应用程序性能下降,也可能导致节点崩溃;
  • 组件异常数一般跟部署的服务和配置有关,如果异常数很多,不排除是集群出现问题;
  • 健康指标数据来自集群巡检,根据巡检的结果分为正常、警告和异常;这里展示正常数据的占比。如果想要获取详细巡检信息,可以点击右侧集群巡检 查看。
  • 网络折线图反映集群网络带宽,根据工作负载和集群的大小而变化,需要注意的是网络带宽并不是影响集群性能的唯一因素。延迟、数据包丢失和网络拥塞等其他因素也会影响集群的性能。如果需要优化集群的网络性能,您应该考虑使用高性能的网络基础设施,例如专用的网络接口卡(NIC)或带有高速背板的网络交换机。此外,您应该配置您的网络,以便对节点之间的流量进行优先级排序,并尽量减少网络拥塞。
  1. 展示一个集群中所有节点的资源使用情况,例如 CPU、内存、分区、磁盘、连接数、TCP_tw、带宽等。

  2. 提供了一些其他功能入口,比如链路追踪、全局日志、集群监控、节点监控、组件监控、服务监控、监控报警、集群巡检等。

  • 主要通过Grafana将集群数据可视化展现。
  • 集群巡检主要对 K8s 集群巡检、Rainbond 服务巡检、运行巡检、配置巡检和安全巡检等项进行检查。