跳到主要内容
版本:1.12.0

基础设施监控

基础设施监控,是指观测和分析企业服务器、虚拟机、容器、网络等性能和可用性的过程,这些设施在向最终用户提供应用程序或服务方面发挥着至关重要的作用。

其价值包括但不限于:

  • 性能优化:可以跟踪关键性能指标,确定待改进领域,例如优化 CPU 或内存使用率以提高性能等。
  • 主动问题检测:通过实时监控基础设施,可以在问题影响最终用户或导致服务中断之前主动发现问题。告警和通知功能,还可以帮助 IT 团队在潜在的基础设施问题升级为严重事件之前发现并解决这些问题。
  • SLA合规性:通过跟踪和报告关键绩效指标(KPI)来帮助企业满足服务级别协议(SLA)要求。监控运行时间、响应时间和可用性等指标可以提供必要的数据,以确保符合 SLA 并证明 IT 服务的可靠性。
  • 容量优化和成本管理:监控基础设施资源和使用情况使组织能够优化资源分配,发现闲置或未充分利用的资源,并就资源配置做出明智决策。
  • 容量规划和可扩展性:通过监控一段时间内的基础设施指标,能够分析使用模式、预测未来的资源需求并规划容量扩展。

基础设施监控模块,展示所有采集到的主机、容器、进程、网络数据,可以帮助用户快速了解资源的使用及性能情况。默认展示主页列表页。

主机

主机列表

主机列表页,展示所有采集到的主机资源数据。

上方左侧可以自由切换列表和蜂窝图视图;右侧搜索栏,可以输入主机名称快速过滤出目标数据。

左侧快捷筛选框,可以通过多种筛选项快速过滤出目标主机数据。主机列表页面默认的筛选项有操作系统、主机状态。

右侧数据列表,默认展示所选中时间段内,每台主机的名称、操作系统、状态、CPU 使用率、内存使用率、CPU 负载。

数据时效性说明
  • 列表数据更新频率为 5 分钟
  • 列表数据判断及统计逻辑如下:
    • 状态:5 分钟内没有数据上报,判断为离线。
    • 性能指标:每 5 分钟统计最近 15 分钟的平均值,非实时数据。

主机蜂窝图

主机蜂窝图页面,以图形的形式展示所有采集到的主机资源数据。

一个六边形代表一台主机,颜色填充指标,默认按照 CPU 使用率,还可以切换成内存使用率;鼠标悬浮在某个六边形上,会展示该主机的名称、CPU 使用率、内存使用率、CPU 负载指标。

主机详情

点击主机列表中某条数据,右侧弹出抽屉页展示主机详情页,展示对应主机的系统信息、容器、进程、日志信息。

  • 系统信息:展示该主机属性、处理器、网络、内存、磁盘信息。
  • 容器:展示该主机过去 15 分钟内,容器运行状况。包括容器名称、状态、CPU 使用率、内存使用率,默认按照容器名称顺序排列。
  • 进程:展示该主机过去 15 分钟内,进程运行状况。包括进程名称、状态、CPU 使用率、内存使用率,默认按照进程名称顺序排列。
  • 日志:展示该主机过去 1 小时内的日志信息。包括日志的时间、日志级别、日志信息,默认按照时间倒序排列。此外,点击某条日志,会打开新的页面定位到所选中的日志详情页。

容器

容器列表

容器列表页,展示所有采集到的容器资源数据。

上方左侧可以自由切换列表和蜂窝图视图;右侧搜索框,可以输入容器名称快速过滤出目标数据。

左侧快捷筛选框,可以通过多种筛选项快速过滤出目标容器数据。容器列表页面默认的筛选项有主机、容器镜像、容器状态。

右侧数据列表,默认展示所选中时间段内,每个容器的名称、操作系统、状态、镜像、IP、主机、CPU 使用率、内存使用率。

数据时效性说明
  • 列表数据更新频率为 5 分钟
  • 列表数据判断及统计逻辑如下:
    • 状态:5 分钟内没有数据上报,判断为离线。
    • 性能指标:每 5 分钟统计最近 15 分钟的平均值,非实时数据。

容器蜂窝图

容器蜂窝图页面,以图形的形式展示所有采集到的容器资源数据。

一个六边形代表一个容器,颜色填充指标,默认按照 CPU 使用率,还可以切换成内存使用率;鼠标悬浮在某个六边形上,会展示该容器的名称、CPU 使用率、内存使用率。

进程

进程列表页,展示所有采集到的进程数据。

上方搜索框,可以输入不同的标签和标签值,快速过滤出目标数据,如进程名称、主机等。

左侧快捷筛选框,可以通过多种筛选项快速过滤出目标进程数据。进程列表页面默认的筛选项有主机、状态、用户名。

右侧数据列表,默认展示所选中时间段内,每个进程的名称、用户名、主机、状态、CPU 使用率、内存使用率、启动时间。

数据时效性说明
  • 列表数据更新频率为 5 分钟
  • 列表数据判断及统计逻辑如下:
    • 状态:5 分钟内没有数据上报,判断为离线。
    • 性能指标:每 5 分钟统计最近 15 分钟的平均值,非实时数据。

网络

列表

网络列表页,展示通过 eBPF 所有采集到的服务数据。

上方搜索栏,可以输入服务名称快速过滤出目标数据。

下方数据列表,默认展示所选中时间段内,每个服务的名称、类型、错误率、延时、最大网络耗时、实例数(在线数量/上报总数量)。

服务拓扑

服务拓扑页面,直观展示所有采集到的服务之间的相互调用关系,以及服务名称、服务类型。

鼠标停留在某个服务图标上,会悬浮显示该服务的名称、错误率、延时、网络耗时、实例数。另外,与该服务有直接调用关系的会高亮显示,无直接调用关系的灰度显示。服务图标呈绿色,代表错误率为 0 ;服务图标呈红色,代表错误率大于 0 。

鼠标点击某个服务图标,提供「查看上下游」按钮,点击即可查看该服务的上下游拓扑,此处可以识别某个服务存在多个实例的不同调用关系。

主机分组

主机分组页面,展示不同主机上运行了哪些服务。服务图标呈绿色,代表错误率为 0 ;服务图标呈红色,代表错误率大于 0 。