yh86银河国际(中國)官方网站-2024 European Cup





技术前言!6大特性让可观测性更简单

日期:2024-01-04

从单体架构到集群架构再到微服务架构,业务越来越庞大,也越来越复杂。每一次架构的升级,在提升了业务吞吐量的同时,必然会带来更大的复杂度,应用稳定性链路中的因素也越来越多。

在互联网时代, 时间就是金钱这个真理从来都没有像今天这样被深刻的践行着,每一秒的不可用时间里都有可能产生大量的损失。于是,稳定性应急就越来越像是高悬头上的达摩克里斯之剑,成为让运维、研发的睡眠质量急速下降的罪魁祸首。

保证稳定性的方法一般包括依靠人工的流程与工具,是一个复杂的人机交互联动过程,复杂度与IT架构、应用架构的复杂度正相关。目前的工具发展主要包括流程、监控与自动化,流程加强人员协作效率,监控发现应用与基础架构的问题,自动化处理运维中的琐事。

微服务、云原生等应用,给业务、应用系统带来了更好的弹性、可用性,同时也带来了可控制性、可观测性和可容错性。这种特性,使应用更易于基于业务来控制资源的使用,同时也提高了业务连续性。

如何控制好架构使其满足业务需要的同时也使其自身保持稳定,发挥新技术架构与应用架构的能力成了目前最具挑战的事情。
 

1软件系统的可观测性

为了让一个软件应用程序具有可观测性,必须能做到以下几点:

  1. 了解应用程序的内部运行情况

  2. 了解应用程序可能进入的所有系统状态,甚至是以前从未见过和无法预测的新状态

  3. 仅通过观测和使用外部工具来了解内部运行情况和系统状态

  4. 理解内部状态,而不是提供任何新的自定义代码来定义它(这意味着需要事先完全了解这些内部状态)

控制与观测是一个对偶关系,要更好的控制性,必须建立对等的观测性。
 

2业务与运维角度所需的观测能力

  • 从业务的角度需要的观测能力

  1. 定义关键业务指标。明确核心业务指标,比如交易成功率、响应时间、错误率等,这些指标才是业务真正关心的。

  2. 监控业务指标。建立对关键业务指标的监控,当指标异常时能快速得知并作出响应。

  3. 日志记录业务过程。在应用中记录关键业务流程的日志,traceback问题的根源。

  4. 建立服务水平指标(SLI/SLO)。例如API响应时间小于200ms的比例要达到99%。

  5. 业务链路跟踪。能够将一个端到端业务流程的跨系统调用情况进行追踪和分析。

  6. 异常检测。建立对关键异常情况的检测,如交易失败、系统崩溃等,并快速报警。

  7. 根因分析。通过日志,指标,调用链等多维度数据进行根因分析。

  8. A/B测试。通过A/B测试评估新功能对用户体验及业务指标的影响。

  9. 业务回溯。通过调用链和日志快速定位导致业务问题的服务或操作。

  • 从运维的角度需要的观测能力

  1. 资源监控。监控基础设施的资源指标,如CPU、内存、磁盘、网络等,识别基础设施的性能瓶颈。

  2. 服务可用性监控。监控各个服务的健康状态和可用性,当指标异常时快速报警定位。

  3. 应用性能监控。监控应用响应时间、吞吐量等性能指标。

  4. 日志收集。收集应用、中间件、操作系统等日志,集中化存储,方便查询和分析。

  5. 告警设置。对关键资源指标、服务可用性、应用性能指标设置告警阈值。

  6. 调用链跟踪。跟踪一次用户请求经过的各个服务调用情况,理解服务之间的依赖和调用关系。

  7. 服务拓扑可视化。可视化直观展示整个分布式系统中的服务之间的依赖关系。

  8. 根因分析。通过相关维度指标组合进行问题根因定位。

  9. 自动化测试。定期对系统进行自动化测试,评估系统稳定性。

  10. 变更审计。审计系统变更记录,跟踪问题与变更的关联性。
     

yh86银河国际图灵可观测平台

在此背景下

为了解决客户实际问题

应运而生
 

 

 

3yh86银河国际图灵可观测平台

图灵可观测平台是一个开箱即用的轻量化、自动化可观测平台。它包括资源管理、统一告警管理、链路监控与分析、指标监控与分析、日志监控与分析、智能化异常检测、智能化故障定位等。

6大技术特点

1. 以资源发现为核心,对齐遥测数据(Service、Span、链路、指标、日志)、运维管理数据(告警、事件、变更等),使观测分析贯穿IT架构与运维管理。

2. 轻量化的采控一体Agent,实现系统层面的资源自动发现、自动监控。并能够采用插件的方式集成开源社区成熟的采集器,同时可基于Task模型进行扩展。

3. 支持100+种常见资源自动发现与技术栈的指标、链路采集。其中包括服务器、数据库、K8S、web中间件、消息中间件、java应用框架等。

4. 高效稳定的Task任务模型,实现Agent对于采集插件的状态管理、自动化版本更新、自动化采集配置下发,自动化采集插件的启停控制,可基于规则与算法对采样率进行控制。

5. 基于Opentelemetry的全链路监测,实现对整个应用程序的端到端监控和分析(包括应用间调用、应用内组件间调用),识别潜在的瓶颈和性能优化的机会,并将应用故障定位到代码级别。

6. 自动化动态架构拓扑,基于资源的自动发现与遥测数据的采集,实现应用架构拓扑的自动化绘制与基于时间线的动态观测。

模块预览

yh86银河国际图灵可观测平台采用轻量化插件,各模块之间松耦合且功能高类聚,辅助运维人员的日常工作,大大提升用户体验与运维效率。

1. 统一告警管理

平台支持多源告警集成,实时收集与接收各监控平台告警数据,并对告警数据进行去重、压制、分派等操作,提升告警处理效率。

平台支持自定义告警分派策略,灵活准确的分派告警信息,同时拥有多样化的通知方式,以便告警及时通知的相关负责人。

2. 资源管理

平台支持自动采集数据,自动发现资源对象与关系,并统一管理所有资源组件与关系信息,从而实现资源的可查、可分析、可消费。

平台支持资源配置信息与监控信息的融合,以便用户对资源状态进行及时分析,发现问题。

平台支持融合配置、性能、链路等多源数据,并可根据需求自定义创建业务架构、应用架构、基础架构,同时可根据架构视图进行切片,进一步详细了解架构中的组件与关系,以提升用户对IT整体架构的认识。

3. 应用性能管理

平台支持在同一面板上查看Trace详情,如span数量、span分布、延迟时间、span状态等信息,同时支持下钻查看链路,对其进一步分析,提升故障定位分析效率。

平台支持以瀑布图方式查看span分布情况,使用户更加直观清晰的查看span详情,实现链路的可观测。

4. 智能化分析

平台支持以应用系统为角度,追踪历史组件变更记录、告警、性能情况,同时以变更工单为输入,分析该次变更的风险分,辅助运维进行变更风险分析,降低风险发生率,并提升故障诊断效率。


体验预约

yh86银河国际图灵可观测平台

将会基于以上Road Map

在2024年3月进行发布

 

现预约体验通道已开启

请搜索“yh86银河国际官方网站”微信公众号

回复“图灵”进行预约

3月开始会根据预约报名先后顺序

进行体验安排

欢迎预约体验

 


锻造凝炼IT服务 助推用户事业发展
地址:北京市西城区百万庄大街11号粮科大厦3层
电话:(010)58523737
传真:(010)58523739