减少停机时间并提高灵活性：使用 OpenTelemetry 实现大型机可观察性

想象一下，您企业的关键在线服务突然中断，IT 运营团队正在努力找出原因。几分钟变成了几小时，每一秒的停机时间都会让公司的收入和客户信任受损。为了尽快恢复系统，您的技术专家必须能够隔离并解决真正的问题，或者更好的是，能够提前解决不断增长的问题并完全避免中断。

这时，有效的跨平台端到端可观察性策略就变得至关重要，它使组织能够快速了解其应用程序和系统的健康状况。

应对复杂在线服务的挑战

由于服务在混合云中运行，包括本地和多个超大规模平台、位置和区域，因此在延迟和资源问题变得严重之前检测它们至关重要。随着支持应用程序流的服务数量的增加，此环境的可管理性变得更具挑战性。

对于云端应用程序，可观察性方法对于提供这些动态分散环境的统一视图至关重要。站点可靠性工程师 (SRE) 的作用对于确保完整的端到端应用程序或服务的可用性也至关重要。SRE 以应用程序为中心，而不是依赖于对每种技术的不太全面的视图，而是确定哪些服务的性能不佳。这可以指导开发团队进行详细的调查和修复。

OpenTelemetry 作为云原生可观察性解决方案

可观察性取决于来自底层系统的及时有效的遥测信号。OpenTelemetry 项目是社区主导的对这一需求的直接响应，旨在应对日益复杂的挑战。

OpenTelemetry 是一个与供应商无关的开源框架，由云原生计算基金会 (CNCF) 托管。它旨在通过提供开放标准和开放工具来实现跨分布式应用程序和系统的有效可观察性，这些开放标准和工具支持从任何来源到任何目标的高质量遥测数据。通过基于 OpenTelemetry 构建，可以简化跨不同工具和域的遥测功能，从而更轻松地实现端到端可观察性解决方案。

OpenTelemetry 固有的信号关联概念使不同类型的信号（例如跟踪、指标和日志）能够相互关联，从而全面了解应用程序的行为和资源。OpenTelemetry 语义约定通过定义一组通用属性来支持信号的关联，确保标准化元数据促进它们的关联。这对于更快地检测和解决事件至关重要。

将 OpenTelemetry 引入大型机

随着越来越多的企业将其大型机投资的价值作为这些混合云环境不可或缺的一部分，端到端可观察性也必须涵盖驻留在 IBM Z 上的应用程序和数据^®。

这就需要两个团队共同参与：对于 SRE 来说，应用程序流向大型机域的转换可能会掩盖完整的可观察性视图；而大型机团队则拥有深厚的知识和工具。

作为一项广泛使用的开放标准，OpenTelemetry 提供了一套更丰富的工具来加快识别问题的根本原因。大型机主题专家拥有以大型机为中心的深度诊断工具，可以更有针对性、更有效地应用这些技能。通过可观察性团队和 SRE 能够识别什么是大型机问题，以及什么不是大型机问题，团队可以更有效地集中时间。这降低了停机风险以及解决时间。

IBM Z 和 IBM LinuxONE 上的 OpenTelemetry 支持

IBM 及其合作伙伴已经开始在我们的可观察性和监控工具中支持 OpenTelemetry，因此其采用范围正在不断扩大。我们正在与 OpenTelemetry 社区、供应商合作伙伴以及 IBM Z 和 IBM LinuxONE 产品合作，以帮助实现一致的端到端可观察性体验。我们的方法补充了我们现有的运营管理工具和仪表，并专注于以适当的系统开销提供高质量且及时的遥测。

可观察性的价值不仅限于运营效率。它关乎战略远见和竞争优势。企业领导者非常想知道，通过 OpenTelemetry 等框架实现的可观察性如何能够在复杂环境中提供清晰度，并释放其 IT 系统的灵活性。其回报可能是巨大的，因为它们旨在减少停机时间、提高业务灵活性和提高 IT 资源利用率。

了解可观察性能为您的业务带来什么

本文是否有帮助？

是的不

CICS 和 z/OS Connect 产品管理项目总监