采用生成式人工智能(gen AI)不再是未来猜测的问题。凭借其巨大的潜力,公司已经最大限度地利用它来简化运营、提高生产力,并将这些好处传递给客户。
这种转变伴随着新的挑战。当客户开始在本地实施人工智能时,第一步是评估他们的数据中心是否准备就绪:升级IT基础设施涉及足够的电力和冷却、准备网络以处理大量数据、优化和扩展基础设施容量以及实施保护措施同时实现可扩展性。 IBM 商业价值研究院 (IBM IBV) 与牛津经济研究院合作发布的一份报告显示,该报告对 34 个国家和 26 个行业的 2,500 名领导者进行了调查,43% 的 C 级技术高管表示,他们对技术基础设施的担忧有所增加在过去的六个月里,由于 gen AI,他们现在专注于升级它以扩展技术。
组织必须制定实施策略,帮助确保高效运营、最小化停机时间并及时响应 IT 要求,同时解决法规遵从性、道德考虑和安全威胁。拥有一个拥有内部人工智能专业知识和管理该底层基础设施整个生命周期的能力的关键合作伙伴对于利用这种技术发展的优势非常重要。
IBM 技术生命周期服务 (TLS) 为从部署到退役的基础设施支持和服务提供了一整套解决方案,帮助组织优化其 IT 基础设施的可用性和弹性。 IBM TLS 协助数据中心升级为 AI 就绪,利用全球供应链和物流框架来大规模满足 IBM 产品和各种原始设备制造商 (OEM) 高强度 AI 工作负载的需求。以下是数据中心在运行 AI 工作负载时可能面临的一些主要挑战,以及 IBM TLS 解决这些挑战的方法:
1. 使用多个供应商技术管理复杂的人工智能基础设施堆栈
由于人工智能的采用和对多个供应商技术的依赖,当今的数据中心变得更加复杂。根据 TechTarget Enterprise Strategy Group 的报告《驾驭不断发展的人工智能基础设施格局》,30% 的组织希望在混合云环境中部署人工智能,这强调了拥有现代化基础设施和有效连接的必要性。
保持运营弹性需要最新的基础设施和主动的风险管理,但对于 IT 内部员工来说,监督各种合同和解决问题可能会很困难且成本高昂。 IBM TLS 不仅通过部署和支持 IBM 产品(IBM Z、Power 和 Storage),而且还通过集成新的、与 AI 兼容的多供应商技术来增强客户的现有能力。
大型语言模型需要大量资源以及在大型网络集群配置中并行运行的多台计算机。作为基础设施的骨干,该网络必须支持高带宽、低延迟和可扩展的架构,并对 GPU 通信、存储访问和分布式 AI 任务进行特定优化。 IDC《2023 AI View》报告指出,网络是新一代 AI 训练最大的基础设施支出项目,占比 44%。通过提供专注于弹性和可用性的集成整体方法,并与全球专业团队和战略合作伙伴合作,IBM TLS 可以为客户提供一站式服务,并作为采购、规划、部署、支持、优化和更新的顾问数据中心的基础设施(服务器、网络、存储和软件),促进向人工智能就绪环境的平稳过渡。
如果人工智能给数据中心带来越来越复杂的障碍,那么解决这些问题也可能受益于人工智能本身的使用。在这一转变的最前沿,IBM TLS 将 AI 集成到工具和流程中,以增强代理能力并增强客户体验。要更详细地了解 IBM TLS 如何使用 AI,请阅读 IBM 基础设施 TLS 支持服务副总裁 Bina Hallman 的发言。
2. 提高弹性并保护数据
Gen AI 系统依赖 GPU、网络和存储等复杂组件,由于工作负载繁重,可能会面临更高的故障率,而且处理和共享的大量数据也可能会增加漏洞。计划外停机和潜在的数据泄露对企业来说代价高昂,但主动支持可以加快问题解决速度并在问题发生之前进行预测。
IBM IBV 调查“生成式 AI 首席执行官指南:平台、数据和治理”显示,大多数人表示对数据沿袭和来源 (61%) 以及数据安全性 (57%) 的担忧将成为采用生成式 AI 的障碍。为了应对这些挑战,IBM TLS 提供了 IBM Support Insights 等解决方案,该解决方案管理超过 3,000 个客户和 350 万个 IT 资产的库存,识别并警告超过 150 万个活动安全漏洞并提供解决建议。这种方法有助于维护人工智能基础设施的完整性,减少因合同过期而导致的中断和支持问题。此外,IBM TLS 还帮助客户擦除遗留资产中的数据并提供介质销毁服务,帮助确保清理符合美国国家标准与技术研究所 (NIST) 的介质清理指南。
IBM TLS 为 IBM 产品提供专家级支持,为某些非 IBM 产品提供多供应商企业级支持,这些级别的特点是关键问题的快速修复,并为客户提供专门的技术客户经理 (TAM)。 TAM 是一名主题专家 (SME),负责审查整个 IT 环境、充当单点联系人并专注于主动采取措施和解决问题,以提高企业的运营效率。
3. 电力消耗和碳排放咨询
由于人工智能集成的增加,数据中心的能源需求不断增长,可能会导致功耗和碳排放导致运营费用增加,从而阻碍可持续发展目标的实现。据国际能源署 (IEA) 一月份的报告,全球数据中心电力消耗可能会从 2022 年估计的 460 太瓦时增至 2026 年超过 1,000 太瓦时。人工智能的采用绝不能忽视可持续发展目标,IBM TLS产品组合通过评估工作负载需求和基础设施利用率以及监控功耗和碳足迹,帮助客户做出明智的决策。 IBM IT 可持续发展优化评估使用 IBM Turbonomic 软件,该软件运行选定的“假设”规划场景,以了解数据中心优化的可能性和影响。评估结束后,客户会收到一份详细报告,其中包含建议的行动、预计的成本削减、预计的能源消耗和碳足迹的改善,帮助他们将人工智能计划与可持续发展目标结合起来。
随着新障碍的出现,做好充分准备、预测潜在问题以及与值得信赖且经验丰富的 IT 支持和服务合作伙伴合作可以影响人工智能采用和持续维护的成功。几十年来,IBM 一直遵循支持具有多个供应商技术的完整 AI 解决方案堆栈的核心原则。无论客户处于旅程的哪个阶段,IBM 都能够利用其专业知识来帮助组织提供人工智能机会基础设施、定制产品、广泛的咨询、技术生命周期服务以及与我们广泛的合作伙伴生态系统的协作。
您的基础设施人工智能准备好了吗?我们如何设想下一代支持
这篇文章有帮助吗?
是的不