在争夺人工智能主导地位的竞争中,规模越大越好。更多数据和更多参数可以创建更大的人工智能系统,这些系统不仅功能更强大,而且效率更高、速度更快,并且通常比小型系统产生的错误更少。
占据新闻头条的科技公司强化了这一趋势。微软首席技术官凯文·斯科特 (Kevin Scott) 在谈到为 Chat GPT-5 提供支持的超级计算机时表示:“我们刚刚部署的系统,从规模上看,大约和鲸鱼一样大。”斯科特在 5 月底公司最近的 Build 活动上讨论了 Open AI 生成式 AI 聊天机器人的最新版本。“事实证明,你可以用鲸鱼大小的超级计算机构建大量的人工智能。”
与此同时,英伟达的市值在 6 月份突破了 3 万亿美元大关。随着其芯片为越来越大的语言模型、超级计算机和全球各地蓬勃发展的数据中心提供支持,这家芯片制造商正以令人眼花缭乱的速度增长。
但规模越大就一定越好吗?这取决于你的观点。对于开发大型语言模型的公司来说,规模在大多数情况下是一种优势。但随着企业试图将炒作与人工智能能够增加真正价值的地方区分开来,越来越大的语言模型是否总能为企业带来更好的解决方案尚不清楚。
IBM 生成式人工智能研究项目总监 Kate Soule 在 IBM 的 Mixture of Experts 播客最近一期中表示,展望未来,“我们不需要比现在多 100 倍的模型来获取大部分价值。”许多已经从人工智能投资中获得回报的公司正在将其用于分类和摘要等任务,而这些任务甚至没有充分利用当前语言模型的全部容量。
扩展简史
“越大越好”这一概念源于数据缩放定律,该定律在 2012 年由 Prasanth Kolachina 发表的一篇论文中引起了人们的讨论,该论文将缩放定律应用于机器学习。Kolachina 和他的同事表明,随着模型变大,它们通常会变得更准确,性能也会更好。2017 年,Hestness 等人展示了深度学习缩放也是可以经验预测的。然后在 2020 年,Kaplan 等人展示了数据缩放定律也适用于语言模型。
虽然这些定律对于努力创造通用智能的语言模型提供商很有帮助,但企业是否需要这种规模的投资或人工智能才能获得大部分价值还远不清楚。
IBM 的 Soule 表示:“仅仅因为你知道训练大规模模型的最经济有效方法,你从该模型中获得的实际收益是否能抵消成本?”“这是一个完全不同的问题,缩放定律无法回答这个问题。”
探索 AI 解决方案
成本和尺寸之间的权衡
随着用于训练人工智能模型的高质量数据越来越稀缺,数据成本也在上升。人工智能研究机构 Epoch AI 的一篇论文发现,人工智能模型最早可能在 2026 年耗尽互联网上现有的所有高质量语言数据。
因此,各公司在获取新数据以训练模型和管理成本方面发挥了创造力。例如,Open AI 最新版本的 Chat GPT 免费提供给用户,以换取一些用户和第三方数据。主要参与者也在研究合成数据,这些数据由 2D 图像、3D 数据、文本等组成,可与现实世界数据一起用于训练 AI。
虽然开发 LLM 的公司承担了数据成本,但日益庞大的语言模型所带来的气候成本却被人们忽视了。随着这些模型的复杂性和使用量不断增加,它们消耗了大量的计算资源。为这些模型提供动力的超级计算机所在的数据中心消耗了大量能源,从而产生了相应的碳排放。
华盛顿大学语言学教授艾米丽·本德 (Emily Bender) 发表了题为《随机鹦鹉的危害:语言模型会不会太大?》的论文,他说:“这不仅会对能源产生巨大影响,而且其产生的碳排放也会首先给那些无法从这项技术中受益的人们带来损失。”
本德在华盛顿大学的新闻发布会上表示:“当我们进行成本效益分析时,重要的是要考虑谁获得利益、谁付出成本,因为他们不是同一群人。”
迷你动力装置
公司平衡成本和收益的一种方法是先使用较大的模型来解决最具挑战性的业务问题。然后,一旦他们得到答案,他们就会切换到较小的模型,以较低的成本和较低的延迟复制大型模型的结果。
小型语言模型的使用也正在日益成为大型语言模型的替代品。
云端人工智能平台 Dialpad 的联合创始人兼首席技术官 Brian Peterson 告诉 PYMNTS:“与 ChatGPT 或 Anthropic 的 Claude 等大型语言模型相比,小型 LLM 为用户提供了更多控制权,这使得它们在许多情况下更受欢迎。”
“它们能够过滤较小的数据子集,从而使它们更快、更实惠,而且如果你有自己的数据,它们会更加可定制,甚至更加准确。” 打造更大、更强大的 LLM 的竞争不太可能很快放缓。但展望未来,大多数专家都认为,我们还将看到大量紧凑但功能强大的 AI 模型,这些模型在特定领域表现出色,并为寻求更好地平衡 AI 价值和成本的公司提供替代方案。
下载首席执行官的生成式人工智能指南
本文是否有帮助?
是的不