随着上周推出新的轻量级 Llama 3.2 模型,Meta 成为继苹果、IBM、谷歌、微软和其他在过去 18 年推出小语言模型 (SLM) 的科技巨头之后最新一家押注小型化的公司几个月。
是的,SLM 的成本更低,使用的能源更少,而且在专门任务上通常比大型同类产品表现更好。但也许它们最大的吸引力在于它们可以在智能手机和其他在边缘运行的移动设备上实现,例如汽车计算机或工厂车间的智能传感器。
IBM watsonx.ai 产品管理总监 Maryam Ashoori 表示:“较小的模型将极大地影响生产力。” “最后,许多生成式人工智能用例实际上将可供更多的人和企业使用。”
除了能够在非常普通的硬件上运行之外,SLM 还无需将敏感的专有或个人数据传输到网外服务器,这有助于提高安全性并保护隐私。
一种尺寸并不适合所有情况
大型语言模型 (LLM) 已开始极大地改变消费者和企业市场。生成式人工智能可以自动执行信息提取、分类、内容生成、问答和摘要等应用。
然而现实情况是,传统的 LLM 也需要花费数百万美元来训练和部署,更不用说更大的 LLM 还意味着更大的 GPU 和更大的能耗。此外,个人和企业可能不愿意与托管在云上并接受非结构化互联网数据培训的大型公共法学硕士共享数据。但创建本地大型语言模型的成本可能高得令人望而却步。
输入 SLM。 SLM 拥有大约 1-30 亿个参数,可以以极低的成本开发和部署,从而使各种规模的企业以及普通智能手机公民更容易使用它们。
IBM Consulting 专注于 AI 的副总裁兼高级合伙人 Shobhit Varshney 在最近的 Mixture of Experts 播客中表示,除了成本较低之外,SLM 还可以“以更小的占地面积提供更高的精度”。
在过去的几个月里,Varshney 看到许多 IBM 制造业和政府客户在可能缺乏可靠互联网访问的环境中(例如工厂车间或现场)在本地设备上部署 SLM。
Varshney 谈到新的迷你 Llama 3.2 模型(迄今为止最小的 Llama 模型)时表示:“当您可以微调这些(模型)然后在设备上运行它们时,就会为我们的客户带来大量用例。”
对于受监管的行业和部门,例如数据安全至关重要的医疗保健或金融,SLM 可以最大限度地保护隐私。
个人也将从中受益。到今年 11 月,苹果手机用户在设备上书写时将能够利用人工智能驱动的苹果智能写作工具重写、校对和总结文本。
正如苹果在新闻稿中解释的那样,“Apple Intelligence 允许用户从他们所写内容的不同版本中进行选择,调整语气以适应受众和手头的任务。从精心设计求职信,到为聚会邀请函增添幽默感和创造力,Rewrite 有助于提供适合场合的正确用词。”
由于 SLM 可以离线工作,因此全球更多的人可以访问它们。
微软的 Luis Vargas 表示:“SLM 可以用在缺乏手机服务的农村地区。”微软于 4 月份推出了 SLM Phi-3-mini。 “假设一位农民在检查农作物时发现叶子或树枝上有疾病迹象。农民可以拍摄有问题的作物的照片,并立即获得有关如何治疗害虫或疾病的建议。”
释放“边缘”的价值
尽管科技行业抢购了大大小小的语言模型,但一些专家预计,更传统的行业(例如制造业)将从 SLM 和小型人工智能模型中获得最大收益,特别是在边缘,即执行一系列任务的系统或设备。商业运作,例如在工厂车间。
在边缘,“你没有那么多的计算能力或存储空间,但你确实拥有大量的数据,”红帽车载操作系统和边缘计算副总裁兼总经理 Francis Chow 表示。 “目前,只有 1-5% 的可用实时数据得到使用。如果你能从更多的数据中获得价值,就会有巨大的商业潜力。”
虽然制造业等行业的发展速度往往比 IT 慢,但许多地方已经在试水语言模型,为技术人员总结指导手册,以便他们可以提出问题并获得相关摘要。
Chow 表示,在具有计算机视觉的边缘计算中使用 SLM 和其他较小的人工智能模型是另一个有前景的领域。目前,汽车中的计算机视觉算法如果检测到车辆附近一定距离内有球或其他物体,就可以让汽车停下来。随着 SLM 变得更加复杂,它们会从过去的经验中学习、检测模式并做出预测。例如,如果汽车可以检测并识别足球,它可能能够预测几秒钟后一个孩子会出来捡球,并做出相应的反应。
平衡准确性和延迟
IBM 咨询公司生成式人工智能卓越中心 (CoE) 的杰出工程师兼发明大师 Christine Ouyang 博士表示,“没有一刀切”也适用于语言模型。 “大型语言模型非常强大,但对于某些任务来说可能有点大材小用。”
AI CoE 正在与 IBM Research 合作,为所谓的“零客户端”用例创建 SLM。零号客户端是指没有本地存储的计算机。这些小型模型是由 IBM Research 使用各种技术创建的,包括在提炼大型模型之前对其进行微调,或者在微调之前提炼较大的模型。
“当谈到模型尺寸时,这是一个权衡,”欧阳博士说。 “对于非关键任务应用程序,您可以牺牲 2% 的精度来节省大量成本并减少延迟。”延迟是指法学硕士与云通信以响应用户提示检索信息之后以及收到生成的答案时可能出现的延迟。
过去,欧阳博士的团队与IBM供应链工程部门合作,开发了用于IBM制造项目质量检测的人工智能和边缘解决方案应用程序。使用案例包括缺陷检测,例如寻找服务器背面缺失的螺钉,或者弯曲或缺失的连接器引脚。
“以前,质量控制工程师需要十分钟才能完成此类任务,”欧阳博士说。 “人工智能驱动的边缘设备解决方案在不到一分钟的时间内完成了这项任务。”
虽然 SLM 仍在进行中,但诸如此类的有希望的结果表明,这些微小但强大的模型将继续存在。
电子书:如何选择合适的基础模型
亲爱的,我缩小了人工智能,这篇文章首先出现在 IBM 博客上。