OpenAI 最近创造了历史,获得了 66 亿美元的投资来扩展其大型语言模型——增加其规模、数据量和计算资源。与此同时,Anthropic 的首席执行官表示,他的公司已经开发了 10 亿美元的模型,并且即将推出 1000 亿美元的模型。
但随着支出的膨胀,新的研究发表在 自然 表明法学硕士实际上可能随着其成长而变得不那么可靠。
瓦伦西亚理工大学的研究人员认为,问题的关键在于,随着法学硕士通过使用微调和过滤等策略变得更加强大和更好地协调,从用户的角度来看,它们也变得更加可靠。或者,换句话来说:人们可能会做出错误的假设,即随着模型变得更加强大,他们的错误将遵循人类可以理解并调整查询的可预测模式。
然而,研究人员发现,人类认为困难的事情不一定与法学硕士认为困难的事情相同。研究人员使用 OpenAI 的 ChatGPT、Meta 的 Llama 和 BigScience 的 BLOOM 的新旧模型,使用涉及加法、词汇、地理知识以及基础和高级科学问题的任务测试了核心数字、科学和知识技能。
总体而言,该研究观察到,更新、更大的语言模型在人类认为难度较高的任务上表现更好,但在人类认为简单的任务上仍然远非完美,导致这些模型无法在运行条件下被信任。完美无瑕。由于较新的法学硕士主要在高难度的情况下进行改进,因此它加剧了人类认为困难的事情与法学硕士成功之间的差距。
我们不应该问法学硕士规模越大越好,而应该问:“你能快速对模型进行事实核查吗?” IBM 发明大师 Bishwaranjan Bhattacharjee 说道。然而,问题在于,人类不善于发现模型所犯的错误,并且经常将不正确的模型输出误判为正确,即使可以选择说“我不确定”。
“对于新的法学硕士来说,错误率大幅上升,因为他们现在很少避免回答超出其能力范围的问题,”论文合著者 Lexin Zhou 说。 “更大的问题是这些新的法学硕士自信地提供 不正确 的回应。”在没有深厚专业知识的领域使用法学硕士来完成任务的人可能会对其可靠性产生错误的感觉,因为他们无法轻易发现错误。这些发现表明,人类不具备成为这些模型的可靠监督者的能力。
LLM生命周期
考虑到法学硕士的局限性和费用,一些专家认为企业将从更大的模型开始,然后选择更定制、更适合用途的模型。法学硕士可以满足广泛的要求,提供最大的选择性,并有助于在公司刚起步时证明人工智能的商业案例。然后,当组织专注于最具战略性的用例时,他们可以优化模型,以创建更小、更谨慎且更具成本效益的语言模型,以满足其特定需求。
“大型语言模型就像一把瑞士军刀,”IBM watsonx 产品管理副总裁 Edward Calvesbert 在最近的一期节目中说道。 专家荟萃。 “这将为您提供很大的灵活性,但最终,您将希望使用适合用途的工具来完成工作。”
电子书:如何选择合适的基础模型
这篇文章有帮助吗?
是的不