随着人工智能重塑全球各行各业,开发人员正面临着一个意想不到的挑战:缺乏高质量的真实数据来训练他们日益复杂的模型。现在,一个潜在的解决方案从一个意想不到的来源浮现出来——现实中根本不存在的数据。
合成数据是人工生成的信息,旨在模拟真实世界场景,在人工智能开发中迅速受到关注。它有望克服数据瓶颈、解决隐私问题并降低成本。然而,随着该领域的发展,关于其局限性和现实世界影响的问题也凸显出来。
合成数据的兴起
科技巨头们正在大举押注合成数据。NVIDIA 最近发布了 Nemotron-4 340B,这是一系列开放模型,旨在生成合成数据,用于训练各个行业的大型语言模型 (LLM)。此举解决了 AI 开发中的一个关键挑战:获取可靠数据集的成本过高且难度过大。
NVIDIA 在其博客中写道:“高质量的训练数据对于定制 LLM 的性能、准确性和响应质量起着至关重要的作用。”Nemotron-4 340B 系列包括基础、指导和奖励模型,它们构成了生成和精炼合成数据的管道,有可能加速开发强大的特定领域 LLM。
IBM 研究员 Akash Srivastava 解释说,在大型语言模型的背景下,合成数据通常由一个 AI 模型生成,用于训练或定制另一个模型。“业内的研究人员和开发人员正在使用这些模型为特定目标任务生成数据,”Srivastava 指出。
MIT-IBM Watson AI 实验室和 IBM Research 的研究人员最近介绍了一种使用合成数据改进 LLM 的新方法。该方法称为 LAB(聊天机器人大规模对齐),旨在减少对人工注释和 GPT-4 等专有 AI 模型的依赖。
探索 watsonx.ai
LAB 采用分类法引导的合成数据生成过程和多阶段训练框架。研究人员报告称,“与使用传统人工注释或 GPT-4 生成的合成数据训练的模型相比,LAB 训练的模型可以在多个基准测试中实现具有竞争力的性能。”
为了证明 LAB 的有效性,该团队创建了两个模型,LABRADORITE-13B 和 MERLINITE-7B,据报道,这两个模型在几个关键指标上的表现优于同一基础模型的其他微调版本。研究人员使用开源 Mixtral 模型生成合成训练数据,可能为增强 LLM 提供一种更具成本效益的方法。
合成数据的质量对于其有效性至关重要。Multiverse Computing 的工程、人工智能和量子总监 Raul Salles de Padua 解释说:“合成数据的保真度是通过统计和分析测试将其与真实数据进行比较来计算的。这包括评估合成数据如何很好地保留关键统计属性,例如均值、方差和变量之间的相关性。”
尽管合成数据前景光明,但其也面临挑战。德帕多瓦指出:“合成数据的挑战在于如何创建既有用又能保护隐私的数据。如果不采取这些保护措施,合成数据可能会泄露个人信息,从而可能导致身份盗窃、歧视或其他隐私侵犯。”
最近的研究发现了过度依赖合成数据的潜在陷阱。最近发表在 自然 发现了一种名为“模型崩溃”的现象。当人工智能模型反复接受人工智能生成的文本训练时,它们的输出可能会变得越来越无意义,这引发了人们对使用合成数据的长期可行性的担忧,尤其是当人工智能生成的内容在网上变得越来越普遍时。
道德考量也不容忽视。德帕多瓦警告称,“合成数据可能无法准确反映现实世界人口的多样性,从而导致模型出现偏差,无法公平地适用于不同人口群体。”
人工智能训练的未来
在医疗保健和自动驾驶汽车等关键应用中,合成数据可以发挥至关重要的作用。De Padua 指出:“在医疗保健领域,合成数据可以补充真实数据集,为训练模型提供更广泛的场景,从而提高诊断和预测能力。”对于自动驾驶汽车,他补充道:“通过使用合成数据进行增强,模型可以接触到原始数据集中可能不存在的更广泛的条件和边缘情况。”
展望未来,德帕多瓦认为,合成数据很可能会补充而不是取代人工智能训练中的真实数据。“合成数据的准确性和代表性至关重要。数据生成算法的技术进步将在提高合成数据的可靠性方面发挥重要作用,”他解释道。
随着人工智能越来越多地融入我们的日常生活,从医疗诊断到自动驾驶汽车,人工智能训练中合成数据和真实数据之间的平衡将至关重要。人工智能开发人员面临的挑战是利用合成数据的优势,同时降低其风险。
“我们正处于人工智能发展的关键时刻,”Srivastava 说。“在合成数据和现实世界数据之间取得平衡将决定人工智能的未来——它的能力、局限性,以及最终对社会的影响。”
网络研讨会:为您的企业扩展人工智能
这篇文章有帮助吗?
是的不