数据是让人工智能引擎运转的燃料。许多公司没有充分利用触手可及的非结构化数据宝库,因为他们不知道如何填充数据。
这就是为什么拥有处理非结构化数据工具的企业正在吸引投资者的注意力。就在上个月,Salesforce 进行了一项重大收购,为其 Agentforce 平台提供支持——这只是近期对非结构化数据管理提供商的众多投资之一。
“Gen AI 提高了非结构化数据(即文档)对于 RAG 以及 LLM 微调和机器学习、商业智能和数据工程传统分析的重要性。” IBM 常驻数据专家。 “每天生成的大多数数据都是非结构化的,并提供了最大的新机会。”
我们想更多地了解非结构化数据为人工智能带来了什么。因此,我们采访了数据科学公司 Unstructed 的战略主管 Calvesbert 和 Dave Donahue,了解他们对非结构化数据的重要性及其下一步发展的看法。该公司于 3 月份与 IBM、Nvidia 和 Databricks 完成了一轮 4000 万美元的投资。
问:企业在实施人工智能时,非结构化数据是否比结构化数据更有价值?
爱德华·卡尔维斯伯特,IBM: 非结构化数据(语言、图像等)是基础模型所依赖的“新”数据,可以帮助解释,因此它是目前的焦点。但就像结构化数据一样,非结构化数据也必须进行管理——分类、质量评估、过滤 PII 和不良内容以及重复数据删除——因此成功的策略会将许多传统的结构化数据管理功能应用于非结构化数据。
戴夫·多纳休,非结构化: 非结构化数据本质上并不比结构化数据更有价值,但一般来说,大型组织产生的非结构化数据是结构化数据的四倍。所以问题是,在实施人工智能时,您是否希望使用更多数据,尤其是人类生成的非结构化数据?答案应该是响亮的“是”。
问:人工智能要取得成功,显然需要“好的”数据。但实际情况如何呢?
卡尔维斯伯特: “足够好”是一个不断变化的目标,取决于用例。 RAG 为客户支持代理改进语义搜索、问答和总结的知识库要求文档知识库完整、准确和新鲜。用于微调模型的数据需要一组人工策划的提示/响应对示例。处理成表或图形数据库以驱动分析用例的文档需要有效提取实体或值。几乎在所有情况下,数据都需要在用例生命周期的上下文中进行分类、过滤和治理。
多纳休: 在企业或公司层面,“好”数据是干净的、结构化的和丰富的。此预处理管道应最大限度地减少原始内容和 LLM 就绪版本之间的信息丢失。非结构化使公司能够将其非结构化数据转换为标准化格式(无论文件类型如何),并使用其他元数据来丰富它。这使得组织能够缓解他们在使用法学硕士时面临的三个关键挑战:他们被及时冻结,他们倾向于编造事情,并且他们对您的特定组织一无所知。
相关:构建现代数据架构
问:您能否向我们介绍一个用例:一家公司坐拥非结构化数据金矿,但尚未弄清楚如何利用人工智能来利用它?实施人工智能有何不同?
卡尔维斯伯特: 我们合作的一家大型电信客户从客户支持代理的内部知识库开始,这减少了向客户提供答复所需的时间并提高了答复的准确性。它像野火一样在呼叫中心内有机地蔓延,此时公司不得不退后一步,开始致力于治理和价格表现。在内部,我们实施了一个营销自动化用例,其中吸收了 IBM 的品牌指南和示例来生成新的营销内容,并对其进行策划以实现一致的质量和基调。
多纳休: 我们正在与一家全球消费品公司合作,帮助他们开发新产品创意。您可能会问:“这与非结构化数据有什么关系?”嗯,从历史上看,营销和产品团队需要花费数月的时间来分析大量的销售数据、产品反馈信息和人口统计信息,以产生可以与这些特定市场的最终用户进行测试的新想法或概念。如果我们可以帮助将这个过程从几个月缩短到几个小时呢?如果我们能够根据团队可以快速测试的数据产生新的产品想法会怎样?
这就是利用非结构化数据创造业务价值的力量。现在,该 CPG 公司正在利用其多个品牌的数据来开发和测试新产品创意,并将其推向市场。
问:如果一家公司没有足够的非结构化数据,他们还能实施人工智能吗?他们的下一步应该是什么?
卡尔维斯伯特: 每家公司都有文档(想想他们为新员工提供的入职文件),这足以开始使用 RAG 和语义搜索。
多纳休 公司 80% 的数据是非结构化的,无论是电子邮件、备忘录、内部消息平台(如 Slack 或 Microsoft Teams)还是业务演示文稿。问题是,您想用这些数据做什么?为目前从事类似数据清理工作的工程师提高效率?根据销售和营销数据开发新产品创意?人工智能有无数的可能性和机遇。确定一个目标。确定所需的数据。从小处开始。
问:过去一年里,您在数据和数据管理方面有看到什么有趣的趋势吗?
卡尔维斯伯特: 我认为 Lakehouse 架构和开放表格式(即 Iceberg)已经成为主流,并且是新数据/工作负载的主导数据管理架构。矢量功能已在许多操作/分析数据库中原生提供,以便将新一代人工智能工作负载注入现有应用程序中。我们开始看到业界意识到,对于某些需要基于非明显关系 (GraphRAG) 的附加上下文化和提高事务记录 (SQL-RAG) 精度的企业用例,仅 RAG 是不够的。客户还意识到,实施尊重企业内容管理系统访问控制的用户授权模型是在整个企业范围内扩展新一代人工智能需要克服的关键挑战。
多纳休: 我们开始看到数据科学和机器学习工程团队与数据工程团队更加紧密地合作。过去十年,数据工程团队随着数据仓库和商业智能应用程序的兴起而成长,历史上一直在为数据分析师和高管消费者设计的 SQL、结构化数据库和业务分析流程领域中运作。随着企业转向法学硕士,对大量预处理数据的需求激增。然而,这些消费者倾向于在 Python、矢量数据库和快速且一次性的用户界面的世界中操作。随着时间的推移,我们预计成熟的数据工程团队将越来越多地承担起为新一代人工智能团队提供企业级数据的责任。
问:您对 2025 年及以后的数据趋势有何预测?
卡尔维斯伯特: 我认为客户正在寻求简化他们的数据资产以及相关的成本和风险。为此,随着客户希望在数量减少的数据平台上进行整合,多模型数据库和多引擎 Lakehouse 架构将继续成功地与孤立数据库竞争工作负载。文本到 SQL 模型变得非常好,这将极大地减少在商业智能之外的广泛用例中处理数据的障碍。
同样,代理的激增会将数据注入爆炸量和各种自动化工作流程中。其中一些代理工作流程将彻底改变许多知识工作者的活动并创造令人兴奋的新机会。想象一下,处理与客户的内部或外部对话,并立即将其映射到 CRM 系统中目录中的产品或机会记录,包括对进展状态和结束倾向的自动评估。
多纳休: 与现代数据堆栈相比,Snowflake、BigQuery 和 Databricks 在数据仓库空间中建立了“数据引力”,但我们尚未对非结构化数据做同样的事情。由于它们的数量是结构化数据的四倍,并且每年呈指数级增长,因此对于法学硕士的下一代存储解决方案来说,风险再大不过了。对于矢量、图形、对象或其他类型存储的哪种组合将成为主导,以及每个类别中的哪些供应商将占上风,尚无定论,但赢家可能会在未来 18 到 24 个月内显而易见。
电子书:如何利用正确的数据库实现新一代人工智能
这篇文章有帮助吗?
是的不