人工智能语音助手不断发展，有望实现更深入的互动

生成式人工智能的格局正在发生变化，科技巨头们将先进的语音助手视为下一个前沿领域。

谷歌最近为 Android 用户推出了 Gemini Live，这是这场人工智能军备竞赛中的一个重要里程碑，紧随 OpenAI 开发 ChatGPT 的高级语音模式之后。这些下一代语音助手代表着对苹果 Siri 和亚马逊 Alexa 等前辈的一次飞跃。

BlockDAG 凭借 Keynote 3 进军好莱坞； Shiba Inu 和 Stellar 价格更新

26 12 月, 2024

Qubetics 处于领先地位，Fantom 重塑品牌，Stellar 准备飙升

26 12 月, 2024

SlashNext Email Security+ 现场首席技术官 Stephen Kowski 表示：“谷歌的 Gemini Live 专注于与现有生态系统和设备的无缝集成，而 OpenAI 的 GPT-4 则强调像人类一样的对话，并具有低毫秒级的响应延迟。”“两者都在情感识别、情境理解和处理中断方面突破了界限。”

谷歌的 Gemini Live 面向 Gemini Advanced 用户，每月收费 20 美元，旨在成为一款数字助手，而非简单的语音应用。它承诺与谷歌的生态系统深度整合，让用户能够通过自然对话与 Gmail、日历和地图等应用进行互动。同样，OpenAI 的高级语音模式目前处于 alpha 测试阶段，在早期版本中拥有类似人类的互动和音乐能力。

与此同时，苹果正准备在今年秋季推出一款由人工智能驱动的 Siri 升级版，并搭载 iOS 18，承诺提供更自然、更符合语境的交互。据报道，亚马逊也在开发一款基于订阅的人工智能增强版 Alexa，以在这个不断发展的市场中竞争。IBM 最近为其 watsonx Assistant 推出了新功能，利用大型语音模型 (LSM) 来增强电话渠道中的语音识别。IBM 声称这些进步在特定的客户服务场景中优于 OpenAI 的 Whisper 模型，旨在通过提供更自然、更准确的语音交互来改变呼叫中心的运营。

这种对更复杂的语音 AI 的追求反映了更广泛的行业趋势。科技公司认为语音将成为 AI 交互的主要界面，为用户在日常生活中访问大型语言模型的强大功能提供更自然、更直观的方式。

随着这些助手功能越来越强大，越来越融入我们的日常生活，它们有望彻底改变我们与科技的互动方式。从管理日程安排、汇总电子邮件到提供有关位置或视频的即时信息，这些人工智能伙伴旨在无缝融入我们的数字体验。

然而，这种快速发展引发了关于隐私、数据收集以及越来越像人类的人工智能交互的伦理影响的重要问题。Kowski 指出，“随着人工智能语音助手的集成度越来越高，人们对数据收集、存储和个人信息的潜在滥用的担忧也随之而来。此外，还存在关于同意、人工智能交互透明度以及操纵或误导信息的可能性的伦理考虑。”

报告：Forrester 对 WatsonX Assistant 的总体经济影响研究

这篇文章有帮助吗？

是的不

Source link

Tags: 人工智能语音助手不断发展有望实现更深入的互动