生成式人工智能的格局正在发生变化,科技巨头们将先进的语音助手视为下一个前沿领域。
谷歌最近为 Android 用户推出了 Gemini Live,这是这场人工智能军备竞赛中的一个重要里程碑,紧随 OpenAI 开发 ChatGPT 的高级语音模式之后。这些下一代语音助手代表着对苹果 Siri 和亚马逊 Alexa 等前辈的一次飞跃。
SlashNext Email Security+ 现场首席技术官 Stephen Kowski 表示:“谷歌的 Gemini Live 专注于与现有生态系统和设备的无缝集成,而 OpenAI 的 GPT-4 则强调像人类一样的对话,并具有低毫秒级的响应延迟。”“两者都在情感识别、情境理解和处理中断方面突破了界限。”
谷歌的 Gemini Live 面向 Gemini Advanced 用户,每月收费 20 美元,旨在成为一款数字助手,而非简单的语音应用。它承诺与谷歌的生态系统深度整合,让用户能够通过自然对话与 Gmail、日历和地图等应用进行互动。同样,OpenAI 的高级语音模式目前处于 alpha 测试阶段,在早期版本中拥有类似人类的互动和音乐能力。
与此同时,苹果正准备在今年秋季推出一款由人工智能驱动的 Siri 升级版,并搭载 iOS 18,承诺提供更自然、更符合语境的交互。据报道,亚马逊也在开发一款基于订阅的人工智能增强版 Alexa,以在这个不断发展的市场中竞争。IBM 最近为其 watsonx Assistant 推出了新功能,利用大型语音模型 (LSM) 来增强电话渠道中的语音识别。IBM 声称这些进步在特定的客户服务场景中优于 OpenAI 的 Whisper 模型,旨在通过提供更自然、更准确的语音交互来改变呼叫中心的运营。
这种对更复杂的语音 AI 的追求反映了更广泛的行业趋势。科技公司认为语音将成为 AI 交互的主要界面,为用户在日常生活中访问大型语言模型的强大功能提供更自然、更直观的方式。
随着这些助手功能越来越强大,越来越融入我们的日常生活,它们有望彻底改变我们与科技的互动方式。从管理日程安排、汇总电子邮件到提供有关位置或视频的即时信息,这些人工智能伙伴旨在无缝融入我们的数字体验。
然而,这种快速发展引发了关于隐私、数据收集以及越来越像人类的人工智能交互的伦理影响的重要问题。Kowski 指出,“随着人工智能语音助手的集成度越来越高,人们对数据收集、存储和个人信息的潜在滥用的担忧也随之而来。此外,还存在关于同意、人工智能交互透明度以及操纵或误导信息的可能性的伦理考虑。”
报告:Forrester 对 WatsonX Assistant 的总体经济影响研究
这篇文章有帮助吗?
是的不