2024年05月17日来源：浏览：557

OpenAI、谷歌正面刚出科技春晚，人机交互进入全新时代

两天时间里，科技界先后迎来两场重要的发布会。5月14日凌晨，OpenAI刚刚发布了重大更新GPT-4o，号称颠覆语音助手，再度全网刷屏，紧随其后北京时间5月15日凌晨，谷歌在2024年I/O开发者大会上展开回击：一次性掏出十几款更新产品，宣布Google已全面进入 Gemini时代。

从OpenAI发布会来看，围绕ChatGPT模型层更新的亮点如下：

1.模型：推出了全新旗舰GPT-4o模型，「o」代表着「omni」全能，在文本、视觉和音频处理方面能力都有显著增强；

2.交互：在GPT-4o能力支持下，ChatGPT能实现实时语音视频交互功能，可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，类似一个更先进的AI语音助手；

3.体验：语音延迟大幅降低至平均320毫秒，接近人类对话的自然节奏，新模型不仅能读懂交互者的情绪，也拥有自己的情绪，堪称“数字化人类”，同时OpenAI宣布将推出桌面版ChatGPT；

4.价格：GPT-4o向所有人免费开放，对比GPT-4 Turbo，API定价减半，但速度是GPT-4 Turbo的2倍。

在2024年的Google I/O 大会上，Google 展示涵盖了视频生成、音乐生成、AI搜索等多个关键领域AI全家桶，重磅级的发布包括：

轻量化的模型Gemini 1.5 Flash；

智能体Project Astra：实时音视频对话的AI助手；

强大的AI搜索：AI概述、功能规划、多模态搜索；

视频生成模型Veo：谷歌版Sora；

高质量的文本到图像模型Imagen3；

AI Sandbox：用于创建音乐和声音；

人工智能硬件：第六代TPU Trillium等。

无论是GPT-4o，还是Gemini AI更新，语言模型技术的重大突破为机器人行业带来无限可能，为人机交互技术的进步打开了全新的局面。

当我们进一步探讨人工智能技术对机器人行业的影响时，可以看到它所带来的变革将深刻影响到机器人的开发、交互、应用和发展各方面。

更深度的融合需求

过去，开发语言模型需要庞大的投资和复杂的技术团队，而现在各大语言模型百花齐放，技术的成熟与智能日新月异。这将激发更多的创新者和企业投入到机器人行业中，推动行业的快速发展。

传统的机器人设计往往侧重于机械结构和传感器技术，而多模态交互的出现将加强机器人对人工智能算法和语音视频处理技术的需求，开发团队将不仅仅关注硬件的制造和优化，还需深入研究如何将大模型、人工智能的能力与机器人技术深度融合，早日实现科幻电影当中的场景。

更自由、智能的人机交互

传统的机器人往往受限于文字交互或者预先录制的语音指令，GPT-4o和Astra的实时语音视频交互功能，同时能够实时理解和处理用户的语音和视频输入，甚至听懂用户说话时不同的语调、语气，还能根据自己的台词生成不同语气的语音，完全没有「机械感」。

当机器人技术与人工智能、大模型等技术深度融合，即可实现更加自由、智能的交互体验，让人机沟通如同人与人之间的对话一样流畅自然。

并且这些语言模型分析和处理能力将极大地提升了机器人在各种场景下的适用性。

更丰富、更高效的应用场景

AI跨文本、音频和视频实时推理功能，为机器人行业带来了全新的可能性。以往，机器人往往只能在单一模态下进行推理和交互，而新的语言模型技术可以同时处理多种输入，从而实现更加复杂和灵活的人机交互。

这意味着机器人不仅可以理解文字和语音，还可以通过图像、视频感知，推理用户的情绪和意图，进极大地拓展了机器人的应用场景，实现完成更复杂的工作任务。

传统上，机器人主要用于服务接待、工业生产、清洁服务等领域，依赖人工下达的文字指令或语言指令去完成工作任务，但随着新语言模型技术的出现，机器人将能够更通人性，仅仅一个动作或一个表情，甚至根据摄像头采集的图像感知分析自动下达指令，灵活地识别分析，拥有“自我意识”一般更高效地完成工作任务。

AI技术的革新将加速人机交互进入科幻时代，推动机器人技术的快速发展，拓展机器人的应用场景，促进人机协作的深入和社会的变革。随着技术的不断进步，我们可以期待看到机器人与人类共同生活在一个更加智能、便捷、和谐的未来世界中。