千呼万唤始出来,今日凌晨1点,抢在谷歌年度开发者大会Google I/O的开幕之前,OpenAI举办春季线上直播活动,本次发布会,并未带来此前广为流传的搜索引擎或GPT5,而是推出了GPT-4的迭代版本——全新旗舰AI模型GPT-4o。
在未来数周内,用户将陆续自动升级至GPT-4o。
GPT-4o作为新一代旗舰模型,在降低AI工具使用门槛方面取得了显著进展。相较于上一代模型,GPT-4o运行速度提升了两倍,实现了无延迟实时对话的流畅体验。更值得一提的是,用户无需进行注册,向所有人免费开放。
此外,ChatGPT还推出了桌面版本,为用户提供更加轻量化的使用体验。这一改进使得ChatGPT能够无缝融入用户的任何工作流程,从而极大地提升了工作效率。据OpenAI首席技术官米拉·穆拉蒂(Mira Murati)表示,此次桌面版本的推出是他们首次在易用性方面取得的重大突破。
“O”是全能的O
GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。
发布开始,米拉·穆拉蒂为本次新品发布定下了基调。她明确表示,OpenAI的核心目标是进一步降低人们使用人工智能的门槛,让AI工具能够广泛服务于每个人的工作、学习和创造过程。
为实现这一目标,OpenAI采取了三项重要举措。首先,发布了功能更为强大的GPT-4o模型,以提供更加高效和精准的智能支持。其次,对用户界面进行了优化升级,以提升用户在使用过程中的体验感受。最后,OpenAI决定将GPT-4o模型免费开放给广大用户,以进一步推动AI技术的普及和应用。
穆拉蒂进一步补充,对于付费用户,OpenAI将提供五倍的使用容量限制,以满足不同用户的个性化需求。
OpenAI表示,GPT-4o被赋予了“原生多模态”的特性,其命名中的“omni”寓意着其功能的广泛性和包容性。
相较于此前主要侧重于图文或语音单一模式的GPT-4,GPT-4o在处理能力上更显灵活与全面。它能够接纳文字、音频、图像等多种形式的输入,并以此为基础,流畅地生成图文音频的多元化输出,从而实现了信息处理的组合拳策略。
GPT-4o在响应速度上也实现了显著提升。
据OpenAI介绍,传统的GPT模型在与人进行对话时,需要经过语音转文字、生成回复文本、再转回语音的复杂流程。这种过程在GPT-3.5模型中可能导致平均延迟高达2.8秒,而在GPT-4模型中更是延长至5.4秒。用户在与这些模型交流时,常常需要面对屏幕等待回复,体验并不理想。此外,这种转换过程中还可能导致信息的损失,模型无法捕捉到说话人的音调变化或背景音,对于多人同时交谈的场景更是难以应对。
然而,GPT-4o通过跨文本、视觉和音频的端到端训练,实现了所有输入和输出均由同一神经网络处理的创新突破。这使得GPT-4o能够在最短232毫秒内响应对话,平均响应时间也仅需320毫秒,与人类的反应速度几乎相当。这一改进为用户带来了更加流畅自然的对话体验,使他们能够轻松地从微信语音模式切换到日常交流模式。
GPT-4o还为用户带来了更加便捷友好的界面设计。
新的桌面版GPT能够无缝融入各种工作流程,随时与用户进行图像、文字、语音等多种形式的交流。虽然目前尚未全面投入使用,但用户可以预见这种全新的工作体验将为他们带来前所未有的便捷与愉悦。
此外,萨姆·奥尔特曼在X平台上指出,模型的升级并不仅限于GPT,开发者同样可以在API中同步应用GPT-4o。相较于GPT-4 Turbo,GPT-4o的定价仅为前者的一半,而其处理速度则达到了GPT-4 Turbo的两倍。此外,GPT-4o还在50余种非英语语言能力上实现了显著增强。
连呼吸都能识别?
在发布会的压轴环节,OpenAI呈现了一系列精彩的实机演示。Marc Chen与Barret Zoph携手合作,充分展示了新模型所具备的卓越性能。
在首个演示环节中,Chen略显紧张,呼吸略显急促。然而,GPT敏锐地捕捉到了他呼吸的声音,并温柔地劝慰道:“别紧张,你喘得像个吸尘器,深呼吸,再吐气。”随后,GPT更是亲自指导Chen如何通过深呼吸与慢呼气来平复心情。这一演示不仅体现了GPT对环境音的精准识别能力,更展示了其即时反馈的先进功能。GPT能够同时处理输入与输出,实现了真正意义上的实时交互。
紧接着的第二个演示中,Chen要求GPT为Zoph讲述一个睡前故事以助其入眠。在讲述过程中,Chen多次打断GPT,询问是否能将故事讲得更富刺激性。令人惊喜的是,GPT竟以类似迪士尼公主的方式,将故事以歌唱的形式呈现。这一创新性的演示充分展示了GPT在交互过程中的灵活性与适应性,使其更加贴近真实生活中的交流场景。
随后的演示中,GPT还展示了其在教学、代码解释、图表阅读以及面相分析等方面的强大能力。它成功指导Zoph完成数学题目,详细解释了代码逻辑,准确解读了图表信息,并精准地分析了Zoph的面相特征。最后,GPT还充当了Chen与穆拉蒂之间的同声传译,展现了其跨语言沟通的能力。
通过这一系列精彩的实机演示,我们充分感受到了新模型所具备的卓越性能与广泛应用前景。OpenAI将继续致力于推动人工智能技术的发展与创新,为人类社会的进步贡献更多力量。
谷歌将如何迎战?
除了OpenAI带来的精彩内容之外,也别忘了北京时间5月15日凌晨,谷歌将召开I/O大会。
今年二月,谷歌成功推出具备百万tokens长文本窗口处理能力的Gemini 1.5系列大型模型,此举在行业内引起广泛关注。然而,就在此后不久,OpenAI出其不意地发布了AI视频生成模型Sora,其惊艳的表现迅速吸引了全球科技界的目光。
如今,OpenAI再次发起挑战,在谷歌I/O大会前夕宣布推出Mac桌面版的ChatGPT和GPT-4o,并全程使用iPhone和MacBook Pro进行演示。鉴于近期苹果与OpenAI合作的传闻,这更加激发了人们对于苹果即将在六月份举办的WWDC全球开发者大会的期待。
这些AI新品的发布无疑对谷歌构成了直接的竞争压力。在竞争激烈的生成式AI行业中,各方都在努力寻求创新与突破。OpenAI的连续动作无疑给谷歌带来了不小的挑战。
然而,谷歌作为科技巨头,其深厚的技术积累和创新能力使其有能力应对这一挑战。至于谷歌是否能够成功接住OpenAI发起的AI挑战,以及生成式AI行业未来还能带来哪些创新与惊喜,我们将拭目以待。