OpenAI 推出最新人工智能模型 GPT-4o

ChatGPT 将变得更加有用。

OpenAI 周一公布了其最新的人工智能大型语言模型，并表示该模型将使 ChatGPT 更智能、更易用。

新模式名为 GPT-4o，是该公司一年多前推出的 GPT-4 模式的升级版。该模式将面向未付费用户，这意味着任何人都可以通过 ChatGPT 使用 OpenAI 最先进的技术。

根据该公司周一的演示，GPT-4o 将有效地把 ChatGPT 变成一个可以进行实时口语对话的数字个人助理。它还能使用文本和 "视觉 "进行交互，这意味着它可以查看用户上传的屏幕截图、照片、文档或图表，并就其进行对话。

OpenAI 首席技术官米拉-穆拉提（Mira Murati）说，更新版的 ChatGPT 现在还将具备记忆功能，这意味着它可以从以前与用户的对话中学习，并能进行实时翻译。

"Murati 在公司旧金山总部进行现场演示时说："这是我们第一次真正在易用性方面向前迈出一大步。"这种交互变得更加自然，也更加容易。

新版本发布之际，OpenAI 正努力在日益激烈的人工智能军备竞赛中保持领先地位。包括谷歌和 Meta 在内的竞争对手一直在努力构建越来越强大的大型语言模型，为聊天机器人提供支持，并将人工智能技术应用到其他各种产品中。

OpenAI 活动在谷歌年度 I/O 开发者大会前一天举行，预计谷歌将在此次大会上宣布其 Gemini 人工智能模型的更新。与新的 GPT-4o 一样，谷歌的 Gemini 也是多模态的，这意味着它可以解释和生成文本、图像和音频。OpenAI 的更新还早于苹果公司在下月全球开发者大会上发布的人工智能公告，其中可能包括将人工智能融入下一代 iPhone 或 iOS 的新方法。

与此同时，最新发布的 GPT 可能会给微软带来福音，因为微软已经向 OpenAI 投资了数十亿美元，以便将其人工智能技术嵌入到微软自己的产品中。

OpenAI 的高管演示了与 ChatGPT 的口语对话，以获得解决数学问题的实时指导、讲睡前故事和获得编码建议。ChatGPT 既能用自然、人声说话，也能用机器人的声音说话，甚至还能唱出部分回答。该工具还能查看图表图像并进行讨论。

他们还展示了该模型对用户情绪的检测；在一个例子中，该模型聆听了一位高管的呼吸，并鼓励他冷静下来。

"你不是吸尘器！"ChatGPT 的女声（听起来与 2013 年电影《她》中斯嘉丽-约翰逊（Scarlett Johansson）配音的数字伴侣极为相似）开玩笑地对工作人员说。

ChatGPT 还能通过翻译和自动回复进行多语言对话。据 OpenAI 称，该工具目前支持 50 多种语言。

"新的语音（和视频）模式是我用过的最好的计算机界面，"OpenAI 首席执行官山姆-奥特曼（Sam Altman）在发布后的一篇博文中说。"感觉就像电影里的人工智能；而它的真实存在还是让我有点吃惊。达到人类水平的响应时间和表现力是一个很大的变化。

Murati说，OpenAI将推出一个具有GPT-4o功能的ChatGPT桌面应用程序，为用户提供另一个与公司技术互动的平台。GPT-4o还将提供给希望从OpenAI的GPT商店创建自己的定制聊天机器人的开发者，现在非付费用户也可以使用这一功能。

更新后的技术和功能将在未来几个月内推广到 ChatGPT。免费 ChatGPT 用户将只能与新的 GPT-4o 模型进行有限次数的互动，之后该工具将自动恢复到旧的 GPT-3.5 模型；付费用户将可以使用最新模型获取更多信息。

OpenAI 表示，目前已有超过 1 亿人在使用 ChatGPT。但更新后的 ChatGPT 体验--以及在桌面和通过改进的语音对话与之互动的能力--会让更多人有理由使用它的技术。此举正值谷歌和 Meta 将人工智能整合到 Instagram 和谷歌助手等更广泛使用的消费产品中，这可能会让这些公司的技术更广泛、更容易获得。