GPT-4o是OpenAI为聊天机器人ChatGPT发布的一款多模态大模型,于2024年5月14日发布。其中“o”代表“omni”,该词意为“全能”,源自拉丁语“omnis”

本页面主要目录有关于GPT-4o的:命名、发展历程、功能和服务、应用领域、相关评价、相关合集等介绍

英文名

GPT-4o

开发者

OpenAI

所属公司

OpenAI

上线时间

2024年5月14日

应用平台

ChatGPT

简介

GPT-4o模型可以使ChatGPT能够处理50种不同的语言。并可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。性能方面,在传统基准测试中,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也超过了之前的模型。

相较于2023年11月推出的GPT-4 Turbo,GPT-4o在处理速度上提升达到200%,同时在价格上也下降了50%,并分阶段集成至OpenAI的各个产品之中。ChatGPT的免费用户也可以通过GPT-4o模型,进行数据分析、图像分析、互联网搜索、访问应用商店等操作。2024年5月14日,GPT-4o向ChatGPT Plus和Team的客户全面推出。5月20日,微软推出GPT-4o加持的AI PC(人工智能个人电脑)系列。

命名

GPT-4o的“o”代表“omni”。该词意为“全能”,源自拉丁语“omnis”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。

发展历程

2024年5月14日,OpenAI(美国人工智能研究公司)在线上举办“春季更新”活动。在活动中,OpenAI发布了新旗舰模型“GPT-4o”。同日,GPT-4o向ChatGPT Plus和Team的客户全面推出。与现有模型相比,GPT-4o展现出了其在视觉和音频理解方面的出色技能。和GPT-4相比,GPT-4o的最大区别在于,所有模态都集成在一个模型中,多模态整合更精细,延迟仅300毫秒左右,同时能够感知情绪、语气、表情,实现更自然的交互,这需要数据组织能力、聚焦突破能力、工程优化能力,也扩大了人们对于交互的想象空间。OpenAI没有推出搜索引擎,但是基于ChatGPT或GPT-4o,未来人类获得信息的方式很可能会改变,GPT-4o或为OpenAI开启了一个超级入口。5月20日,微软推出GPT-4o加持的AI PC(人工智能个人电脑)系列,微软高管们将其称为“史上最强、最智能的Windows PC”。


GPT-4o

功能和服务

GPT-4o的语音对话是OpenAI跨文本、视觉和音频端到端训练一个新模型的产物,所有输入和输出都由同一神经网络处理,GPT-4o是其第一个结合所有这些模式的模型。GPT-4o可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。GPT-4o使ChatGPT能够处理50种不同的语言,同时提高速度和质量。GPT-4o的速度比GPT-4 Turbo快2倍,速率限制提高5倍,最高可达每分钟1000万token。

在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在演示中机器人能够从急促的喘气声中理解“紧张”的含义,还可以根据用户要求变换语调。手机版的GPT-4o可以通过语音能力理解人类的话语,状态。

性能方面,根据传统基准测试,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。新版语音模式在未来几周向Plus用户推出,同时也将会在API(应用接口)中向小范围推出对GPT-4o的新音频和视频功能的支持。

应用领域

GPT-4o在处理速度上提升达到200%,同时在价格上也下降了50%,并分阶段集成至OpenAI的各个产品之中。ChatGPT的免费用户也能用上GPT-4o模型(更新前只能使用GPT-3.5),来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。

相关评价

GPT-4o的发布有望掀起新一轮全球AI浪潮,人工智能AIETF(515070)、机器人ETF(562500)等AI产业链相关产品有望受催化。(第一财经评)

注释

ChatGPT(全称Chat Generative Pre-trained Transformer,即聊天生成预训练转换器)是人工智能研究实验室OpenAI(开放人工智能研究中心)在2022年11月30日发布的聊天机器人模型。