大模型进程焦点：OpenAI春季发布会及谷歌开发者大会要点归纳信达证券 2024-05-16（11页）附下载_行业研究_报告

大模型进程焦点：OpenAI春季发布会及谷歌开发者大会要点归纳信达证券 2024-05-16（11页）附下载

#AI #信达证券

发布机构：信达证券发布时间：2024-05-16大小：1.32 MB页数：共11页上传日期：2024-05-17语言：中文简体

大模型进程焦点：OpenAI春季发布会及谷歌开发者大会要点归纳信达证券2024-05-16.pdf

免费阅读10页，购买之后可查看、下载完整报告

摘要：事件：北京时间5月14日凌晨，OpenAI发布了最新模型GPT-4o，GPT-4o（“o”代表“omni”）接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，与人类的响应时间相似。它在英语文本和代码上的性能与GPT-4Turbo的性能相匹配，在非英语文本上的性能显著提高。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。GPT-4o的文本和图像功能5月14日已经开始在ChatGPT中推出。OpenAI正在免费套餐中提供GPT-4o，并向Plus用户提供高达5倍的消息限制，未来几周将在ChatGPTPlus中推出新版语音模式GPT-4o的alpha版。开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4Turbo相比，GPT-4o速度提高2倍，价格降低一半，速率限制提高5倍。OpenAI计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。在OpenAI发布会上，团队展示了GPT-4o的多个功能。包括实时语音交流能力，几乎无延迟，达到真人聊天的水平；可以识别用户的语音情绪，语音有情感；可以使用不同语言（英语、意大利语）和多人同时交互；在语音的同时可以与视频实时交互；实时交流，协助阅读代码，指导编程；实时视频聊天,并识别情绪等。北京时间5月15日凌晨，GoogleI/O开发者大会正式开幕。公司更新了Gemini1.5Pro，引入了1.5Flash较小型号的Gemini版本，同时也增加了两个新的Gemma模型。Gemini1.5Pro：普通版本配备了100万token上下文窗口，而Gemini1.5Pro将在GoogleAIStudio或适用于GoogleCloud客户的VertexAI中的候补名单中拥有200万个代币上下文窗口。在智能代理领域，谷歌展示了其最新的人工智能代理GoogleAstra项目，可与用户实现多模态交互。多模态领域，谷歌推出全新视频生成模型Veo，可生成各种电影和视觉风格的高质量1080p分辨率视频，时间可以超过一分钟；升级了文生图新模型Imagen3，对图像细节的把控度更高；发布了人工智能音乐生成模型Lyria。以及在AI搜索功能、照片问询功能均实现了一定程度的升级迭代。

免责声明：
1.本站部分作品是由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。
2.如发布机构认为违背了您的权益，请与我们联系，我们将对相关资料予以删除。
3.资源付费，仅为我们搜集整理和运营维护费用，感谢您的支持！

合集服务：
单个细分行业的合集获取请联系行研君：hanyanjun830

上一篇：房地产：2024年4月上海土地招拍挂市场城市测量师行 2024-05-16（5页）附下载

下一篇：AI变革行业创新发展：2023年中国AI开发平台产品探析头豹研究院 2024-05-16（16页）附下载

关于上传者

路无归

未认证

这家伙很懒，什么都没有填写！

文档

127

粉丝

关注