信息技术行业动态点评：DeepSeek发布第二代MoE架构模型，API调用成本降低东方财富证券 2024-05-13（4页）附下载_行业研究_报告

信息技术行业动态点评：DeepSeek发布第二代MoE架构模型，API调用成本降低东方财富证券 2024-05-13（4页）附下载

#API #EPS #信息技术 #东方财富证券 #财富证券 #东方财富

发布机构：东方财富证券发布时间：2024-05-13大小：733.51 KB页数：共4页上传日期：2024-05-14语言：中文简体

信息技术行业动态点评：DeepSeek发布第二代MoE架构模型，API调用成本降低东方财富证券2024-05-13.pdf

免费阅读10页，购买之后可查看、下载完整报告

摘要：【事项】近日，DeepSeek团队开源了第二代MoE模型DeepSeek-V2，总体实现了更多参数，能力更强，并在成本上有大幅降低。在目前大模型主流榜单中，DeepSeek-V2均表现出色:在中文综合能力开源模型中亮眼，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队；英文综合能力与目前最强的开源模型LLaMA3-70B同处第一梯队，超过MoE开源模型Mixtral8x22B；而在知识、数学、推理、编程等榜单结果DeepSeek也位居前列。在上下文层面，DeepSeek目前支持128K上下文窗口。根据DeepSeek自己估计，DeepSeek-V2以236B总参数、21B激活，大致达到70B~110BDense的模型能力，同时消耗的显存（KVCache）是同级别Dense模型的1/5~1/100，每token成本大幅降低。实际部署在8卡H800机器上，输入吞吐量超过每秒10万tokens，输出超过每秒5万tokens。【评论】整体表现出色。从表中可看到，DeepSeek在编程、数学解题等领域在国内大模型中处于领先水平；在列举的开源模型中，DeepSeek的各个维度都表现优异。模型结构创新。DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是对模型框架进行了全方位的创新，提出了媲美MHA的MLA（Multi-headLatentAttention）架构，大幅减少计算量和推理显存；自研Sparse结构DeepSeekMoE进一步将计算量降低到极致，两者结合最终实现模型性能跨级别的提升。API调用成本大幅降低。DeepSeek-V2API的定价为：每百万tokens输入1元、输出2元（32K上下文），价格为GPT-4-Turbo的近百分之一。就中文能力来看，DeepSeek-V2在全球模型中处于第一档的位置，成本方面却是更低的，性价比凸显。DeepSeek-V2将大语言模型训练中广泛被验证有用的训练策略深度整合，集合了长度外推训练的YaRN，高效对齐的GRPO，MLA与混合专家分配等方法进行模型训练。做到了算法、工程和数据的极致优化。我们认为，随着大模型参数的不断加大，推理侧降本早已成为众矢之的，模型架构的创新使得降本速度明显加快，算力节省，可能带来需求上升，应用侧的不断诞生也会促进算力上更多的需求。建议保持对AI整个板块的关注。建议关注：海光信息，景嘉微，寒武纪，工业富联，浪潮信息等【风险提示】行业竞争加剧；算力供给不足。

免责声明：
1.本站部分作品是由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。
2.如发布机构认为违背了您的权益，请与我们联系，我们将对相关资料予以删除。
3.资源付费，仅为我们搜集整理和运营维护费用，感谢您的支持！

合集服务：
单个细分行业的合集获取请联系行研君：hanyanjun830

上一篇：建材建筑周观点：5月新增专项债发行加快，多地地产限购松绑，建材率先受益民生证券 2024-05-13（23页）附下载

下一篇：2024年5月第二周创新药周报（附小专题血友病RNAi疗法研发概况）西南证券 2024-05-13（20页）附下载

关于上传者

傲慢多泪

未认证

这家伙很懒，什么都没有填写！

文档

319

粉丝

关注