信息技术行业动态点评:DeepSeek发布第二代MoE架构模型,API调用成本降低 东方财富证券 2024-05-13(4页) 附下载
发布机构:东方财富证券发布时间:2024-05-13大小:733.51 KB页数:共4页上传日期:2024-05-14语言:中文简体

信息技术行业动态点评:DeepSeek发布第二代MoE架构模型,API调用成本降低东方财富证券2024-05-13.pdf

摘要:【事项】近日,DeepSeek团队开源了第二代MoE模型DeepSeek-V2,总体实现了更多参数,能力更强,并在成本上有大幅降低。在目前大模型主流榜单中,DeepSeek-V2均表现出色:在中文综合能力开源模型中亮眼,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队;英文综合能力与目前最强的开源模型LLaMA3-70B同处第一梯队,超过MoE开源模型Mixtral8x22B;而在知识、数学、推理、编程等榜单结果DeepSeek也位居前列。在上下文层面,DeepSeek目前支持128K上下文窗口。根据DeepSeek自己估计,DeepSeek-V2以236B总参数、21B激活,大致达到70B~110BDense的模型能力,同时消耗的显存(KVCache)是同级别Dense模型的1/5~1/100,每token成本大幅降低。实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。【评论】整体表现出色。从表中可看到,DeepSeek在编程、数学解题等领域在国内大模型中处于领先水平;在列举的开源模型中,DeepSeek的各个维度都表现优异。模型结构创新。DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行了全方位的创新,提出了媲美MHA的MLA(Multi-headLatentAttention)架构,大幅减少计算量和推理显存;自研Sparse结构DeepSeekMoE进一步将计算量降低到极致,两者结合最终实现模型性能跨级别的提升。API调用成本大幅降低。DeepSeek-V2API的定价为:每百万tokens输入1元、输出2元(32K上下文),价格为GPT-4-Turbo的近百分之一。就中文能力来看,DeepSeek-V2在全球模型中处于第一档的位置,成本方面却是更低的,性价比凸显。DeepSeek-V2将大语言模型训练中广泛被验证有用的训练策略深度整合,集合了长度外推训练的YaRN,高效对齐的GRPO,MLA与混合专家分配等方法进行模型训练。做到了算法、工程和数据的极致优化。我们认为,随着大模型参数的不断加大,推理侧降本早已成为众矢之的,模型架构的创新使得降本速度明显加快,算力节省,可能带来需求上升,应用侧的不断诞生也会促进算力上更多的需求。建议保持对AI整个板块的关注。建议关注:海光信息,景嘉微,寒武纪,工业富联,浪潮信息等【风险提示】行业竞争加剧;算力供给不足。

免责声明:
1.本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。
2.如发布机构认为违背了您的权益,请与我们联系,我们将对相关资料予以删除。
3.资源付费,仅为我们搜集整理和运营维护费用,感谢您的支持!

合集服务:
单个细分行业的合集获取请联系行研君:hanyanjun830

关于上传者

文档

319

粉丝

0

关注

0
相关内容
加入星球
开通VIP,可免费下载 立即开通
开通VIP
联系客服 扫一扫

扫一扫
联系在线客服

公众号

扫一扫
关注我们的公众号

在线反馈
返回顶部