一文了解DeepSeek-工信会

> 自媒体 > （AI）人工智能 > 一文了解DeepSeek

一文了解DeepSeek

来源：开心的AI频道

2025-02-07 10:20:58

477

管理

1.DeepSeek 的起源创立时间：DeepSeek 于 2023 年由中国的梁文锋创立。V3 模型训练成本：最终训练成本为 600 万美元。开源：DeepSeek 提供开源版本。流行度：DeepSeek R1 模型成为 Apple 应用商店中下载量最高的应用。

2.模型架构专家混合（MoE）架构：采用 Mixture of Experts（MoE）架构，这种架构通过专家网络提高效率和性能。学习方法：DeepSeek R1 使用 Group Relative Policy Optimization (GRPO) 学习方法：通过强化学习不断增强推理能力。结合精调（Fine Tune）与 GRPO 的双向循环，优化模型性能。3.DeepSeek 模型统计基础模型规模：拥有 6710 亿参数。动态参数激活：激活动态参数规模为 370 亿。训练数据量：使用 14.8 万亿个 token 进行训练。MoE 架构：包含 16 个专家网络。

4.性能与成本上下文窗口：支持高达 128K tokens 的上下文窗口。处理速度：每秒可处理 14.2 tokens。API 成本：处理 100 万 tokens 的输入和输出约为 8 美元。硬件需求：仅需 2000 张 Nvidia 显卡，而非传统模型的 16000 张。

5.与 OpenAI的对比架构：DeepSeek：采用 MoE 架构，拥有 256 个推理专家。OpenAI：采用 Transformer 编码器-解码器结构。参数效率：DeepSeek：使用 FP8 混合精度。OpenAI：标准 transformer 实现。内存优化：DeepSeek：多头潜在注意力机制。OpenAI：多头自注意力机制。训练速度：DeepSeek：训练时间约 90 天，使用 2000 张显卡。OpenAI：需要 25000 张显卡，耗时超 100 天。MATI-500 性能：DeepSeek：得分 97.3%。OpenAI：得分 96.4%。编码能力：DeepSeek：Codeforces 评估 ELO 分数为 2029。OpenAI：估计分数为 1673。成本效率：DeepSeek：API 成本 2-8 美元/百万 tokens。OpenAI：API 成本 15-60 美元/百万 tokens。6.关键能力核心能力：编码、数学、推理、语言处理、搜索、API 集成等。附加功能：研究与上下文整合：支持高效的科研任务。资源节约：相较于传统大模型具有更低成本。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

当我问Deepseek 2025年如何一夜暴富，它果然没让我失望……

2025-02-07 10:22

OpenAI与硅谷独角兽匆匆“分手”，DeepSeek 是始作俑者吗？

2025-02-07 10:20