旗舰版

DeepSeek V4

下一代通用人工智能模型

671B 总参数量

37B 激活参数

256K 上下文窗口

Top 3 全球排名

核心架构

MoE 混合专家架构，高效稀疏激活

输入嵌入层

多粒度 Token 化与位置编码

Embedding Dim: 7168

MoE 注意力层

多头查询注意力 + 动态专家路由

60 Layers · 256 Heads

专家混合层

256 专家池，每 Token 激活 8 专家

MoE · Sparse Activation

输出投影层

高维特征映射与概率分布

Vocab Size: 129K

能力突破

全方位超越前代，引领行业标杆

🧠

逻辑推理

复杂数学问题与多步推导

MATH: 92.3%

💻

代码生成

多语言编程与调试优化

HumanEval: 88.5%

🌍

多语言支持

覆盖 100+ 语种流畅交互

100+ Languages

📊

数据分析

图表解读与洞察提取

ChartQA: Top 5

🔬

科学推理

物理化学生物跨学科能力

GPQA: 71.2%

✍️

创意写作

长文本生成与风格迁移

256K Context

应用场景

赋能千行百业，驱动智能升级

🏥

医疗健康

辅助诊断、药物研发、病历分析

⚖️

法律服务

合同审查、案例检索、合规咨询

🎓

教育培训

个性化辅导、智能评测、内容生成

💼

金融服务

风险评估、投研分析、客服助手

🎮

娱乐创意

游戏 NPC、剧本创作、艺术设计

🏭

工业制造

工艺优化、故障预测、供应链管理

演进历程

从追赶到领先的技术跨越

2023 Q2

DeepSeek V1 发布

首款开源模型，展现基础对话能力

2023 Q4

DeepSeek V2 升级

引入 MoE 架构，性能大幅提升

2024 Q2

DeepSeek Coder

专注代码领域，媲美商业闭源模型

2024 Q4

DeepSeek V4 问世

671B 参数，256K 上下文，全球前三