DeepSeek V4 Multimodal vs GPT-4V vs Claude: 全面对比评测

Mar 4, 2026

我一直在关注多模态 AI 模型的发展，过去一年里测试了 GPT-4V、Claude 3.5 以及各种开源方案。当 DeepSeek V4 的消息传出时，我的好奇心被彻底点燃了——一个声称在图像生成上超越 DALL-E 3、同时支持原生视频生成的多模态模型，究竟能达到什么水平？

今天我来详细对比 DeepSeek V4、GPT-4V 和 Claude 3.5 的多模态能力。

为什么关注 DeepSeek V4？

GPT-4V 和 Claude 已经是多模态领域的标杆，但它们都有一个共同点：视觉能力是后来”嫁接”到语言模型上的。DeepSeek V4 从设计之初就将图像、视频、文本的理解和生成整合到单一架构中，这种”原生多模态”思路让我很感兴趣。

更关键的是，Janus-Pro（V4 的图像生成基础）已经在 GenEval 基准测试中超越了 DALL-E 3 和 Stable Diffusion。作为一个经常需要生成配图的写作者，这勾起了我的实测欲望。

核心架构对比

特性	DeepSeek V4	GPT-4V	Claude 3.5
图像生成	Janus-Pro (原生)	DALL-E 3 (API)	有限支持
视频生成	原生支持	需通过 Sora (有限)	暂不支持
上下文窗口	100 万 tokens	128K	200K
参数量	约 1 万亿	约 1.7 万亿	未公开
图像理解	是	是	是
权重开放	可能开放	不开放	不开放

架构层面，V4 采用了 Sparse Attention（稀疏注意力）技术，官方称为 Manifold-Composition，这使得它能在保持 100 万 tokens 上下文窗口的同时控制计算开销。相比之下，GPT-4V 的 128K 和 Claude 的 200K 虽然也不错，但在处理长篇多模态内容时仍显局促。

图像生成：Janus-Pro 的真实实力

DeepSeek V4 的图像生成能力来自 Janus-Pro，这是一个从零训练的统一多模态模型。在 GenEval 和 DPG-Bench 基准测试中，它超越了 DALL-E 3。

from transformers import AutoModelForVision2Seq, AutoProcessor

# 加载 Janus-Pro 模型
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/Janus-Pro-7B")
processor = AutoProcessor.from_pretrained("deepseek-ai/Janus-Pro-7B")

# 文本生成图像
prompt = "A serene mountain landscape at sunset with vibrant orange clouds"
inputs = processor(text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
image = processor.decode(outputs[0], skip_special_tokens=True)

我注意到 Janus-Pro 提供了 1B 和 7B 两个版本。7B 版本效果更好，但 1B 版本对本地部署更友好。这与 Meta 的 Llama 系列策略类似——用不同规模的模型满足不同场景需求。

视频生成：V4 的独特优势

这是 V4 与竞争对手最大的差异化点。GPT-4V 本身不支持视频生成，用户需要通过 Sora API 单独调用；而 Claude 目前根本没有视频生成能力。V4 则实现了原生视频生成支持。

对于我这种需要制作技术教程视频的人来说，原生支持意味着更低的延迟和更统一的 API——不需要在多个服务之间切换。

实际选择建议

根据我的使用场景，给出如下建议：

选择 DeepSeek V4：需要原生视频生成、追求成本效益、想要开源权重进行深度定制
选择 GPT-4V：需要成熟稳定的多模态理解、与 OpenAI 生态系统深度集成、最广泛的工具支持
选择 Claude：重视视觉推理的细腻度、长文本分析、偏好明确的伦理约束

V4 目前最大的不确定性在于：基准测试成绩来自官方发布，独立验证尚需时日。如果你需要立刻投入生产，GPT-4V 仍是更稳妥的选择。但如果你愿意等待验证、追求原生多模态架构的长期优势，V4 值得密切关注。

Final Words + More Resources

My intention with this article was to help others share my knowledge and experience. If you want to contact me, you can contact by email: Email me

Here are also the most important links from this article along with some further resources that will help you in this scope:

👨‍💻 DeepSeek to Release V4 Multimodal Model
👨‍💻 DeepSeek Janus-Pro Beats DALL-E 3 on GenEval Benchmark
👨‍💻 DeepSeek V4 Features 1M Context Window
👨‍💻 DeepSeek V4 to Surpass Claude and GPT Series

Oh, and if you found these resources useful, don’t forget to support me by starring the repo on GitHub!