Skip to content

DeepSeek V4 Multimodal vs GPT-4V vs Claude: 全面对比评测

我一直在关注多模态 AI 模型的发展,过去一年里测试了 GPT-4V、Claude 3.5 以及各种开源方案。当 DeepSeek V4 的消息传出时,我的好奇心被彻底点燃了——一个声称在图像生成上超越 DALL-E 3、同时支持原生视频生成的多模态模型,究竟能达到什么水平?

今天我来详细对比 DeepSeek V4、GPT-4V 和 Claude 3.5 的多模态能力。

为什么关注 DeepSeek V4?

GPT-4V 和 Claude 已经是多模态领域的标杆,但它们都有一个共同点:视觉能力是后来”嫁接”到语言模型上的。DeepSeek V4 从设计之初就将图像、视频、文本的理解和生成整合到单一架构中,这种”原生多模态”思路让我很感兴趣。

更关键的是,Janus-Pro(V4 的图像生成基础)已经在 GenEval 基准测试中超越了 DALL-E 3 和 Stable Diffusion。作为一个经常需要生成配图的写作者,这勾起了我的实测欲望。

核心架构对比

特性DeepSeek V4GPT-4VClaude 3.5
图像生成Janus-Pro (原生)DALL-E 3 (API)有限支持
视频生成原生支持需通过 Sora (有限)暂不支持
上下文窗口100 万 tokens128K200K
参数量约 1 万亿约 1.7 万亿未公开
图像理解
权重开放可能开放不开放不开放

架构层面,V4 采用了 Sparse Attention(稀疏注意力)技术,官方称为 Manifold-Composition,这使得它能在保持 100 万 tokens 上下文窗口的同时控制计算开销。相比之下,GPT-4V 的 128K 和 Claude 的 200K 虽然也不错,但在处理长篇多模态内容时仍显局促。

图像生成:Janus-Pro 的真实实力

DeepSeek V4 的图像生成能力来自 Janus-Pro,这是一个从零训练的统一多模态模型。在 GenEval 和 DPG-Bench 基准测试中,它超越了 DALL-E 3。

from transformers import AutoModelForVision2Seq, AutoProcessor
# 加载 Janus-Pro 模型
model = AutoModelForVision2Seq.from_pretrained("deepseek-ai/Janus-Pro-7B")
processor = AutoProcessor.from_pretrained("deepseek-ai/Janus-Pro-7B")
# 文本生成图像
prompt = "A serene mountain landscape at sunset with vibrant orange clouds"
inputs = processor(text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
image = processor.decode(outputs[0], skip_special_tokens=True)

我注意到 Janus-Pro 提供了 1B 和 7B 两个版本。7B 版本效果更好,但 1B 版本对本地部署更友好。这与 Meta 的 Llama 系列策略类似——用不同规模的模型满足不同场景需求。

视频生成:V4 的独特优势

这是 V4 与竞争对手最大的差异化点。GPT-4V 本身不支持视频生成,用户需要通过 Sora API 单独调用;而 Claude 目前根本没有视频生成能力。V4 则实现了原生视频生成支持。

对于我这种需要制作技术教程视频的人来说,原生支持意味着更低的延迟和更统一的 API——不需要在多个服务之间切换。

实际选择建议

根据我的使用场景,给出如下建议:

  • 选择 DeepSeek V4:需要原生视频生成、追求成本效益、想要开源权重进行深度定制
  • 选择 GPT-4V:需要成熟稳定的多模态理解、与 OpenAI 生态系统深度集成、最广泛的工具支持
  • 选择 Claude:重视视觉推理的细腻度、长文本分析、偏好明确的伦理约束

V4 目前最大的不确定性在于:基准测试成绩来自官方发布,独立验证尚需时日。如果你需要立刻投入生产,GPT-4V 仍是更稳妥的选择。但如果你愿意等待验证、追求原生多模态架构的长期优势,V4 值得密切关注。


Final Words + More Resources

My intention with this article was to help others share my knowledge and experience. If you want to contact me, you can contact by email: Email me

Here are also the most important links from this article along with some further resources that will help you in this scope:

Oh, and if you found these resources useful, don’t forget to support me by starring the repo on GitHub!

Comments