DeepSeek 开源 Janus-Pro-7B 引爆多模态革命：低成本训练撼动行业格局1月27日晚，DeepSeek 发布开源多模态模型 Janus-Pro-7B，以极简架构突破图像理解与生成的端到端统一

Tue, 28 Jan 2025 06:09:46 GMT

Memordust

Photo

DeepSeek 开源 Janus-Pro-7B 引爆多模态革命：低成本训练撼动行业格局

1月27日晚，DeepSeek 发布开源多模态模型 Janus-Pro-7B，以极简架构突破图像理解与生成的端到端统一。该模型采用 SigLIP 视觉编码器与双层 MLP 适配器，将图像映射至 LLM 语义空间，结合 Rectified Flow 生成技术实现跨模态推理。实测显示其 384x384 分辨率生成效果超越 TokenFlow、Emu3 等开源模型，但细节表现仍逊于 Stable Diffusion 3 等专业工具。

技术报告披露，模型仅用 128 颗 A100 GPU 训练 7 天，成本控制在数万美元，在 GenEval 和 DPG-Bench 测试中分别达到 80% 和 84.2% 准确率，较前代提升超 20 个百分点。多模态理解能力同样突出，MMBench 得分 79.2，显著优于同类产品。这一低成本高效益方案引发资本市场震荡，英伟达股价再度震荡，Meta 紧急启动 4000 亿美元 算力扩容计划。硅谷创投家兼特朗普顾问马克·安德森将DeepSeek 的突破比作“人工智能领域的斯普特尼克时刻”，表明中国在AI领域的快速崛起将重塑全球科技竞争格局。

开源生态已上线 Hugging Face Playground 与 MIT 协议代码，支持医疗影像分析、教育辅助等场景。尽管面临分辨率限制（仅 384x384）和生成内容版权争议，但其验证的 三阶段训练策略（预训练+统一预训练+SFT）为百亿参数扩展指明方向。DeepSeek 在除夕发布新品的研发节奏，进一步巩固其敏捷创新者形象。

#多模态大模型 #开源 #人工智能 #DeepSeek #医疗 #教育

DeepSeek发布统一图像理解与生成的Janus-Pro系列模型1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中

Mon, 27 Jan 2025 16:30:12 GMT

DeepSeek发布统一图像理解与生成的Janus-Pro系列模型

1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中。该模型框架采用极简架构，将自回归语言模型与生成建模领域的前沿方法Rectified Flow相结合，在统一图像理解和生成方面取得了重要进展。

据涩橘的Telegram频道，Rectified Flow可以直接在大型语言模型框架内进行训练，无需复杂的架构修改。JanusFlow是一个支持图像多模态的LLM，参数量为70亿（7B），方便本地运行。训练方式采用传统的预训练和SFT，未使用强化学习。现有数据表明，JanusFlow在性能上超越了同参数量的其他模型，并且Janus-Pro在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion，这是一个重要的性能提升，表明其在文本到图像生成方面具有很强的竞争力。目前，线上演示平台尚未开放，详细技术报告也暂未上传。初步分析认为，JanusFlow旨在实现大模型视觉生成的端到端处理，相较之前的版本有所改进，但在图像生成质量上与专门的图像生成模型（如Stable Diffusion）相比仍有差距。模型输入输出分辨率为384x384。推测其技术实现可能整合了Rectified Flow、SigLIP和SDXL-VAE等架构，并将其集成到Transformer的解码器/编码器中，通过联合训练对齐语义向量。虽然该成果的震撼程度不及V3和R1等重大突破，但仍然值得期待其未来的发展潜力。

DeepSeek持续推动技术创新，即使在除夕也有新成果发布，充分展现了其强大的研发能力。虽然目前的JanusFlow在图像生成方面并非顶尖水平，但它为未来更大规模的多模态模型探索了道路，并为其他模型树立了新的基准。

#DeepSeek #多模态 #图像生成 #人工智能

多模态大模型 | Memordust

DeepSeek 开源 Janus-Pro-7B 引爆多模态革命：低成本训练撼动行业格局1月27日晚，DeepSeek 发布开源多模态模型 Janus-Pro-7B，以极简架构突破图像理解与生成的端到端统一

DeepSeek发布统一图像理解与生成的Janus-Pro系列模型1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中