Memordust
Photo
DeepSeek 开源 Janus-Pro-7B 引爆多模态革命:低成本训练撼动行业格局

1月27日晚,DeepSeek 发布开源多模态模型 Janus-Pro-7B,以极简架构突破图像理解与生成的端到端统一。该模型采用 SigLIP 视觉编码器与双层 MLP 适配器,将图像映射至 LLM 语义空间,结合 Rectified Flow 生成技术实现跨模态推理。实测显示其 384x384 分辨率生成效果超越 TokenFlow、Emu3 等开源模型,但细节表现仍逊于 Stable Diffusion 3 等专业工具。

技术报告披露,模型仅用 128 颗 A100 GPU 训练 7 天,成本控制在数万美元,在 GenEval 和 DPG-Bench 测试中分别达到 80%84.2% 准确率,较前代提升超 20 个百分点。多模态理解能力同样突出,MMBench 得分 79.2,显著优于同类产品。这一低成本高效益方案引发资本市场震荡,英伟达股价再度震荡,Meta 紧急启动 4000 亿美元 算力扩容计划。硅谷创投家兼特朗普顾问马克·安德森将DeepSeek 的突破比作“人工智能领域的斯普特尼克时刻”,表明中国在AI领域的快速崛起将重塑全球科技竞争格局。

开源生态已上线 Hugging Face Playground 与 MIT 协议代码,支持医疗影像分析、教育辅助等场景。尽管面临分辨率限制(仅 384x384)和生成内容版权争议,但其验证的 三阶段训练策略(预训练+统一预训练+SFT)为百亿参数扩展指明方向。DeepSeek 在除夕发布新品的研发节奏,进一步巩固其敏捷创新者形象。

#多模态大模型 #开源 #人工智能 #DeepSeek #医疗 #教育
 
 
Back to Top