<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>多模态大模型 | Memordust</title><description/><link>https://broadcastchannel-6wd.pages.dev</link><item><title>DeepSeek 开源 Janus-Pro-7B 引爆多模态革命：低成本训练撼动行业格局1月27日晚，DeepSeek 发布开源多模态模型 Janus-Pro-7B，以极简架构突破图像理解与生成的端到端统一</title><link>https://broadcastchannel-6wd.pages.dev/posts/352</link><guid isPermaLink="true">https://broadcastchannel-6wd.pages.dev/posts/352</guid><pubDate>Tue, 28 Jan 2025 06:09:46 GMT</pubDate><content:encoded>&lt;a href=&quot;/posts/343&quot;&gt;&lt;blockquote&gt;&lt;small&gt;&lt;i&gt;&lt;/i&gt;
&lt;div&gt;
  &lt;span&gt;Memordust&lt;/span&gt;
&lt;/div&gt;
&lt;div&gt;Photo&lt;/div&gt;
&lt;/small&gt;&lt;/blockquote&gt;&lt;/a&gt;&lt;div&gt;
      
        &lt;img src=&quot;/static/https://cdn5.telesco.pe/file/s5iVBG5oHjz6cGF0PiNdeYUnzhW-00alMZhyflDOa1DcMlRq5-KJaReonJPpOVirB8UDROrXjZegzZAKRl18ZIwfFzbv1wj5_f2wX2pSaF7mT2DnEOnycTKn0Z6m7wEVMA1mFiM10zWaNizkCvuvRyVNN_tAjTK6dI0sbfZAE5mccL8ZJk8ltKTzXSBrQlYhbFr2kduJTBFhm2l4Jd5pKzRqbltlHj43OEVhaoWhh4tmvIGN-YuStUcSEb3QGOLVS02HYi_EXO4hivLrY0WSwg7MKexHOkK99NHehaWYdyMfNq56Ss7B3brCbJ8xuThnnoikj5vBCgV_6zvYmzKi4g.jpg&quot; alt=&quot;DeepSeek 开源 Janus-Pro-7B 引爆多模态革命：低成本训练撼动行业格局1月27日晚，DeepSeek 发布开源多模态模型 Janus-Pro-7B，以极简架构突破图像理解与生成的端到端统一&quot; loading=&quot;lazy&quot; /&gt;
      
      
        
      
    &lt;/div&gt;&lt;b&gt;DeepSeek 开源 Janus-Pro-7B 引爆多模态革命：低成本训练撼动行业格局&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;1月27日晚，DeepSeek 发布开源多模态模型 Janus-Pro-7B，以极简架构突破图像理解与生成的端到端统一。该模型采用 SigLIP 视觉编码器与双层 MLP 适配器，将图像映射至 LLM 语义空间，结合 Rectified Flow 生成技术实现跨模态推理。实测显示其 384x384 分辨率生成效果超越 TokenFlow、Emu3 等开源模型，但细节表现仍逊于 Stable Diffusion 3 等专业工具。&lt;br /&gt;&lt;br /&gt;技术报告披露，模型仅用 &lt;b&gt;128 颗 A100 GPU 训练 7 天&lt;/b&gt;，成本控制在数万美元，在 GenEval 和 DPG-Bench 测试中分别达到 &lt;b&gt;80%&lt;/b&gt; 和 &lt;b&gt;84.2%&lt;/b&gt; 准确率，较前代提升超 20 个百分点。多模态理解能力同样突出，MMBench 得分 &lt;b&gt;79.2&lt;/b&gt;，显著优于同类产品。这一低成本高效益方案引发资本市场震荡，英伟达股价再度震荡，Meta 紧急启动 &lt;b&gt;4000 亿美元&lt;/b&gt; 算力扩容计划。硅谷创投家兼特朗普顾问马克·安德森将DeepSeek 的突破比作“&lt;b&gt;人工智能领域的斯普特尼克时刻&lt;/b&gt;”，表明中国在AI领域的快速崛起将重塑全球科技竞争格局。&lt;br /&gt;&lt;br /&gt;开源生态已上线 Hugging Face Playground 与 MIT 协议代码，支持医疗影像分析、教育辅助等场景。尽管面临分辨率限制（仅 384x384）和生成内容版权争议，但其验证的 &lt;b&gt;三阶段训练策略&lt;/b&gt;（预训练+统一预训练+SFT）为百亿参数扩展指明方向。DeepSeek 在除夕发布新品的研发节奏，进一步巩固其敏捷创新者形象。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B&quot;&gt;#多模态大模型&lt;/a&gt; &lt;a href=&quot;/search/%23%E5%BC%80%E6%BA%90&quot;&gt;#开源&lt;/a&gt; &lt;a href=&quot;/search/%23%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&quot;&gt;#人工智能&lt;/a&gt; &lt;a href=&quot;/search/%23DeepSeek&quot;&gt;#DeepSeek&lt;/a&gt; &lt;a href=&quot;/search/%23%E5%8C%BB%E7%96%97&quot;&gt;#医疗&lt;/a&gt; &lt;a href=&quot;/search/%23%E6%95%99%E8%82%B2&quot;&gt;#教育&lt;/a&gt;</content:encoded></item><item><title>DeepSeek发布统一图像理解与生成的Janus-Pro系列模型1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中</title><link>https://broadcastchannel-6wd.pages.dev/posts/340</link><guid isPermaLink="true">https://broadcastchannel-6wd.pages.dev/posts/340</guid><pubDate>Mon, 27 Jan 2025 16:30:12 GMT</pubDate><content:encoded>&lt;div&gt;
      
        &lt;img src=&quot;/static/https://cdn5.telesco.pe/file/ZhVeqUN1PbY377CQCDVrF1xPuIemgECLAwj0Su8Pxb74TMCDy4KVDD5FFQQ8iLUMrbeIOlDz-e-KN63qZSIrgdAGcRuAyKGlvWlYjT3-H0ytw4pb1PCLv6prWTUnfPDmklgWwLUIc2FpdmzlCGddJqj3SWOuMJQmMVu7yrfj2DYTs_yVkcuyIOTOoqblIRo6GY2QwngBXEOYWYpsW1FqfSWVvoQOIF7CR-GcaHOEeFBgwcstdfCoQH-4Y_zv_pDZJLtHK4Kl_gv5-U8OtTA0QW0gndHnf83_VuWW2OSXOzOWBY1Dl7hKpPBcvwYZ0UMaprfQrwudXDXYM7STLz3Uag.jpg&quot; alt=&quot;DeepSeek发布统一图像理解与生成的Janus-Pro系列模型1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中&quot; loading=&quot;lazy&quot; /&gt;
      
      
        
      
    
      
        &lt;img src=&quot;/static/https://cdn5.telesco.pe/file/nNP1Ra51vhtdOM8tgc8TCbSqH3-hPgqVs85_jkIBjD2pSpJZ7xzyut_dsCxqFAVQZe-GgoVB7CclHDDXVnXwwgK755YAVhkUvqEWaejlFfsVA3k13X9Bx0a2v2hzTWdDQzKr3ja9uTXgFj_6Ildxw5liPqmTTBkx0-Fewet9oODhU1QOcVd61m11DqOEzMcST-Ic6AU9LwbjVa5dQw5okGFBoMsvL91xZkE6PIk0j-ab8cjk7fMYaTPXe8XU_UefY3-h35b2hurRgYCf7SnqCJE7Bo5utD3q_PfpqUgWxbVUDeziSw1x840oLVPd_m79L0WLESoYXRVCgRTR3Fr04Q.jpg&quot; alt=&quot;DeepSeek发布统一图像理解与生成的Janus-Pro系列模型1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中&quot; loading=&quot;lazy&quot; /&gt;
      
      
        
      
    
      
        &lt;img src=&quot;/static/https://cdn5.telesco.pe/file/urrXm3mfQf4_ts3pKQabe7Cz7evQ_Cxwnkc0S6YQs9Ax9199HkERtaVNkOq2VGnNWN-tZp7qKE-2yayLEgvyCeCQgzmJvgQYU_bZvWOp_P91JU7Sd_BLXckExc8Ldi4TQYXOqsitN638bNSSMj2_NTENPWLlMfG4OqCyKf0DYiJOHUm-ck5gZzqUinHpUxACClF8Bd0LdqCPdOmrpUBJQrDm3pOc1sHoHh7EFtXWDRkOhKI5fBL4Bye0FKdT6mdYqn_MTP_gpgD2lNkSqfrLucMStgC1cXfBRqMn09z-sv2ivt9q6Wr64jpsZKjN1Zjt7jwYoman4yX71bYHKZGbhg.jpg&quot; alt=&quot;DeepSeek发布统一图像理解与生成的Janus-Pro系列模型1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中&quot; loading=&quot;lazy&quot; /&gt;
      
      
        
      
    
      
        &lt;img src=&quot;/static/https://cdn5.telesco.pe/file/kmX3gddU2WQ3Hlnqir9jGv__G0qK0MLb4HGWJQuCQSz4EbALmhuBLaYNzOz9JKDG_I8RvkD2srOLIxISTuh5AABhGKsZ33SGpqJGuzY-oT_J62RbmjU-MvPqwqPSvQaOI0CSwXw6pRqfJuqqDQGRv1CHsbvhCXvncyP8g95rGoAl8W0I7zrSAjeVZtCbKscM2VcC6nGDW-Pt7THrn36EAML7SB7x2cAu949HJPNoMy97RF-WiMj4DluUXBId52VV7WKCTvYN9vQg1iZbb2rzKVhvCXEqP4gC42BiAT6V3yTzeJdxnAo9G7jG2anzwTlGu630sK9lhhXIxCpa9j_CzQ.jpg&quot; alt=&quot;DeepSeek发布统一图像理解与生成的Janus-Pro系列模型1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中&quot; loading=&quot;lazy&quot; /&gt;
      
      
        
      
    &lt;/div&gt;&lt;div&gt;&lt;b&gt;DeepSeek发布统一图像理解与生成的Janus-Pro系列模型&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;1月27日晚，DeepSeek发布了Janus-Pro系列，旨在将图像理解和生成整合至单个模型中。该模型框架采用极简架构，将自回归语言模型与生成建模领域的前沿方法Rectified Flow相结合，在统一图像理解和生成方面取得了重要进展。&lt;br /&gt;&lt;br /&gt;据&lt;a href=&quot;https://t.me/microblock_pub/847&quot; target=&quot;_blank&quot;&gt;涩橘的Telegram频道&lt;/a&gt;，Rectified Flow可以直接在大型语言模型框架内进行训练，无需复杂的架构修改。JanusFlow是一个支持图像多模态的LLM，参数量为70亿（7B），方便本地运行。训练方式采用传统的预训练和SFT，未使用强化学习。现有数据表明，JanusFlow在性能上超越了同参数量的其他模型，并且Janus-Pro在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion，这是一个重要的性能提升，表明其在文本到图像生成方面具有很强的竞争力。目前，&lt;a href=&quot;https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B&quot; target=&quot;_blank&quot;&gt;线上演示平台&lt;/a&gt;尚未开放，&lt;a href=&quot;https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf&quot; target=&quot;_blank&quot;&gt;详细技术报告&lt;/a&gt;也暂未上传。初步分析认为，JanusFlow旨在实现大模型视觉生成的端到端处理，相较之前的版本有所改进，但在图像生成质量上与专门的图像生成模型（如Stable Diffusion）相比仍有差距。模型输入输出分辨率为384x384。推测其技术实现可能整合了&lt;a href=&quot;https://github.com/gnobitab/RectifiedFlow&quot; target=&quot;_blank&quot;&gt;Rectified Flow&lt;/a&gt;、&lt;a href=&quot;https://huggingface.co/timm/ViT-L-16-SigLIP-384&quot; target=&quot;_blank&quot;&gt;SigLIP&lt;/a&gt;和&lt;a href=&quot;https://huggingface.co/stabilityai/sdxl-vae&quot; target=&quot;_blank&quot;&gt;SDXL-VAE&lt;/a&gt;等架构，并将其集成到Transformer的解码器/编码器中，通过联合训练对齐语义向量。虽然该成果的震撼程度不及V3和R1等重大突破，但仍然值得期待其未来的发展潜力。&lt;br /&gt;&lt;br /&gt;DeepSeek持续推动技术创新，即使在除夕也有新成果发布，充分展现了其强大的研发能力。虽然目前的JanusFlow在图像生成方面并非顶尖水平，但它为未来更大规模的多模态模型探索了道路，并为其他模型树立了新的基准。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23DeepSeek&quot;&gt;#DeepSeek&lt;/a&gt; &lt;a href=&quot;/search/%23%E5%A4%9A%E6%A8%A1%E6%80%81&quot;&gt;#多模态&lt;/a&gt; &lt;a href=&quot;/search/%23%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90&quot;&gt;#图像生成&lt;/a&gt; &lt;a href=&quot;/search/%23%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&quot;&gt;#人工智能&lt;/a&gt;&lt;/div&gt;</content:encoded></item></channel></rss>