豆包开源VideoWorld:突破传统的视频生成模型

2月10日,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。该模型突破了传统视频生成模型的局限,不依赖语言模型即可认知世界,与Sora、DALL-E、Midjourney等主流多模态模型相比,具有显著差异。

传统模型往往依赖语言或标签数据进行知识学习,难以处理纯视觉信号。VideoWorld摒弃语言模型,通过潜在动态模型实现视频帧间变化信息的高效压缩,提升了知识学习效率。该模型无需强化学习搜索或奖励函数机制,已在围棋和机器人任务中取得显著成就,为相关研究提供了新方向。

#开源 #豆包 #人工智能 #科技 #中国
 
 
Back to Top