清华、西交联合开源发布Cheers : 更简洁、更高效统一多模态路线

2026年3月，清华大学、西安交通大学联合中科院大学共同开源发布多模态大模型Cheers，凭借“简洁架构+高效建模”的核心优势，打破当前统一多模态领域的技术瓶颈，为行业提供了一条更具可行性的开源路线，有望推动多模态技术从“专精单一”向“高效统一”加速迈进，引发AI领域广泛关注。

当前多模态模型发展面临核心难题：理解与生成任务存在天然张力，前者依赖稳定抽象的语义表示，后者需保留充足的局部细节，现有方案要么采用分离系统各自优化，要么强行统一表征导致性能折损。Cheers的突破的在于，不追求复杂的模块堆砌，而是在简洁架构中实现理解与生成的端到端联合优化，仅通过轻量升级就完成了从“单一理解模型”到“统一多模态模型”的跨越。

简洁性与高效性是Cheers最鲜明的标签。不同于同类模型需搭建庞大复杂的组合系统，Cheers仅在现有开源预训练模型基础上，增加轻量VAE与Cascaded Flow Matching Head，无需额外开展昂贵的大规模预训练，零额外预训练成本就能充分继承已有模型知识，大幅降低了统一多模态模型的构建门槛。同时，其创新的4× token compression技术，既兼顾了统一建模需求，又提升了运行效率，为高分辨率视觉理解与生成提供了更经济的计算方案。

在技术路线上，Cheers走出了一条平衡之路：既不采用完全分离的双系统，也不强行将所有任务压缩为单一表示，而是通过统一视觉tokenizer、LLM主干及生成头，将多模态理解与图像生成纳入同一条端到端链路。其独特的“先语义、后细节”级联生成方式，先构建全局语义布局，再逐步注入细节纹理，贴合人类创作逻辑，既保证了理解任务的准确性，又兼顾了生成内容的真实感与细腻度。

实验数据印证了Cheers的性能优势：在GenEval、MMBench等主流理解与生成基准测试中，Cheers均取得同规模领先成绩，而其训练样本仅83M，相比同类方法节省约2倍数据需求，展现出对已有预训练知识的高效利用能力。