Ideas around Vision-Language Models (VLMs) / Reasoning Models
MLLM 概述
MLLM (Multimodal Large Language Model) = Multimodality Understanding + LLM (Large Language Model)^1
两分类
- 统一嵌入-解码器架构[^2]
- 使用单个解码器模型,很像 GPT-2 或 Llama 3.2 等未经修改的 LLM 架构。在这种方法中,图像被转换为与原始文本token具有相同嵌入大小的token,从而允许 LLM 在连接后同时处理文本和图像输入token。
- 跨模态注意力架构
- 采用交叉注意力机制,将图像和文本嵌入直接集成到注意力层中。

三组件:
- A pre-trained modality encoder
- The encoders compress raw information, such as images or audio, into a more compact representation.
- 视觉编码器与NLP中的Encoder类似,可以直接选择pre-train好的, 比如CLIP
- A pre-trained LLM
- A modality interface to connect them
- 考虑到以端到端方式训练大型多模态模型的成本很高,为了使用Pre-trained LLM和Pre-trained modality encoder,我们需要去设置一个模块,这个模块可以去将不同模态的经过encoder后的信息融合。
- Learnable Connector:通过learnable connector这个模块,可以将多模态信息融合成可以让LLM理解的信息。融合的模型可以根据融合的最小颗粒度划分:token-level和feature-level。
- feature-level fusion和token-level fusion的本质区别在于是否更改LLM或是ViT的内部结构:若是仅在两个组件之间增加一个额外的组件(例如Q-former)则是token-level fusion;若是更改了LLM或是ViT的内部结构,例如加入了额外的模态融合层,则是feature-level fusion。
- Expert Model:专家模型,例如image caption模型,可以将图片转化成描述文字,这样多模态的输入可以被转化成单模态的输入。由此只需要进行单一模态建模即可。
图文编码
- 图像编码(image encoder)等于文本的分词器(tokenizer)+嵌入层(Embedding layer)
- projector 有时也叫 adapter, adaptor, or connector,用于对齐图文的维度。

ViT
ViT(vision transformer)是Google在2020年提出的直接将transformer应用在图像分类的模型,后面很多的工作都是基于ViT进行改进的。
ViT的思路很简单:
- 直接把图像分成固定大小的patchs,然后通过线性变换得到patch embedding,这就类比NLP的words和word embedding,
- 由于transformer的输入就是a sequence of token embeddings,所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。
ViT模型原理如下图所示,其实ViT模型只是用了transformer的Encoder来提取特征(原始的transformer还有decoder部分,用于实现sequence to sequence,比如机器翻译)。
2407 InterlVL2 76B
上海人工智能实验室(上海AI实验室)联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型(InternVL)。性能和Qwen属于同一水平。

2408 Qwen2 VL 72B
- 亮点:能处理各种分辨率和长宽比
- 技术要点:
- 引入了naive dynamic resolution技术,支持灵活处理不同分辨率的输入图像和视频
- 创新性地提出了多模态旋转位置编码(M-RoPE),这有助于实现更高效的跨模态信息融合,从而增强了模型对于文本和视觉数据的理解能力
- 构建了一个统一的图像和视频理解框架,其中图像被视作两个相同的帧来处理,以维持与视频处理逻辑的一致性
- 并采用3D tubes替代传统的2D patches方法,进一步提升了对长时间序列视觉内容的理解深度

2411 DeepSeek-VL2
- SigCLIP改进了CLIP的loss
2507 BAGEL 字节
- 采用 MoT(Mixture-of-Transformers-Experts) 架构,包含两个独立专家:
- 理解专家:处理文本和ViT视觉特征(用于图像理解)。
- 生成专家:处理VAE视觉特征(用于图像生成)。
- 共享自注意力机制实现跨模态上下文交互,避免传统模型的信息瓶颈。
2508 Internvl 3.5
- 架构:InternVL-ViT + Qwen3
- 被评论区质疑和Qwen2.5VL差不多, 竞技场没有模型。
2509 [音频] Qwen3-Omni
特点:
- 理解音频:大部分Vision模型只能理解语言、图片和视频,但是Omini能理解音频;
- 生成音频:不仅能生成文字,还能生成音频
- 架构特点: Thinker-Talker结构(简单理解: LLM 30B常规理解+音频生成 3B小模块)
- 应用场景: 能直接理解和生成输出多种语言,这在人机交互时是非常重要的体验提升,不用再繁琐的打字和阅读,可以和人交互样使用。

2508 GLM4.5V 清华智谱
- 特点: 开源迁移时,glm4.1v和qwen2.5vl有相似之处,glm4.5v和qwen3也有相似处。
- Thinking(推理模式):视觉编码器(基于 AIMv2-Huge)、MLP 适配器 和 大型语言模型(LLM)解码器(GLM-4-9B-0414 或 GLM-4.5-Air)。
2509 qwen3vl
特点:
- MRoPE-Interleave
- DeepStack: 不同于之前Vit结束后,embedding内容到LLM,现在将以往多模态大模型(LMM)单层输入视觉tokens的范式,改为在大型语言模型 (LLM) 的多层中进行注入。
2510 [OCR] Deepseek-OCR
- 架构特点:在传统Vit的Clip前引入SAM-Base来实现窗口注意力机制下的更高图片Token的压缩
- 启示:对于LLM领域用光学来压缩文本能实现:1. 输入token的减少;2. 实现遗忘机制。

C3-Context-Cascade-Compression^3 : 反驳了Deepseek-OCR的观点,跳过视觉模态的中间态,纯文本压缩(token 压缩)也可以让LLM“一目十行”。(之前相似文章[^4])

2510 HunYuan Vision
- October 6, 2025: hunyuan-vision-1.5-thinking ranked 3rd on LmArena, the best performing model in China.
- 暂无技术报告
2511 LongCat-flash-omni
- 基于2509的LongCat-flash开发的
- 特点:
- Shortcut-connected MoE (ScMoE): 零计算专家机制(Zero-computation Experts):模型引入一类特殊的“零计算专家”,当处理常见词汇、标点符号等低复杂度输入时,该专家直接返回原始输入,跳过复杂的矩阵运算,从而节省算力。简单任务(如文本补全)激活少量专家,复杂任务(如数学推理)则调动更多专家资源。
- 模态分离(Modality-Decoupled Parallelism, MDP)是LongCat-Flash-Omni为解决多模态训练异构性问题提出的核心分布式训练策略。其核心思想是使用(ModalityBridge)将模态编码器(视觉/音频编码器)与LLM主干在分布式层面完全解耦,实现独立优化。


2511 ERNIE-5.0-Preview-1120
文心 5.0 采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。LLMarena
2511 [OCR] HunyuanOCR
- 背景:
- 广义OCR领域包括:文字定位(Spotting)、版面解析(Parsing)、信息抽取(IE)、视觉问答(VQA)和文本翻译
- 传统OCR领域模型过于偏科,只能解决上面的某一种;通用的视觉语言模型(VLM)虽然强大,但又大又慢,部署成本高
- 架构特点:
- 语言模型小0.5B;XD-RoPE;
- 第一次使用GRPO

参考文献
[^2]: Understanding Multimodal LLMs
[^3]: Context Cascade Compression: Exploring the Upper Limits of Text Compression
[^4]: Adapting Language Models to Compress Contexts
Ideas around Vision-Language Models (VLMs) / Reasoning Models
http://icarus.shaojiemike.top/2025/04/17/Work/Artificial Intelligence/Model/T2I2V/VLM/

