开源大模型 image-text-to-text 与 text-generation 的区别
定义
| 类别 | 简称 | 说明 | 典型模型 |
|---|---|---|---|
| text-generation | 纯文本模型 | 仅接受文本输入,输出文本。最传统的 LLM 类型。 | Llama 3, Qwen 2.5, DeepSeek-V2, Mistral |
| image-text-to-text | 视觉语言模型 (VLM) | 接受图像+文本输入,输出文本。具备多模态理解能力。 | LLaVA-NeXT, Qwen2-VL, DeepSeek-VL2, InternVL2 |
核心区别
1. 输入模态
- text-generation: 仅文本。输入经过 tokenizer → embedding → transformer 处理。
- image-text-to-text: 文本 + 图像。图像经过 vision encoder(如 SigLIP、ViT)编码为视觉 token,再与文本 token 拼接输入 LLM backbone。
2. 架构差异
- text-generation: Decoder-only transformer。标准 causal attention。
- image-text-to-text: Vision Encoder + Projection Layer + LLM Decoder。通常有
cross-modal projection层将视觉特征映射到文本 embedding 空间。
3. 训练方式
- text-generation: Pretrain (next token prediction) → SFT → RLHF/DPO。
- image-text-to-text: 额外需要视觉-语言对齐预训练(如 image-text contrastive learning、captioning),再接入 SFT。
4. 推理效率
- text-generation: KV cache 随文本长度增长。
- image-text-to-text: 图像编码一次产生大量视觉 token(通常 256~4096 个),即使后续对话简洁,KV cache 的 prefill 阶段计算量也大很多。
在 HuggingFace 中的分类
- text-generation: 对应 HF pipeline tag
text-generation,API 调用时messages中content为纯字符串。 - image-text-to-text: 对应 HF pipeline tag
image-text-to-text,API 调用时messages中content为数组,支持type: "text"和type: "image_url"两种元素。
OpenAI API 兼容视角
OpenAI API 格式统一了调用接口,但底层分类仍保留:
- text-generation: 模型如
gpt-4o-mini(仅文本变体)。 - image-text-to-text: 模型如
gpt-4o(视觉变体),在 messages 中传入image_url。
选择建议
- 只处理纯文本任务(代码、文档、对话)→ text-generation,推理更快、更省资源。
- 需要理解图像内容(图表分析、OCR、截图理解)→ image-text-to-text。
- 开源 VLM 通常比同规模的纯文本模型需要更多显存(多一个 vision encoder)。