📝 Notes

Search

❯

Large Model Systems

❯

LLaVA

Nov 06, 20251 min read

Multimodal language-image instruction resource: LLaVA.pdf

Data Generation

GPT-4: Used for generating instruction-following data
CLIP (Vision Encoder): This is for [Visual instruction tuning]
Vicuna (Language Model)

GPT-assisted Visual Instruction Data Generation

Visual instruction tuning

Graph View

Data Generation
GPT-assisted Visual Instruction Data Generation
Visual instruction tuning

Backlinks

Large Model Systems

Created with Quartz v4.2.3 © 2025

Made by Viraat