Мультимодальные LLM

новый

Семестр:Весенний

Доступен в: ШАД

Читается с:2025

Краткое описание

В рамках нашего курса мы рассмотрим широкий спектр подходов, применяемых в мультимодальных моделях. Мы начнем с изучения высокоуровневой классификации, основанной на методах смешивания различных модальностей входных данных. Мы детально рассмотрим ключевые подходы и фундаментальные архитектуры (такие как Flamingo, LLaVA, Qwen-VL), которые позволят легче перейти к пониманию более сложных модальностей.

От классических моделей, принимающих на вход текст и изображение, мы плавно перейдем к изучению других модальностей, включая видео, звук, модальность action, а также рассмотрим модели 3D понимания (LLaVA-3D и SpatialRGPT). Особое внимание будет уделено интеграции генерации данных в мультимодальные LLM.

Для закрепления практических навыков в курсе будут два домашних задания. Они разработаны таким образом, чтобы не требовать значительных вычислительных ресурсов. Оба задания выполняются на языке Python с использованием платформ Google Colaboratory или Kaggle.

Отчетность по курсу

Для успешного завершения курса вам потребуется выполнить два домашних задания. Эти задания будут включать как практические упражнения, так и теоретические вопросы. Для их выполнения вам достаточно будет использовать такие платформы, как Google Colaboratory и Kaggle. Подробная система оценивания будет доступна в начале апреля.

Критерии оценки. Оценка за курс ставится исходя из накопленных баллов за два домашних задания: hw₁ (оценка за первое задание) и hw₂ (оценка за второе задание). Предварительно оценка за курс будет выставляться по следующей формуле:

x ≥ 80% — отлично
x ≥ 60% — хорошо
x ≥ 50% — удовлетворительно

Записи занятий

ШАД
YouTube
VKVideo

Материалы занятий

№	Дата	Название	Материалы (ШАД)
№	Дата	Название	Материалы (ШАД)	`01-lec`	20 марта	Введение и модальность изображений	slides
`01-sem`	Классификация vision-language моделей	slides, notebook			20 марта

`02-lec`	27 марта	Модальность видео	slides
`02-sem`	27 марта	Early Fusion. Video-LaVIT	slides, notebook

`03-lec`	3 апреля	Интеграция генерации данных в MLLM	slides
`03-sem`	3 апреля	Visual autoregression via next-scale prediction	notebook

`04-lec`	10 апреля	Модальность action	slides
`04-sem`	10 апреля	VLM как агенты для роботов	slides, notebook

`05-lec`	17 апреля	Модели 3D понимания	slides
`05-sem`	17 апреля	Модели 3D понимания	notebook

`06-lec`	25 апреля	Модальность звука	slides