
В рамках нашего курса мы рассмотрим широкий спектр подходов, применяемых в мультимодальных моделях. Мы начнем с изучения высокоуровневой классификации, основанной на методах смешивания различных модальностей входных данных. Мы детально рассмотрим ключевые подходы и фундаментальные архитектуры (такие как Flamingo, LLaVA, Qwen-VL), которые позволят легче перейти к пониманию более сложных модальностей.
От классических моделей, принимающих на вход текст и изображение, мы плавно перейдем к изучению других модальностей, включая видео, звук, модальность action, а также рассмотрим модели 3D понимания (LLaVA-3D и SpatialRGPT). Особое внимание будет уделено интеграции генерации данных в мультимодальные LLM.
Для закрепления практических навыков в курсе будут два домашних задания. Они разработаны таким образом, чтобы не требовать значительных вычислительных ресурсов. Оба задания выполняются на языке Python с использованием платформ Google Colaboratory или Kaggle.
Для успешного завершения курса вам потребуется выполнить два домашних задания. Эти задания будут включать как практические упражнения, так и теоретические вопросы. Для их выполнения вам достаточно будет использовать такие платформы, как Google Colaboratory и Kaggle. Подробная система оценивания будет доступна в начале апреля.
Критерии оценки. Оценка за курс ставится исходя из накопленных баллов за два домашних задания: hw₁ (оценка за первое задание) и hw₂ (оценка за второе задание). Предварительно оценка за курс будет выставляться по следующей формуле:

ШАД |
|---|
№ | Дата | Название | Материалы (ШАД) | |
|---|---|---|---|---|
01-lec | 20 марта | Введение и модальность изображений | ||
01-sem | Классификация vision-language моделей | |||
02-lec | 27 марта | Модальность видео | ||
02-sem | Early Fusion. Video-LaVIT | |||
03-lec | 3 апреля | Интеграция генерации данных в MLLM | ||
03-sem | Visual autoregression via next-scale prediction | |||
04-lec | 10 апреля | Модальность action | ||
04-sem | VLM как агенты для роботов | |||
05-lec | 17 апреля | Модели 3D понимания | ||
05-sem | Модели 3D понимания | |||
06-lec | 25 апреля | Модальность звука | ||