Мультимодальные LLM

новый
Семестр:Весенний
Доступен в: ШАД
Читается с:2025

Краткое описание

В рамках нашего курса мы рассмотрим широкий спектр подходов, применяемых в мультимодальных моделях. Мы начнем с изучения высокоуровневой классификации, основанной на методах смешивания различных модальностей входных данных. Мы детально рассмотрим ключевые подходы и фундаментальные архитектуры (такие как Flamingo, LLaVA, Qwen-VL), которые позволят легче перейти к пониманию более сложных модальностей.

От классических моделей, принимающих на вход текст и изображение, мы плавно перейдем к изучению других модальностей, включая видео, звук, модальность action, а также рассмотрим модели 3D понимания (LLaVA-3D и SpatialRGPT). Особое внимание будет уделено интеграции генерации данных в мультимодальные LLM.

Для закрепления практических навыков в курсе будут два домашних задания. Они разработаны таким образом, чтобы не требовать значительных вычислительных ресурсов. Оба задания выполняются на языке Python с использованием платформ Google Colaboratory или Kaggle.

Отчетность по курсу

Для успешного завершения курса вам потребуется выполнить два домашних задания. Эти задания будут включать как практические упражнения, так и теоретические вопросы. Для их выполнения вам достаточно будет использовать такие платформы, как Google Colaboratory и Kaggle. Подробная система оценивания будет доступна в начале апреля.

Критерии оценки. Оценка за курс ставится исходя из накопленных баллов за два домашних задания: hw₁ (оценка за первое задание) и hw₂ (оценка за второе задание). Предварительно оценка за курс будет выставляться по следующей формуле:

  • x ≥ 80% — отлично
  • x ≥ 60% — хорошо
  • x ≥ 50% — удовлетворительно

Записи занятий

ШАД

Материалы занятий



Дата

Название
Материалы (ШАД)
01-lec
20 марта
Введение и модальность изображений
01-semКлассификация vision-language моделей
02-lec
27 марта
Модальность видео
02-semEarly Fusion. Video-LaVIT
03-lec
3 апреля
Интеграция генерации данных в MLLM
03-semVisual autoregression via next-scale prediction
04-lec
10 апреля
Модальность action
04-semVLM как агенты для роботов
05-lec
17 апреля
Модели 3D понимания
05-semМодели 3D понимания
06-lec25 апреляМодальность звука