Более 16 лет мы являемся надёжным партнёром ведущих вузов России в сфере подготовки специалистов по компьютерному зрению. За это время мы накопили богатый опыт в создании и проведении курсов, которые помогают студентам достигать профессиональных высот в современных технологических индустриях.
Наш образовательный проект состоит из шести основных курсов, часть из которых в настоящее время находится в стадии активной разработки. Каждый курс представляет собой сочетание лекций, семинаров и домашних заданий, направленных на получение не только теоретических знаний, но и практических навыков. Мы регулярно обновляем содержание наших курсов, чтобы охватить современные архитектуры и недавно опубликованные научные статьи.
Наша команда состоит из опытных специалистов, которые не только преподают, но и активно применяют свои знания на практике. В свободное от проведения курсов время мы работаем в ведущих технологических компаниях и научно-исследовательских институтах. Это позволяет нам делиться со студентами реальными кейсами и актуальными практическими задачами, подготавливая их к работе в индустрии или академии.
Будем рады видеть вас на наших занятиях!
Курс посвящен методам и алгоритмам компьютерного зрения, т.е. извлечения информации из изображений и видео. Для большинства задач будем обсуждать современные нейросетевые модели, сверточные и трансформеры.
Курс в большей степени является практическим, а не теоретическим. Поэтому все лекции снабжены лабораторными и домашними работами, которые позволяют попробовать на практике большинство из рассматриваемых методов. Работы выполняются на языке Python, с использованием различных библиотек.
В курсе даются базовые математические понятия и методы для решения задач трёхмерного компьютерного зрения.
Системы трёхмерного компьютерного зрения являются ключевой технологией для робототехники и беспилотного транспорта, автоматизации производственных процессов, дополненной и расширенной реальности, вычислительной фотографии, а также создания 3-х мерного контента для систем компьютерной графики.
В рамках курса мы рассмотрим основные подходы обучения и бенчмаркинга мультимодальных моделей на примере фундаментальных архитектур (LLaVA, Qwen-VL и др.). От классических моделей, принимающих на вход текстовый запрос и изображение, мы перейдем к изучению видео-модальности, модальности “action” (веб-агенты, роботы) и моделей 3D-понимания. Особое внимание будет уделено интеграции генерации данных в мультимодальные LLM.
Курс посвящён основам обработки естественного языка – например, как такие языковые модели, как ChatGPT, способны отвечать на произвольные текстовые запросы пользователей. Мы рассмотрим ключевые темы, такие как векторные представления слов, классические методы языкового моделирования и модели Seq2Seq. Более детально будут рассмотрены архитектура трансформеров и механизм внимания, а также принципы работы с большими языковыми моделями (LLM).