# Введение в генеративные модели

В данном ноутбуке будет рассмотрено несколько базовых подходов к генерации изображений с помощью сверточных нейросетей. Мы будем генерировать фотографии лиц. В качестве эталона, будем использовать выровненные, центрированные фотографии знаменитостей из датасета CelebFaces Attributes (CelebA).

Установим нужные пакеты, скачаем датасет и чекпоинты моделей, которые нам понадобятся в этом задании.

In [None]:
import glob
import os
import warnings

import lightning as L
import matplotlib.pyplot as plt
import numpy as np
import torch
import torch.nn.functional as F
import torchvision as tv
import torchvision.transforms.v2 as T
from IPython.display import display
from PIL import Image

# Not using `bfloat16` matrix multiplication for consistency
# You might get better performance without much precision loss
# by setting this to "medium" on some devices
torch.set_float32_matmul_precision("high")

In [None]:
SKIP_TRAIN = True

In [None]:
try:
    # Download, verify and extract the CelebA dataset
    tv.datasets.CelebA(".", download=True)
except Exception:
    print("Official download method failed. Trying direct download.")
    !mkdir -p celeba
    !curl 'https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/img_align_celeba.zip' -o celeba/img_align_celeba.zip
    !curl 'https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/celeba_txt.zip' -O
    !unzip -o celeba_txt.zip

    print()
    for _, md5sum, file_name in tv.datasets.CelebA.file_list:
        print("Expected:  ", md5sum, " celeba/" + file_name)
        print("Downloaded: ", end="", flush=True)
        !md5sum "celeba/{file_name}"
        print()

    # Verify and extract the CelebA dataset
    tv.datasets.CelebA(".", download=True)

# Download pretrained model checkpoints and helper script
if not os.path.exists("autoencoder_components.py"):
    !curl -O 'https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/autoencoder_components.py'
if not os.path.exists("AutoEncoder.ckpt"):
    !curl -O 'https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/AutoEncoder.ckpt'
if not os.path.exists("VariationalAutoEncoder.ckpt"):
    !curl -O 'https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/VariationalAutoEncoder.ckpt'
if not os.path.exists("GenerativeAdversarialNetwork.ckpt"):
    !curl -O 'https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/GenerativeAdversarialNetwork.ckpt'

In [None]:
# resnet18_decoder and _encoder are conceptually similar to UNet,
# except that there are **no skip connections** between the two networks
from autoencoder_components import resnet18_decoder, resnet18_encoder

In [None]:
# This cell is mostly boilerplate code for working with the CelebA dataset.


class CelebABoilerplate(L.LightningModule):
    def __init__(self, image_size, batch_size=64, lr=0.0001, **kwargs):
        super().__init__(**kwargs)
        self.save_hyperparameters()

    def get_dataset(self, kind):
        return tv.datasets.CelebA(
            ".",
            split=kind,
            transform=T.Compose(
                [
                    T.Resize(self.hparams.image_size),
                    T.CenterCrop(self.hparams.image_size),
                    # [0; 255] -> [0; 1],
                    T.ToImage(),
                    T.ToDtype(torch.float32, scale=True),
                    # [0; 1] -> [-1; 1]
                    T.Normalize(3 * [0.5], 3 * [0.5]),
                ]
            ),
        )

    def get_dataloader(self, kind):
        return torch.utils.data.DataLoader(
            self.get_dataset(kind),
            num_workers=os.cpu_count(),
            shuffle=kind == "train",
            batch_size=self.hparams.batch_size,
        )

    def train_dataloader(self):
        return self.get_dataloader("train")

    def val_dataloader(self):
        return self.get_dataloader("valid")

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(self.parameters(), lr=self.hparams.lr)
        scheduler = step_lr_scheduler(optimizer)
        return [optimizer], [scheduler]

    def training_step(self, batch):
        return self.step(batch, kind="train")

    def validation_step(self, batch):
        return self.step(batch, kind="valid")

    def _log_loss(self, name, loss, kind):
        self.log(
            f"{kind}/{name}",
            loss,
            prog_bar=True,
            logger=True,
            on_epoch=True,
            on_step="train" in kind,
        )


def step_lr_scheduler(optimizer, step_size=3):
    scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=step_size)
    return {"scheduler": scheduler, "interval": "epoch", "frequency": 1}


def get_latest_version(root_dir):
    versions = sorted(glob.glob(f"{root_dir}/lightning_logs/version_*"))
    return versions[-1] if versions else None


def get_latest_checkpoint(root_dir):
    last_version = get_latest_version(root_dir)
    if last_version:
        checkpoints = f"{last_version}/checkpoints/*"
        checkpoints = sorted(glob.glob(checkpoints))
    else:
        checkpoints = []
    return checkpoints[-1] if checkpoints else None


def img_to_u8(img):
    img = img.transpose((1, 2, 0))
    # [-1; 1] -> [0; 255]
    img = (255 / 2) * (img + 1)
    # float -> uint8
    img = img.round().clip(0, 255).astype(np.uint8)
    return img


def make_grid(imgs):
    imgs = np.concatenate(
        [
            np.concatenate(
                [img_to_u8(img) for img in row],
                axis=1,
            )
            for row in imgs
        ],
        axis=0,
    )
    return imgs


def show_images(imgs, scale=2):
    imgs = make_grid(imgs)
    imgs = Image.fromarray(imgs)
    imgs = imgs.resize([scale * d for d in imgs.size])
    display(imgs)

---

## Часть 1: Автоэнкодеры

Автоэнкодеры (autoencoder, AE, автокодировщик) - особый вид нейросетевых архитектур, состоящих из двух последовательных подсетей, называемых энкодером и декодером. Задача энкодера - понизить размерность входных данных, а задача декодера - восстановить исходные данные по выходу энкодера.

Обучение автоэкодера заключается в минимизации "ошибки рекострукции" - расстояния между исходными входными данными и восстановленными декодером данными. Достаточно часто в качестве "расстояния" берется просто поэлементное среднеквадратичное отклонение, однако в общем случае можно минимизировать и любое другое расстояние.

Если декодер успешно восстанавливает входные данные, то можно считать, что промежуточные низкоразмерные данные являются особым *представлением* исходных данных. Такое "сжатое" представление называется "латентным", а исходное представление данных - "естественным".

Важно понимать, что понижение размерности возможно только за счет *избыточностей* в естественном представлении целевых данных. Например, цветные фотографии лиц знаменитостей можно естественно представить как элементы в $\mathbb{R}^{H{\times}W{\times}3}$, однако данное представление очевидно избыточно. Подавляющее большинство элементов $\mathbb{R}^{H{\times}W{\times}3}$ выглядит как случайный шум или как какие-то другие изображения (не лиц знаменитостей).

С другой стороны, интуиция подсказывает нам, что пространство фотографий лиц знаменитостей не дискретно, а обладает некоторой "локальностью" (*небольшие* изменения пикселей фотографии не приводят к резкому изменению свойств фотографии). Отсюда следует логичное предположение, что латентное представление тоже будет обладать этим свойством.

![](https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/ae.png)

### Детали реализации

Обычно в случае работы с изображениями, в качестве сети-энкодера используется какая-нибудь "стандартная" сверточная нейросеть, сжимающая входное изображения в "плотный" вектор признаков. Архитектура сети-декодера при этом зачастую составляет "отраженную" архитектуру энкодера, в которой все слои идут в обратном порядке и вместо постепенного уменьшение разрешения, происходит его увеличение.

Для повышения разрешения изображения можно заменять слои по следующему принципу. <br/>
Вместо [усреднения/пулинга (`AvgPool2d`)](https://pytorch.org/docs/stable/generated/torch.nn.AvgPool2d.html) использовать [интерполяцию/масштабирование (`Upsample`)](https://pytorch.org/docs/stable/generated/torch.nn.Upsample.html). <br/>
Вместо [сверток (`Conv2d`)](https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html) с шагом (`stride > 1`) использовать [транспонированные свертки (`ConvTranspose2d`)](https://pytorch.org/docs/stable/generated/torch.nn.ConvTranspose2d.html) с тем же шагом.

Здесь и в последующих заданиях в качестве архитектур энкодера/декодера используется модифицированная версия ResNet-18.

Внимательно рассмотрите код предоставленной реализации простого сверточного автоэнкодера. <br/>
Особое внимание обратите на функции `forward` и `step`.

In [None]:
class SigmoidOutNorm(torch.nn.Module):
    def forward(self, x):
        # Map the outputs to the [-1; 1] ranage.
        # Images from the dataset are also
        # normalized to this range.
        # (see get_dataset above)
        return 2 * torch.sigmoid(x) - 1


class CelebAAutoEncoder(CelebABoilerplate):
    def __init__(self, first_conv=False, maxpool1=False, latent_dim=512, **kwargs):
        super().__init__(**kwargs)
        self.save_hyperparameters()
        self.encoder = resnet18_encoder(
            self.hparams.first_conv,
            self.hparams.maxpool1,
        )
        self.decoder = resnet18_decoder(
            self.hparams.latent_dim,
            self.hparams.image_size,
            self.hparams.first_conv,
            self.hparams.maxpool1,
        )
        self.out_act = SigmoidOutNorm()

    def image_to_latent(self, x):
        z = self.encoder(x)
        return (z,)

    def latent_to_image(self, z):
        x = self.decoder(z)
        x = self.out_act(x)
        return x

    def reconstruct(self, x):
        z, *extra = self.image_to_latent(x)
        x = self.latent_to_image(z)
        return x, z, *extra

    def step(self, batch, kind):
        x_gt, _ = batch
        x_pr, *_ = self.reconstruct(x_gt)

        # Reconstruction loss
        loss = F.mse_loss(x_gt, x_pr)
        self._log_loss("total_loss", loss, kind)

        return loss

Для экономии времени на семинаре вам предлагается загрузить заранее обученную версию модели. <br/>
Также для справки приведен код, который был использован для обучения этой модели.

In [None]:
# Create an AutoEncoder
if not SKIP_TRAIN:
    ae = CelebAAutoEncoder(image_size=56)
    trainer = L.Trainer(
        callbacks=[
            L.pytorch.callbacks.EarlyStopping(
                "valid/total_loss",
                patience=2,
                verbose=True,
            ),
        ],
        default_root_dir="AutoEncoder",
        max_epochs=-1,
    )
    # Train the model
    trainer.fit(ae, ckpt_path=get_latest_checkpoint("AutoEncoder"))
else:
    ae = CelebAAutoEncoder.load_from_checkpoint(
        "AutoEncoder.ckpt",
    )

### Визуализация результатов

Давайте рассмотрим результаты работы обученного автоэнкодера. Для этого визуализируем исходные и восстановленные изображения.

In [None]:
@torch.no_grad
def show_autoencoder_results(ae, num_images=10):
    ae.train(False)
    valid_ds = ae.get_dataset("valid")

    inps = []
    outs = []
    for i in np.random.choice(len(valid_ds), size=num_images):
        inp, _ = valid_ds[i]
        x = inp[None, ...].to(ae.device)
        x, *_ = ae.reconstruct(x)
        out = x.squeeze(0).cpu()
        inps.append(inp.numpy())
        outs.append(out.numpy())

    show_images([inps, outs])

In [None]:
show_autoencoder_results(ae)

**❓Ответьте на вопросы:** Похожи ли восстановленные изображения на исходные?

### Свойства латентного пространства

Также, давайте проверим нашу гипотезу о локальности латентного пространства. Для этого вычислим латентные представления для двух случайных изображений и линейно проинтерполируем несколько промежуточных латентных представлений. Декодируем и визуализируем эти латентные представления.

In [None]:
@torch.no_grad
def show_autoencoder_interpolation(ae, num_images=10):
    ae.train(False)
    valid_ds = ae.get_dataset("valid")

    i0, i1 = np.random.choice(len(valid_ds), size=2)
    img0, _ = valid_ds[i0]
    img1, _ = valid_ds[i1]
    x0 = img0[None, ...].to(ae.device)
    x1 = img1[None, ...].to(ae.device)
    z0, *_ = ae.image_to_latent(x0)
    z1, *_ = ae.image_to_latent(x1)

    inps = [img0.numpy()] + (num_images - 2) * [np.zeros(img0.shape)] + [img1.numpy()]
    outs = []
    for lerp in np.linspace(0, 1, num_images):
        z = (1 - lerp) * z0 + lerp * z1
        x = ae.latent_to_image(z)
        out = x.squeeze(0).cpu()
        outs.append(out.numpy())

    show_images([inps, outs])

In [None]:
show_autoencoder_interpolation(ae)

**❓Ответьте на вопросы:** Оправдалось ли наше предположение о локальности латентного пространства?

### Генерация новых изображений с помощью автоэнкодера

Возвращаясь к теме семинара, давайте подумаем, можно ли как-нибудь использовать получившееся латентное представление и его свойства для генерации новых изображений.

Как было упомянуто ранее, нам известно, что множество "фотографии лиц знаменитостей" как подпространство $\mathbb{R}^{H{\times}W{\times}3}$ составляет крайне малую долю из всех возможных изображений. Из-за этого, мы очевидно не можем просто сгенерировать матрицу случайных значений размера $H{\times}W{\times}3$ и ожидать, что это будет фотографией лица.

С другой стороны, наше латентное пространство имеет сильно меньшую размерность, а значит разумно предположить, что множество "фотографии лиц знаменитостей" в нем будет более "плотно" расположено. Давайте попробуем визуализировать результаты декодирования для случайных латентных векторов.

Для простоты, предположим также что латентные вектора состоят из нормально распределенных случайных величин. Вычислим среднее значение и среднеквадратичное отклонение элементов латентных векторов, сгенерируем с помощью этих параметров новые случайные латентные вектора и визуализируем их.

In [None]:
@torch.no_grad
def get_mean_std(ae, num_samples=1000):
    ae.train(False)
    valid_ds = ae.get_dataset("valid")

    zs = []
    for i in np.random.choice(len(valid_ds), size=num_samples):
        inp, _ = valid_ds[i]
        x = inp[None, ...].to(ae.device)
        z, *_ = ae.image_to_latent(x)
        out = z.squeeze(0)
        zs.append(out.cpu().numpy())

    mean = np.mean(zs, axis=0)
    std = np.std(zs, axis=0)
    return mean, std


@torch.no_grad
def show_decode_random(ae, mean, std, num_images=10):
    ae.train(False)

    mean = torch.from_numpy(mean).to(ae.device)
    std = torch.from_numpy(std).to(ae.device)
    imgs = []
    for i in range(num_images):
        imgs.append([])
        for k in range(num_images):
            z = mean + std * torch.randn(1, ae.hparams.latent_dim).to(ae.device)
            x = ae.latent_to_image(z)
            out = x.squeeze(0).cpu()
            imgs[-1].append(out.numpy())

    show_images(imgs)

In [None]:
mean, std = get_mean_std(ae)
show_decode_random(ae, mean, std)

**❓Ответьте на вопросы:** Хорошие ли получились изображения? Если нет, попробуйте объяснить в чем проблема. Какое из наших предположений не оправдалось (о "локальности" латентного представления, о "плотности" латентного представления или о нормальности распределения латентных векторов)?

In [None]:
# Free up some memory for the next section
del ae

---

## Часть 2: Вариационные автоэнкодеры

Вариационные автоэнкодеры (variational autoencoders, VAE) - модификация стандартных автоэнкодеров, нацеленная на улучшение свойств латентного представления с целью генерации правдоподобных новых данных.

Как можно было догадаться из последнего задания, предложенный метод генерации новых данных с помощью стандартных автоэнкодеров работал плохо из-за того что не выполнялось одно из сделанных нами предположений. А именно, латентные вектора в стандартных автоэнкодерах **не** распределены нормально.

Действительно, без каких либо ограничений на латентное представление нет оснований полагать, что элементы вектора будут иметь нужное нам распределение. Теперь, когда мы знаем, в чем была проблема стандартного автоэнкодера, рассмотрим как эту проблему предлагается решить в вариационных автоэнкодерах.

Вместо того чтобы предсказывать латентный вектор напрямую, вариационный энкодер предсказывает параметры для распределения и затем из этого распределения сэмплируется случайный латентный вектор. Полученный случайный латентный вектор, как и в стандартном автоэнкодере, должен декодироваться в исходное изображение. Таким образом, латентные вектора гарантированно будут иметь нужное нам распределение (по построению).

![](https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/vae.png)

Концептуально, идея вариационных автоэнкодеров получается достаточно простая, однако на практике есть ещё 3 важных нюанса, которые необходимо учесть для получения работающего решения.

### $N$-мерность пространства латентных векторов

Особо внимательные студенты могли заметить, что говоря о распределениях латентных представлений мы намеренно опускали одну важную деталь - латентные представления являются $N$-мерными векторами, а не скалярами.

В частности, это значит что элементы этих векторов могут быть не независимо распределены, а "нормальное распределение" должно принять вид $\mathcal{N}\left(\mu,\,\Sigma\right)$, где $\mu \in \mathbb{R}^N$ - вектор сдвига, а $\Sigma \in \mathbb{R}^{N{\times}N}$ - ковариационная матрица. Использование произвольной ковариационной матрицы значительно усложняет дальнейшие выводы, поэтому обычно вводится дополнительное ограничение $\Sigma = \mathrm{I}\sigma$, где $\sigma \in \mathbb{R}^N_+$ - вектор среднеквадратичных отклонений.

Если исходная матрица $\Sigma$ была диагонализируема, то данное ограничение даже не приводит к потере общности (не диагональный множитель можно "занести" в первый линейный слой в декодере).

### Регуляризация распределения

В вариационном автоэнкодере мы заменили предсказание конкретных латентных значений на моделирование их распределения. Однако в текущей версии нашего алгоритма, энкодер может "обойти" наше требование просто предсказывая очень большие значения $\mu$, либо очень маленькие значения $\sigma$. В результате предсказанные распределения будут вести себя почти как обыкновенные "точечные" предсказания в стандартном автоэнкодере.

Чтобы вырождения распределений не происходило, необходимо регуляризовать предсказанные энкодером параметры распределений.

![](https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/regularization.png)

Для регуляризации параметров распределений в вариационном автоэнкодере, предлагается добавить в функцию потерь специальное слагаемое, измеряющее степень близости предсказанного распределения к стандартному.

Как вам известно, [дивергенция Кульбака — Лейблера](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9A%D1%83%D0%BB%D1%8C%D0%B1%D0%B0%D0%BA%D0%B0_%E2%80%94_%D0%9B%D0%B5%D0%B9%D0%B1%D0%BB%D0%B5%D1%80%D0%B0) задает аналог "расстояния" или меры удаленности одного распределения от другого.

В данном задании, вам предлагается аналитически вывести формулу для вычисления расстояния Кульбака — Лейблера между нормальным распределением с параметрами $\mu$, $\sigma$ (скаляры) и стандартным нормальным распределением (с параметрами $0$, $1$).

$$
\large\mathrm{KL}\left(\mathcal{N}\left(\mu, \sigma^2\right),\,\mathcal{N}\left(0, 1\right)\right)
$$

В ходе аналитического вывода, вам могут понадобиться следующие формулы:
- Определение KL-дивергенции
  $$\large\mathrm{KL}\left(p,\,q\right) = \int_{-\infty}^{+\infty} p(x) \log\left(\frac{p(x)}{q(x)}\right) \mathrm{d}x$$
- Формула плотности нормального распределения
  $$\large\mathcal{N}\left(\mu, \sigma^2\right) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}{\left(\frac{x-\mu}{\sigma}\right)}^2}$$
- Формула математического ожидания абсолютно непрерывной случайной величины (и её преобразований)
  $$\large\mathbb{E}\left[f(x)\right] = \int_{-\infty}^{+\infty} f(x) p(x) \mathrm{d}x$$
  где $p(x)$ - плотность распределения непрерывной случайной величины $x$, а $f(x)$ - любая борелевская функция
- Две формулы дисперсии случайной величины
  $$\large\mathbb{D}x = \mathbb{E}\left[\left(x - \mathbb{E}x\right)^2\right] \qquad \small\text{и} \large\qquad \mathbb{D}x = \mathbb{E}\left[x^2\right] - \left(\mathbb{E}x\right)^2$$

<br/>

Используя аналитически выведенную формулу, реализуйте функцию `normal_distribution_kl_divergence`. <br/>
**Не** используйте при этом классы/функции из модуля `torch.distributions`.

In [None]:
def normal_distribution_kl_divergence(mu, sigma):
    # \/ Your code here \/
    kl_loss = (mu * mu + sigma * sigma - 1) / 2 - torch.log(sigma)
    kl_loss = kl_loss.mean(axis=0).sum()
    # /\ Your code here /\
    return kl_loss

Проверьте вашу реализацию:

In [None]:
def test_normal_distribution_kl_divergence():
    mu_value = torch.randn(123, 321)
    sigma_value = torch.exp(torch.randn(123, 321))

    # Compute reference values
    mu_ref = torch.autograd.Variable(mu_value, requires_grad=True)
    sigma_ref = torch.autograd.Variable(sigma_value, requires_grad=True)
    zero = torch.zeros_like(mu_ref)
    one = torch.ones_like(sigma_ref)
    kl_loss_ref = torch.distributions.kl_divergence(
        torch.distributions.Normal(mu_ref, sigma_ref),
        torch.distributions.Normal(zero, one),
    )
    kl_loss_ref = kl_loss_ref.mean(axis=0).sum()
    kl_loss_ref.backward()
    mu_ref_grad = mu_ref.grad
    sigma_ref_grad = sigma_ref.grad

    # Check student implementation
    mu = torch.autograd.Variable(mu_value, requires_grad=True)
    sigma = torch.autograd.Variable(sigma_value, requires_grad=True)
    kl_loss = normal_distribution_kl_divergence(mu, sigma)

    # The function must produce the same values as the library implementation
    assert torch.allclose(kl_loss, kl_loss_ref)

    # The function must be differentiable
    assert mu.grad is None
    assert sigma.grad is None
    kl_loss.backward()
    assert torch.allclose(mu.grad, mu_ref_grad)
    assert torch.allclose(sigma.grad, sigma_ref_grad)


test_normal_distribution_kl_divergence()

### Репараметризация случайных величин

Последний нюанс в реализации вариационного автоэнкодера кроется в самом процессе сэмплирования случайных величин. На данный момент, прямой проход для вариационного автоэнкодера может быть расписан следующим образом:

1. из изображения $\mathbf{x}$ извлекается вектор признаков $\varphi$ <br/>
    $\varphi = \mathrm{ENC}\left(\mathbf{x}\right)$
2. с помощью извлеченных признаков вычисляются параметры распределения <br/>
    $\mu = f_{\mu}\left(\varphi\right)$ <br/>
    $\sigma = f_{\sigma}\left(\varphi\right)$
3. латентный вектор сэмплируется из заданного распределения <br/>
    $\mathbf{z} \sim \mathcal{N}\left(\mu,\,\sigma^2\right)$
4. латентный вектор декодируется в реконструкцию изображения $\mathbf{x}'$ <br/>
    $\mathbf{x}' = \mathrm{DEC}\left(\mathbf{z}\right)$

Однако такая формулировка прямого прохода не позволяет обучать энкодер, потому что операция сэмплирования случайной величины из распределения "$\sim$" в шаге 3 - не дифференцируема. Чтобы убрать не дифференцируемую операцию "$\sim$" с пути градиента, используется прием репараметризации случайных величин.

Вместо того чтобы напрямую сэмплировать $\mathbf{z} \sim \mathcal{N}\left(\mu,\,\sigma^2\right)$, можно сэмплировать $\mathbf{z}'$ из стандартного нормального распределения $\mathbf{z}' \sim \mathcal{N}\left(0,\,1\right)$, а затем [привести](https://ru.wikipedia.org/wiki/%D0%9D%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5#%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D0%BF%D1%81%D0%B5%D0%B2%D0%B4%D0%BE%D1%81%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D1%8B%D1%85_%D0%B2%D0%B5%D0%BB%D0%B8%D1%87%D0%B8%D0%BD) полученное случайное значение $\mathbf{z}'$ к случайному значению $\mathbf{z}$ с интересующими нас параметрами $\mu$ и $\sigma$. После данной замены, $\mathbf{z}$ должно выражаться как дифференцируемая функция от $\mathbf{z}'$, $\sigma$ и $\mu$.

Реализуйте функцию `differentiable_sample_normal`, в которой производится описанное вычисление.
Для сэмплирования случайных величин из стандартного нормального распределения, используйте функцию `torch.randn_like`.
Обратите внимание, что на практике нейросеть будет предсказывать логарифм `sigma`, а не саму `sigma` (это сделано для численной стабильности и чтобы `sigma` не могла принимать отрицательные значения).

In [None]:
def differentiable_sample_normal(mu, sigma):
    # \/ Your code here \/
    random = torch.randn_like(mu)
    sample = mu + sigma * random
    # /\ Your code here /\
    return sample

Проверьте вашу реализацию:

In [None]:
def test_differentiable_sample_normal():
    current_seed = torch.seed()
    random_values = torch.randn(100)
    zeros_mu = torch.autograd.Variable(
        torch.zeros_like(random_values),
        requires_grad=True,
    )
    zeros_log_sigma = torch.autograd.Variable(
        torch.zeros_like(random_values),
        requires_grad=True,
    )

    torch.manual_seed(current_seed)
    zeros_sigma = torch.exp(zeros_log_sigma)
    sample = differentiable_sample_normal(zeros_mu, zeros_sigma)

    # The random values must be obtained from torch.randn/torch.randn_like
    assert torch.allclose(sample, random_values)
    # The function must be differentiable
    assert zeros_mu.grad is None
    assert zeros_log_sigma.grad is None
    sample.sum().backward()
    assert torch.allclose(zeros_mu.grad, torch.ones_like(zeros_mu))
    assert torch.allclose(zeros_log_sigma.grad, random_values)


test_differentiable_sample_normal()

### Детали реализации

Внимательно рассмотрите код предоставленной реализации сверточного вариационного автоэнкодера.
Особое внимание обратите на функции `forward` и `step`.
Посмотрите, как здесь используются реализованные вами функции `normal_distribution_kl_divergence` и `differentiable_sample_normal`.

In [None]:
class CelebAVariationalAutoEncoder(CelebAAutoEncoder):
    def __init__(self, kl_coeff=0.0005, **kwargs):
        super().__init__(**kwargs)
        self.save_hyperparameters()
        self.f_mu = torch.nn.Linear(
            self.hparams.latent_dim,
            self.hparams.latent_dim,
        )
        self.f_log_sigma = torch.nn.Linear(
            self.hparams.latent_dim,
            self.hparams.latent_dim,
        )
        # initialize params so that self.f_mu(X) == X
        torch.nn.init.eye_(self.f_mu.weight)
        torch.nn.init.zeros_(self.f_mu.bias)
        # initialize params so that self.f_log_sigma(X) == -1
        torch.nn.init.zeros_(self.f_log_sigma.weight)
        torch.nn.init.constant_(self.f_log_sigma.bias, -1)

    def image_to_latent(self, x):
        f = self.encoder(x)

        mu = self.f_mu(f)
        # predict log(sigma) instead of sigma
        # for better numerical stability
        log_sigma = self.f_log_sigma(f)
        sigma = torch.exp(log_sigma)

        if self.training:
            # During training perform the
            # reparametrization trick
            z = differentiable_sample_normal(mu, sigma)
        else:
            # During validation evaluate
            # encoder/decoder without noise
            z = mu

        return z, mu, sigma

    # latent_to_image and reconstruct implementations
    # are the same as in regular AutoEncoder

    def step(self, batch, kind):
        x_gt, _ = batch
        x_pr, _, mu, sigma = self.reconstruct(x_gt)

        # Reconstruction loss
        rec_loss = F.mse_loss(x_gt, x_pr)
        self._log_loss("rec_loss", rec_loss, kind)

        # KL loss
        kl_loss = normal_distribution_kl_divergence(mu, sigma)
        self._log_loss("kl_loss", kl_loss, kind)

        # Total loss is a weighted sum of the above
        loss = rec_loss + self.hparams.kl_coeff * kl_loss
        self._log_loss("total_loss", loss, kind)
        return loss

Для экономии времени на семинаре вам предлагается загрузить заранее обученную версию модели. <br/>
Также для справки приведен код, который был использован для обучения этой модели.

In [None]:
# Create a VariationalAutoEncoder
if not SKIP_TRAIN:
    # Init model with pretrained encoder/decoder from previous part
    vae = CelebAVariationalAutoEncoder.load_from_checkpoint(
        get_latest_checkpoint("AutoEncoder"),
        strict=False,
    )

    trainer = L.Trainer(
        callbacks=[
            L.pytorch.callbacks.EarlyStopping(
                "valid/total_loss",
                patience=1,
                verbose=True,
            ),
        ],
        default_root_dir="VariationalAutoEncoder",
        max_epochs=-1,
    )
    # Fine-tune the model
    trainer.fit(vae, ckpt_path=get_latest_checkpoint("VariationalAutoEncoder"))
else:
    vae = CelebAVariationalAutoEncoder.load_from_checkpoint(
        "VariationalAutoEncoder.ckpt",
    )

### Визуализация результатов

Давайте рассмотрим результаты работы обученного вариационного автоэнкодера.

Сравните полученные результаты с результатами из прошлой части.

In [None]:
show_autoencoder_results(vae)

In [None]:
show_autoencoder_interpolation(vae)

**❓Ответьте на вопросы:** Как изменилось качество реконструкции? Осталось ли у латентного представления свойство локальности?

### Генерация новых изображений с помощью вариационного автоэнкодера

Давайте попробуем сгенерировать новые изображения тем же способом, что и в прошлой части.

In [None]:
mean, std = get_mean_std(vae)
show_decode_random(vae, mean, std)

**❓Ответьте на вопросы:** Получилось ли с помощью вариационного автоэнкодера убрать артефакты при генерации новых изображений? Что вы можете сказать о качестве сгенерированных изображений? Как вы думаете, почему автоэнкодеры и вариационные автоэнкодеры генерируют слегка размытые изображения? Что можно сделать, чтобы получать более изображения с более резкими границами и текстурами?

In [None]:
# Free up some memory for the next section
del vae

---

## Часть 3: Генеративно-состязательные сети

Хотя исторически идея генеративно-состязательных сетей была придумана независимо от вариационных автоэнкодеров, в данном задании мы в образовательных целях будем рассматривать генеративно-состязательные сети как дальнейшее развитие вариационных автоэнкодеров.

В конце прошлой части мы задали вопрос <i>"Почему автоэнкодеры и вариационные автоэнкодеры генерируют слегка размытые изображения?"</i>. Одно из возможных объяснений заключается в том, что при вычислении ошибки реконструкции входного изображения мы использовали попиксельное расстояние между изображениями. Таким образом, наша ошибка реконструкции никак не учитывает пространственную информацию и как следствие вынуждает декодер "размывать" детали, в пространственном расположении которых декодер не уверен.

Чтобы лучше понять, почему использование попиксельное расстояние между изображениями приводит к таким результатам, давайте рассмотрим конкретный пример.

![](https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/mse.png)

На данной иллюстрации все 5 изображений (b-f) имеют одинаковое попиксельное расстояние до исходного изображения (а). Это противоречит нашему "интуитивному" пониманию о схожести этих изображений. Так, например, изображение (b) получено смещением на несколько пикселей и для человека почти не отличимо от оригинала, в то время как изображения (e) и (f) очевидно сильно отличаются от оригинала.

Теперь, когда мы обратили внимание на этот недостаток ошибки реконструкции, логично было бы попробовать заменить ошибку реконструкции на какую-нибудь другую функцию ошибки. В идеале, нам бы хотелось, чтобы эта новая функция ошибки обладала "человеческой интуицией" о том, какие особенности изображения важны, а какие - нет. Конечно, такой функции в аналитическом виде скорее всего не существует, однако мы можем получить схожий результат, заменив "человеческую интуицию" на "статистическое правдоподобие".

Если бы у нас была дифференцируемая функция, которая для произвольного изображения могла бы оценить правдоподобие этого изображения или другими словами - вероятноясть найти такое изображение в эталонной выборке, то мы бы могли использовать данную функцию при обучении декодера (цель декодера - максимизировать правдоподобие сгенерированного изображения). К счастью, мы уже знаем, как можно получить такую функцию - обучить бинарный классификатор, отличающий настоящие изображения от "поддельных", сгенерированных.

Таким образом вместо $\min\ {\left\lVert\mathrm{DEC}\left(\mathbf{z}\right) - \mathbf{x}\right\rVert}^2_2$ мы будем искать $\max\ \mathbf{p}\left(\mathrm{DEC}\left(\mathbf{z}\right)\right)$, где $\mathbf{p}$ - вероятность принадлежности к эталонному датасету. Предсказывать $\mathbf{p}$ будем с помощью сети-энкодера с дополнительным линейным слоем и сигмоидальной функцией активации (как в обычной задаче бинарной классификации).

После этой замены, мы можем дополнительно слегка упростить нашу архитектуру. Заметим, что в отличие от ошибки реконструкции, максимизация правдоподобия не сопоставляет сгенерированное изображение с каким-то конкретным эталонным изображением $\mathbf{x}$. Это значит, что оптимальные параметры для распределения $\mathbf{z}$ больше не зависят от входного изображения. Учитывая их регуляризацию с помощью дивергенции Кульбака — Лейблера, мы можем зафиксировать оптимальное распределение $\mathbf{z} \sim \mathcal{N}\left(0,\,1\right)$, не зависящее от $\mathbf{x}$.

В результате мы "поменяли местами" энкодер и декодер. Теперь первая сеть в модели - декодер, который на основании случайного шума учится генерировать правдоподобные изображения, а вторая сеть в модели - энкодер, который учится отличать "поддельные" сгенерированные изображения от настоящих примеров из датасета.

В данной конфигурации, декодер принято называть **генератором**, а энкодер - **дискриминатором**:

![](https://courses.cv-gml.ru/storage/seminars/ae-vae-gan/gan.png)

Генеративно-состязательные сети (Generative Adversarial Network, GAN) - вид нейросетевых архитектур, состоящих из двух последовательных сетей, называемых генератором и дискриминатором. В генеративно-состязательных сетях, генератор пытается создать правдоподобно выглядящие данные, а дискриминатор пытается отличить настоящие данные от "поддельных", созданных генератором.

### Состязательное обучение генератора и дискриминатора

Важная деталь генеративно-состязательных сетей, которая пока была упомянута только вскользь - это состязательная природа процесса обучения таких сетей. Как можно заметить, в выше описанной архитектуре сеть-генератор и сеть-дискриминатор на самом деле имеют разные, конфликтующие цели. Чем лучше работает генератор, тем сложнее будет дискриминатору отличить поддельные изображения от настоящих. Именно из-за данной особенности, эта архитектура называется состязательной (adversarial).

Более того, в прошлом разделе мы сказали что для оценки правдоподобия изображений мы "обучим бинарный классификатор" (дискриминатор), однако на практике мы не можем *заранее* обучить и зафиксировать дискриминатор. Если зафиксировать дискриминатор, то из-за состязательной природы задачи, генератор моментально переобучится под этот конкретный зафиксированный дискриминатор.

Чтобы решить данную проблему, нам нужно попеременно обучать и генератор и дискриминатор. Тогда обе эти сети будут вынуждены постоянно улучшать свои результаты в своеобразной "гонке вооружений". В итоге алгоритм обучения генеративно-состязательной сети может быть подытожен так:

1. Шаг обучения дискриминатора (веса генератора заморожены)
    - Выбирается батч эталонных изображений $\mathbf{x}$
    - Генерируется батч поддельных изображений $\mathbf{x}' = \mathrm{GEN}\left(\mathbf{z}\right)$ (для случайных $\mathbf{z} \in \mathcal{N}\left(0, 1\right)$)
    - Дискриминатор предсказывает $\mathbf{p} = \mathrm{DIS}\left(\mathbf{x}\right)$ и $\mathbf{p}' = \mathrm{DIS}\left(\mathbf{x}'\right)$
    - Происходит обратное распространение ошибки бинарной кросс-энтропии до весов дискриминатора. <br/>
      При вычислении кросс-энтропии для $\mathbf{p}$ эталонная метка - $1$ (настоящее изображение), а для $\mathbf{p}'$ эталонная метка - $0$ (подделка).

<br/>

2. Шаг обучения генератора (веса дискриминатора заморожены)
    - Генерируется батч поддельных изображений $\mathbf{x}' = \mathrm{GEN}\left(\mathbf{z}\right)$ (для случайных $\mathbf{z} \in \mathcal{N}\left(0, 1\right)$)
    - Дискриминатор предсказывает $\mathbf{p}' = \mathrm{DIS}\left(\mathbf{x}'\right)$
    - Происходит обратное распространение ошибки бинарной кросс-энтропии до весов генератора. <br/>
      При вычислении кросс-энтропии для $\mathbf{p}'$ эталонная метка - $1$ (настоящее изображение).

### Детали реализации

Внимательно рассмотрите код предоставленной реализации сверточной генеративно-состязательной сети. <br/>
Особое внимание обратите на функции `generator`, `discriminator` и `step`.

In [None]:
class CelebAGenerativeAdversarialNetwork(CelebAAutoEncoder):

    # Perform the optimization ourselves
    automatic_optimization = False

    # GAN losses are not really interpretable
    # Don't waste time measuring losses on the validation set
    val_dataloader = None
    validation_step = None

    # GANs don't have a way for us to guess the latent from the image.
    reconstruct = None
    image_to_latent = None

    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.save_hyperparameters()

        self.discriminator_fc = torch.nn.Linear(self.hparams.latent_dim, 1)

    def configure_optimizers(self):
        # Generator optimizer & scheduler
        gen_params = list(self.decoder.parameters())
        opt_gen = torch.optim.Adam(gen_params, lr=self.hparams.lr)
        sch_gen = step_lr_scheduler(opt_gen, step_size=10)

        # Discriminator optimizer & scheduler
        dis_params = []
        dis_params += list(self.encoder.parameters())
        dis_params += list(self.discriminator_fc.parameters())
        opt_dis = torch.optim.Adam(dis_params, lr=self.hparams.lr)
        sch_dis = step_lr_scheduler(opt_dis, step_size=10)

        return [opt_gen, opt_dis], [sch_gen, sch_dis]

    # Aka the Generator
    def latent_to_image(self, z=None, num_samples=None):
        if z is None:
            # For GANs we can safely assume that the
            # latent distribution is a Standard Normal
            z = torch.randn(num_samples, self.hparams.latent_dim, device=self.device)
        else:
            assert num_samples is None

        return super().latent_to_image(z)

    # Aka the Discriminator
    def image_to_logit(self, x):
        f = self.encoder(x)
        p = self.discriminator_fc(f)
        p = p.squeeze(-1)
        # sigmoid(p) == 0 means "fake image"
        # sigmoid(p) == 1 means "real image"
        return p

    def step(self, batch, kind):
        # Prepare data
        x_real, _ = batch
        num_samples = x_real.shape[0]
        y_real = torch.ones(num_samples, device=self.device)
        y_fake = torch.zeros(num_samples, device=self.device)
        opt_gen, opt_dis = self.optimizers()

        # ==== GENERATOR STEP ====

        # Only compute the gradients wrt the generator parameters
        with opt_gen.toggle_model():
            # Generate random fake images
            x_fake = self.latent_to_image(num_samples=num_samples)

            # Classify them with the discriminator
            p_fake = self.image_to_logit(x_fake)

            # Try to make the generated images appear real to the discriminator
            # Note that the gt for fake data is y_real (1) here
            gen_loss = F.binary_cross_entropy_with_logits(p_fake, y_real)

            # Optimize the generator
            if kind == "train":
                self.manual_backward(gen_loss)
                opt_gen.step()
                opt_gen.zero_grad()

            # Clear up some memory
            gen_loss = gen_loss.detach()
            x_fake = x_fake.detach()
            del p_fake

        # ==== DISCRIMINATOR STEP ====

        # Only compute the gradients wrt the discriminator parameters
        with opt_dis.toggle_model():
            # Classify the fake and real images with the discriminator
            p_fake = self.image_to_logit(x_fake)
            p_real = self.image_to_logit(x_real)

            # Try to make the discriminator classification accurate
            # Note that the gt for fake data is y_fake (0) here
            dis_fake_loss = F.binary_cross_entropy_with_logits(p_fake, y_fake)
            dis_real_loss = F.binary_cross_entropy_with_logits(p_real, y_real)
            dis_loss = dis_real_loss + dis_fake_loss

            # Optimize the discriminator
            if kind == "train":
                self.manual_backward(dis_loss)
                opt_dis.step()
                opt_dis.zero_grad()

        # Log loss values
        self._log_loss("gen_loss", gen_loss, kind)
        self._log_loss("dis_loss", dis_loss, kind)
        self._log_loss("total_loss", gen_loss + dis_loss, kind)

    # Convenience method for evaluation
    @torch.no_grad
    def sample_grid(self, grid_h, grid_w):
        was_training = self.training
        self.train(False)

        num_samples = grid_h * grid_w
        imgs = self.latent_to_image(num_samples=num_samples)
        imgs = imgs.reshape((grid_h, grid_w) + imgs.shape[1:])
        imgs = imgs.cpu().numpy()

        self.train(was_training)
        return imgs

    # Visualize the generated images after each epoch
    def on_train_epoch_end(self):
        # Monitoring loss is borderline useless, so this is
        # the only reasonable way to track training progress
        samples = self.sample_grid(grid_h=3, grid_w=6)
        samples = make_grid(samples)
        self.logger.experiment.add_image(
            "samples",
            samples.repeat(4, 0).repeat(4, 1),
            global_step=self.current_epoch,
            dataformats="HWC",
        )

Для экономии времени на семинаре вам предлагается загрузить заранее обученную версию модели. <br/>
Также для справки приведен код, который был использован для обучения этой модели.

In [None]:
# Create a GenerativeAdversarialNetwork
if not SKIP_TRAIN:
    gan = CelebAGenerativeAdversarialNetwork(image_size=56)

    # Init model with pretrained encoder/decoder from previous part.
    #
    # This doesn't actually help all that much because the training
    # is extremely unstable during the first few epochs. In my
    # experience, this training instability can't be completely
    # fixed even with conventional transfer learning tricks
    # like warmup and partial freezing. :(
    vae = CelebAVariationalAutoEncoder.load_from_checkpoint(
        get_latest_checkpoint("VariationalAutoEncoder"),
    )
    gan.encoder = vae.encoder
    gan.decoder = vae.decoder
    del vae

    trainer = L.Trainer(
        max_epochs=50,
        callbacks=[
            L.pytorch.callbacks.ModelCheckpoint(
                every_n_epochs=5,
                save_top_k=-1,
                verbose=True,
            ),
        ],
        default_root_dir="GenerativeAdversarialNetwork",
    )
    # Fine-tune the model
    trainer.fit(gan, ckpt_path=get_latest_checkpoint("GenerativeAdversarialNetwork"))
else:
    gan = CelebAGenerativeAdversarialNetwork.load_from_checkpoint(
        "GenerativeAdversarialNetwork.ckpt",
    )

### Проблемы обучения GANов

Обратите внимание, что эталонные метки для $\mathbf{p}'$ при оптимизации дискриминатора и генератора - разные. Это - крайне важная деталь для понимания динамики обучения генеративно-состязательных моделей. Из-за того что дискриминатор и генератор оптимизируют разные (в каком-то смысле даже противоположные) функции ошибки, процесс обучения генеративно-состязательных моделей **нельзя считать градиентным спуском**.

Многие теоремы, утверждения и интуиции, которые верны для обычных нейросетевых моделей (обучаемых градиентным спуском) не верны для генеративно-состязательных моделей. Например, при обучении градиентным спуском, мы привыкли, что по мере обучения значение функции потерь будет постепенно уменьшаться, пока не достигнет локально оптимального значения после чего модель либо "заканчивает" свое обучения, либо начинает переобучаться. При этом если функция потерь стала увеличиваться, то значит модель расходится.

Для генеративно-состязательных моделей, функция потерь может уменьшаться, увеличиваться или оставаться неизменной в процессе обучения и однозначно судить о статусе обучения по динамике значения функции потерь (или даже отдельных слагаемых в функции потерь) нельзя. Для генеративно-состязательных моделей, значение функции потерь отражает не процесс схождения модели к оптимальному решению, а **баланс** между генератором и дискриминатором. Например, если дискриминатор и генератор становятся лучше с одинаковой скоростью, то среднее значение функции потерь не будет изменяться.

Для генеративно-состязательных моделей, "оптимальным" является решение при котором распределение $\mathrm{GEN}\left(\mathbf{z}\right)$ идеально повторяет истинное распределение $\mathbf{x}$ и соответственно дискриминатор не может отличить настоящие данные от генерируемых $\mathrm{DIS}\left(\mathbf{x}\right) = \mathrm{DIS}\left(\mathbf{x}'\right) = \frac{1}{2}$.

### Генерация новых изображений с помощью генеративно-состязательной сети

Давайте рассмотрим результаты работы обученной генеративно-состязательной сети.

Обратите внимание, что в отличие от автоэнкодеров, генеративно-состязательные сети моделируют только отображение из латентного пространства в пространство изображений. Это значит, что при визуализации результатов работы генеративно-состязательных сетей мы не можем сравнить сгенерированное изображение с "эталоном".

Визуализируем несколько случайных генерируемых изображений и сравним их с изображениями сгенерированными при помощи вариационного автоэнкодера в прошлой части.

In [None]:
@torch.no_grad
def show_generate_random(gan, num_images=10):
    imgs = gan.sample_grid(
        grid_h=num_images,
        grid_w=num_images,
    )

    show_images(imgs)

In [None]:
show_generate_random(gan)

**❓Ответьте на вопросы:** Получилось ли с помощью генеративно-состязательной сети сделать генерируемые изображения менее размытыми? Изменилась ли при этом "реалистичность" генерируемых лиц? Вы можете объяснить, почему это происходит? Что можно сделать, чтобы исправить данную проблему?

**❓Ответьте на вопросы:** Если внимательно посмотреть на генерируемые изображения, то можно заметить, что некоторые лица встречаются несколько раз (с небольшими изменениями). Вы можете объяснить, почему это происходит? Что можно сделать, чтобы исправить данную проблему?

### Бонус: интерполяция между генерируемыми изображениями

Хотя мы и не знаем "эталонные" изображения для каждого латентного вектора, мы все еще можем попробовать линейно интерполироваться между двумя случайными векторами в латентном пространстве. Посмотрите на результаты интерполяции для нескольких пар случайных латентных векторов.

In [None]:
@torch.no_grad
def show_gan_interpolation(gan, num_images=10):
    gan.train(False)

    z0 = torch.randn(num_images, gan.hparams.latent_dim, device=gan.device)
    z1 = torch.randn(num_images, gan.hparams.latent_dim, device=gan.device)

    outs = []
    for lerp in np.linspace(0, 1, num_images):
        z = (1 - lerp) * z0 + lerp * z1
        x = gan.latent_to_image(z)
        out = x.cpu()
        outs.append(out.numpy())

    show_images(np.array(outs).swapaxes(0, 1))

In [None]:
show_gan_interpolation(gan)

**❓Ответьте на вопросы:** Как вам кажется, осталось ли у латентного представления свойство локальности? Как вы можете объяснить данный эффект?