Почему диффузия рисует швы на 40-мегапиксельных фото и как сделать тайлы с памятью

отметили
71
человек
в архиве
Автор статьи, профессиональный ретушёр с двадцатилетним стажем, делится многолетней проблемой использования нейросетевых диффузионных моделей для обработки сверхдетализированных фотографий. Суть трудности в том, что при работе с кадрами разрешением от 40 до 150 мегапикселей приходится резать изображение на множество мелких фрагментов — тайлов, обрабатывать их по отдельности и затем склеивать. Однако на стыках этих фрагментов неизбежно возникают заметные дефекты: «лестница» швов на небе, перепады цвета на коже и разница в текстурах.Главная причина, по словам автора, в том, что у видео-моделей есть «память» между кадрами, которая позволяет сохранять согласованность. У фото-моделей такой памяти нет, поэтому соседние тайлы не знают друг о друге и обрабатываются независимо. Это и приводит к видимым границам и искажениям при склейке. Четыре года специалист безуспешно пробовал разные методы решения этой проблемы.В своей новой статье он предлагает три оригинальные идеи, как наделить фото-модель памятью между соседними тайлами. Для этого он анализирует восемь архитектурных классов памяти, заимствованных из видео-диффузии, таких как BCLA из SANA-Video, FramePack, SVD reshape и AnimateDiff. Автор подробно разбирает, какие из этих подходов можно адаптировать для обработки статичных изображений, а какие — нет.В итоге он приходит к выводу, что ключ к решению лежит в переносе принципов работы видео-моделей на архитектуру фото-диффузии.
Добавил Freemen Freemen 27 Апреля
Комментарии участников: