FLUX, первые впечатления 16.09.2024 21:19

Наконец дошли руки потестировать с небольшим пристрастием новый стандарт моделей для генерации изображений и видео – Flux. Те, кто немного следит за новостями отрасли, очевидно, уже в курсе. Выходцы из Stability AI (это компания, которая выпускает Stable Diffusion), собрали всё по-новому, чтобы сделать шаг вперёд. Модели теперь занимают от 20 Гб, но из-за пересмотра алгоритмов работы с памятью, их можно запускать локально на видеокартах начиная аж с 8 Гб RAM.

Все картинки ниже на этой странице получены на локальной машине с Nvidia 3060 с 12 Гб RAM и 64 Гб обычной памяти, простыми промптами, без каких-либо танцев, практически без отбора, на дефолтной модели F1.D (Flux1-Dev) и на альфа-версии Flux-модели от Stoiqo. Используем SwarmUI (это оболочка для ComfyUI). Сэмплер – Euler, 50 шагов.

Что обращает на себя внимание (в обеих моделях, и в базовой и от Стойко):

Flux генерит дольше, чем SD, в разы. Но это понятно. Скажу, что в 10-15 раз дольше (на аналогичном железе) – не совру. На данный момент для промышленных масштабов не годится, но как после этого возвращаться к SDXL? 😕
Вопреки рассказам блогеров, проблема с пальцами и ногами остаётся, но ситуация заметно улучшилась.
Flux прямо из коробки лажает с зубами и глазами намного меньше, чем SD. Но полностью эти истории ещё не побеждены. Брови и ресницы – всё ещё часто с косяками.
Flux работает корректнее с геометрией, там где SD также традиционно любит лажать, например в архитектуре. Окна/двери везде в ряд, с правильной перспективой.
Flux просто офигенно рисует одежду. Фактура тканей, складки, подбор лука вышли на новый уровень.
Flux очень любит размывать фон. Flux в принципе любит всё размывать, размазывать и разглаживать. Пока правильно не подберёшь параметры сэмплера, вся картинка может быть мутной (ниже есть пример с семьёй в машине). Выглядит как косяк, наверное это как-то пофиксится в ближайшее время. А может это наоборот, фишка, которая делает картинки такими красивыми.
Flux молодец с точки зрения понимания промпта. Наверное, в основном это связано с тем, что модели больше, больше данных, и мы изначально от разрабочиков знаем, что в программной части по расшифровке промпта тут всё по-другому. А вот игнор каких-то частей промпта остаётся.
Лица – есть огромный шаг вперёд. Есть и косяки, кажется Flux надувает больше изгибов там, где они не нужны. Это касается и тел. SD с изгибами часто не дожимает, а Flux пережимает.

В целом, качественно, это, конечно, переход на следующий уровень. Даже больше, чем SDXL против SD1.5. Иногда проскакивает вау-эффект из-за простоты получения фотографического качества практически на халяву. Говоря простыми словами, на SD1.5 или SDXL невозможно просто написать промпт из 5-10 слов и ничего больше не делая, не используя какие-либо дополнения, без доработок, сразу получить это (листай ниже). Очень ждём поддержку флюкса в автоматике-1111.

Ссылки в конце.