Город МОСКОВСКИЙ
00:14:00

MMAudio - нейросеть для создания реалистичных фоновых звуков для/из видео. Инструкция по установке

Аватар
AI Генератьон
Просмотры:
841
Дата загрузки:
18.12.2024 14:51
Длительность:
00:14:00
Категория:
Технологии и интернет

Описание

MMAudio генерирует синхронизированный звук с учетом видео и/или текстовых подсказок. Ключевое новшество — мультимодальное совместное обучение, которое позволяет проводить обучение на широком спектре аудиовизуальных и аудиотекстовых наборов данных.

По умолчанию эти скрипты используют large_44k_v2модель. В экспериментах вывод занимает всего около 6 ГБ памяти GPU (в 16-битном режиме), что должно соответствовать большинству современных GPU.

Ограничения:
- Модель иногда генерирует нежелательные неразборчивые звуки, похожие на человеческую речь;
- Модель иногда генерирует нежелательную фоновую музыку;
- Модель испытывает трудности с незнакомыми концепциями, например, она может генерировать «стрельбу из огнестрельного оружия», но не «стрельбу из РПГ».

✨Поддержать автора: https://www.donationalerts.com/r/ayithedeer
________________________________
✨Ссылки:
● Репозиторий разработчиков моделей: https://github.com/hkchengrex/MMAudio
● Страница FluxGym: https://github.com/cocktailpeanut/fluxgym
● Скачать модели: https://huggingface.co/Kijai/MMAudio_safetensors/tree/main

● Как установить ComfyUI и Flux: https://rutube.ru/video/2c38d7833ddd4a66f9e25a27b399e884/
● Как создать свою LORA на FLUX: https://rutube.ru/video/80553858c21d66f43cea8e625bec61d4/
● Еще один способ тренировки лоры для Flux: https://rutube.ru/video/dffd825251af1eef0f968fb1e31fa772/
________________________________
✨Таймкоды:
00:00 - Предисловие
01:39 - Пара слов про установку ComfyUI
02:03 - Установка кастомных нод
04:01 - Ошибка подгрузки ноды в интерфейс из-за библиотеки torchdiffeq
05:54 - Базовый врокфлоу
06:48 - Качаем модели и кладем в нужную папку
07:52 - Первый запуск и RuntimeError: The shape of the 2D attn_mask is torch.Size([77, 77]), but should be (1, 1)
09:48 - Примеры работы и нюансы
13:17 - Послесловие
________________________________
Теги:
искусственный интеллект, нейросети, нейросеть, ai, ии, озвучить видео, озвучка, синтезатор звуков, озвучка видео, реалистичная озвучка, из текста в аудио, всякие полезности, нейросети для видео, нейросети для работы со звуком, нейросети для обработки звука, эти нейросети помогут тебе в работе со звуком, полезные нейросети, comfyui

Рекомендуемые видео