Нейросети для работы со звуком в 2024 году

Статьи

Функционал нейросетей, который казался недостижимым несколько месяцев назад, сейчас становится доступным для всё большего количества пользователей.

В этом материале Александр Архипов, монтажер и саунд-дизайнер, подробно описал удобные сервисы для решения разных задач при работе с подкастами и оставил ссылки на альтернативные средства.

Вне зависимости от того, готовы ли вы использовать модели локально или ищете возможность воспользоваться онлайн-сервисами, этот текст поможет расширить ваши представления о том, на что способны современные AI-технологии.

У нас также вышел совместный курс по реставрации аудио. Его можно прочитать по ссылке.

Транскрибация

WhisperJAX — это сервис для перевода записей голоса в текст, который основан на модели, разработанной OpenAI. С его помощью можно транскрибировать как загружаемое аудио, так и записанную прямо в браузере речь и даже видео на YouTube. Огромное множество распознаваемых языков, возможность загружать длительные файлы и практически безукоризненная транскрибация русскоязычной речи, даже при использовании англицизмов. Также сервис может сразу проставить тайм-коды и перевести полученный текст на английский язык.

Моделью Whisper также можно бесплатно воспользоваться на сайте компании Riverside и с помощью MVSEP, о котором мы поговорим подробнее далее.

Помимо Whisper, существуют похожие сервисы: в то время как каждый из них заявляет о 99% точности транскрибации, все они ограничивают бесплатный тариф длительностью загружаемых файлов:

Генерация речи и замена голосов

За последний год появилось множество сервисов, позволяющих воспроизводить текст голосами на разных языках, а также обучать модель уже своему голосу и даже создавать дипфейки, используя голос знаменитостей.

Особенно выделяется на общем фоне ElevenLabs: сервис бесплатно предоставляет определенное количество токенов (валюта внутри сервиса), за которые можно «прочитать» заданный текст, но для обучения генератора речи своему голосу нужно купить подписку. ElevenLabs удивительно правдоподобно копирует тембр заданного голоса. Большая коллекция голосов на популярных языках, с разным полом, возрастами, и даже акцентами доноров.

Вот один из результатов генерации голоса:

 

Попробуем обучить модель своему голосу: вот пример оригинальной речи ведущей подкаста YaAndArt:

 

Тот же самый текст, произнесенный моделью, обученной по голосу ведущей:

 

А вот голос нейросети, который был перенесён на речь ведущей с помощью опции Speech to Speech. Это уже комическая демонстрация несовершенства существующей модели, потому что конкретно эта функция была обучена по англоязычным голосам, и нам остается надеяться на то, что в скором времени этот сервис начнёт работать с русскоязычной речью:

 

Возможности применения ElevenLabs ограничены только вашей фантазией. Например, можно «дописать» подводку к выпуску с помощью сервиса, если сейчас у вас нет возможности записаться на качественное оборудование, или заменить голос гостя, который пожелал остаться анонимным.

Избавление от фонового шума

Буквально два года назад автоматические средства шумоподавления агрессивно обрабатывали записи, меняя голос в худшую сторону. Сейчас же разработано множество сервисов, результат работы которых поражает.

Послушайте фрагмент речи, к которой подмешан шум улицы:

 

Помимо генерации голоса, ElevenLabs предлагает воспользоваться шумоподавителем:

 

Процесс обработки не занимает много времени, а результат работы действительно впечатляет. Впрочем, стоимость обработки в токенах велика, и на бесплатном тарифе у вас уже не получится обработать несколько длительных дорожек. По примерным подсчетам, на бесплатном тарифе токенов достаточно для обработки полутора часов записи.

Следующий сервис — Auphonic, тоже располагает продвинутым алгоритмом шумоподавления и на бесплатном тарифе позволяет обработать до двух часов записи.

 

Auphonic обладает более расширенным функционалом: с его помощью можно подогнать речь под стандарты громкости, вырезать паузы, понизить громкость вдохов, и отделить музыку от речи. Вам понадобится создать шаблон с теми опциями, которые вам пригодятся – через него будет удобно прогонять записи.

Adobe Podcast Enhance подвергается критике из-за того, что он обучен по англоязычной речи, что приводит к специфичному акценту в обработанных файлах, и результат его агрессивной обработки содержит большое количество артефактов шумоподавления. Послушаем пример обработки:

 

Результат трудно назвать приемлемым: речь не в достаточной мере очищена от шума, а еще в самом начале появился фрагмент голоса, которого не было в оригинале. Но, по моему опыту, сервис от Adobe лучше справляется не с подавлением фонового шума, а с восстановлением качества записей, взятых прямо из приложения для созвонов, например Zoom или Skype.

Такой голос подвергается сжатию алгоритмами с потерей качества, поэтому становится роботизированным, теряет естественность и яркость речи. Podcast Enhance пытается ресинтезировать речь в проблемной записи, то есть не просто убрать шум, а воссоздать потерянную информацию из голоса.

Послушаем запись с артефактами сжатия с потерей качества:

 

И результат работы Podcast Enhance:

 

В голос вернулось немного яркости и читаемости, обработанный файл стал более благозвучным. Бесплатный тариф сервиса позволяет загружать три записи в день, длительностью до 30 минут. Подписка на Creative Cloud расширяет этот лимит и дает возможность настроить силу обработки. Даже без использования платной версии Adobe Podcast Enhance остается ценным средством для восстановления качества речи.

Сайт MVSEP — это огромный агрегатор моделей нейросетей, предназначенных для обработки аудио. При том, что большинство алгоритмов созданы для разделения инструментов в музыкальном треке, в сервисе есть несколько моделей, предназначенных для чистки голосов:

Тип разделения Ultimate Vocal Remover HQ (vocals, music): содержит в себе множество моделей для шумоподавления. Вот результат работы модели UVR-DeNoise:


 

Алгоритм MVSep Demucs4HT DNR (dialog, sfx, music):

 

MVSEP Crowd Removal пытается отделить главный голос от фона толпы:


 

Все эти модели выдают разный результат, и вы можете менять агрессивность обработки. Премиум подписку можно купить в России: токены откроют доступ к обработке без очереди. MVSEP — это неожиданно обширный, быстрый и недорогой сервис, не имеющий аналогов.

Плагины для реставрации аудио

Перечислим несколько VST-плагинов для реставрации аудио, в которых, по заявлениям разработчиков, используются технологии на базе нейросетей. При том, что стоимость программ может оказаться высокой, а интерфейс трудным для освоения, в руках звукорежиссеров эти средства могут выдать гораздо более качественный результат, чем автоматизированная обработка.

Компания Waves представила плагин Clarity: шумоподавитель для речи и вокала. Стандартная версия — это недорогой инструмент для ежедневной работы, а вариант Pro обладает расширенным функционалом: многополосной обработкой и расширенными настройками работы с громкостью шума. Небольшая нагрузка на процессор и высокое качество шумоподавления делают этот плагин хорошим дополнением в арсенале каждого монтажера.

Accentize dxRevive — средство восстановления качества звучания поврежденного голоса. Плагин выполняет работу, похожую на Adobe Podcast Enhance, но значительно качественнее, не внося при этом «языковых» артефактов.

Supertone Clarity: простота освоения интерфейса сочетается с передовыми алгоритмами шумоподавления и избавления от реверберации. Это один из немногих плагинов, способных работать в realtime, оставаясь при это нетребовательным к ресурсам.

RNNoise — это open source решение для шумоподавления. Плагин может вносить странные задержки на всём протяжении записи, но при этом обладает впечатляющим алгоритмом шумоподавления с невысоким потреблением вычислительных мощностей.

Izotope RX — классика в мире реставрации аудио. В 11 версии разработчики обновили модуль для удаления нестатичного фонового шума – Dialogue Isolate.

Написание музыки

В прошлогоднем материале о состоянии AI-технологий в подкастинге я озвучил мнение, что в обозримом будущем вряд ли нейросети научатся генерировать благозвучные музыкальные треки, тем более с убедительным вокалом на разных языках. С появлением таких сервисов как Suno и Udio, это предположение оказалось разбито.

Теперь идея о том что нейросети никогда не смогут заменить профессионального музыканта оказывается несостоятельной, потому что для некоторых ситуаций написать запрос для ИИ оказывается гораздо удобнее, дешевле и быстрее, чем заказать профессиональный джингл.

Результаты генерации от нескольких сервисов:

1. Suno:


 

2. Udio:


 

3. MakeBestMusic:


Разделение музыки и речи

Можно представить себе ситуации, в которых вам понадобится разобрать музыку на инструменты. Например, если вы купили на стоках песню с вокалом, который не вписывается в использование в подкасте. Или хотите собрать из песни джингл, но без разделения на инструменты сделать это затруднительно.

Тот же MVSEP обладает огромным количеством способов разделения, и результат работы лучших из них пугающе хорош.

Модель Ensemble:

Оригинальная песня

Музыкальные инструменты

Голос

Ударные

Инструментал песни без голоса

Бас

Из бесплатных сервисов по качеству работы выделяется vocalremover.org. Условно бесплатные сервисы с качественными алгоритмами: Voice AI, Moises AI, и LALAL AI. Для локального использования могут подойти модуль в Izotope RX и программа UVR 5.

Тренировка локальных моделей

Если у вас компьютер с мощной видеокартой, вы можете воспользоваться программами для использования моделей локально. Например, с помощью Ultimate Vocal Remover 5, можно использовать модели для шумоподавления и разделения треков на инструменты. В арсенале программы множество алгоритмов для разных целей, так что потратив немного времени на изучение, вы сможете выбрать тип разделения, который подойдет именно под вашу ситуацию.

Replay позволяет загружать клонированные другими пользователями голоса и заменять вашу запись на голос других людей и персонажей. Также вы можете обучить голосовую модель уже своему голосу и пользоваться функцией Text To Spech. Точно так же как мы делали с ElevenLabs, только локально.

У меня нет возможности запустить Replay на своем компьютере, поэтому я воспользовался онлайн-сервисом Weights.gg. Отсюда же вы можете скачать голосовые модели, обученные другими пользователями, которые можно будет использовать уже локально в Replay. Вот, например, голос ведущей YaAndArt, замененный на голос Винни Пуха:


 

В самом Replay есть множество настроек обработки аудио, включая саму модель генерации голоса, настройку высоты голоса, шумоподавление для выбранного вами фрагмента аудио, силу воздействия нейросети на вашу запись и многое другое. Хотя программа известна сложностью освоения и обладает определенным числом багов, Replay постоянно обновляется и расширяет функционал.

Заключение

Нейросети — это поражающая воображение технология, за эволюцией которой интересно наблюдать. Учитывая ту скорость, с которой развиваются проекты на основе ИИ, трудно надеяться, что большинство рутинных профессий не будут заменены бесплатными сервисами. Давайте насладимся последними моментами, когда мы можем использовать нейросети для собственной выгоды, перед тем как технологии поработят нас.

Конечно же, это всё шутки, правда? Автоматизированные средства вряд ли смогут превзойти профессионализм и индивидуальный подход опытных исполнителей, а в решение творческих задач требуется вложить неизмеримую «душу», которую вряд ли получится уместить в ряды нулей и единиц.

Главное — при том опасном потенциале, который таят в себе подобные сервисы, хочется пожелать читателям использовать эти инструменты во благо.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Предыдущее интервью
Реставрация аудио: как найти ошибки и отредактировать звук в подкасте
Следующее интервью
Как устроен бизнес подкаст-студий?
Меню
Авторизация
*
*
Регистрация
*
*
*
Генерация пароля

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: