Нейросети воруют голоса: как российские дикторы борются с синтезом речи

08.08.2023

Компании всё чаще приобретают нужные тембры на стоках без ведома авторов

Нейросети достигли высокого уровня в генерировании не только изображений и текста, но и звука: голосами знаменитостей исполняют разные песни, а синтез голоса для колл-центров и вовсе никого не удивляет. Однако чем совершеннее становятся технологии, тем больше это беспокоит некоторых дикторов и актёров дубляжа. Так, актёр Пол Эйдинг, озвучивавший персонажей из игр Fallout и Metal Gear Solid, обнаружил свой голос в озвучке видео, согласие на которую он не давал. Стоит ли российским артистам беспокоиться, что их работу заберёт ИИ, разбирался Sostav.

Что копирует искусственный интеллект

Для генерации правдоподобного голоса сегодня используются диффузионные нейронные сети, сказал генеральный директор Agenda Media Group Алексей Парфун. У каждой из их разновидностей есть плюсы и минусы. Работают они по принципу преобразования одного голоса в целевой голос, и для этого процесса нужен человек.

Алексей Парфун, генеральный директор Agenda Media Group:

«Обучение искусственного интеллекта определенному голосу не является сложной задачей, но требует определенной технической компетенции. Для этого необходимо собрать или записать качественный аудиоматериал с целевым голосом продолжительностью примерно от 30 до 60 минут. Затем проводится обработка аудиоматериала для устранения шумов и других артефактов, которые могут присутствовать в записи, и эти данные подаются на обучение нейронной сети. Время обучения модели может варьироваться в зависимости от конкретного голоса. В целом, за один-два дня можно получить неплохую модель, способную изменить голос одного человека на целевой».

Технологией могут воспользоваться не только специализированные студии. Так, пользователь YouTube Кирилл с ником Baron Ungern синтезировал голос солиста группы «Король и Шут» Михаила Горшенева. В результате тембром Горшка нейросеть перепела песни группы «Кино» и саундтрек из сериала «Ведьмак». Автор сообщил изданию «Палач», что сам обучал компьютерную модель.

По такому же принципу на вокальную партию переложили голос Винни-Пуха — он перепел песню Toxicity группы System of a Down.

Подобных роликов на просторах интернета множество. По мнению Ивана Жаркова, актёра дубляжа фильмов и игр (озвучивал Тора в «Мстителях Marvel», Криса Хемсворта, персонажей игр «Ведьмак 3: Дикая Охота», Far Cry 5,и Dota 2), в России нейросети используются исключительно в развлекательных целях и очень редко в закадровом озвучивании.

Иван Жарков, актёр дубляжа:

«Нейросети никогда не смогут достоверно сыграть так, как это может сделать профессиональный актер. Все равно слышно машину. В России уже были факты нарушения контрактов на использование голоса нейросетью. Одна актриса записала свой голос сугубо для внутреннего пользования в организации и очень удивилась, услышав его в рекламных роликах непристойного содержания. Ожидается иск.

Зачастую работу актеров для синтеза речи просто сливают в сеть, и теперь в интернете огромное количество роликов, озвученных нейросетью с использованием голосов актеров дубляжа. Лишились ли актёры из-за этого потенциальной прибыли? Я сомневаюсь. Ибо не уверен, что они согласились бы озвучивать материал с таким вульгарным содержанием».

Беспокоиться в первую очередь стоит дикторам, поскольку их голос проще всего сгенерировать нейросетью, считает основатель студии «Кубик в кубе» Руслан Габидуллин. В дикторской озвучке нет такого разнообразия эмоций, как в актёрской. Уже сейчас ИИ довольно хорошо представлен в закадровом озвучивании, например, в документальных передачах, где нужна ровная начитка без интонирования и эмоций, рассказывает актриса дубляжа Татьяна Шитова (озвучивает голосовой помощник «Алису», Скарлетт Йоханссон, Марго Робби, Кэмерон Диас и других).

Союз дикторов бьёт тревогу

В январе 2023 года дикторы обратились в Госдуму с письмом, в котором просили урегулировать синтез человеческого голоса с помощью ИИ. Они опасались кражи голосов и падения доходов. Проблема генеративных ИИ, особенно в контексте синтеза голоса, вызывает обеспокоенность на рынке достаточно давно, рассказывает Парфун. Однако эта проблема может быть слегка преувеличена, так как искусственный интеллект хоть и способен создавать правдоподобные голоса, но не может генерировать по-настоящему уникальные. Это всего лишь инструмент для создания звуковых записей, считает эксперт.

Однако по словам председателя правления Союза дикторов Александра Лапшина, уже был прецедент, когда записанный много лет назад голос одного из артистов синтезировали и начали использовать без его ведома.

Александр Лапшин, председатель правления Союза дикторов:

«В те времена, когда записывали голос нашего коллеги, про синтез мало кто и думал. Но в новых реалиях его голос стали использовать на разных площадках. Причём услугами этих площадок воспользовались достаточно известные медийные компании. Я сейчас не называю ни фамилий, ни эти компании, потому что мы пытаемся решить вопрос мирным путём, чтобы ему выплатили компенсацию. Если этого не получится, тогда уже дело дойдёт до суда, и будет первый прецедент в этой сфере».

Юрист Тамара Богданова сейчас ведёт несколько подобных дел. Суть везде одна: диктор записал около 40−60 минут разного текста в различных стилях (деловой, флирт и так далее) для создания голосового помощника. Спустя какое-то время его перестали брать на новые проекты, от других заказчиков стали поступать отказы. Ссылаются на следующие причины:

образцы голоса имеются в свободном доступе в ботах по синтезу (у заказчика пропадает смысл платить диктору, раз его голосом можно за копейки озвучить что угодно);
голос стал слишком известен;
записи с голосами дикторов используются на порнографических сайтах и в роликах, дискредитирующих вооружённые силы РФ.

Бывают ситуации, когда дикторов обманом пытаются записать для дальнейшего использования в синтезе, рассказывает Лапшин. В таких случаях о дальнейших планах просто не сообщают, а затем ссылаются в договоре на пункт «права на переработку». Хотя фактически переработка может быть только в рамках одного произведения: обрезать или удалять лишние слова, менять их местами, поясняет Богданова. Создание нового уже не допускается.

Сложность при защите авторских прав также часто заключается в том, что укравшие голос компании уверяют: это не синтез голоса, а пародия. В таких случаях компании немного видоизменяют голос, добавляя металлические нотки и меняя тембр. Делать пародии законом не запрещается, однако пародия — это комическое или сатирическое подражание, поэтому в случае кражи голосов признавать ситуацию пародией нельзя, считает Богданова.

Некоторых дикторов уговаривают использовать синтез голоса за хороший гонорар, рассказывает Лапшин. Однако после единичной оцифровки голос может настолько распространиться в интернете, что он будет никому не интересен.

Опасаться такого развития событий не стоит, если всё четко прописано в договоре, рассуждает Габидуллин. Актёр уже три года сотрудничает с компанией Vera Voice, которая занимается синтезом голосов знаменитостей на русском языке. При этом нужно соглашаться не на единичный гонорар, а за процент с каждого использования голоса. Тогда за счёт технологий ИИ можно получать хороший доход.

Новый законопроект

Подобные ситуации должны регулироваться на законодательном уровне, считает Лапшин. Союз дикторов начал обращаться в различные министерства ещё три года назад, однако получал отказы, в которых ссылались на действующий закон об авторском праве. Январское обращение в Госдуму хоть и получило огласку в СМИ, но официального ответа в установленные законом сроки дикторы не получили.

Член комитета Госдумы по информполитике, координатор федерального партпроекта «Цифровая Россия» Антон Немкин сообщал о разработке законопроекта по регулированию ИИ в своём Telegram-канале. Депутат писал, что сегодня в России практически отсутствует чётко закрепленный правовой статус созданных нейросетями произведений. Новые поправки в первую очередь будут нацелены на то, чтобы актуализировать существующие нормы и определить ответственность за применение ИИ в преступных целях. Также Немкин предлагал маркировать контент от нейросетей.

По словам Лапшина, дикторов также следует подключить к разработке законопроекта.

Александр Лапшин, председатель правления Союза дикторов:

«Одной из наших просьб было подключить Союз дикторов на какие-то общие слушания, где мы можем подсказать, что и как. Потому что есть такие тонкости, которые без участия дикторов и актёров дубляжа будут непонятны. И мы просто знаем, что если примут какой-то закон без тех, кто разбирается в сфере, потом придётся вносить в него много правок, либо ещё очень долго ждать».

Этот вопрос, а также подробности законопроекта, Sostav пытался прояснить в пресс-службе Немкина, однако дать комментарий нам отказались.

Сейчас Союз дикторов готовит новое обращение в администрацию президента. При этом дикторы не выступают против технологий, уточняет Лапшин. В использовании ИИ при синтезе голоса есть свои плюсы: происходит очистка рынка от непрофессионалов, которые работают нелегально и занижают стоимость — их легко заменяют нейросети. Однако развитие технологий искусственного интеллекта в будущем вызывает большие вопросы. По словам Юрия Симонова, эксперта технологической практики «Технологий Доверия», уже сейчас у ИИ наблюдается постоянно расширяющийся набор «органов чувств», что впоследствии поможет заменить людей.

Что написано пером, то прочитает нейросеть

Одним из самых популярных направлений использования ИИ для синтеза звука — озвучка книг. Книжный сервис «Строки» (принадлежит МТС) заявлял, что планирует в 2023 году озвучить свыше 10 тыс. произведений при помощи ИИ. В январе в работе находились порядка 600 романов, повестей и рассказов. Однако поделиться своим опытом использования нейросетей в компании отказались.

Озвучка книг с помощью искусственного интеллекта сегодня используется почти всеми игроками книжного рынка в России и в мире, рассказывает Евгений Селиванов, директор по развитию собственного контента группы компаний «ЛитРес». Это позволяет преодолеть главный сдерживающий фактор развития рынка аудиокниг: низкий процент озвученных произведений. Обеспечить такие объёмы аудиоконтента, которые необходимы книжному рынку сегодня, только силами чтецов в короткие сроки не получится, но с помощью синтеза речи это вполне решаемо.

Евгений Селиванов, директор по развитию собственного контента группы компаний «ЛитРес»:

«Главная практическая задача, которую «ЛитРес» решает с помощью ИИ-озвучки, — существенно сократить разницу во времени по представлению аудиоверсии книги после ее релиза в текстовом виде. У пользователя в целом есть интерес к конкретной книге, и в определенной ситуации ему удобнее ее послушать, нежели прочитать. Таким образом, аудитория выбирает саму книгу и формат, а не конкретную озвучку. Книги, уже озвученные живыми чтецами, не дублируются ИИ».

Синтез речи вряд ли заменит другие варианты озвучки, считает Селиванов, но дополнит их и позволит значительно ускорить проникновение аудиоформата среди пользователей.

Восприятие синтезированного голоса на слух полностью зависит от качества: обычно генерация без дополнительной обработки придает несколько роботизированный голос, рассказывает Симонов. Однако лучшие решения используют не одну сеть, а две, которые по-разному обучаются на фрагментах речи: одна отвечает за генерацию, а другая делает голос приятным на слух.

Пока что дикторы и актёры дубляжа не наблюдают сокращения рабочих мест из-за ИИ: всё-таки качественный синтез голоса — достаточно дорогостоящая технология, и с живыми людьми проще договориться и объяснить задачу. Однако вопрос регулирования ИИ на законодательном уровне остаётся актуальным.

Источник: sostav.ru