Meta* выпустила нейросеть, создающую музыку по тексту

04.08.2023

Она основана на базе трёх ИИ-моделей и обучена на 20 тыс. треков

Meta* (признана экстремистской и террористической организацией в России) представила нейросеть AudioCraft. С её помощью можно генерировать музыку по текстовому описанию, а также работать с уже созданной музыкой, указано в блоге компании.

Нейросеть состоит из трёх моделей: MusicGen, AudioGen и EnCodec. MusicGen обучалась 20 тыс. часов на лицензированной музыке. Эта модель создает звуки по тестовому описанию. AudioGen обучена на общедоступных звуковых эффектах и также генерирует звук по текстовым запросам. EnCodec обрабатывает звуки.

Журналисты The Verge послушали сгенерированную ИИ музыку. Они отметили, что сирена, гудки и свис похожи на настоящие, а звук гитары кажется очень искусственным. AudioCraft обладает открытым исходным кодом, поэтому разработчики могут сами обучать её. Он доступен на GitHub.

В компании также отметили, что наборы данных, используемых для обучения ИИ-моделей, не отличаются разнообразием. В частности, большая часть музыки представлена на английском языке.

«Мы считаем, что MusicGen может стать новым типом инструмента — так же, как синтезаторы, когда они только появились. Поделившись кодом для AudioCraft, мы надеемся, что другим исследователям будет легче тестировать новые подходы к ограничению или устранению потенциальной предвзятости и неправильного использования генеративных моделей», — указано в блоге Meta.

Ранее компания готовила к запуску коммерческую версию нейросети LLaMA. Покупая её новую версию, компании смогут разрабатывать с её помощью программное обеспечение, а Meta сможет конкурировать с создателем популярного чат-бота ChatGPT OpenAI и Google, которая в 2023 году представила чат-бота Bard.

Источник: sostav.ru