Новый искусственный интеллект Google может воспроизвести песню, услышав ее краткий отрывок

Новый искусственный интеллект Google может воспроизвести песню, услышав ее краткий отрывок



Google's-New-AI-Can-Play-a-Song-After-Hearing-a-Krief-Sample-of-it

Новый искусственный интеллект Google, AudioLM, создает звук, соответствующий стилю подсказки, включая сложные звуки.

После нескольких секунд аудиовхода новая система искусственного интеллекта может воспроизводить речь и музыку, которые звучат естественно. Почти не слышно отличий от оригинальной записи, новый искусственный интеллект Google AudioLM создает звук, который соответствует стилю подсказки, включая сложные звуки, такие как фортепианная музыка или разговоры людей. Этот метод может ускорить процесс обучения искусственного интеллекта воспроизведению звука, и однажды его можно будет использовать для автоматического создания музыки для видео.

Обработка естественного языка используется в генерируемых искусственным интеллектом голосах домашних помощников, таких как Alexa, которые широко используются. Хотя ранее с помощью музыкальных систем ИИ, таких как Jukebox от OpenAI, были достигнуты удивительные достижения, большинство используемых в настоящее время методов требуют, чтобы люди создавали транскрипции и маркировали текстовые обучающие наборы, что требует много времени и усилий. Jukebox, например, генерирует тексты песен, используя текстовую информацию.

О нетранскрипционной, не содержащей меток системе AudioLM недавно сообщалось в нерецензируемой публикации. Вместо этого звуковые базы данных вводятся в компьютер, и машинное обучение используется для сжатия аудиофайлов в короткие звуковые клипы, называемые «токенами», без существенного ущерба качеству исходного звука. Модель машинного обучения, которая использует НЛП для изучения звуковых паттернов, затем получает этот токенизированный обучающий набор.

AudioLM дается несколько секунд звука для создания звука, а затем он предсказывает, что произойдет дальше. Этот метод сравним с тем, как языковые модели вроде GPT-3 предвосхищают нормальный порядок предложений и слов.

Звуковые сэмплы команды звучат довольно естественно. Фортепианная музыка была создана с помощью AudioLM, в отличие от фортепианной музыки, созданной с помощью предыдущих подходов ИИ, которая имеет тенденцию звучать хаотично, звучит более плавно.

READ  Презентация трендов трафика 2023: Что OZON добавит вашей компании? - 6 марта 2023 г. | Цифровые события

По словам Роджера Данненберга из Университета Карнеги-Меллона, изучающего компьютерную музыку, AudioLM уже имеет гораздо лучшее качество звука, чем более раннее программное обеспечение для создания музыки. Он утверждает, что AudioLM удивительно эффективно воссоздает некоторые повторяющиеся ритмы музыки, созданной людьми.

Тонкие вибрации каждой ноты при ударе по клавишам фортепиано должны быть зафиксированы AudioLM в мельчайших деталях, чтобы воспроизвести аутентичную фортепианную музыку. Музыка должна быть в состоянии сохранять свои гармонии и ритмы во времени.

AudioLM предназначен не только для музыки. Система также может воспроизводить речь, сохраняющую акцент и темп исходного говорящего, поскольку она была построена на библиотеке записей человеческих высказываний, однако на этом этапе предложения могут по-прежнему выглядеть нелогично. AudioLM обучен распознавать типы звуковых клипов, которые часто встречаются вместе, а затем обращает этот процесс для создания предложений. Еще одним преимуществом является возможность выучить пробелы и восклицания, которые естественны в разговорной речи, но трудно передать в тексте.

Исследователь Рупал Патель из Северо-восточного университета изучает информацию и науку о речи. Она утверждает, что в более ранней генерации звука с использованием ИИ нюансы можно было уловить только в том случае, если они были явно отмечены в обучающих данных. Напротив, AudioLM автоматически выбирает определенные черты из предоставленных данных, что усиливает ощущение реализма.

В будущем музыку, созданную искусственным интеллектом, можно будет использовать для создания более правдоподобных саундтреков к слайд-шоу и фильмам. Группа стремится создавать более сложные звуки, такие как группа с несколькими инструментами или шумы, напоминающие запись тропического леса.

Патель утверждает, что необходимо учитывать этические последствия технологии. Крайне важно выяснить, получат ли музыканты, которые создают клипы, используемые в качестве обучающих данных, кредит или гонорары от готового продукта, поскольку это проблема, которая возникла с ИИ преобразования текста в изображение. Неразличимая речь искусственного интеллекта (ИИ) со временем может стать настолько убедительной, что упростит передачу ложной информации.

READ  Получите две умные лампочки Alexa и Google Assistant за 5 долларов сегодня | Цифровые тренды

Исследователи заявляют в отчете, что они уже думают об этих проблемах и пытаются решить их, например, путем создания методов различения звуков, созданных естественным путем, и звуков, созданных с помощью AudioLM.

Пост «Новый искусственный интеллект Google может воспроизвести песню, услышав ее краткий отрывок» впервые появился в Analytics Insight.



Source link