Whisper от OpenAI — это новая модель машинного обучения с открытым исходным кодом, предназначенная для многоязычного автоматического распознавания речи.
Whisper от OpenAI может достичь надежности и точности на уровне человека в ASR, используя только готовый преобразователь, обученный на 680 000 часов слабо контролируемых многоязычных аудиоданных. Все без необходимости тонкой настройки. Модель имеет открытый исходный код, и несколько размеров веса доступны для общественности. Преобразователь представляет собой типичную модель кодера-декодера. Во-первых, аудиозаписи из различных задач распознавания речи преобразуются в спектрограммы log-Mel, которые представляют собой аудиопредставления в частотно-амплитудной области с частотами, записанными в Mels, логарифмической шкале, предназначенной для воспроизведения человеческого восприятия высоты тона. После этого для уменьшения размерности спектрограмм используется одномерная свертка с использованием GELU.
Чтобы обеспечить одинаковое масштабирование различных функций и улучшить однородность ландшафта потерь, входные данные всегда стандартизированы до 0 среднего и единичной дисперсии. В то время как GELU отбрасывает стохастически, увеличивая вероятность удаления ввода при отбрасывании x, ReLU выполняет отсев x0. Входные данные позиционно кодируются и передаются через стек кодировщика преобразователя, а созданное представление затем используется для обработки авторегрессионного декодера. Начало и конец задачи, тип задачи, включена ли речь во входные данные или нет, информация о временной метке и другие детали указываются уникальными маркерами в начале процесса декодирования.
Авторы используют множество стратегий для предотвращения зацикливания повторений, в то время как жадное декодирование используется для выборки выходных данных, например, начиная с температуры 0 и постепенно увеличивая ее, если энтропия сгенерированных токенов слишком низкая (кто-то должен рассказать им о типичной выборке).
Авторы решили собрать любые данные ASR, которые они могли найти, сосредоточившись на методах предварительной обработки данных, потому что трудно найти проверенные человеком, контролируемые данные распознавания речи и перевода. К ним относятся эвристики для обнаружения и исключения переводов, произведенных машинами, таких как отсутствие пунктуации или использование всех заглавных букв. Чтобы обеспечить соответствие между стенограммой и аудиоязыком, исследователи также использовали детектор языка. Чтобы определить и вручную просмотреть точки данных с высокой частотой ошибок и исключить потенциальные выбросы, они сначала обучили модель на данных. Набор данных был на два порядка больше, чем ранее контролируемые наборы данных ASR, в общей сложности 680 000 часов. Веса и код модели были опубликованы, однако этот набор данных не был опубликован.
Авторы критикуют показатель частоты ошибок в словах (WER), который наказывает за любое несоответствие между выходными данными модели и земной истиной. Нас интересуют семантические изъяны, а не все эти стилистические различия. Чтобы стандартизировать использование слов и, таким образом, уменьшить WER, авторы создали несколько словарей. Эффективная надежность — еще один параметр, используемый для оценки производительности модели. Эффективная надежность — это надежность по сравнению с другой моделью, а надежность оценивает, насколько хорошо модель обобщает наборы данных вне распространения. Если сравнить Whisper и wav2vec, мы обнаружим, что Whisper обладает более высокой эффективной надежностью и в среднем совершает на 55 % меньше ошибок.
Согласно принципам масштабирования авторов, WER уменьшается вдвое при каждом 16-кратном увеличении обучающих данных. Мы должны ожидать сверхчеловеческой производительности для ASR в моделях следующего поколения, если это так. Неиндоевропейские языки обычно работают хуже, при этом валлийский (CY) также является исключением, несмотря на то, что он якобы был обучен на 9000 часов данных перевода. Однако эта тенденция распространяется не на все языки. По мере того как WER приближается к уровню SR человека, масштабирование параметров модели приводит к уменьшению отдачи.
Переводчик речи Whisper от OpenAI использует массу данных и методов декодирования для достижения перевода и распознавания речи на уровне человека. Вопрос о том, превзойдут ли будущие алгоритмы ASR человека в ближайшие несколько лет, еще предстоит ответить.
Сообщение «Автоматическое распознавание речи стало проще благодаря OpenAI Whisper» впервые появилось в Analytics Insight.