OpenAI, компания, разработавшая программу DALL-E для создания изображений и создания мемов, а также мощный механизм автозаполнения текста GPT-3, запустила новую нейронную сеть с открытым исходным кодом, предназначенную для преобразования звука в письменный текст (с помощью TechCrunch). Это называется Whisper, и компания говорит он «приближается к надежности и точности человеческого уровня при распознавании английской речи», а также может автоматически распознавать, расшифровывать и переводить другие языки, такие как испанский, итальянский и японский.
Как человек, который постоянно записывает и расшифровывает интервью, я сразу же был в восторге от этой новости — я подумал, что смогу написать собственное приложение для безопасной расшифровки аудио прямо с моего компьютера. В то время как облачные сервисы, такие как Otter.ai и Trint, работают для большинства вещей и относительно безопасны, есть лишь некоторые интервью, в которых я или мои источники чувствовали бы себя более комфортно, если бы аудиофайл оставался вне Интернета.
Пользоваться им оказалось даже проще, чем я себе представлял; На моем компьютере уже установлены Python и различные инструменты разработчика, поэтому установить Whisper было так же просто, как запустить одну команду терминала. В течение 15 минут я смог использовать Whisper для расшифровки записанного тестового аудиоклипа. Для кого-то относительно технически подкованного, у которого еще не настроены Python, FFmpeg, Xcode и Homebrew, это, вероятно, займет около часа или двух. Однако уже есть кто-то, кто работает над тем, чтобы сделать этот процесс намного проще и удобнее для пользователя, о чем мы поговорим через секунду.
Пока OpenAI определенно рассматривал этот вариант использования как возможностьсовершенно очевидно, что компания в основном нацелена на исследователей и разработчиков с этим выпуском. В сообщение в блоге, анонсирующее Whisperкоманда заявила, что ее код может «послужить основой для создания полезных приложений и дальнейших исследований надежной обработки речи», и надеется, что «высокая точность и простота использования Whisper позволят разработчикам добавлять голосовые интерфейсы к гораздо более широкому набору Приложения.” Однако такой подход по-прежнему примечателен — компания имеет ограниченный доступ к своим самым популярным проектам машинного обучения, таким как DALL-E или GPT-3. ссылаясь на желание чтобы «узнать больше об использовании в реальных условиях и продолжить работу над нашими системами безопасности».
Есть также тот факт, что для большинства людей установка Whisper не совсем удобна для пользователя. Однако журналист Питер Стерн объединился с адвокатом разработчиков GitHub Кристиной Уоррен. попытаться исправить этообъявив, что они создают «бесплатное, безопасное и простое в использовании приложение для транскрипции для журналистов» на основе модели машинного обучения Whisper. Я разговаривал со Стерном, и он сказал, что решил, что программа, получившая название Stage Whisper, должна существовать после того, как просмотрел через нее несколько интервью и определил, что это «лучшая транскрипция, которую я когда-либо использовал, за исключением расшифровщиков-людей».
Я сравнил транскрипцию, созданную Whisper, с тем, что Otter.ai и Trint предоставили для одного и того же файла, и я бы сказал, что они были относительно сопоставимы. Во всех них было достаточно ошибок, поэтому я никогда не стал бы просто копировать и вставлять цитаты из них в статью, не перепроверив звук (что, конечно, в любом случае является лучшей практикой, независимо от того, какой сервис вы используете). Но версия Whisper абсолютно подошла бы мне; Я могу просмотреть его, чтобы найти нужные мне разделы, а затем просто перепроверить их вручную. Теоретически Stage Whisper должен работать точно так же, поскольку он будет использовать ту же модель, только с обернутым вокруг нее графическим интерфейсом.
Стерн признал, что технологии Apple и Google могут сделать Stage Whisper устаревшим в течение нескольких лет — приложение для записи голоса в Pixel уже много лет может выполнять автономную транскрипцию, и версия этой функции начинает появляться. развертывание на некоторых других устройствах Androidа в Apple встроена автономная диктовка. iOS (хотя в настоящее время нет хорошего способа транскрибировать аудиофайлы с его помощью). — Но мы не можем ждать так долго, — сказал Стерн. «Журналистам вроде нас сегодня нужны хорошие приложения для автотранскрипции». Он надеется получить простую версию приложения на основе Whisper через две недели.
Чтобы было ясно, Whisper, вероятно, не полностью устаревшие облачные сервисы, такие как Otter.ai и Trint, независимо от того, насколько прост в использовании. Во-первых, в модели OpenAI отсутствует одна из важнейших функций традиционных сервисов транскрипции: возможность пометить, кто что сказал. Стерн сказал, что Stage Whisper, вероятно, не будет поддерживать эту функцию: «мы не разрабатываем собственную модель машинного обучения».
Облако — это просто чужой компьютер, что, вероятно, означает, что он немного быстрее
И хотя вы получаете преимущества локальной обработки, вы также получаете и недостатки. Главный из них заключается в том, что ваш ноутбук почти наверняка значительно менее мощный, чем компьютеры, которые использует профессиональная служба транскрипции. Например, я загрузил звук из 24-минутного интервью в Whisper, работающий на моем M1 MacBook Pro; расшифровка всего файла заняла около 52 минут. (Да, я действительно убедился, что он использует версию Python для Apple Silicon, а не для Intel.) Оттер выплюнул стенограмму менее чем за восемь минут.
Однако у технологии OpenAI есть одно большое преимущество — цена. Облачные службы подписки почти наверняка будут стоить вам денег, если вы используете их профессионально (у Otter есть бесплатный уровень, но предстоящие изменения сделают его менее полезным для людей, которые часто расшифровывают вещи), а встроенные функции транскрипции -на такие платформы, как Microsoft Word или Pixel требуют, чтобы вы платили за отдельное программное или аппаратное обеспечение. Stage Whisper — и сам Whisper — бесплатен и может работать на уже имеющемся у вас компьютере.
Опять же, OpenAI возлагает большие надежды на Whisper, чем на основу для приложения для безопасной транскрипции, и я очень взволнован тем, что исследователи в конечном итоге будут делать с ним или что они узнают, глядя на модель машинного обучения, которая была обучена. на «680 000 часов многоязычных и многозадачных контролируемых данных, собранных из Интернета». Но тот факт, что сегодня он также имеет реальное практическое применение, делает его еще более захватывающим.