
GPT-3 превосходит все более ранние модели с точки зрения создания текста, который, кажется, был создан человеком.
GPT-3 — это модель нейросетевого машинного обучения, которая может генерировать текст любого типа из интернет-данных. Он был создан OpenAI, и ему требуется только небольшое количество текста в качестве входных данных для создания огромного количества точного и сложного машинного текста.
Около 175 миллиардов параметров машинного обучения составляют нейронную сеть глубокого обучения, используемую в GPT-3. Чтобы представить ситуацию в перспективе, модель Turing NLG от Microsoft, которая имеет 10 миллиардов параметров, была самой большой изученной языковой моделью до GPT-3. GPT-3 станет самой большой нейронной сетью, когда-либо созданной к началу 2021 года. В результате GPT-3 превосходит все более ранние модели с точки зрения создания текста, который, по-видимому, был создан человеком.
Параметры ГПТ-3
Предиктивный текст может быть создан с использованием модели машинного обучения OpenAI GPT-3 через API. Мы можем использовать несколько моделей из OpenAI, но «text-davinci-002», безусловно, самая мощная.
Двигатель
Модель искусственного интеллекта, генерирующая предсказания, задается параметром двигателя.
Максимальное количество токенов
Максимальное количество токенов, которое может быть создано моделью, указывается параметром «max tokens». Токен можно рассматривать как фрагмент слова.
Температура
Модель генерирует ненормализованные значения, которые еще не были преобразованы в вероятности (логиты). Логиты часто преобразуются в вероятности с помощью такого метода, как softmax.
Однако мы можем использовать основанный на термодинамике подход для масштабирования логитов с параметром температуры перед использованием функции softmax, т. е. softmax (логиты/температура).
Логиты передаются напрямую через функцию softmax, если параметр температуры близок к 1. Модель становится более предсказуемой и всегда будет выводить один и тот же набор токенов после определенной последовательности слов, если температура близка к нулю, что делает токены с наибольшей вероятностью более вероятно, относительно других токенов.
Топ р
Порог выборки времени вывода задается верхним параметром p. Метод выборки потенциальных результатов модели известен как верхняя p-выборка (также известная как ядерная выборка).
Представьте, что модель должна предсказать токен, который придет после фразы «Я хочу есть», чтобы лучше понять эту идею. Для простоты предположим, что токен — это термин и что модель генерирует вероятности, показанные ниже:
- морковь (вероятность 2%),
- огурцы (вероятность 1,5%),
- баклажаны (вероятность 1%),
- шпинат (вероятность 0,5%),
- брокколи (вероятность 0,3%),
- ….
Этот набор слов составляет вероятностное распределение «P (Слово | «Я хочу есть»)», а кумулятивная функция распределения (CDF) выглядит следующим образом:
- 2% с морковью,
- 3,5% с морковью и огурцами,
- 4,5% с морковью, огурцами и баклажанами
- …
Модель будет выбирать и случайным образом выбирать между морковью и огурцами, основываясь на вероятности того, что их верхний p-параметр будет установлен на 3,5 процента. Модель случайным образом выберет слово из списка моркови, огурцов и баклажанов с верхним значением р, равным 4,5 процента.
Верхний параметр p регулирует уникальность и случайность модели, так же как и температура.
Штраф за частоту
Склонность модели к повторению прогнозов контролируется параметром штрафа за частоту. Вероятность уже сгенерированных слов уменьшается за счет штрафа за частоту. В зависимости от того, сколько раз слово уже было в предсказании, будет штраф.
Штраф за присутствие
Модель поощряется к созданию новых прогнозов по параметру штрафа за присутствие. Штраф за присутствие снижает вероятность слова, если оно ранее использовалось в проецируемом тексте. Штраф за присутствие не зависит от того, как часто термины появляются в предыдущих прогнозах, в отличие от штрафа за частоту.
Больше популярных историй
- Метавселенная: все, что вам нужно знать о многомерном аспекте виртуального мира
- Взгляните на 10 лучших единорогов с искусственным интеллектом, которые оставили след в технологической индустрии
- Шесть лучших наборов данных с открытым исходным кодом для компьютерного зрения
- 10 лучших учебных заведений бизнес-аналитики, в которые можно подать заявку
- 10 лучших совместимых с Metaverse устройств, которые можно купить для легкого доступа
- Топ-10 компаний, нанимающих Python-разработчиков-самоучек
- 10 лучших криптовалютных акций, которые можно купить во время Bl
Сообщение Что такое параметры GPT-3? появился сначала на .