Исследователи ИИ изучают «новые» возможности огромных языковых моделей. Это исследование проясняет взаимосвязь между масштабом больших языковых моделей и их «появляющимися» возможностями.
Большие языковые модели (LLM) находятся в центре внимания и шумихи из-за их волшебных способностей создавать длинные отрывки связного текста, выполнять задачи, для которых они не были обучены, и обсуждать (в некоторой степени) темы, которые ранее считались неуместными. для компьютеров.
Но еще многое предстоит понять о том, как LLM функционируют и не функционируют. Исследователи из Google, Стэнфордского университета, DeepMind и Университета Северной Каролины в Чапел-Хилл только что опубликовали исследование, в котором рассматриваются новые задачи, которые могут выполнять LLM по мере расширения и накопления большего количества обучающих данных. Большие языковые модели представляют собой особенно увлекательный пример, поскольку они демонстрируют чрезвычайно разные черты, связанные с эмерджентностью. LLM — это очень большие нейронные сети-трансформеры, которые были обучены сотням терабайт входного текста и часто охватывают сотни миллиардов параметров. Их можно использовать для самых разных целей, включая создание текста, ответы на вопросы, обобщение информации и многое другое.
Способность LLM к обучению с небольшими и нулевыми шагами или способность выполнять действия, которые не были включены в их учебные примеры, является одной из его интригующих характеристик. С выпуском OpenAI GPT-3 в 2020 году малое обучение в LLM вызвало значительный интерес, и с тех пор его масштабы и границы были тщательно исследованы.
Вдохновленный работой Андерсона, Джейкоб Стейнхардт, профессор Калифорнийского университета в Беркли, определил эмерджентность как «когда количественные изменения в системе приводят к качественным изменениям в поведении». Чтобы быть более конкретным, Риши Боммасани, доктор философии. Кандидат в Стэнфордский университет и соавтор статьи объяснил, что возникающие навыки — это те, которые «не присутствуют в более мелких моделях, но присутствуют в более крупных моделях. Это отличает эмерджентные навыки от способностей, которые плавно растут с масштабом: значительно труднее предсказать, когда возникнут эмерджентные способности». Исследователи искали фазовые переходы, когда производительность модели почти случайна ниже определенного порога размера и значительно выше случайности выше этого порога, чтобы найти новые таланты в моделях больших языков.
Размер модели (количество параметров), вычисление (FLOPs) и размер данных — вот некоторые примеры метрик масштаба. Анализ исследователей сосредоточен на вычислениях и размере модели, но они подчеркивают, что ни один прокси не может полностью отразить все аспекты масштаба. Исследование проясняет взаимосвязь между «эмерджентными» навыками больших языковых моделей и их величиной.
В своем исследовании исследователи оценили несколько известных семейств LLM, включая LaMDA, GPT-3, Gopher, Chinchilla и PaLM. Они также использовали тесты TruthfulQA, Massive Multi-task Language Understanding (MMLU) и Word in Context (WiC), которые предназначены для проверки пределов LLM в решении сложных языковых задач. Они выбрали несколько задач из BIG-Bench, краудсорсингового эталона из более чем 200 задач, «которые, как считается, выходят за рамки возможностей текущих языковых моделей». Кроме того, исследователи сделали все возможное, чтобы протестировать LLM на многоэтапных вычислениях, многоэтапных рассуждениях и следовании многоэтапным инструкциям. По словам Боммасани, с хорошо известными в настоящее время подсказками / обучением в контексте, GPT-3 известен тем, что ввел действительно отличительную начальную волну возникающих способностей в LLM. Самые большие модели (т. е. модель 175B) могут достаточно хорошо справляться с некоторыми задачами, потому что здесь задача может быть дана на естественном языке с описанием и, возможно, пятью или около того примерами структуры ввода-вывода работы. Другими словами, вы можете указать задачу, не используя методы тонкой настройки или градиента, и вам потребуется значительно меньше данных, специфичных для задачи.
Результаты исследования демонстрируют сильную корреляцию между масштабом и созданием новых навыков. Каждое семейство LLM, которое поставляется в различных размерах, работает случайным образом или менее случайным образом на заданиях, которые меньше указанного порога.
Пост-Эмерджентные способности LLM. Определите, как они развиваются с течением времени: исследование впервые появилось в Analytics Insight.