Компания Databricks объявила о выпуске первой языковой модели с открытым исходным кодом, удобной для инструкций, под названием Dolly 2.0. Он был обучен с использованием той же методологии, что и InstructGPT, но с заявленным набором данных более высокого качества, который на 100% является открытым исходным кодом.
Этот шаблон можно использовать бесплатно, в том числе в коммерческих целях, поскольку исходный код каждой части шаблона на 100 % открыт.
Обучение инструкциям с открытым исходным кодом
Что заставляет ChatGPT следовать инструкциям, так это обучение, которое он получает с использованием методов, описанных в Исследовательская работа InstructGPT.
Прорыв, обнаруженный с помощью InstructGPT, заключается в том, что языковым моделям не нужны все большие обучающие наборы.
Используя обучение людей с вопросами и ответами, OpenAI смог обучить лучшую языковую модель, используя в сто раз меньше параметров, чем предыдущая модель, GPT-3.
Databricks использовали аналогичный подход для создания набора данных подсказок и ответов, который они вызывают. Databricks-Dolly-15k.
Их набор данных подсказок/ответов был создан без парсинга веб-форумов или Reddit.
databricks-dolly-15k — это набор данных, созданный сотрудниками Databricks, 15 000 пар 100% оригинальных подсказок и ответов, созданных человеком, предназначенных для обучения языковой модели Dolly 2.0 так же, как модель ChatGPT была создана с помощью InstructGPT.
НАШИ Страница GitHub для набора данных объясните как они это сделали:
«databricks-dolly-15k — это набор данных с открытым исходным кодом записей отслеживания инструкций, используемых в обучении Databricks/Dolly-v2-12b, который был создан тысячами сотрудников Databricks в нескольких поведенческих категориях, описанных в статье InstructGPT, включая мозговой штурм, классификацию, закрытый контроль качества, генерация, извлечение информации, открытый контроль качества и подведение итогов.
… Сотрудникам Databricks было предложено создать пары «запрос/ответ» в каждой из восьми различных категорий инструкций, включая семь, описанных в статье InstructGPT, а также одну открытую категорию в произвольной форме.
Участникам было дано указание избегать использования информации из любого источника в Интернете, кроме Википедии (для определенных подмножеств категорий инструкций), и явно указано избегать использования генеративного ИИ при формулировании инструкций или ответов. Были предоставлены примеры каждого поведения, чтобы мотивировать типы вопросов и инструкций, соответствующих каждой категории.
В середине процесса генерации данных участникам была предоставлена возможность ответить на вопросы, заданные другими участниками. Им было предложено перефразировать первоначальный вопрос и выбрать только те вопросы, на которые от них можно было разумно ожидать правильных ответов.
Databricks утверждает, что это может быть первый в истории созданный человеком набор данных инструкций, созданный для обучения языковой модели следованию инструкциям, во многом подобно ChatGPT.
Задача состояла в том, чтобы создать 100% оригинальный набор данных, который не имел бы связи с ChatGPT или любым другим источником с ограничительной лицензией.
Сотрудники были поощрены посредством конкурса, чтобы помочь сгенерировать 15 000 подсказок/ответов в семи категориях задач, таких как мозговой штурм, классификация и творческое письмо.
Databricks утверждает, что обучающий набор databricks-dolly-15k может превосходить набор данных, используемый для обучения ChatGPT.
Они отмечают, что, хотя их набор данных меньше, чем тот, который использовался для обучения модели Stanford Alpaca, их модель работала лучше, потому что их данные более высокого качества.
Они пишут:
«Модель Dolly 2.0, основанная на pythia-12b от EleutherAI, продемонстрировала высококачественное выполнение инструкций. Оглядываясь назад, это неудивительно.
Многие наборы данных по настройке инструкций, выпущенные в последние месяцы, содержат синтезированные данные, которые часто содержат галлюцинации и фактические ошибки.
databricks-dolly-15k, с другой стороны, профессионально сгенерирован, имеет высокое качество и содержит подробные ответы на большинство задач.
…мы не ожидаем, что Dolly будет самой современной с точки зрения эффективности.
Однако мы ожидаем, что Dolly и набор данных с открытым исходным кодом послужат основой для множества последующих работ, которые могут послужить основой для создания еще более мощных языковых моделей.
Ограничения набора данных
Страница набора данных GitHub признает, что в наборе данных могут быть пробелы.
Данные Википедии использовались для части обучения при создании подсказок и ответов. Таким образом, вполне возможно, что любое предубеждение, содержащееся в Википедии, будет перенесено в результирующий набор данных.
Некоторые из сотрудников, которые работали над созданием набора данных, не были носителями английского языка, что могло внести аномалии в набор данных.
Демографический состав сотрудников, создавших набор данных, может сам по себе влиять на набор данных, чтобы он содержал предубеждения, уникальные для этих сотрудников.
Несмотря на эти возможные пробелы в наборе данных, Databricks заявила, что их данные более высокого качества.
Кроме того, Dolly 2.0 предназначена для того, чтобы служить отправной точкой для создания и усовершенствования еще более совершенных версий.
Databricks настаивает на том, что ИИ с открытым исходным кодом лучше
Одна из причин создания Dolly 2.0 заключается в том, что пользователи данных могут владеть созданными ими моделями и лучше защищать свои данные, не делясь ими с третьими лицами.
Они также считают, что безопасность ИИ должна быть не сосредоточена в руках трех крупных компаний, а распределена между всеми заинтересованными сторонами.
Открытый исходный код набирает обороты, и будет интересно посмотреть, что будет с этой отраслью в ближайшие пару лет.
Более подробную информацию о том, где скачать модель Dolly 2.0 и как ею пользоваться, можно найти в их объявлении.
Free Dolly: представляем первый в мире по-настоящему открытый, удобный для обучения LLM
Избранное изображение Shutterstock/Камиля Макниака