Хранилище метаданных машинного обучения: что это такое, почему это важно и как его реализовать
Машинное обучение в основном основано на данных, которые включают большое количество необработанных и промежуточных наборов данных. Метаданные простыми словами можно назвать данными о данных. Метаданные ML (MLMD) — это библиотека для записи и извлечения метаданных, связанных с рабочими процессами разработчика ML и специалиста по данным.
Машинное обучение включает в себя большие данные и направлено на создание и развертывание модели в производстве, которая будет использоваться другими для общего блага. Чтобы распознать модель, необходимо получить и проанализировать выходные данные модели ML на разных этапах и наборы данных, используемые для ее создания. Данные об этих данных являются метаданными. При каждом запуске производственного конвейера машинного обучения создаются метаданные, содержащие информацию о различных компонентах конвейера, их выполнении и полученных артефактах. Хранение метаданных поможет переобучить идентичную модель и получить те же результаты. Поскольку через конвейер проходит так много экспериментальных данных, необходимо отделить метаданные каждой экспериментальной модели от входных данных. Поэтому возникает потребность в хранилище метаданных, т. е. в базе данных с метаданными.
Типы метаданных
Данные, используемые для обучения и оценки модели, играют доминирующую роль в сопоставимости и воспроизводимости.
Модель. В процессе обучения вам необходимо отслеживать несколько атрибутов модели.
Шаги предварительной обработки функций. TData редко бывает легко доступна таким образом, чтобы его можно было использовать для обучения. Но эти необработанные данные не всегда передаются модели для обучения. В некоторых случаях важная информация, необходимая для модели, т. е. признаки, извлекается из необработанных данных и становится входными данными модели. Теперь, поскольку мы стремимся к воспроизводимости, мы должны гарантировать согласованность в процессе выбранной функции, и поэтому необходимо сохранить этапы предварительной обработки функции.
Тип модели. Чтобы обновить модель, управляемую данными, сохраните тип используемой модели, такой как AlexNet, YoloV4, Random Forest, SVM и т. д., с их версиями и платформами, такими как PyTorch, Tensorflow и Scikit-learn. Это гарантирует отсутствие двусмысленности в выборе модели при ее воспроизведении.
Гиперпараметры. Модель, управляемая данными ML, обычно имеет функцию потерь или затрат. Чтобы создать надежную и эффективную модель, цель состоит в том, чтобы минимизировать функцию потерь. Веса и смещения модели, в которой минимизируется функция потерь, являются гиперпараметрами, которые необходимо сохранить для воспроизведения созданной ранее систематической модели. Это минимизирует время обработки при поиске правильных гиперпараметров для настройки модели и ускоряет процесс выбора модели.
Метрики. Результаты оценки модели важны для понимания того, насколько хорошо вы построили свою модель. Они помогают выяснить, подходит ли модель к тренировочному набору или выполняет тщательный анализ ошибок.
Контекст. Контекст модели — это информация об окружающей среде эксперимента ML, которая может влиять или не влиять на результат эксперимента, но может быть фактором его изменения. Он включает в себя исходный код, язык программирования, их версии и информацию о хосте, такую как переменные среды, системные пакеты и т. д.
Что такое хранилище метаданных машинного обучения?
«Хранилище» метаданных, связанных с моделью машинного обучения, считается хранилищем метаданных машинного обучения. Это универсальное хранилище всего, что вам нужно знать о создании и развертывании моделей машинного обучения.
Последние мысли
Мы не смеем отрицать важность данных в области машинного обучения. Хранилище метаданных, в котором есть все необходимые данные о данных, несомненно, важно. В соответствии с различными потребностями бизнеса правильное хранилище метаданных может варьироваться от организации к организации. В этом блоге мы получили общее представление о том, почему необходимо хранить метаданные, и о том, какие виды метаданных следует хранить.
Сообщение Почему данные о данных имеют решающее значение в проектах машинного обучения? впервые появился в Analytics Insight.