Подход, ориентированный на данные, требует большего внимания к инструментам качества данных для работы с зашумленными данными.
Одна общая вещь каждый машинное обучение или же искусственный интеллект Проекту всегда не хватает данных адекватного качества — данных, которые являются последовательными, точными и актуальными. Приступайте к разработке новой модели машинного обучения, сами источники ввода и наборы данных становятся препятствиями. Комплексная производительность У вас есть модель зависит от изменчивости наборов данных, которые, по иронии судьбы, недоступны в цифровом мире, управляемом данными. Если винить в этом политики конфиденциальности, которые препятствуют сбору данных, или недостатки в разработке модели, принятие структурного дизайна, неэффективного для использования всех доступных данных, в конечном итоге страдает модель. Как говорит известный тренер и разработчик ИИ Эндрю Нг: «Данные — это пища для искусственный интеллект», что означает важность перехода от подхода, ориентированного на модель, к подходу, ориентированному на данные, можно добиться максимальной производительности модели ML, улучшив качество данных.
Что такое датацентрический подход?
Этот подход включает в себя изменение качества наборов данных, чтобы сделать их подходящими для обучения модели машинного обучения. Вместо того, чтобы заниматься сбором данных, больше внимания уделяется инструментам качества данных для работы с зашумленными данными. Когда вы спрашиваете, почему зашумленные данные являются здесь таким мешающим фактором, мы должны помнить, что алгоритмы модели ML обучены принимать решения, не зная, как их принимать, просто идентифицируя шаблон из данных, на которых он обучен. Как и ожидалось, самый мудрый из когда-либо обученных алгоритмов использовал самые большие наборы данных, которые включали человеческие решения и транзакции. Однако, если бы можно было обучить только дополнительному параметру, называемому контекстом, подхода, основанного на данных, было бы достаточно для ИИ-инжиниринг. «Мы могли бы обучить языковую модель для Gboard — предиктивной клавиатуры смартфонов Android — скажем, на данных Википедии, но это было бы ужасно, потому что люди не печатают текстовые сообщения так же, как пишут статьи в Википедии», — говорит Брендан МакМахан, старший исследователь Google AI, подразделения искусственного интеллекта компании.
Почему MLoP недостаточно?
Если мы внимательно посмотрим на цикл машинного обучения, то сможем понять, почему большинство проектов машинного обучения не проходят финальную стадию. Обычно цикл машинного обучения состоит из трех этапов: сбор данных, обучение модели и развертывание модели, где анализ результатов обучения и развертывания может привести к еще одному циклу сбора данных и обучения модели. Стратегия по существу включает в себя внесение исправлений путем изучения тестовых данных, что, по-видимому, не даст результатов для неподготовленных обстоятельств, что противоречит цели надежности модели. Помимо этого, сложность стандартизации рабочего процесса и масштабирования моделей ИИ остается еще одной областью, а подход, ориентированный на код, печально известен своей жесткостью для предстоящих обновлений.
Демократический ИИ на своих крыльях:
Хотя мы так гордимся новизной моделей ИИ, факт остается фактом: для многих компаний они все еще недоступны. Причин много, из которых ответственность моделей ИИ за выполнение целей модели остается основной. Надежность и подотчетность можно ожидать от модели только тогда, когда в модель подаются правильные данные, и это является частью демократизации управления данными и, таким образом, демократизации ИИ. Но отсутствие качественных данных — это постоянная проблема моделирования и распространения ИИ, которую может в значительной степени решить подход, ориентированный на данные. Поэтому важно выйти из модели черного ящика, разработав систему с данными, которые требуются модели для более широкого применения.
Дата-центрические практики для развития ИИ-инжиниринга! Демократизация ИИ в пределах досягаемости? появился сначала на .