Как можно обнаружить предвзятость в текущих алгоритмах ИИ?

Как можно обнаружить предвзятость в текущих алгоритмах ИИ?


Каждый этап процесса ИИ может по-разному привносить предвзятость в алгоритмы.

Хотя предприятия не могут полностью исключить предвзятость из своих данных, они могут значительно свести к минимуму предвзятость, внедрив систему управления и наняв более разнообразную рабочую силу. В нашей человеческой природе быть предвзятым. У каждого из нас есть свои взгляды, интересы, симпатии и антипатии. Поэтому неудивительно, что эти предубеждения могут быть обнаружены в данных.

Предвзятые данные могут привести к искаженным или неверным моделям машинного обучения (ML), если их не проверить. Организации могут лучше понимать своих клиентов, управлять своими ресурсами, оптимизировать процессы и реагировать на текущие изменения рынка с помощью данных. Эти данные важны как никогда, поскольку предприятия все больше и больше используют ИИ и машинное обучение.

Однако данные также могут вносить погрешности в модели машинного обучения, и эти погрешности может быть сложно выявить. Каждый этап процесса ИИ может по-разному влиять на алгоритмы. От усилий по сбору данных до их обработки, анализа и моделирования, каждый этап сопряжен с уникальным набором трудностей и возможностей для непреднамеренного внесения предвзятости в модель машинного обучения, набор обучающих данных или анализ.

Предприятия должны знать о различных искажениях в своих данных, которые могут найти свое отражение в их моделях машинного обучения. Организации могут выявлять и, возможно, устранять некоторые проблемы, вызывающие искаженные, ошибочные или неподходящие результаты для моделей машинного обучения, путем понимания различных типов предвзятости, которые могут присутствовать.

Многие современные предприятия собирают данные как в организованном, так и в неструктурированном формате, в различных форматах и ​​модальностях, включая числовые, графические, текстовые, графические и аудиоданные. Предвзятость может быть привнесена в процесс сбора данных, используемый предприятиями, а также может присутствовать в языке, используемом в каждой из этих многочисленных форм данных. Например, ошибочные входные данные из неправильно маркированного графика могут привести к искаженным результатам модели машинного обучения.

READ  Самые медленные животные в мире 2023 (с картинками): 9 лучших

Сбор данных часто содержит ошибки, из-за которых некоторые группы или категории представлены чрезмерно или недостаточно. Это особенно верно, когда несколько наборов данных объединяются для использования в совокупности. Для небольших наборов данных аномалии могут быть обнаружены, но для больших наборов данных с миллионами или миллиардами точек данных аномалии обнаружить очень сложно.

В результате модели имеют предвзятость, отдавая предпочтение или не благоприятствуя определенным категориям данных. Когда некоторые типы данных чрезмерно представлены в данных или, наоборот, когда другие наборы данных недооценены по сравнению с их фактической распространенностью в реальном сборе данных, может возникнуть систематическая ошибка моделирования.

 

Как определить предвзятость данных?

Даже когда исключаются такие факторы, как пол, цвет кожи, местность и сексуальная ориентация, системы ИИ учатся делать выводы на основе данных обучения, которые могут включать в себя предвзятые решения людей или отражать исторические или социальные дисбалансы.

Компании могут более эффективно выявлять и устранять предвзятость в своих данных, распознавая распространенные предвзятости данных. На всех этапах своего конвейера данных организациям следует рассматривать способы сведения к минимуму вероятности искажения наборов данных.

Поскольку не все данные имеют одинаковое представление фрагментов данных, в процессе сбора данных могут возникать различные возможности систематической ошибки. Некоторые источники могут предлагать недостаточные данные, в то время как другие могут неточно отражать реальный мир или ваш набор данных для моделирования.

Предубеждения также могут возникать во время обработки данных, включая подготовку данных и маркировку данных. Замена устаревших или повторяющихся данных является частью подготовки данных. Компании рискуют непреднамеренно удалить важные данные, даже если это может помочь удалить ненужные данные из обучающих наборов. Анонимизация данных, которая удаляет личную информацию, такую ​​как этническая принадлежность или пол человека, способствует защите конфиденциальности и затрудняет выявление или исправление предвзятости на основе этих переменных.

READ  Руководство по трансляции «Властелина колец»: как смотреть онлайн | Цифровые тренды

Добавление меток к неструктурированным данным позволяет компьютеру интерпретировать и понимать их. Этот метод известен как маркировка данных. Однако маркировка данных зависит как от людей, так и от технологий. Человек, размечающий данные, может добавить к данным предвзятость, если он неправильно пометит изображение или использует свое собственное суждение при переводе или пометке. Организации должны убедиться, что они установили систему сдержек и противовесов, и не полагаться только на одну систему или средство маркировки данных для всех решений по маркировке данных, принимаемых человеком, чтобы уменьшить количество ошибок.

При использовании моделей ИИ могут возникать как ложные срабатывания, так и ложноотрицательные результаты. При проверке того, являются ли данные предвзятыми, очень важно помнить об этих измерениях, особенно когда определенные группы проявляют чрезмерную восприимчивость к ложноположительным или ложноотрицательным результатам. Организации могут повысить точность и точность моделей, экспериментируя с различными методологиями моделирования, различными алгоритмами, используя ансамблевые модели, корректируя гиперпараметры и другие аспекты.

Сообщение Как можно обнаружить предвзятость в текущих алгоритмах ИИ? впервые появился в Analytics Insight.



Source link