Понимание проблем классификации и несбалансированных данных и методов их обработки
Проблемы классификации довольно обычны в мире машинного обучения. Потратив немного времени на машинное обучение и науку о данных, можно столкнуться с несбалансированным распределением классов данных. Это схема, в которой количество наблюдений, принадлежащих одному классу, значительно меньше, чем количество наблюдений, принадлежащих другим классам.
Несбалансированные данные указывают на конкретные типы наборов данных, где целевой класс имеет неравное представление классов, т. е. одна метка класса имеет очень огромное количество наблюдений, а другая имеет очень удручающее количество наблюдений. Это может быть лучше интерпретировано на примере. Предположим, что есть банк с именем XYZ, который выдает кредитные карты своим клиентам. Теперь банк обеспокоен тем, что какие-то мошеннические транзакции продолжаются, и после анализа данных они узнали, что на каждые 2000 транзакций фиксируется только 30 номеров мошенничества. Таким образом, рассчитанное количество мошенничеств на 100 транзакций составляет менее 2% или можно предположить, что более 98% транзакций по своей природе являются «Без мошенничества». Здесь класс «Без мошенничества» помечен как класс большинства, а класс «Мошенничество» гораздо меньшего размера называется классом меньшинства.
Несбалансированные наборы данных являются основной и доминирующей проблемой этого реального мира, где обнаружение странностей может иметь решающее значение, например, хищение электроэнергии, мошеннические транзакции в банках, выявление редких заболеваний, прогнозирование оттока клиентов, стихийные бедствия и т. д. В этом сценарии разработана упреждающая модель. использование обычных алгоритмов машинного обучения может содержать вероятность неточности. Это связано с тем, что алгоритмы машинного обучения, как правило, предназначены для повышения точности за счет сокращения ошибки. Таким образом, это не принимает во внимание распределение / пропорцию классов или баланс классов. Иметь дело с несбалансированным классом проблем классификации вполне нормально. Но если рассматривать какие-то частные случаи, то этот дисбаланс проявляется довольно резко, когда присутствие класса большинства намного выше, чем класса меньшинства.
Осложнение с Несбалансированные данные Классификация
Основная сложность с несбалансированным набором данных в прогнозировании науки о данных заключается в том, насколько точно мы предсказываем как классы большинства, так и классы меньшинства. Возьмем пример диагностики заболеваний. Предположим, что кто-то собирается предсказать заболевание на основе существующего набора данных, где на каждые 100 записей только у 5 пациентов диагностируется заболевание. Таким образом, основной класс составляет 95 % без заболеваний, а минусовой класс — только 5 % с заболеванием. Затем предположим, что модель предсказывает, что все 100 из 100 пациентов не болеют. Таким образом, традиционный подход к классификации и расчету точности модели оказывается бесполезным в случае несбалансированных наборов данных.
Подход к решению проблемы несбалансированного набора данных
В ограниченных случаях, таких как обнаружение мошенничества или прогнозирование заболеваний, очень важно точно распознавать классы меньшинств. Таким образом, модель не должна предвзято относиться только к классу большинства, но классу меньшинства следует придавать равный вес или важность. Вот некоторые из немногих предложенных методов, которые обсуждались и которые могут решить эту проблему. В этом нет порочного метода или неточного метода, разные техники хорошо работают с разными проблемами.
Техника повторной выборки: В этом методе мы сосредоточились на балансировке классов в обучении науке о данных (предварительной обработке данных) перед подачей данных в качестве входных данных для алгоритма машинного обучения. Основная цель уравновешивания классов состоит в том, чтобы либо увеличить частоту появления класса меньшинства, либо уменьшить частоту появления класса большинства. Это выполняется для получения примерно одинакового числа экземпляров для обоих классов. Ниже приведены несколько методов повторной выборки:
Случайная недостаточная выборка – Случайная недостаточная выборка пытается сбалансировать распределение классов путем случайного удаления примеров большинства классов. Это делается до тех пор, пока экземпляры класса большинства и меньшинства не будут сбалансированы.
Случайная передискретизация– Избыточная выборка увеличивает количество экземпляров в классе меньшинства путем их случайной репликации, чтобы обеспечить более высокое представление класса меньшинства в выборке.
Кластерная избыточная выборка– В этом примере алгоритм кластеризации K-средних независимо применяется к экземплярам класса меньшинства и большинства. То есть для идентификации кластеров в наборе данных.
Методы алгоритмического ансамбля
В приведенном выше разделе рассматривается обработка несбалансированных данных путем повторной выборки исходных данных для обеспечения сбалансированных классов. Его функция в методологии ансамбля заключается в повышении производительности отдельных классификаторов. Подход включает построение нескольких двухэтапных классификаторов из первичных данных, а затем агрегирование их прогнозов. Ниже приведены несколько примеров использования этой техники.
Методы на основе мешков для несбалансированных данных— Бэггинг — это аббревиатура от Bootstrap Aggregating. Этот алгоритм включает в себя создание n разных обучающих выборок начальной загрузки с заменой. И обучение алгоритма для каждого загруженного алгоритма отдельно, а затем агрегирование прогнозов в конце. Бэггинг применяется для уменьшения переоснащения, чтобы создать сильных учеников для создания точных прогнозов.
Методы на основе повышения для несбалансированных данных- Повышение — это метод ансамбля, который имеет дело с объединением слабых учеников для создания сильного ученика, который может делать точные прогнозы. Повышение начинается с базового классификатора/слабого классификатора, подготовленного на обучающих данных. В отличие от бэггинга, бустинг допускает замену в бутстрапированной выборке.
УДАР
Метод синтетической передискретизации меньшинства (SMOTE) — еще один метод передискретизации класса меньшинства. Добавление повторяющихся записей класса меньшинства часто не добавляет в модель никакой новой информации. В SMOTE новые экземпляры синтезируются из существующих данных. Если объяснить простыми словами, SMOTE просматривает экземпляры класса меньшинства и использует k ближайших соседей для выбора случайного ближайшего соседа, а синтетический экземпляр создается случайным образом в пространстве признаков.
Больше популярных историй
Биткойн-майнеры демпингуют! Остановит ли это ралли BTC?
Почему ИИ является двигателем роботов-гуманоидов?
ИИ украсит косметическую промышленность! Время сделать подтяжку лица
10 самых популярных инструментов DevOps, о которых должны знать профессионалы
Потеря одного человека – приобретение другого человека! Кибербезопасность работает так
10 основных тенденций и прогнозов AIIoT, на которые стоит обратить внимание в 2023 году
Топ-10 компаний с крупнейшими биткойн-холдингами в 2022 году
10 секретных советов по программированию на Python, которые нужно знать в 2022 году
Сообщение Что такое несбалансированные данные и как с ними бороться? появился сначала на .