29, Авг 2022
Что такое несбалансированные данные и как с ними бороться?



Несбалансированные данные

Понимание проблем классификации и несбалансированных данных и методов их обработки

Проблемы классификации довольно обычны в мире машинного обучения. Потратив немного времени на машинное обучение и науку о данных, можно столкнуться с несбалансированным распределением классов данных. Это схема, в которой количество наблюдений, принадлежащих одному классу, значительно меньше, чем количество наблюдений, принадлежащих другим классам.

Несбалансированные данные указывают на конкретные типы наборов данных, где целевой класс имеет неравное представление классов, т. е. одна метка класса имеет очень огромное количество наблюдений, а другая имеет очень удручающее количество наблюдений. Это может быть лучше интерпретировано на примере. Предположим, что есть банк с именем XYZ, который выдает кредитные карты своим клиентам. Теперь банк обеспокоен тем, что какие-то мошеннические транзакции продолжаются, и после анализа данных они узнали, что на каждые 2000 транзакций фиксируется только 30 номеров мошенничества. Таким образом, рассчитанное количество мошенничеств на 100 транзакций составляет менее 2% или можно предположить, что более 98% транзакций по своей природе являются «Без мошенничества». Здесь класс «Без мошенничества» помечен как класс большинства, а класс «Мошенничество» гораздо меньшего размера называется классом меньшинства.

Несбалансированные наборы данных являются основной и доминирующей проблемой этого реального мира, где обнаружение странностей может иметь решающее значение, например, хищение электроэнергии, мошеннические транзакции в банках, выявление редких заболеваний, прогнозирование оттока клиентов, стихийные бедствия и т. д. В этом сценарии разработана упреждающая модель. использование обычных алгоритмов машинного обучения может содержать вероятность неточности. Это связано с тем, что алгоритмы машинного обучения, как правило, предназначены для повышения точности за счет сокращения ошибки. Таким образом, это не принимает во внимание распределение / пропорцию классов или баланс классов. Иметь дело с несбалансированным классом проблем классификации вполне нормально. Но если рассматривать какие-то частные случаи, то этот дисбаланс проявляется довольно резко, когда присутствие класса большинства намного выше, чем класса меньшинства.

 

Осложнение с Несбалансированные данные Классификация

Основная сложность с несбалансированным набором данных в прогнозировании науки о данных заключается в том, насколько точно мы предсказываем как классы большинства, так и классы меньшинства. Возьмем пример диагностики заболеваний. Предположим, что кто-то собирается предсказать заболевание на основе существующего набора данных, где на каждые 100 записей только у 5 пациентов диагностируется заболевание. Таким образом, основной класс составляет 95 % без заболеваний, а минусовой класс — только 5 % с заболеванием. Затем предположим, что модель предсказывает, что все 100 из 100 пациентов не болеют. Таким образом, традиционный подход к классификации и расчету точности модели оказывается бесполезным в случае несбалансированных наборов данных.

 

Подход к решению проблемы несбалансированного набора данных

В ограниченных случаях, таких как обнаружение мошенничества или прогнозирование заболеваний, очень важно точно распознавать классы меньшинств. Таким образом, модель не должна предвзято относиться только к классу большинства, но классу меньшинства следует придавать равный вес или важность. Вот некоторые из немногих предложенных методов, которые обсуждались и которые могут решить эту проблему. В этом нет порочного метода или неточного метода, разные техники хорошо работают с разными проблемами.

Техника повторной выборки: В этом методе мы сосредоточились на балансировке классов в обучении науке о данных (предварительной обработке данных) перед подачей данных в качестве входных данных для алгоритма машинного обучения. Основная цель уравновешивания классов состоит в том, чтобы либо увеличить частоту появления класса меньшинства, либо уменьшить частоту появления класса большинства. Это выполняется для получения примерно одинакового числа экземпляров для обоих классов. Ниже приведены несколько методов повторной выборки:

Случайная недостаточная выборка – Случайная недостаточная выборка пытается сбалансировать распределение классов путем случайного удаления примеров большинства классов. Это делается до тех пор, пока экземпляры класса большинства и меньшинства не будут сбалансированы.

Случайная передискретизация– Избыточная выборка увеличивает количество экземпляров в классе меньшинства путем их случайной репликации, чтобы обеспечить более высокое представление класса меньшинства в выборке.

Кластерная избыточная выборка– В этом примере алгоритм кластеризации K-средних независимо применяется к экземплярам класса меньшинства и большинства. То есть для идентификации кластеров в наборе данных.

 

Методы алгоритмического ансамбля

В приведенном выше разделе рассматривается обработка несбалансированных данных путем повторной выборки исходных данных для обеспечения сбалансированных классов. Его функция в методологии ансамбля заключается в повышении производительности отдельных классификаторов. Подход включает построение нескольких двухэтапных классификаторов из первичных данных, а затем агрегирование их прогнозов. Ниже приведены несколько примеров использования этой техники.

Методы на основе мешков для несбалансированных данных— Бэггинг — это аббревиатура от Bootstrap Aggregating. Этот алгоритм включает в себя создание n разных обучающих выборок начальной загрузки с заменой. И обучение алгоритма для каждого загруженного алгоритма отдельно, а затем агрегирование прогнозов в конце. Бэггинг применяется для уменьшения переоснащения, чтобы создать сильных учеников для создания точных прогнозов.

Методы на основе повышения для несбалансированных данных- Повышение — это метод ансамбля, который имеет дело с объединением слабых учеников для создания сильного ученика, который может делать точные прогнозы. Повышение начинается с базового классификатора/слабого классификатора, подготовленного на обучающих данных. В отличие от бэггинга, бустинг допускает замену в бутстрапированной выборке.

 

УДАР

Метод синтетической передискретизации меньшинства (SMOTE) — еще один метод передискретизации класса меньшинства. Добавление повторяющихся записей класса меньшинства часто не добавляет в модель никакой новой информации. В SMOTE новые экземпляры синтезируются из существующих данных. Если объяснить простыми словами, SMOTE просматривает экземпляры класса меньшинства и использует k ближайших соседей для выбора случайного ближайшего соседа, а синтетический экземпляр создается случайным образом в пространстве признаков.

 

Больше популярных историй

Биткойн-майнеры демпингуют! Остановит ли это ралли BTC?

Почему ИИ является двигателем роботов-гуманоидов?

ИИ украсит косметическую промышленность! Время сделать подтяжку лица

10 самых популярных инструментов DevOps, о которых должны знать профессионалы

Потеря одного человека – приобретение другого человека! Кибербезопасность работает так

10 основных тенденций и прогнозов AIIoT, на которые стоит обратить внимание в 2023 году

Топ-10 компаний с крупнейшими биткойн-холдингами в 2022 году

10 секретных советов по программированию на Python, которые нужно знать в 2022 году

Сообщение Что такое несбалансированные данные и как с ними бороться? появился сначала на .



Source link

29, Июн 2022
Вертикальный интеллект здесь, чтобы бороться с проблемами бизнес-ИИ и данных



Вертикальный интеллект

Вертикальная аналитика предназначена для борьбы с бизнес-проблемами искусственного интеллекта и данных, а также для стимулирования роста бизнеса.

Искусственный интеллект может принести значительную пользу бизнесу. Но чтобы максимально использовать преимущества искусственного интеллекта, вам нужно сосредоточиться на создании решений для реальных проблем с данными, а не на самой технологии. Интеллект управляется задачами и возникает на более поздней стадии развития, чем сознание. ИИ полностью перевернул деловой мир. Вертикальный интеллект — модное слово. Это сочетание человеческого опыта и аналитики больших данных, применяемых с хирургической точностью и своевременностью.

Человеческий опыт – это способности и навыки любого человека, особенно. приобретенные за счет инвестиций в образование и профессиональную подготовку, которые повышают потенциал получения дохода. А аналитика больших данных — это использование передовых аналитических методов для очень больших и разнообразных наборов данных, которые включают структурированные, полуструктурированные и неструктурированные данные из разных источников и в разных размерах от терабайтов до зеттабайтов. VI требует человеческого опыта, потому что он включает в себя больше, чем просто развертывание моделей. Компания Vertical Intelligence нацелена на то, чтобы помочь организациям победить во все более сложном и запутанном мире.

Вертикальный интеллект для борьбы с проблемами бизнес-ИИ и данных:

Вертикальная аналитика должна стимулировать рост бизнеса и организации за счет объединения отраслевых технологий и опыта, чтобы быстро и эффективно раскрыть истинную мощь вашего текущего стека, сотрудников и хранимых данных. VI — ведущая отраслевая аналитическая платформа. Он включает в себя сотни отраслевых отчетов, а также подробные экономические данные из более чем 3000 стран.

В нем будет рассмотрено, как ориентироваться и как использовать исследования, данные и настраиваемые ресурсы для различных вариантов использования. К ним относятся всесторонняя подготовка к звонку, целевые стратегии продаж и инструменты снижения рисков для специалистов по финансовым услугам. Вертикальный рост интеллекта сопровождается более высокой нейронной связью, но так называемое интеллектуальное поведение, наблюдаемое у микроорганизмов, не зависит от нейронных систем.

Вертикальные решения не являются универсальными, в этом и есть смысл. Вместо того, чтобы покупать кучу пакетов программного обеспечения, а затем нанимать квалифицированных компьютерных специалистов, чтобы превратить эти общие решения в нечто, пригодное для вашей компании, компания, занимающаяся вертикальными интеллектуальными решениями, предлагает отраслевой опыт, а также индивидуальные алгоритмы и решения для управления данными.

Любая компания, генерирующая полезные данные, может извлечь выгоду из интеграции вертикального интеллектуального решения. Вертикальный интеллект помогает находить решения сложных бизнес-проблем более человечным образом. Это похоже на перенятие характеристик человеческого интеллекта и реализацию их в виде алгоритмов, удобных для компьютера. Рабочее время может быть значительно сокращено, а человеческий мозг можно использовать в более творческих аспектах бизнеса, таких как мозговой штурм, инновации и исследования.

Преимущество вертикального интеллекта помогает в технологических сетях: прогнозная и предписывающая аналитика, аналитика и автоматизация процессов, программное обеспечение для обработки данных и моделирование склонностей. И он руководил решениями для вертикальной экспертизы, увеличения штата аналитиков, обзора и оптимизации процессов. Он проверяет и анализирует бизнес-искусственный интеллект и проблемы с данными. Наборы решений VI объединяют отраслевое программное обеспечение и опыт, чтобы предоставить вам решения и технологии, которые вам действительно нужны. И решения VI, которые являются предиктивными по своей природе и управляют автоматизацией в соответствии с вашим вариантом использования и потребностями.

Больше популярных историй
  • Terra и ее братья и сестры LUNC и USTC находятся на американских горках
  • DALL.E Mini любит женщин в сари, но создатели не могут объяснить, почему
  • Молодое поколение перешагнет через FAANG в гонке Метавселенной
  • Разработчики Webassembly выбирают Rust, а не Python, говорится в отчете
  • Наступит ли антиутопическое будущее, если LAMDA получит выращенный в лаборатории мозг?
  • 10 лучших мини-проектов по науке о данных, которые стоит попробовать новичкам
  • Почему специалисты по данным-самоучки видят медленный прогресс в своей карьере?

Сообщение «Вертикальный интеллект здесь, чтобы бороться с проблемами бизнес-ИИ и данных» впервые появилось на .



Source link