
Сегментация изображений может дать более точное описание целей, чем классификация изображений.
Точные аннотации были предоставлены наборами данных компьютерного зрения, которые в течение многих лет являются основой для многих моделей искусственного интеллекта (ИИ). Они показали себя достаточно превосходно, чтобы удовлетворить требования систем машинного восприятия. Однако ИИ достиг стадии, когда ему требуются точные результаты моделей компьютерного зрения, чтобы обеспечить деликатное взаимодействие человека и машины и захватывающее виртуальное существование. Сегментация изображения, один из самых фундаментальных алгоритмов компьютерного зрения, имеет решающее значение для помощи роботам в понимании и восприятии окружающей их среды.
Он может обеспечить более точное описание целей, чем классификация изображений и идентификация объектов, для различных приложений, таких как редактирование изображений, дополненная реальность (AR), обработка медицинских изображений, 3D-реконструкция, анализ спутниковых изображений и манипулирование роботами. Мы можем разделить вышеупомянутые приложения на «легкие» и «тяжелые» категории в зависимости от того, насколько непосредственно они влияют на реальные объекты. Примерами «легких» приложений являются анализ изображений и редактирование фотографий (например, производственные и хирургические роботы).
«Легкие» приложения могут быть более терпимы к сбоям сегментации и отклонениям, потому что эти проблемы в значительной степени увеличивают затраты труда и времени, что обычно приемлемо. Однако отклонения или сбои в «тяжелых» приложениях с большей вероятностью будут иметь катастрофические последствия, такие как физическое повреждение предметов или травмы, которые могут быть смертельными для людей и других животных. Поэтому модели для этих приложений должны быть точными и надежными. Большинство алгоритмов сегментации еще менее подходят для таких «тяжелых» приложений из-за точности и надежности, что не позволяет методам сегментации играть более важную роль в более крупных приложениях.
Дихотомическая сегментация изображений (ДИС), как ее называют исследователи, представляет собой процесс попытки отличить чрезвычайно точные объекты от изображений природы. Они стремятся предоставить платформу, которая может работать как с «тяжелыми», так и с «легкими» приложениями. Однако основное внимание в современных проблемах сегментации изображений уделяется сегментации объектов с заданными характеристиками, такими как видимые, завуалированные, детализированные или определенные категории. По сути, все задания зависят от набора данных, потому что большинство из них используют одни и те же форматы ввода/вывода и почти никогда не используют эксклюзивные стратегии, специально разработанные для сегментации целей в своих алгоритмах.
Рекомендуемая задача DIS часто выделяет изображения с одной или несколькими целями, в отличие от семантической сегментации. Проще получить более подробную и точную информацию по каждой цели. Поэтому создание независимой от категорий задачи DIS для точной сегментации объектов различной структурной сложности, независимо от их атрибутов, весьма обнадеживает.
Исследователи предложили новые вклады, перечисленные ниже:
1. В DIS5K объединены большой расширяемый набор данных DIS, 5470 изображений с высоким разрешением и точные маски бинарной сегментации.
2. Обязательная прямая синхронизация признаков, IS-Net, уникальная отправная точка, созданная с промежуточным наблюдением, предотвращает чрезмерную подгонку в многомерных пространствах признаков.
3. Недавно созданная статистика усилий по исправлению ошибок (HCE) отслеживает количество вмешательств человека, необходимых для исправления неправильных местоположений.
4. Наиболее тщательный анализ DIS обеспечивает эталонный тест DIS, основанный на самой последней версии DIS5K.
Больше популярных историй
- Dogecoin торгуется на 78 000% выше своего исторического минимума на фоне крипто-кровавой бани
- Регуляторы тщательно изучают оборотную сторону Voyager, используя деньги инвесторов
- Только ИИ-персонажи могут превратить города-призраки Метавселенной в виртуальные точки доступа
- Роботы на рабочем месте человека опасны, примером может служить склад Amazon
- Второй пилот GitHub не демократичен, но большие технологии притворяются дураками
- Искусственный интеллект 100: список ведущих отраслевых компаний
- Несовершенный ИИ делает сексистских роботов, и исследователи не возражают против этого
Сообщение «Разработка метода компьютерного зрения для высокоточной сегментации дихотомических изображений» впервые появилось на .