Темные данные могут стать следующей темной лошадкой аналитики данных

Темные данные могут стать следующей темной лошадкой аналитики данных


Основным препятствием для успеха любой модели машинного обучения в большинстве случаев является отсутствие адекватных данных. Если модель даст сбой хотя бы в одном экземпляре, команда наверняка будет искать новый набор данных, совместимый с контекстом. Одним из конкретных типов данных, которые могут помочь инженерам машинного обучения, являются темные данные. У вас может возникнуть много вопросов, например, что такое темные данные? Чем они отличаются от больших данных? Большие данные — это данные, к которым легко получить доступ, потому что они видимы, в отличие от темных данных, которые скрыты. Хотя мы можем получить миллионы доступных наборов данных, нельзя сказать, что это завершает набор информации.

Вся информация, которую человек может найти в поиске Google или Bing, составляет всего 5% от общего объема данных. Остальные 95% данных, неиндексированные данные, существуют в глубокой сети. Финансовые отчеты, медицинские и юридические документы, репозитории данных правительства и организации являются некоторыми примерами. И по мере того, как к этим данным добавляются такие данные, как изображения и видео, они становятся сложным объединением неструктурированных данных. Итак, что мешает компаниям использовать темные данные? Проблема выходит за рамки видимости данных, поскольку все больше и больше компаний размещают свои данные за брандмауэром. Неструктурированные данные создают множество проблем, связанных с управлением данными, соглашениями об уровне обслуживания в отношении обнаружения и классификации данных, а также с отсутствием инструментов и инфраструктуры для обработки данных. Кроме того, в бизнес-менеджменте присутствует определенная инерция к исследованию темных данных, поскольку это может поставить под угрозу нормальный бизнес-процесс, вызывая беспокойство у команды, привыкшей работать с традиционными данными.

Есть ли решение вообще? Или это будет погоня за дикими гусями навсегда? Благодаря тому, что компании размещают свои данные на общедоступных облачных платформах, таких как Amazon, Google и Microsoft, а также предлагают услуги, такие как PaaS и SaaS, путь к аналитике темных данных будет проходить гладко.

READ  4 совета по созданию культуры, ориентированной на данные, в вашем агентстве

Сообщение Dark Data Can Be the Next Dark Horse of Data Analytics впервые появилось на Analytics Insight.



Source link