Основным препятствием для успеха любой модели машинного обучения в большинстве случаев является отсутствие адекватных данных. Если модель даст сбой хотя бы в одном экземпляре, команда наверняка будет искать новый набор данных, совместимый с контекстом. Одним из конкретных типов данных, которые могут помочь инженерам машинного обучения, являются темные данные. У вас может возникнуть много вопросов, например, что такое темные данные? Чем они отличаются от больших данных? Большие данные — это данные, к которым легко получить доступ, потому что они видимы, в отличие от темных данных, которые скрыты. Хотя мы можем получить миллионы доступных наборов данных, нельзя сказать, что это завершает набор информации.
Вся информация, которую человек может найти в поиске Google или Bing, составляет всего 5% от общего объема данных. Остальные 95% данных, неиндексированные данные, существуют в глубокой сети. Финансовые отчеты, медицинские и юридические документы, репозитории данных правительства и организации являются некоторыми примерами. И по мере того, как к этим данным добавляются такие данные, как изображения и видео, они становятся сложным объединением неструктурированных данных. Итак, что мешает компаниям использовать темные данные? Проблема выходит за рамки видимости данных, поскольку все больше и больше компаний размещают свои данные за брандмауэром. Неструктурированные данные создают множество проблем, связанных с управлением данными, соглашениями об уровне обслуживания в отношении обнаружения и классификации данных, а также с отсутствием инструментов и инфраструктуры для обработки данных. Кроме того, в бизнес-менеджменте присутствует определенная инерция к исследованию темных данных, поскольку это может поставить под угрозу нормальный бизнес-процесс, вызывая беспокойство у команды, привыкшей работать с традиционными данными.
Есть ли решение вообще? Или это будет погоня за дикими гусями навсегда? Благодаря тому, что компании размещают свои данные на общедоступных облачных платформах, таких как Amazon, Google и Microsoft, а также предлагают услуги, такие как PaaS и SaaS, путь к аналитике темных данных будет проходить гладко.
Сообщение Dark Data Can Be the Next Dark Horse of Data Analytics впервые появилось на Analytics Insight.