Когда малые данные побеждают большие данные: маленькие прекрасны, говорят статистики всего мира
Большие данные не всегда лучше, чем маленькие данные. Небольшая выборка высокого качества может дать более надежные выводы, чем большая выборка низкого качества. Затраты, связанные со сбором данных, вычислениями и обеспечением конфиденциальности, должны быть сопоставлены с выгодами. На ограниченных данных статистические выводы эффективны; на обширных данных, не так много.
Большие данные по праву являются ключевой областью исследований. Тем не менее, небольшие данные все еще существуют. Те же самые социологические и технологические силы, которые создали точки данных, также создали множество более мелких наборов данных. Первоначально большее количество данных, несомненно, предпочтительнее меньшего количества данных. Психологический ИИ может быть реализован. На самом деле получение большего количества данных во многих отношениях увеличит затраты и усложнит анализ. Небольшие данные иногда могут превзойти большие данные с точки зрения скорости, точности и стоимости, чтобы сделать соответствующие выводы. В этой статье мы обрисовываем несколько обстоятельств, при которых предпочтение отдается небольшим данным.
Большие данные
Большие данные могут помочь предприятиям работать лучше, увеличивая доходы, повышая эффективность работы, совершенствуя маркетинговые кампании и программы обслуживания клиентов, быстрее реагируя на новые тенденции рынка и получая преимущество перед конкурентами.
Смогут ли одни данные победить большие данные?
Открытие инженерами Google способа предвидеть раннее распространение гриппа широко освещалось в средствах массовой информации в 2008 году. Концепция кажется разумной. Поисковая система Google, вероятно, используется больными гриппом для выявления симптомов и поиска лечения. Эти запросы могут сразу выявить, где распространяется грипп. Инженеры просмотрели 50 миллионов поисковых фраз, чтобы определить, какие из них связаны с гриппом, и определить наиболее подходящие поисковые запросы. Затем, после тестирования 450 миллионов альтернативных алгоритмов, они разработали скрытый метод, который использовал 45 поисковых фраз, которые лучше всего соответствуют данным. После этого с помощью алгоритма были спрогнозированы посещения врачей каждого региона, связанные с гриппом.
Сначала все шло гладко. Через несколько месяцев, весной 2009 года, произошло неожиданное событие. Началась эпидемия свиного гриппа. Поскольку первые экземпляры появились в марте, а пик — в октябре, он появился неожиданно. Поскольку из предыдущих лет стало известно, что пик заболеваемости гриппом приходится на зиму и снижается летом, Google Flu Trend пропустил вспышку. Прогнозы не сбылись.
После этой неудачи инженеры начали работать над усовершенствованием алгоритма. Для этого есть две альтернативные стратегии. Одна из стратегий — борьба со сложностью со сложностью. Основополагающий принцип заключается в том, что сложные проблемы требуют комплексных решений, а если сложный метод не работает, требуется еще большая сложность. Вторая стратегия придерживается принципа стабильного мира, который гласит, что сложные алгоритмы работают на пике своей производительности в четко определенных, стабильных средах с большим количеством данных. Будь то обширные данные или небольшие данные, человеческий интеллект эволюционировал, чтобы справляться с неопределенностью. Теория, лежащая в основе этого, заключается в том, что сложный алгоритм, использующий большие исторические данные, может неточно предсказывать будущее в неопределенных ситуациях и должен быть упрощен. Инженеры Google стремились к дополнительной сложности. Они увеличили их примерно до 160 вместо сокращения 45 поисковых фраз и продолжали делать ставку на большие данные.
Некоторое время улучшенный алгоритм хорошо справлялся с прогнозированием новых ситуаций. В 100 из 108 недель в период с августа 2011 г. по сентябрь 2013 г. он завышал процент ожидаемых посещений врача, связанных с гриппом. Существенным фактором была присущая гриппу изменчивость. Поскольку вирусы гриппа представляют собой постоянно эволюционирующие хамелеоны, предсказать их распространение невероятно сложно. По сравнению с другими штаммами гриппа, симптомы свиного гриппа, такие как диарея, отличались от симптомов предыдущих лет, и более молодые люди чаще заражались этим заболеванием. Непредсказуемость человеческого поведения была вторым фактором. Многие другие искали информацию о гриппе не потому, что были больны, а просто из любопытства. Однако система не смогла различить разные поисковые намерения. Инженеры продолжали возиться с улучшенным алгоритмом, пытаясь выяснить, не слишком ли проста их модель. Google Flu Trends был незаметно прекращен в 2015 году.
Google Flu Trends служит примером того, как в нестабильном мире уменьшение объема и сложности данных может привести к более точным прогнозам. В некоторых обстоятельствах может быть лучше игнорировать все, что произошло в прошлом, и полагаться только на самую последнюю точку данных. Это также демонстрирует, как психологический ИИ, в данном случае эвристика недавности, может прогнозировать так же хорошо, как и сложные системы машинного обучения. Мой главный аргумент заключается в том, что психологический ИИ может быть реализован с использованием «быстрых и экономичных» эвристик, для которых требуется мало данных.
Однако многим из нас трудно избежать мысли о намеренном упущении информации, когда мы пытаемся принять обоснованное решение. Однако пример с гриппом не является ни аберрацией, ни исключением.
Поделиться этой статьей
Делитесь штукой