Небольшие данные

Давайте отменим нашу стратегию сбора данных.

В настоящее время победитель Big Data продолжает набирать обороты: воспользуйтесь всеми доступными нам источниками данных через мобильные устройства, антенну и дистанционное зондирование, камеры, микрофоны, беспроводные сенсорные сети и т. П. Данные есть, просто ожидая сбора, чтобы выявлять тенденции и находить корреляции. Огромный объем данных заставляет нас использовать различные формы компьютерного поиска и анализа, включая Machine Learning. Подход Big Data является увлекательным, поскольку он позволяет нам учитывать огромное количество информации. Подход Big Data также вызывает беспокойство, поскольку мы сталкиваемся с нашей незначительностью и признаем, что алгоритмы и интеллектуальные машины знают намного больше, чем мы когда-либо можем.

Раньше я рассказал о некоторых причинах беспокойства в отношении Big Data, о том, как аналитика Big Data будет следовать существующим тенденциям, но пропустить тонкие, но важные изменения в ситуации, которые делают эти тенденции устаревшими. В этом эссе также поднимался вопрос о недостающих данных. Люди иногда замечают, что что-то НЕ произошло, и отсутствие события помогает нам разобраться в ситуации. Большие данные обычно охватывают события, которые произошли, и игнорируют события, которые не произошли, хотя эти не-события могут быть значительными.

Однако это эссе не связано с ограничениями в «Больших данных».

Вместо этого я хочу предположить, что мы движемся в противоположном направлении: стараемся собирать как можно меньше данных, в идеале просто одну точку данных, но точку данных, которая решает решение. Вместо того, чтобы утонуть в перегрузке данных, бывают случаи, когда правильное наблюдение будет фокусировать неоднозначные сигналы.

Вот несколько примеров.

1. (Этот пример исходит от Тревора Хэдли, бывшего аналитика правительства США.) В 2015 году ЦРУ пыталось решить, будут ли Россия и Китай собираться проводить совместные военно-морские учения в Средиземном море. Официальных заявлений не было. Тенденции были неясны, доказательства были неубедительными. Затем внешний аналитик, суперпланерист, задавался вопросом, что потребуется для восстановления китайской флотилии, и начал охоту через онлайн-заказы на поставку от судовладельцев на Кипре. Он нашел новые заказы, огромные заказы, на рис и лапшу, где их раньше не было. Чтобы быть в безопасности, он также изучил местные уведомления береговой охраны морякам и раскрыл подтверждающие доказательства. Но это был рис и лапша, которые сделали трюк. Дело закрыто.

2. (Этот пример также исходит от Тревора Хэдли.) В 2011 году французы намеревались вмешаться в гражданскую войну в Ливии? Французы отрицали, что они даже рассматривают такое вмешательство, но разведывательное сообщество научилось не воспринимать такие отрицания слишком серьезно. Были основания ожидать вмешательства французов. Попытки сделать прогноз не удались. Рынок прогнозов не помог. Затем аналитик разведки заметил неясное заявление в директиве французской гражданской службы, меморандум о внесении изменений в правила страхования жизни членов французских военных, в которых перечислены страны, в которых в настоящее время действуют французские военные, включая Ливию! Через несколько дней записка была снята с веб-сайта и заменена версией, которая пропустила Ливию, но было слишком поздно. (Несколько месяцев спустя присутствие французских войск, сражающихся в Ливии, было подтверждено.) Дело закрыто.

3. Правительство США хотело предсказать, как Великобритания будет голосовать за Брексит. (Так поступали и многие, многие другие страны.) Аналитики позаботились о опросах, ища какую-то информацию, которая подсказывала бы баланс, но знаки просто не были достаточно ясными. Затем один наблюдатель отметил, что стандарты Европейского союза потребуют от британских домохозяек использовать другой метод приготовления чая. Нынешние чайники для кипячения воды были просто слишком энергоэффективными, излишне увеличивая углеродный след. ЕС потребовал более эффективного устройства для кипячения воды, но это займет в пять раз больше! Какое влияние было на приглашение соседа для быстрого чашки? Дело закрыто.

4. В 1990 году разведывательное сообщество США пыталось предсказать, намерен ли Саддам Хусейн вторгнуться в Кувейт. Некоторые чувствовали, что готовятся атаковать. Другие сомневались, что он будет таким безрассудным. Они увидели, что его движение на границе Ирака / Кувейта составляет 30 000 человек в качестве тактики издевательств, направленных на то, чтобы запугать Кувейт в уступки. Обычные типы доказательств не привели к каким-либо убедительным суждениям. Египтяне считали, что мирное решение жалоб Саддама Хусейна выступит против Кувейта. Так был и посол США в Ираке. Так же, как и Кувейт – даже после того, как Ирак поставил все эти войска на своей границе, Кувейт не мобилизовал свою армию в 18 000 солдат и позволил многим отправиться в отпуск. Что хотел сделать Саддам Хусейн? Один аналитик разведки США, работающий в Министерстве энергетики, отметил, что иракские военные захватили более 10 000 гражданских грузовиков. Устранение всех этих грузовых автомобилей должно было нанести ущерб экономике Ирака, нарушив все виды коммерческой деятельности. И это командование грузовиком держалось в секрете – об этом не публиковалось. Он не мог запугать Кувейт, потому что не знал, что это было сделано. Почему Саддам Хусейн сделал бы такое, если бы не вдруг решил, что ему нужны грузовики для военных действий? Дело закрыто.

5. Проблема ускорения Toyota убегает. Эта проблема привела к тому, что Toyotas ускорился неуправляемо, несмотря на безумные попытки водителя нажать на тормоз и замедлить машину. Дело получило национальное внимание. Некоторые думали, что проблема связана с толстыми напольными матами, которые захватывают педаль акселератора, но основная неисправность, казалось, была сбой в программном обеспечении. Тойоты содержат более ста миллионов строк кода, поэтому некоторые программные ошибки кажутся неизбежными. Были вызваны сотни случаев ускоренного ускорения. Toyota была вынуждена выплатить миллиарды долларов штрафам и расчетам. Однако у сообщества человеческих факторов был другой диагноз: водители ошибочно нажали на педаль акселератора, думая, что это была педаль тормоза. Когда машина ускорилась, а не замедлялась, водители поняли, что тормоза не удались и что ускорение было непреднамеренным и неуправляемым. Драйверы, естественно, нажали на педаль сильнее и сильнее, полагая, что это был тормоз, только чтобы увидеть, как ускорение ухудшается. Нет простого способа доказать это объяснение, много дискуссий о данных. Но оказывается, что есть два аргумента убийцы. Один из них заключается в том, что, исследуя черные ящики в автомобилях, следователи обнаружили, что педаль тормоза не была нажата в случае ускоренного ускорения. Второй аргумент убийцы исходит от подкаста Малькольма Гладуэлла в сезоне 1 его серии «Ревизионистская история». Гладуэлл организовал журнал «Автомобиль и водитель», чтобы поставить Toyota Camry через свои шаги на тестовой дорожке. Обученные водители вытолкнули педаль акселератора вплоть до пола, а затем, когда педаль акселератора все еще пюре на пол, ударила по тормозам. Машина остановилась. Испытание после испытания, автомобиль остановился. Без проблем, без визжа, без дыма. Тормоза легко пересилили ускоритель. Нет необходимости пересматривать статистику. Не нужно пересматривать сотни миллионов строк кода. Дело закрыто.

Эти примеры показывают, что меньше. Качество информации больше, чем количество.

В наши дни термин «Малые данные» используется несколькими способами. Существует даже книга маркетинговых исследований Мартина Линдстрема, Small Data: крошечные подсказки, раскрывающие огромные тенденции . И запись в Википедии. Вот несколько атрибутов, которые я определил относительно Small Data.

Во-первых, большинство ссылок сравнивают данные Small Data с большими данными, утверждая, что Small Data – это личное подключение к ограниченному объему информации, тогда как Big Data – о необходимости того, чтобы интеллектуальные машины сортировали все расширяющийся объем доступных сигналов ,

Во-вторых, «Большие данные» в основном связаны с корреляциями, в то время как «Малые данные» касаются причинно-следственных связей.

В-третьих, личное общение, основанное на малых данных, зависит от участия в опыте и опыте человека.

В-четвертых, подход «Маленькие данные» призван способствовать пониманию (см. Klein, 2013) и преобразовать мышления. Bonde делает этот пункт явно, что Small Data призвана помочь нам получить информацию, которую мы можем реализовать на практике.

В-пятых, почти все согласны с тем, что Big Data и Small Data не являются взаимоисключающими или конкурирующими. Мы можем использовать оба подхода.

В-шестых, существует расхождение в том, как искать значимые элементы Small Data. Некоторые полагают, что мы должны начать с Big Data, а затем сократить выход, создать журналы и другие артефакты. Я не в восторге от этой стратегии. Вместо этого, я думаю, что сила малых данных возникает, когда мы используем наши умственные модели, чтобы заметить или найти критические фрагменты информации. Пять примеров в этом эссе все иллюстрируют умелое открытие критических данных, а не уплотнение вывода упражнения с большими данными.

В-седьмых, бывают случаи, когда мы можем поддержать лиц, принимающих решения, путем выбора нескольких представительных случаев из гораздо более крупного населения, а затем дать подробную информацию об этих случаях. Например, если политик задумывается о том, как увеличение цены на бензин повлияет на людей с низкими доходами, может быть полезно определить трех конкретных людей, например, пожилого человека с фиксированным доходом, который использует общественный транспорт, один челночный челнок между двумя или тремя рабочими местами и добровольцем-пенсионером с церковной группой для привлечения прихожан к различным социальным, медицинским и социальным событиям.

В-восьмых, требуется экспертиза, чтобы заметить критические точки данных, когда мы сталкиваемся с ними. Для того, чтобы оценить, как точка данных может быть введена в действие, требуются разумные умственные модели, чтобы понять, что это дает нам.

Один из рисков подхода «Маленькие данные» заключается в том, что он может быть неправильно использован для примеров вишни и анекдотов, которые передают ложное впечатление. Поэтому подход Small Data следует использовать в контексте существующих доказательств. Подход «Маленькие данные» не исключает обязательства аналитиков обследовать соответствующие переменные. Я написал «Дело закрыто» в конце каждого из пяти примеров, но на самом деле следователи надлежащим образом искали дополнительные данные, чтобы подтвердить или отменить свои предположения. Однако подход «Маленькие данные» может ограничить тенденцию к накоплению все большего количества данных только для удовлетворения навязчивых потребностей в полноте. Подход «Малые данные» оценивает значимость данных по его накоплению.

Примеры в этом эссе свидетельствуют о том, что мы должны переформатировать наши усилия по сбору информации. Вместо того, чтобы пылесосить каждый доступный лакомый кусочек, мы могли бы сделать так, чтобы направить наш сбор информации на изучение чувств и открытие. Мы могли бы искать по-настоящему диагностические сигналы, аномалии и недостающие данные – ожидаемые события, которых не было. Мы можем быть в поиске «различий, которые меняют ситуацию».

Рекомендации

Martin Lindstrom, Small Data: крошечные подсказки, раскрывающие огромные тенденции. Нью-Йорк: Пресса святого Мартина.

Клейн, Г. (2013). Видя, что другие не делают: замечательные способы получения информации . Нью-Йорк: PublicAffairs.