Электронная библиотека » Дэвид Хэнд » » онлайн чтение - страница 8


  • Текст добавлен: 24 июня 2021, 11:00


Автор книги: Дэвид Хэнд


Жанр: Экономика, Бизнес-Книги


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 8 (всего у книги 23 страниц) [доступный отрывок для чтения: 8 страниц]

Шрифт:
- 100% +
Выбор на основе прошлого

Мы обращаемся в курьерскую службу на основании того, что раньше она была самой быстрой. Мы выбираем модель автомобиля, потому что до сегодняшнего дня она была самой безопасной. Мы идем в ресторан, где когда-то нас по-настоящему впечатлила кухня. Вполне логично прогнозировать будущие результаты на основе прошлых. Да и другого способа зачастую у нас просто нет. Но, к сожалению, прошлое может быть очень ненадежным путеводителем по будущему. Звучит банально, но все действительно меняется: организации приходят в упадок, производители автомобилей обновляют модельный ряд, а рестораны меняют своих владельцев. Более того, показатели могут ухудшиться, даже если ничего не изменится. И это не просто какая-то слабая вероятность – на самом деле мы должны ожидать такого ухудшения.

Странный феномен, заставляющий нас ожидать того, что хорошие показатели должны ухудшиться, а плохие улучшиться, даже если процесс остался неизменным, называется возвратом к среднему. Это проявление темных данных DD-тип 3: выборочные факты. Как только вы осознаете существование этого явления, вы начнете замечать его на каждом шагу. Давайте разберем на примере.

В 1970 и 1973 гг. в 12 сельхозугодьях Великобритании была зарегистрирована урожайность пшеницы в килограммах[50]50
  W. J. Krzanowski, Principles of Multivariate Analysis, rev. ed. (Oxford: Oxford University Press, 2000), 144.


[Закрыть]
. В табл. 5 показано, увеличивалась или уменьшалась урожайность за эти годы. Мы видим, что из шести участков с самой низкой урожайностью в 1970 г. пять имели наибольшую урожайность в 1973 г. И наоборот, из шести участков с самой высокой урожайностью в 1970 г. пять показали снижение в 1973 г. Закономерность очевидна, и вот что она означает: если бы в 1970 г. мы выбрали участки с высокой урожайностью, ожидая от них аналогичных результатов в 1973 г., мы были бы разочарованы.



Чтобы понять, откуда берется такая закономерность, предположим, что у нас есть условная группа студентов с одинаковыми способностями и трудолюбием. Несмотря на это, каждый раз по результатам тестирования одни добиваются больших успехов, чем другие. Это обусловлено изменчивостью сопутствующих обстоятельств – хорошо ли человек спал прошлой ночью, не была ли его голова занята чем-то посторонним, верно ли он представлял себе содержание теста и т. д. Да, мы можем оценить студентов в соответствии с результатами теста и тех, кто набрал больше баллов, отнести к лучшим. Но какие сюрпризы нам может преподнести следующий тест?

Поскольку у всех наших студентов одинаковые способности, то набравшие больше баллов в первом тесте добились этого благодаря удачному стечению обстоятельств. Эти обстоятельства, равно как и другие, которые сопутствовали менее успешным студентам, вряд ли повторятся. Поэтому, скорее всего, студенты с самыми высокими показателями справятся хуже со следующим тестом, а студенты с самыми низкими показателями вполне могут выглядеть лучше.

Проблема кроется в том, что результаты первого теста, то есть исторические данные, показывают нам не сами способности ученика, а их комбинацию со случайными факторами. Случайность как бы скрывает от нас истинные способности.

Конечно, в реальности мы вряд ли найдем группу студентов с одинаковыми способностями и трудолюбием. Каждый из них будет отличаться уникальным набором качеств. Но даже в этом случае всегда будет вероятность, что те студенты, которые отличились во время первого теста, проявят себя хуже при прохождении второго, поскольку как минимум некоторые из лучших результатов первого теста могли быть банальной удачей. Отсюда следует, что, отобрав наиболее успешных студентов, например, на работу в компанию или на дипломный проект, в будущем мы можем столкнуться с тем, что их успеваемость не столь хороша.

Какой практический смысл есть в этом примере? Означает ли он, что мы должны избегать тех, кто добился лучших результатов? Ответ, как правило, отрицательный, поскольку в будущем они все еще могут преуспеть, просто не в той степени, какую можно было бы ожидать на основе исторических данных. В целом степень ухудшения показателей лучших студентов (или улучшения показателей отстающих) зависит от соотношения величины случайного аспекта измерения и реальных способностей. Если диапазон неопределенности, возникающей из-за случайных аспектов, достаточно велик по сравнению с диапазоном способностей, то эффект будет ярко выраженным. Обратите внимание, что степень неопределенности нам неизвестна – все, чем мы располагаем, это сочетание неопределенности и способностей. По этой причине и неопределенность, и способности являются темными данными.

Сам термин «возврат к среднему» был введен блестящим эрудитом викторианской эпохи Фрэнсисом Гальтоном. Он заметил, что (в среднем) дети высоких людей хотя и оказывались выше среднего роста, но при этом не были настолько же высокими, как их родители, а дети, рожденные невысокими людьми, хотя и были ниже среднего роста, но все-таки превосходили своих родителей в росте.

В этой главе мы рассмотрели некоторые пути, которыми темные данные вводят нас в заблуждение, если мы недостаточно внимательны или не вполне понимаем то, что собираемся выяснить. Следующая глава посвящена тому, как мы попадаемся на удочку, даже если точно понимаем, что именно мы хотим узнать.

Глава 4
Непреднамеренные темные данные
Видим одно, регистрируем другое
Общая картина

Не все измерения абсолютно точны. Подсчет детей в семье или кораблей в море ведется в удобных целых числах, но такие измерения, как, например, длина, будут неизбежно округляться до некоторого уровня. Это может быть сантиметр, миллиметр, микрон (миллионная доля метра), десятая доля микрона, но не бесконечное число знаков после запятой. Иными словами, мы не можем определить детали дальше какого-то уровня приближения и вынуждены ограничиваться общей картиной (хотя сама по себе она может быть просто малюсенькой!). А это означает, что детали остаются во мраке.

Мы видим округление всякий раз, когда смотрим на табличные данные, например 70,3, или 0,04, или 41,325, или значения вроде 76,2±0,2, где ±0,2 – диапазон точности, в пределах которого значение можно считать истинным. Такая запись наглядно демонстрирует тот факт, что мы имеем дело с темными данными.

Округление необходимо и стало настолько привычным, что подчас мы просто не замечаем, что оно скрывает данные. Например, возраст людей часто записывается с точностью до ближайшего года, несмотря на тот факт, что на самом деле понятие возраста включает в себя число дней, часов, минут и т. д., а также на то, что присущая данному параметру погрешность, связанная с разной продолжительностью самих родов, означает, что более высокая точность не может быть достигнута. Общее правило округления возраста до ближайшего меньшего целого числа лет означает, во-первых, что возраст стремится к целому числу и, во-вторых, что его значение всегда меньше, чем фактическое время, которое прожил человек.

Иногда возраст округляют до ближайших пяти лет или вообще классифицируют как «младший», «средний» или «старший» с границами на уровне 25 и 65 лет. Хотя для некоторых целей этого бывает достаточно, мы упускаем много информации, а именно то, что происходит внутри возрастных групп. Эта проблема становится особенно заметной, если взять крайний случай и разделить людей на две категории – на младших и старших, в зависимости от того, являются они моложе или старше, скажем, 35 лет. Данные, обобщенные таким образом, дают нам возможность увидеть, имеет ли старшая группа свойства, отличные от свойств младшей группы, например, отличается ли их средний доход или доля, состоящих в браке. Но мы не видим более тонких взаимосвязей. Например, мы не можем утверждать, увеличивается ли средний доход начиная с младшего возраста, достигая своего максимума в среднем возрасте, а затем снижаясь у пожилых людей. Затемнение или «укрупнение» данных лишает нас потенциальной возможности таких открытий, опуская плотный занавес.

Когда данные собираются непосредственно людьми, их затемнение, вызванное округлением значений, может быть особенно коварным и даже привести к ошибочным решениям и действиям. Симон де Лузиньян и его коллеги изучили 85 000 зарегистрированных значений артериального давления[51]51
  S. de Lusignan, J. Belsey, N. Hague, and B. Dzregah, “End-digit preference in blood pressure recordings of patients with ischaemic heart disease in primary care,” Journal of Human Hypertension 18 (2004): 261-5.


[Закрыть]
. Нет никакой разумной причины для того, чтобы эти реальные значения оканчивались на какую-то одну цифру чаще, чем на другие. Иначе говоря, мы должны ожидать, что около 10 % всех значений будут оканчиваться на 0, 10 % – на 1, 10 % – на 2 и т. д. Однако исследователи обнаружили, что 64 % всех показаний систолического артериального давления (в момент, когда сердце сокращается) и 59 % показаний диастолического давления (когда сердечная мышца расслабляется между ударами) оканчивались на 0. Кроме того, они обнаружили, что среди остальных значений было значительно больше четных чисел, нежели нечетных, а среди нечетных самой распространенной последней цифрой была цифра 5. Но реальные показатели кровяного давления не имеют этой странной тенденции группироваться вокруг определенных чисел! Значит, зарегистрированные значения искажены стремлением людей все округлять до удобных чисел.

Так ли это важно? Британский норматив по гипертонии указывает пороговые значения артериального давления, выше которых рекомендуется медикаментозное лечение[52]52
  L. E. Ramsay et al., “Guidelines for management of hypertension: Report of the third working party of the British Hypertension Society,” Journal of Human Hypertension 13 (1999): 569-92.


[Закрыть]
. В частности, для систолического давления это значение равно 140 мм рт. ст. или выше. Но склонность к округлению до значений, оканчивающихся на ноль (например, округление 137 до 140), означает, что у значительной части пациентов, у которых зарегистрировано это пороговое значение, реальное систолическое давление ниже 140 мм рт. ст.

Стоит отметить, что в этом примере округление является следствием конструктивных особенностей измерительного прибора. Если показания считываются с градуированной шкалы, такой, как на измерительной линейке, возникает естественное стремление округлить их до ближайшего удобного значения. Однако, если показания выводятся в цифровом виде на дисплей, они с большей вероятностью будут зарегистрированы точно или по крайней мере с бо́льшим количеством десятичных знаков. Это внушает оптимизм, поскольку автоматизация современных приборов оказывается полезной с точки зрения противодействия темным данным.

Последний пример подсказывает, что быть особенно внимательными нам следует, когда люди считывают значения с градуированной шкалы измерительного прибора, такой как на линейках, транспортирах или циферблатах. Но то же самое относится и к подсчетам, которые делают сами респонденты в процессе опроса. Джон Робертс-младший и Девон Брюер опросили потребителей наркотиков, со сколькими партнерами им довелось делить наркотики в течение предыдущих шести месяцев[53]53
  J. M. Roberts Jr. and D. D. Brewer, “Measures and tests of heaping in discrete quantitative distributions,” Journal of Applied Statistics 28 (2001): 887-96.


[Закрыть]
. Хотя только два человека сказали, что имели девять партнеров, и четыре человека, что имели 11 партнеров, колоссальное число респондентов, равное 39, заявило, что у каждого из них было по 10 партнеров. Точно так же, у 21 респондента было по 20 партнеров, никто не сказал, что делил наркотики с 19 или 21 партнером. Все это выглядит весьма подозрительно. Было бы очень странно, если бы люди тяготели к такому конкретному количеству партнеров, и не менее странно, если бы эти пиковые значения просто случайно попали в выборку. Куда вероятнее то, что респонденты давали приблизительные ответы, округляя их до ближайшего десятка.

Я называю этот феномен округлением, но когда он является результатом человеческого фактора в процессе сбора данных, то может иметь и другое название: аккумуляция, скопление, образование максимумов, дискретизация или предпочтение определенных чисел.

Он также может принимать форму преднамеренного приближения максимальных и минимальных пределов к наблюдаемым значениям. Например, опросы на тему заработной платы часто включают формулировки типа «$100 000 и более», чтобы побудить ответить тех, кого предоставление подробной информации просто оттолкнуло бы от участия в опросе. При такой стратегии устанавливают верхний предел избыточности наряду с нижним пределом избыточности, когда отсекают нижние значения.

Игнорирование такого усечения может привести к серьезным ошибкам. Например, средняя заработная плата, рассчитанная на основе таких данных, может быть далека от действительности, если вы не учли тот факт, что «$100 000 или более» может означать намного больше, возможно, на десятки миллионов долларов. Более того, отсечение наибольших значений и обработка их как значений интервальных, безусловно, приведет к недооценке дисперсии данных.

Обобщение

Как правило, пытаться понять смысл большой таблицы данных, просто разглядывая ее, занятие малопродуктивное. Чтобы облегчить задачу, нужно сначала обобщить значения. Другими словами, мы анализируем данные, сжатые до формата сводок, который нам удобнее воспринимать. Например, мы вычисляем средние значения и диапазоны значений, а также более сложные статистические обобщения, такие как коэффициенты корреляции, коэффициенты регрессии и факторные нагрузки. Однако, по определению, любое обобщение означает жертвование деталями или, что то же самое, затемнение данных (DD-тип 9: обобщение данных).

Если я скажу вам, что средний вес американских мужчин старше 20 лет составляет 88,8 кг, то вы наверняка сочтете эту информацию потенциально полезной[54]54
  https://www.healthline.com/health/mens-health/average-weight-for-men.


[Закрыть]
. И действительно, можно сравнить это значение со значениями предыдущих лет, чтобы узнать, изменяется ли средний вес. Но вот что вы не сможете сделать, так это определить число мужчин, вес которых выше той или иной величины. Вы не сможете сказать, является ли это среднее результатом существования небольшого числа чрезмерно тяжелых мужчин и очень худых или же есть много таких, у кого вес чуть выше среднего. Вы не сможете сказать, для скольких мужчин среднее значение показывает их вес с точностью до килограмма. На эти и другие вопросы невозможно ответить, потому что само понятие среднего исключает индивидуальные значения, затемняя данные.

Из этого мы можем сделать несколько выводов. Один из них состоит в том, что разные статистические сводки, обобщая данные разными способами (например, по среднему значению, по разбросу значений, по степени отклонения значений от среднего), не сообщают нам всех данных. Затемняя данные, сводки могут скрывать важную информацию, и мы всегда должны быть начеку.

Вторым важным выводом является то, что нам нужно тщательно выбирать статистические сводки, чтобы они соответствовали вопросу, который мы хотим задать. Средний доход, рассчитанный как среднее арифметическое, в небольшой компании из десяти сотрудников, девять из которых зарабатывают в год по $10 000, а один – $10 млн составляет более $1 млн. Такая информация будет вводить в заблуждение, например, того, кто претендует на работу в этой компании. По этой причине доходы и благосостояние часто рассчитываются не как средняя, а как медианная величина, когда половина зарплат ниже, а половина выше этого значения. Еще лучше дать информацию о распределении доходов, включая статистику по числу тех, кто зарабатывает всего $10 000 в год или максимальный размер дохода.

Человеческий фактор

Округление, которое мы обсуждали ранее в этой главе, нельзя отнести к ошибкам в прямом смысле этого слова. Речь шла о приближении, которое скрывает детали, хотя и довольно непредсказуемым образом (например, не все значения артериального давления округлялись так, чтобы в конце был ноль). Но человеческий фактор может привести к возникновению более серьезных темных данных.

В 2015 г. Алекс Розетто и Люк Паркин, студенты второго курса Нортумбрийского университета в Великобритании, приняли участие в исследовании по изучению влияния кофеина на учебу. Однако вкравшаяся «ошибка данных» привела к тому, что вместо дозы кофеина, втрое превышавшей его содержание в стандартной порции кофе, каждый получил по 300-кратной дозе, или около 30 г. (Я взял выражение «ошибка данных» в кавычки, дабы подчеркнуть, что проблема была вовсе не в данных, а в человеке, который записывал цифры.) О возможной цене этой ошибки говорит тот факт, что смертельная доза кофеина для человека начинается от 18 г. Неудивительно, что Алекс и Люк провели несколько дней в отделении интенсивной терапии, где им удаляли кофеин из крови с помощью процедуры диализа.

Причиной передозировки стала довольно распространенная ошибка: десятичный знак был поставлен в неправильном месте, поэтому данные исказили предписание.

Довольно распространенная ошибка? Через два дня после своего 19-летия ирландец Карл Смит получил €19 636 вместо ожидаемых €196,36. К сожалению, он поддался искушению, тут же начал тратить их, и даже 17 судебных прецедентов не смогли помочь в его случае – молодой человек был отправлен в тюрьму. Рабочий в Северном Йоркшире Стивен Берк должен был получить £446,60, но вместо этого его банковский счет из-за «своевольной» запятой пополнился более чем на £40 000. Он также не смог устоять перед соблазном, потратил £28 000 и получил условное тюремное заключение. (Печальные примеры хотя бы дают хороший урок: если вы обнаружите, что ваш банковский счет внезапно раздулся, не тратьте эти деньги!)

В декабре 2013 г. городской совет Амстердама выплатил стандартные жилищные пособия почти 10 000 получателям. Однако все, что должно было быть центами, внезапно оказалось евро, поскольку на этот раз запятая уехала на две позиции вправо. Эта оплошность обошлась городу в €188 млн. В 2005 г. трейдер Lehman Brothers по ошибке заплатил за сделку $300 млн вместо $3 млн. В отчете о ценах на лекарства, опубликованном в газете The Times (Лондон) от 26 мая 2018 г., упоминалась аптека в графстве Шропшир, где покупатель заплатил £6030 за лекарство, которое должно было стоить £60,30, и еще одна, в Гринвиче, где болеутоляющие средства стоимостью £74,50 обошлись кому-то в £7450[55]55
  B. Kenber, P. Morgan-Bentley, and L. Goddard, “Drug prices: NHS wastes £30m a year paying too much for unlicensed drugs, Times (London), 26 May 2018, https://www.thetimes.co.uk/article/drug-prices-nhs-wastes-30m-a-year-paying-too-much-for-unlicensed-drugs-kv9kr5m8p?shareToken=0e41d3bbd6525068746b7db8f9852a24, accessed 26 May 2018.


[Закрыть]
.

В качестве примера обратной ошибки в пользу клиента можно вспомнить авиакомпанию Alitalia Airlines, которая в 2006 г. намеревалась предложить билеты бизнес-класса на рейс Торонто – Кипр за $3900,00, но из-за невнимательного обращения с запятой билеты были проданы по цене $39,00 за место, что привело к убытку в $7,2 млн.

Все вышесказанное было следствием обычной невнимательности. По крайне мере я так надеюсь. Но иной раз уповать на случайность не приходится, как, например, в истории с лордом Рэндольфом Черчиллем, отцом знаменитого британского премьер-министра Уинстона Черчилля, который однажды, увидев колонку цифр с десятичными дробями, ничуть не смущаясь заявил, что он «никогда не мог разобрать эти чертовы запятые». Все бы ничего, но на тот момент он занимал должность канцлера британского казначейства, что эквивалентно министру финансов, а это уже, согласитесь, повод для некоторого беспокойства.

Неправильная постановка десятичного знака относится к типу ошибок ввода данных, который иногда называют эффектом «неуклюжего пальца». Из бессчетного множества разнообразных проявлений этого эффекта можно вспомнить инцидент, когда инвестиционная компания Mizuho Securities в 2005 г. потеряла более $300 млн, предложив 610 000 акций J-com по 1 иене за штуку вместо продажи одной акции за 610 000 иен. Или случай в апреле 2018 г., когда около 2000 сотрудников Samsung Securities должны были получить дивиденды в размере $0,93 на акцию, что составляло около 2 млрд южнокорейских вон. К сожалению, вместо этого было выпущено 2 млрд акций, что более чем в 30 раз превышало общее количество акций компании и обошлось ей почти в $105 млрд.

Когда происходят подобные ошибки, их стараются исправить как можно скорее, но часто реагируют недостаточно быстро. В случае с Samsung Securities потребовалось 37 минут, чтобы разобраться с оплошностью, но к этому времени 16 сотрудников компании успели воспользоваться возможностью и продали 5 млн свалившихся на них акций. Стоимость акций Samsung Securities рухнула почти на 12 % и на момент написания этих строк все еще была на 10 % ниже предыдущих значений, так что компания потеряла еще и на рыночной стоимости около $300 млн.

Если ошибка ценой $105 млрд кажется вам недостаточно серьезной, то можно припомнить инцидент на Токийской фондовой бирже, случившийся в 2014 г. Вместо того, чтобы провести сделку с акциями Toyota на сумму 1,96 млрд иен, брокер случайно ввел это число в поле количества акций и в результате сумма сделки выросла до $617 млрд. Не правда ли, довольно легко допустить такую ошибку? Мне и самому случалось вводить данные не в те поля, правда, не с такими последствиями. К счастью, в последнем примере заявку успели отменить до того, как она была исполнена.

Человеческий фактор выражается и в трансформации чисел, когда цифры вводятся в неправильном порядке (например, 89 вместо 98), или одна цифра по ошибке вводится вместо другой (например, 7 вместо 2), или когда значения повторяются из-за слишком долгого нажатия на клавишу (например, 222) и т. д.

Подобные искажения – это просто оплошности, но, к сожалению, люди совершают такие ошибки сплошь и рядом. Например, путают единицы измерения, как в случае с космическим аппаратом Mars Climate Orbiter в 1998 г., который разрушился в атмосфере Марса из-за слишком низкого прохождения над его поверхностью по причине того, что в программном обеспечении британские единицы измерения силы не были преобразованы в международную систему единиц СИ; или как в случае с рейсом 143 Air Canada, который разбился в 1983 г. из-за того, что топливо при заправке измеряли в фунтах вместо килограммов.

Другой тип ошибки, связанной с человеческим фактором, повлиял на исход миссии NASA Genesis. Космический зонд успешно взял образцы частиц солнечного ветра с лунной орбиты и доставил их обратно, но на последней стадии полета, во время посадки в Юте, он потерпел крушение. Причина: неверные данные от акселерометров зонда, которые были установлены задом наперед, так что аппарат ускорялся, приближаясь к поверхности Земли, вместо того, чтобы замедляться.

Менее очевидная проблема заключается в том, что пригодность данных может со временем снижаться. Это происходит не потому, что данные портятся, подобно гниющим фруктам, а в силу того, что мир вокруг нас меняется. Вы думаете, например, что на ваш сберегательный счет по-прежнему начисляют 3 % в год, но при обращении в банк испытываете легкий шок, обнаружив, что ставка была снижена без всякого уведомления. Данные, относящиеся к людям, особенно подвержены устареванию (DD-тип 7: данные, меняющиеся со временем) по той простой причине, что меняются сами люди.

Что еще хуже (и в следующих главах мы это подробно рассмотрим), данные могут искажаться людьми преднамеренно. Исследование, проведенное Бюро переписи населения США в 1986 г., показало, что 3–5 % счетчиков причастны в той или иной форме к фальсификации данных, потому что слишком ленивы для настоящей работы по их сбору[56]56
  H. Wainer, “Curbstoning IQ and the 2000 presidential election,” Chance 17 (2004): 43-46.


[Закрыть]
. Американский статистик Уильям Крускал утверждал, что «достаточно проницательный человек, обладающий здравым смыслом и склонностью к цифрам, может взять почти любой структурированный и существенный набор данных или статистический сборник и менее чем за час обнаружить в нем странные числа»[57]57
  W. Kruskal, “Statistics in society: Problems unsolved and unformulated,” Journal of the American Statistical Association, 76, (1981): 505-15.


[Закрыть]
. Медиааналитик Тони Твайман сформулировал закон, получивший известность как Закон Тваймана, который гласит, что любые численные данные, которые выглядят интригующе или как-то выделяются, обычно неверны[58]58
  Я не смог найти ясного происхождения этого закона. В своем президентском обращении 1979 г. к Королевскому статистическому обществу Клаус Мозер (“Statistics and public policy,” Journal of the Royal Statistical Society, Series A143 (1980): 1-32) говорит, что он был разработан Центральным статистическим управлением Великобритании. Эндрю Эренберг цитирует его как Закон Тваймана без указания источника (“The teaching of statistics: Corrections and comments,” Journal of the Royal Statistical Society, Series A138 (1975): 543-45).


[Закрыть]
. Более того, ввиду гигантского количества ежедневно регистрируемых чисел следует ожидать, что какие-то из них будут введены неправильно. Например, в 2014 г. каждый день в мире совершалось около 35 млрд финансовых транзакций, и с тех пор это число только увеличилось. В своей книге «Принцип невероятности» (The Improbability Principle) я подробно рассматриваю проблему ошибочных записей при таком большом количестве цифр.

Специалисты в области глубинного анализа данных, которые занимаются поиском любопытных или полезных аномалий в больших наборах данных, называют следующие причины возникновения необычных структур в таких наборах (в порядке убывания их важности):

● проблема на уровне самих данных (возможно, они были повреждены или искажены в процессе сбора, или частично отсутствуют);

● аномалии обусловлены случайными колебаниями (иначе говоря, речь идет о единичных значениях, которые не несут в себе существенной информации);

● структуры уже известны (как, например, в случае открытия того факта, что люди часто покупают сыр и крекеры вместе);

● структуры не представляют интереса (если, например, обнаружено, что около половины женатых людей в Великобритании – женщины).

Пока все эти факторы не исключены, необычная структура не может называться реальной, интересной или потенциально ценной. Для нас же важно то, что большинство аномалий в этой области, кажущихся на первый взгляд открытиями, – не что иное, как иллюзии, вызванные проблемами на уровне данных.

Учитывая вышесказанное, неудивительно, что, по подсчетам IBM, «низкое качество данных обходится экономике США примерно в $3,1 трлн в год»[59]59
  T. C. Redman, “Bad data costs the U.S. $3 trillion per year,” Harvard Business Review, 22 September 2016, https://hbr.org/2016/09/bad-data-costs-the-u-s-3-trillion-per-year, accessed 17 August 2018.


[Закрыть]
. Однако верна ли эта оценка?

Во-первых, все зависит от того, что именно она включает в себя: входит ли в оценку стоимость выявления проблем с данными, исправления допущенных ошибок, а также их последствий? Во-вторых, в контексте ВВП США, который составляет около $20 трлн, сумма $3,1 трлн кажется неоправданно большой, и у меня возникает вопрос, не является ли сама эта оценка «данными низкого качества»?

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8
  • 2.7 Оценок: 6

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации