Читать книгу "Как лгать при помощи статистики"

Текст добавлен: 22 декабря 2015, 01:40

Автор книги: Дарелл Хафф

Жанр: Социология, Наука и Образование

Возрастные ограничения: 12+

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 2 (всего у книги 8 страниц) [доступный отрывок для чтения: 2 страниц]

Скачать книгу

Шрифт:

- 100% +

Безупречно случайная – единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку для множества надобностей настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи. Более экономной заменой, повсеместно используемой в таких сферах, как изучение общественного мнения и рыночной конъюнктуры, будет стратифицированная случайная выборка.

Чтобы получить стратифицированную выборку, вы должны разбить генеральную совокупность на несколько групп (страт) пропорционально известному показателю их распространенности в совокупности. Вот тут-то и начнутся трудности: сведения о том, каково соотношение групп в генеральной совокупности, могут быть некорректны. Вы инструктируете интервьюеров, которые будут проводить опрос, и наказываете им проследить, чтобы среди опрошенных было столько-то чернокожих, такой-то процент людей, относящихся к нескольким группам населения по размеру доходов, определенное число фермеров и т. п. Но вместе с тем в группе должно быть представлено равное количество людей в возрасте старше и моложе сорока лет.

Все это выглядит убедительно, но что происходит на деле? В том, что касается цвета кожи респондентов – белый это или чернокожий, интервьюеры в большинстве случаев не ошибутся. Но они допустят больше ошибок в оценке размера доходов опрашиваемых. А если говорить о фермерах, то как вы классифицируете человека, который часть времени трудится на ферме, но вдобавок имеет работу в городе? Даже такой вопрос, как возрастная категория респондента, может создать некоторые трудности, но интервьюеры преодолевают их самым простым способом – выбирают респондентов, которые явно старше или значительно моложе сорока лет. Правда, в таких случаях выборка будет предвзятой ввиду фактического отсутствия в ней лиц в возрасте под сорок и тех, кому сорок с небольшим. Так что, как ни крути, хорошего решения все равно нет.

А кроме всего прочего, как на условиях стратификации получить вероятностную выборку? Самое очевидное решение – сначала переписать всех, кто входит в страту, а затем найти и опросить выбранных из этого списка случайным образом. Но это слишком уж дорогостоящая процедура. И тогда вы просто выходите на улицу – и сами искажаете свою выборку, поскольку в ней не будут представлены люди, которые сидят в это время по домам. Если вы будете стучаться в двери днем – значит, не охватите большинство тех, кто работает. Решив проводить опросы по вечерам, вы упустите любителей кинематографа и завсегдатаев ночных клубов.

В итоге проведение опроса сводится к стараниям побороть источники необъективности, и эту битву ведут все до единой почтенные организации, занимающиеся проведением опросов. Те, кто читает их доклады, должны помнить: эту битву никто и никогда не выигрывает. Всякий раз, когда вам где-нибудь встречается вывод, что «67 % американцев против» того-то или того-то, вам следует задаться вопросом: 67 % каких именно американцев?

То же самое относится и к «трактату о женской сексуальности» доктора Альфреда Кинси[6]6
Речь об одном из двух «Отчетов Кинси» на тему сексуального поведения – «Половое поведение самки человека» (Sexual Behavior in the Human Female) (1953); до этого, в 1948 г., Кинси опубликовал аналогичный труд о сексуальном поведении мужчин «Половое поведение самца человека» (Sexual Behavior in the Human Male). Альфред Чарлз Кинси – американский биолог и сексолог, профессор энтомологии и зоологии, основатель института по изучению секса, пола и воспроизводства, называемого ныне Институтом Кинси. Кинси считается отцом сексологии и систематического изучения сексуальности человека. Данные для своих исследований Кинси собирал посредством интервьюирования многих тысяч людей. – Прим. пер.

[Закрыть].

Проблема с этим трудом (как и со всеми прочими, в основу которых положены выборки) заключается в том, как ознакомиться с ним (или его кратким изложением) и при этом не намотать на ус слишком много суждений, которые не обязательно истинны. В труде доктора Кинси задействованы выборки как минимум на трех уровнях. Сделанные самим Кинси выборки из всего населения страны (один уровень) далеки от вероятностных и могут быть не особенно репрезентативны, но они колоссальны в сравнении с тем, что было сделано в этой области раньше. Приведенные Кинси цифры следует воспринимать как данные, на многое проливающие свет и значимые, даже если они и не вполне точны. Наверное, важнее иметь в виду, что любой вопросник или анкета представляют собой всего лишь выборку (еще один уровень) из всего множества возможных вопросов и что ответы женщин на эти вопросы – тоже не более чем выборка (вот вам третий уровень) из их личных взглядов и жизненного опыта по каждому заданному вопросу.

Сама личность интервьюера также способна довольно любопытным образом повлиять на ответы респондентов в ходе опроса. Несколько лет назад, еще во время войны[7]7
Имеется в виду Вторая мировая война. – Прим. ред.

[Закрыть], Национальный центр изучения общественного мнения направил в один город на юге страны две группы интервьюеров с поручением задать три вопроса пятистам чернокожим горожанам. Одна группа состояла из белых, а вторая – из чернокожих интервьюеров.

Один из вопросов формулировался так: «Лучше или хуже обращались бы у нас с чернокожими, если бы японцы завоевали США?» По данным группы чернокожих интервьюеров, ответ «лучше» дали 9 % опрошенных ими респондентов. А белые интервьюеры зафиксировали всего 2 % таких ответов. И если чернокожие интервьюеры обнаружили всего 25 % респондентов, полагавших, что обращение с чернокожими ухудшится, то у белых интервьюеров доля респондентов, придерживающихся такой точки зрения, неожиданно оказалась равной 45 %.

В ответ на второй вопрос, аналогичный первому за тем исключением, что в формулировке значились не «японцы», а «нацисты», были получены похожие результаты.

Третий вопрос был призван прояснить взгляды респондентов, которые могли сформироваться на основе мнений, высказанных ими при ответах на первые два вопроса. «На чем, по вашему мнению, важнее сосредоточить усилия: на том, чтобы победить страны “оси”[8]8
Страны «оси» – агрессивный военный союз Германии, Италии, Японии и других государств, которому противостояла во время Второй мировой войны антигитлеровская коалиция. – Прим. ред.

[Закрыть], или на том, чтобы здесь, у себя дома, усилить действенность демократии?» Ответ «победить страны “оси”», по данным чернокожих интервьюеров, дали 39 % респондентов, а у белых интервьюеров этот показатель составил 62 %.

Перед нами пример предвзятости, обусловленной некими неизвестными факторами. Как представляется, самым сильнодействующим фактором будет тенденция, которую никогда не следует сбрасывать со счетов, когда знакомишься с результатами социологических опросов: желание респондента угодить интервьюеру. Стоит ли удивляться, что, отвечая на вопрос с подтекстом, намекающим на возможную нелояльность своей стране в военное время, чернокожие жители Юга скорее предпочли ответить белому интервьюеру так, чтобы их ответ выглядел достойно, чем сообщить ему, что они думают в действительности? Также нельзя исключать, что разные группы интервьюеров выбирали себе в респонденты разных людей.

Как бы там ни было, а результаты опроса, безусловно, до такой степени предвзяты и необъективны, что это их практически обесценивает. Можете сами судить, сколь многие сделанные на основе опросов выводы и умозаключения до такой же степени предвзяты, равно как и ни к чему не годны – разве что у нас нет никакой возможности проверить их и изобличить их несостоятельность.

Теперь у нас достаточно оснований сделать следующий шаг и предположить, что все социологические опросы в целом грешат предвзятостью – того же сорта, что и допущенный Literary Digest просчет. Это крен в сторону людей более состоятельных, более образованных, более информированных и осторожных, с более пристойным внешним видом, общепринятым поведением и с более устоявшимися привычками, чем у того среднестатистического гражданина, представлять которого их выбрали.

Не так уж трудно понять, отчего такое происходит. Давайте представим, что вам поручили встать на углу улицы и задать ряд вопросов какому-то одному человеку. Вам попадаются на глаза двое прохожих, и оба вроде бы подходят под ту категорию, представителя которой вам предписано опросить, а именно – горожанина в возрасте старше сорока лет. Один прохожий одет чисто и аккуратно, другой же – во что-то непотребное, да к тому же угрюм и неприветлив на вид. Вы, чтобы выполнить свое задание, естественно, обратитесь к тому из двоих, кто выглядит приличнее, и точно так же поступают ваши коллеги-интервьюеры по всей стране.

Среди прочих сильнейшая неприязнь к опросам общественного мнения наблюдается в кругах либералов и сторонников левых идей, где довольно-таки прочно укоренилось мнение, что социологические опросы в большинстве своем – подтасовки и надувательство. Это мнение зиждется на том факте, что результаты социологических опросов очень часто не сообразуются с убеждениями и чаяниями тех, кто не разделяет консервативных взглядов. Если верить опросам, указывают они, то получается, что победят республиканцы, даже когда через считаные дни избиратели делают иной выбор.

На самом деле, как мы уже убедились, это вовсе не означает, что социологические опросы фальсифицируются – иными словами, что кто-то намеренно искажает их результаты, чтобы создать ложное впечатление. Свойственная выборке тенденция к систематическому смещению в сторону более состоятельных респондентов может исказить результаты любого опроса.

Глава 2
Грамотно выбранное среднее

Надеюсь, вы не страдаете снобизмом, а я определенно не имею никакого отношения к рынку недвижимости. Но давайте считать, что вы все-таки сноб, а я – агент по продаже недвижимости и что вы как раз сейчас присматриваете земельный участок поблизости от Калифорнийской долины, где я обитаю.

Я уже разобрался, что вы за человек, и теперь, не жалея сил, убеждаю вас, что в интересующем вас месте проживают люди со средним доходом порядка $15 000 в год. Может быть, именно этот довод и сыграл решающую роль в вашем решении поселиться в этих краях, но, как бы там ни было, вы совершаете покупку, а названная мною приятная сумма годового дохода местных жителей западает вам в душу. Более чем уверен (уж коли мы договорились, что сейчас вы немножечко сноб), что в разговорах с друзьями вы нет-нет, да и ввернете эту цифру, описывая место, где теперь живете.

Примерно через год мы с вами снова встречаемся. Как член некого комитета налогоплательщиков, я собираю подписи под петицией, требующей не повышать налоговую ставку, оценочную стоимость налогооблагаемого имущества или плату за проезд в автобусах. Я привожу такой довод: мы, местные жители, не можем позволить себе платить больше, ведь, в конце концов, средний доход жителей нашей округи составляет всего лишь $3500 в год. Не исключено, что в этом вы соглашаетесь со мной и нашим комитетом – вы не только сноб, но еще и довольно прижимисты по натуре, – и все же вас не может не удивлять мое упоминание об этих жалких $3500 среднего дохода. Вру я сейчас или соврал тогда, год назад?

Вам не удастся дважды обвинить меня во лжи. В этом и состоит вся прелесть обмана при помощи статистики. Обе эти цифры представляют собой вполне правомочные среднестатистические показатели, обе вычислены с соблюдением всех правил. Обе отражают один и тот же массив данных, характеристики одной и той же группы людей, одни и те же показатели дохода. И тем не менее совершенно очевидно, что по крайней мере одна из цифр должна быть настолько недостоверной, что ничем не уступает самой отъявленной лжи.

Моя уловка состояла в том, что в первом и втором случае я воспользовался среднестатистическими показателями разного вида, ведь термин «средний» имеет очень расплывчатое толкование. Подобный трюк широко используют субъекты, желающие повлиять на общественное мнение или продать рекламное место – бывает, что по простоте душевной, но чаще вполне осознанно. Когда вам рассказывают, что некое число представляет собой среднюю величину, это мало о чем вам скажет, пока вы не разберетесь, какой из трех основных видов среднего перед вами – среднее арифметическое, медиана или мода.

Когда мне требовался показатель побольше, я упомянул $15 000. Это было простое среднее, то есть среднее арифметическое доходов всех семей, проживающих в той местности. Для его расчета требуется сложить доходы всех семей и разделить получившуюся сумму на число семей. Спустя год я воспользовался средним показателем меньшей величины – он представляет собой медиану и означает, что половина семей в рассматриваемой местности имеет годовой доход выше $3500, а вторая половина – ниже $3500. Я мог бы пустить в ход и моду, то есть чаще всего встречающееся значение в числовом ряду, составленном из доходов семей в интересующей нас местности. Если у большей части проживающих там семей годовой доход составляет $5000, это значение и будет модой, или модальным доходом.

В данном случае (и, как правило, это справедливо в отношении показателей доходов) некое абстрактное «среднее» – без уточнения, какого оно вида, – в сущности, лишено всякого смысла. Добавляет путаницы и еще один фактор: во многих случаях все три средних показателя настолько близки по значению, что нет никакой необходимости делать различие между ними, если требуется в общих чертах охарактеризовать положение вещей.

Если вы где-то прочитали, что у людей, относящихся к какой-то группе, средний рост составляет всего лишь полтора метра, это дает вам вполне ясное представление об их росте. Вам нет необходимости уточнять, будет ли этот показатель средним арифметическим значением, медианой или модой – эти величины примерно одинаковы. (Разумеется, если вы связаны с пошивом спецодежды для этого контингента, вам понадобится больше данных, чем те, что способен дать любой среднестатистический показатель. Вам потребуется информация о диапазоне и отклонениях, и этим мы займемся в следующей главе.)

Разные виды среднего имеют близкие значения, когда дело касается данных наподобие тех, что относятся ко многим характеристикам человека. Они настолько любезны, что изволят тяготеть к тому, что называется нормальным распределением. Если начертить кривую нормального распределения, то по форме она будет напоминать колокол, а среднее арифметическое значение, медиана и мода попадут в одну и ту же точку.

Следовательно, один вид среднего ничуть не хуже другого, когда требуется охарактеризовать рост группы мужчин. Но все совсем не так, когда стоит задача описать размер их доходов. Если вам требуется свести в один список показатели годового дохода всех жителей исследуемого города, то может оказаться, что эти величины варьируются в пределах от довольно скромных до, вероятно, $50 000 или около того. Кроме того, в списке могут фигурировать всего несколько показателей действительно очень высокого дохода. Порядка 95 % всех показателей будут ниже, чем $10 000, и они займут место в левой части кривой. В итоге вместо симметричной, как колокол, кривой вы получите кривую, скошенную в одну сторону. С одной стороны – крутая горка, с другой – постепенный плавный спуск. Среднее арифметическое окажется на некотором расстоянии от медианы. Сами посудите, как это могло бы сказаться на справедливости любого сравнения между «средним» (средним арифметическим) показателем за один год и «средним» (медианой) за другой год.

В той местности, где я продал вам кое-какую недвижимость, два средних показателя особенно сильно расходятся по значению, поскольку распределение доходов имеет явное смещение. Так уж получилось, что большинство ваших соседей – мелкие фермеры, наемные работники в близлежащем поселке или люди, отошедшие от дел и живущие на пенсию. Однако трое – миллионеры, они наведываются в здешние дома только по выходным, и именно за счет их миллионов суммарный годовой доход по вашей округе достигает такой значительной величины (и, соответственно, неимоверно увеличивает средний арифметический доход жителей). Из-за этих троих показатель среднего дохода приобретает огромный размер, какого и близко не имеет почти никто из остальных жителей местности. Это тот самый случай, когда шутка «Практически все имеют доход ниже среднего» становится реальностью.

И потому, если вам попадается заявление главы корпорации или владельца компании, где говорится, что у его сотрудников средняя зарплата достаточно высока, это может означать нечто конкретное, а может и не означать ничего. Если упомянутый средний показатель представляет собой медиану, он скажет вам нечто существенное, а именно, что половина сотрудников зарабатывает больше указанной суммы, а другая половина – меньше. Но если перед вами среднее арифметическое (а можете мне поверить, так оно и бывает, если вид среднего не уточняется), эта цифра не даст вам никакой полезной информации. Это всего лишь среднее арифметическое, которое складывается из одного показателя дохода в размере $45 000 (владельца бизнеса) и зарплат его низкооплачиваемых сотрудников. Если где-то говорится, что «средняя заработная плата составляет $5700», за этим могут скрываться заработки сотрудников размером $2000 и прибыли владельца, представленные в виде дохода колоссальной величины.

Давайте чуть подольше задержим взгляд на последнем примере. В первую очередь мы видим, кто сколько получает. Босс, вероятно, предпочел бы охарактеризовать ситуацию с оплатой труда как «средний заработок в размере $5700», то есть прибегнуть к обманчивому среднему арифметическому значению. Однако мода сказала бы нам намного больше: самый распространенный размер заработка в этой компании составляет $2000 в год. Однако медиана, как это часто бывает, лучше проясняет картину, чем любой отдельно взятый показатель: половина сотрудников зарабатывает больше $3000, а другая половина – меньше.

Очень легко использовать этот прием, чтобы одним махом изобразить красивую картинку (и чем непригляднее ситуация на самом деле, тем краше она будет). Это хорошо иллюстрируют официальные отчеты некоторых компаний. Давайте попытаемся разобраться с одним из таких примеров.

Допустим, вы – один из троих партнеров, владеющих небольшим производством. Сейчас конец года, причем весьма для вас удачного. Вы выплатили в качестве зарплаты $198 000 своим 90 сотрудникам, которые производят и отгружают заказчикам стулья или какую-то другую продукцию. Вы с партнерами выплатили себе по $11 000 в качестве оклада. Но у вас остается еще и прибыль в размере $45 000, которую вы должны как-то распределить. Как вы отразите эту ситуацию в отчете? Чтобы она была понятнее, вы облекаете ее в форму средних показателей. Ввиду того, что все ваши сотрудники выполняют примерно одинаковую работу за одинаковую плату, не составит никакой разницы, какого вида средний показатель вы используете – среднее арифметическое или медиану. Вот какой результат у вас получится:

Средняя зарплата сотрудников……………………………………..$2200

Средний оклад и прибыль владельцев…………………………..$26 000

Сильно, правда? А давайте попробуем подойти к делу с другой стороны.

Берем из прибыли $30 000 и распределяем между тремя партнерами в качестве премиальных. И на сей раз, рассчитывая средний размер заработка в компании, включите в расчет себя и своих партнеров. И позаботьтесь о том, чтобы воспользоваться средним арифметическим:

Средняя зарплата или оклад……………………………$2806,45

Средняя прибыль владельцев…………………………..$5000,00

Ага! Вот так уже лучше. Эти данные можно и улучшить, но сейчас все выглядит куда пристойнее. Менее 6 % от фонда заработной платы и прибыли пошло владельцам, и вы можете пойти дальше и наглядно показать это, если захотите. В любом случае теперь у вас в распоряжении имеются цифры, которые вполне годятся, чтобы обнародовать их, поместить на доске объявлений или использовать при заключении трудовых договоров с сотрудниками.

Этот трюк выглядит довольно грубым, поскольку сам пример у нас упрощенный, но это ничто в сравнении с тем, что делают во имя отчетности. Если взять корпорацию со сложной структурой и несколькими уровнями иерархии сотрудников – от начинающей машинистки до президента, чьи премии исчисляются сотнями тысяч долларов, то точно таким же манером можно скрыть какие угодно реальные цифры.

Так что, когда вам встречается средний показатель зарплаты, первым делом задайтесь вопросом: это среднее чего? Кого оно включает? Был случай, когда Американская сталелитейная корпорация (United States Steel Corporation) заявила, что средняя недельная зарплата ее сотрудников возросла на 107 % в период с 1940 по 1948 г. Так оно и было – правда, впечатление от этого чудесного прироста несколько меркнет, когда вы замечаете, что в показатель за 1940 г. включено значительно большее число частично занятых сотрудников. Если в каком-то году вы работали по полнедели, а в следующем перешли на полную занятость, ваш заработок удвоится, но это ничего не говорит о размере вашей заработной платы.

Вы могли прочитать в газете, что доход средней американской семьи в 1949 г. составил $3100. Не стоит и пытаться делать из этого каких-либо серьезных выводов, пока вы не узнаете, что за «семьи» принимались в расчет для вычисления среднего и к какому виду относится это среднее. (И еще – кто это говорит, откуда он это взял и насколько точна сама цифра.)

Выясняется, что данную цифру опубликовало Бюро переписи населения США. Если у вас под рукой есть доклад бюро, вам не составит труда найти на его страницах всю сопутствующую информацию: опубликованная цифра представляет собой медиану; «семья» определяется как «двое или больше человек, состоящих в родстве друг с другом и проживающих вместе». (Если в группу включить тех, кто живет один, медиана сместится к отметке $2700, а это уже существенно отличается от первоначальных $3100.) Если пойти назад, к исходным табличным данным, то можно заметить, что показатель дохода рассчитан на основе выборки такого размера, что с вероятностью девятнадцать из двадцати данный показатель (а он до округления равнялся $3107) имеет погрешность в пределах ± $59.

Благодаря такой степени вероятности и такому уровню погрешности оценка получилась более или менее точной. Сотрудники бюро достаточно профессиональны, и их работа финансируется достаточно хорошо, что и позволило провести выборочное исследование с такой приличной степенью точности. И надо полагать, выполняя эту работу, сотрудники бюро не были заинтересованы подгонять оценку под какую-то конкретную цифру. Не все статистические показатели, которые вам встречаются, появляются на свет при таких счастливых обстоятельствах, да и далеко не все стандартные сопровождаются вообще какой-либо информацией, позволяющей судить, в какой степени точными или неточными они могут быть. Мы подробнее обсудим эту тему в следующей главе.

Между тем вам предоставляется случай испытать свою недоверчивость на некоторых утверждениях из колонки «От издателя» в журнале Time. Про новых подписчиков журнала там говорится, что «их медианный возраст составляет 34 года, а средний семейный доход равен $7270 в год». Более раннее по времени исследование «давних подписчиков» установило, что их «медианный возраст достигает 41 года… Средний доход составляет $9535…». Возникает резонный вопрос: почему в обоих случаях про возраст подписчиков уточняется, что это медианное значение, а вот о том, какого вида средним выражен средний доход, журнал предусмотрительно умалчивает? Может ли быть так, что среднее арифметическое для обозначения среднего дохода выбрано по той причине, что его величина больше других средних (и, судя по всему, преследуется цель приманить рекламодателей тем, что у журнала весьма состоятельная аудитория)?

Вы могли бы также поиграть в игру «Какого вида это среднее?» на примере предполагаемого преуспевания выпускников Йельского университета 1924 г. выпуска, о чем говорилось в начале первой главы.