Читать книгу "Модельное мышление. Как анализировать сложные явления с помощью математических моделей"

Текст добавлен: 23 июля 2020, 10:42

Автор книги: Скотт Пейдж

Жанр: Прочая образовательная литература, Наука и Образование

Возрастные ограничения: 16+

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 8 (всего у книги 40 страниц) [доступный отрывок для чтения: 10 страниц]

Скачать книгу

Шрифт:

- 100% +

Применение знаний о распределениях: Функция

Наш первый пример применения нормального распределения объясняет, почему исключительные результаты гораздо чаще имеют место в малых совокупностях, почему лучшие школы небольшие и почему страны с самым высоким уровнем заболеваемости раком, как правило, малонаселенные. Напомним, что в случае нормального распределения около 95 процентов результатов находятся в пределах двух стандартных отклонений и 99 процентов результатов – в пределах трех стандартных отклонений и что согласно центральной предельной теореме математическое ожидание совокупности независимых случайных величин распределено по нормальному закону (с оговорками о дисперсии и независимости). Отсюда следует, что мы можем быть в достаточной степени уверены, что совокупные средние показатели по результатам тестов и другие подобные показатели будут иметь нормальное распределение. Вместе с тем стандартное отклонение среднего случайных величин не равно среднему стандартных отклонений этих величин, так же как стандартное отклонение суммы не равно сумме стандартных отклонений. На самом деле в основе этих формул лежит квадратный корень из величины совокупности (см. врезку).

Правило квадратного корня

Стандартные отклонения σ_μ математического ожидания μ и суммы σ_Σ N независимых случайных величин, каждая из которых имеет стандартное отклонение σ, описываются следующими формулами[95]95
В общем случае при наличии независимых случайных величин мы имеем следующие выражения:
Полагая σ_i = σ для всех i, получим

[Закрыть]:

Формула стандартного отклонения математического ожидания означает, что большие совокупности имеют более низкие показатели стандартного отклонения, чем малые. Из этого следует, что в малых совокупностях должно быть больше хорошего и больше плохого. На самом деле так и есть. Маленькие города – наиболее и в то же время наименее безопасное место для проживания. Страны с самым высоким уровнем ожирения и заболеваемости раком обычно малонаселенные. Все эти факты можно объяснить различиями в стандартных отклонениях.

Неспособность учитывать размер выборки и выявить причинно-следственные связи из отклоняющихся значений может привести к неправильным политическим действиям. По этой причине Говард Уэйнер называет формулу стандартного отклонения математического ожидания «самым опасным уравнением в мире». Например, в 1990-х годах Фонд Билла и Мелинды Гейтс и другие некоммерческие организации выступили за разделение школ на более маленькие, основываясь на доказательствах, что такие школы лучше[96]96
В книге Говарда Уэйнера (Wainer, 2009) дается более глубокий анализ вариантов выбора политического курса.

[Закрыть]. Для того чтобы найти ошибку в этих рассуждениях, представьте, что школы бывают двух типов (маленькие, рассчитанные на 100 учащихся, и большие, на 1600 учащихся) и что оценки их учеников получены на основе одного и того же распределения со средним баллом 100 и стандартным отклонением 80. В маленьких школах стандартное отклонение от среднего значения равно 8 (стандартное отклонение оценок учеников 80, деленное на 10, квадратный корень из количества учеников), в больших – 2.

Если мы обозначим школы со средним баллом выше 110 как школы «с высокими показателями успеваемости», а школы со средним баллом выше 120 как «с исключительными показателями успеваемости», то только небольшие школы будут отвечать любому из этих пороговых значений. Для маленьких школ средний балл 110 находится в 1,25 стандартного отклонения выше среднего значения; такие события имеют место примерно в 10 процентах случаев. Средний балл 120 находится в 2,5 стандартного отклонения выше среднего; подобные события встречаются примерно один раз на 150 школ. Выполнив аналогичные расчеты для крупных школ, мы обнаружим, что пороговое значение среднего балла в школах с высокой успеваемостью находится в пяти стандартных отклонениях выше среднего, а пороговое значение в школах с исключительной успеваемостью – в десяти стандартных отклонениях от среднего. В действительности такие события никогда не наступят. Следовательно, тот факт, что самые лучшие школы маленькие, не доказывает того, что они лучше работают. Самые лучшие школы будут небольшими (хотя размер ни на что не влияет) исключительно в силу правил квадратного корня.

ПРОВЕРКА ЗНАЧИМОСТИ

Регулярность нормального распределения можно также использовать для проверки существенных различий между средними значениями. Если эмпирическое среднее лежит более чем в двух стандартных отклонениях от гипотетического среднего, социологи отклоняют гипотезу об их идентичности[97]97
Пороговое значение в два стандартных отклонения (значимость 5 процентов) – спорное правило, однако именно его обычно применяют социологи. Большой коэффициент, значимый на уровне 6 процентов, скорее всего, заслуживает большего внимания, чем маленький коэффициент со значимостью 4,9 процента. СМ. Ziliak and McCloskey, 2008.

[Закрыть]. Предположим, мы выдвинем гипотезу, что время поездки на работу в Балтиморе соответствует аналогичному показателю в Лос-Анджелесе. Допустим, наши данные показывают, что поездка в Балтиморе в среднем занимает 33 минуты, а в Лос-Анджелесе – 34 минуты. Если оба множества данных имеют стандартное отклонение от среднего, равное одной минуте, то мы не можем отклонить гипотезу о том, что значения этого показателя идентичны. Средние значения отличаются, но всего на одно стандартное отклонение. Если бы продолжительность поездки на работу в Лос-Анджелесе составляла в среднем 37 минут, тогда мы бы отклонили эту гипотезу, потому что средние значения отличаются на четыре стандартных отклонения.

Однако физики, возможно, так не поступили бы – по крайней мере, если данные получены на основе физических экспериментов. Физики вводят более строгие стандарты, потому что располагают более крупными и более достоверными множествами данных (атомов гораздо больше, чем людей). Экспериментальные данные, на которые полагались физики в 2012 году в качестве доказательства существования бозона Хиггса, менее одного раза на 7 миллионов испытаний указывали на то, что его не существует.

Процесс утверждения лекарственных препаратов, используемый Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов США (Food and Drug Administration, FDA), также основан на проверке значимости. Если фармацевтическая компания заявляет, что ее новое лекарство снижает тяжесть атопического дерматита, она должна провести два рандомизированных контролируемых испытания. Для того чтобы их организовать, компания формирует две идентичные группы страдающих атопическим дерматитом людей. Одна группа получает лекарственный препарат, а другая – плацебо. В конце исследования сравниваются показатели средней тяжести заболевания и среднего уровня негативных побочных эффектов. Затем компания проводит статистические тесты. Если лекарственный препарат существенно снижает тяжесть атопического дерматита (в стандартных отклонениях) и не вызывает значительного повышения уровня негативных побочных эффектов, он будет одобрен. FDA не придерживается непреложного правила о двух стандартных отклонениях. Статистический показатель будет ниже для препарата, излечивающего смертельное заболевание и демонстрирующего незначительные побочные эффекты, чем для лекарства от грибка ногтей, с применением которого связан более высокий уровень заболеваемости раком костей, чем ожидалось. Кроме того, FDA обращает внимание на мощность статистического теста – вероятность того, что тест продемонстрирует эффективность лекарственного препарата.

МЕТОД «ШЕСТЬ СИГМ»

В этом разделе мы продемонстрируем, как применение нормального распределения обеспечивает контроль качества с помощью метода «шесть сигм». Разработанный компанией Motorola в 1980-х годах, этот метод снижает частоту ошибок. Он моделирует свойства продукта на основе нормального распределения. Представьте себе компанию, выпускающую болты для дверных ручек, изготовленных другим производителем, которые должны точно им соответствовать. Согласно техническим спецификациям диаметр болтов должен равняться 14 миллиметрам, хотя любой болт диаметром от 13 до 15 миллиметров будет функционировать должным образом. Если диаметры болтов распределены по среднему закону со средним значением 14 миллиметров и стандартным отклонением 0,5 миллиметра, то любой болт, диаметр которого отличается больше чем на два стандартных отклонения, будет непригоден. События с двумя стандартными отклонениями встречаются в 5 процентах случаев – слишком большой показатель для производителей.

Метод «шесть сигм» подразумевает работу по уменьшению размера стандартного отклонения для снижения вероятности отказа. Компании могут сократить частоту ошибок путем ужесточения контроля качества. Например, 26 февраля 2008 года сеть кофеен Starbucks на три часа закрыла семь тысяч своих заведений для переподготовки сотрудников. Аналогично чек-листы, используемые авиакомпаниями, а теперь и больницами, сокращают вариацию[98]98
См. Gawande, 2009.

[Закрыть]. Метод «шесть сигм» позволяет сократить стандартное отклонение таким образом, что даже при шести стандартных отклонениях ошибка не приводит к отказам. В нашем примере с болтом это потребовало бы сокращения стандартного отклонения диаметра болта до одной шестой миллиметра. Шесть стандартных отклонений подразумевают 2 ошибки на миллиард случаев. Пороговое значение, используемое на практике, допускает неизбежный уровень в полтора стандартных отклонения. Получается, что событие со стандартным отклонением шесть сигм фактически соответствует событию с отклонением четыре с половиной сигмы, означающим допустимую погрешность – около одной ошибки на три миллиона случаев.

Применение центральной предельной теоремы (а значит, и подразумеваемой модели аддитивной ошибки) в методе «шесть сигм» носит настолько неочевидный характер, что остается почти незамеченным. Разумеется, производитель болтов не выполняет точного измерения диаметра каждого болта. Он может провести выборочные измерения нескольких сотен болтов и на основании этой выборки вычислить среднее значение и стандартное отклонение, а затем, исходя из того, что разброс диаметра обусловлен суммой случайных воздействий, таких как вибрация станка, различия в качестве металлов и колебания температуры и скорости пресса, обратиться к центральной предельной теореме и определить нормальное распределение значений диаметра. Так производитель получит эталонное стандартное отклонение, которое может попытаться сократить.

Логнормальное распределение: Умножение аномальных величин

Центральная предельная теорема требует сложения или усреднения независимых случайных величин для того, чтобы получить нормальное распределение. Если случайные величины не суммируются, но каким-то образом взаимодействуют, или не удовлетворяют условию независимости, то полученное в итоге распределение не обязательно должно быть нормальным. На самом деле оно, как правило, таковым и не является. Например, случайные величины, которые представляют собой произведение независимых случайных величин, дают логарифмически нормальное, а не нормальное распределение[99]99
  Распределение произведений случайных величин называется логарифмически нормальным потому, что логарифм такого распределения подчиняется нормальному закону. Вот краткое описание логики того, почему это происходит. Во-первых, представим произведение чисел y = x₁ · x₂ · x₃ · … · xn в виде членов, записанных как степень 10:
  10^log₁₀⁽y⁾ = 10^log₁₀⁽x₁⁾ · 10^log₁₀⁽x₂⁾ · 10^log₁₀⁽x₃⁾ ·… · 10^log₁₀⁽xn⁾ = 10^log₁₀^(x₁^{) + log}₁₀^(x₂^{) + log}₁₀^(x₃^{) +… + log}₁₀⁽x_n⁾.
  Затем возьмем десятичный логарифм от обеих частей уравнения, для того чтобы получить следующее:
  log₁₀(y) = log₁₀(x₁) + log₁₀(x₂) + log₁₀(x₃) + … +log₁₀(x_n).
  Таким образом, логарифм величины y можно записать как сумму логарифмов случайных величин, логарифмы которых также являются случайными величинами, а если их дисперсия удовлетворяет условиям центральной предельной теоремы, то их сумма, равная log₁₀(y), будет распределена по нормальному закону.

[Закрыть]. В логнормальном распределении отсутствует симметрия, поскольку произведения чисел, которые больше 1, возрастают быстрее, чем их суммы (4 + 4 + 4 + 4 = 16, но 4 × 4 × 4 × 4 = 256), а произведения чисел меньше 1 уменьшаются быстрее, чем суммы Если мы перемножим множества из двадцати случайных величин с равномерно распределенными значениями от 0 до 10, то их произведение будет состоять из множества результатов, близких к нулю, и нескольких больших результатов, что создаст асимметричное распределение, показанное на рис. 5.2[100]100
  Стандартное определение логнормального распределения: если случайная величина Х имеет логнормальное распределение, то ее логарифм Y = lnX распределен по нормальному закону. Прим. ред.

[Закрыть].

Рис. 5.2. Логнормальное распределение

Длина хвоста логнормального распределения зависит от дисперсии случайных величин, умноженных друг на друга. Если у этих величин низкая дисперсия, хвост будет коротким, если высокая, хвост будет достаточно длинным, поскольку, как уже отмечалось, умножение последовательности больших чисел дает очень большое число. Логнормальное распределение возникает в широком диапазоне примеров, включая размер британских ферм, концентрацию полезных ископаемых в недрах земли и продолжительность периода от заражения болезнью до появления симптомов[101]101
См. Limpert, Stahel, and Abbt 2001.

[Закрыть]. Распределение доходов во многих странах стремится к логнормальному распределению, хотя в некоторых странах может отклоняться от него у верхней границы в связи с наличием слишком большого количества людей с высокими доходами.

Простая модель, объясняющая, почему распределение доходов ближе к логнормальному, чем к нормальному, связывает политику повышения заработной платы с распределением доходов, которое она подразумевает. Большинство организаций повышают зарплату на определенный процент. Сотрудники, эффективность работы которых выше среднего, получают более высокий процент повышения. Сотрудники с эффективностью ниже среднего получают повышение на более низкий процент. Вместо такого подхода организации могли бы повышать заработную плату на абсолютную величину. Средний сотрудник мог бы получить прибавку в 1000 долларов. Тот, кто работает лучше, мог бы получить больше, а тот, кто хуже, – меньше. Различие между относительными и абсолютными значениями может показаться семантическим, но это не так[102]102
Эта идея была впервые сформулирована в книге Робера Гибрата «Экономическое неравенство». См. Gibrat, 1931.

[Закрыть]. Повышение заработной платы на определенный процент в зависимости от эффективности работы сотрудников (когда показатели эффективности в разные годы – это независимые и случайные величины) порождает логнормальное распределение. Различия в доходах в будущем усугубляются даже при идентичной последующей эффективности. Сотрудник, который работал хорошо в прошлом и зарабатывает 80 000 долларов, получит 4000 долларов в случае повышения зарплаты на 5 процентов. Другой сотрудник, зарабатывающий 60 000 долларов, получит всего 3000 долларов при повышении на 5 процентов. Неравенство порождает еще большее неравенство даже при идентичной эффективности работы. Если бы организация повышала оплату труда на абсолютную величину, оба сотрудника получили бы одинаковое повышение, и в результате распределение доходов было бы ближе к нормальному распределению.

Резюме

В этой главе мы рассмотрели структуру, логику и функцию нормального распределения и увидели, что его можно описать математическим ожиданием и стандартным отклонением. Мы сформулировали центральную предельную теорему, которая показывает, как возникает нормальное распределение при сложении или усреднении независимых случайных величин с конечной дисперсией. Кроме того, мы представили формулы стандартного отклонения математического ожидания и суммы случайных величин, а затем продемонстрировали следствия, вытекающие из этих свойств. Мы узнали, что малые генеральные совокупности с гораздо большей вероятностью порождают исключительные события и что из-за непонимания этого мы делаем неправильные выводы и совершаем недальновидные поступки. Мы узнали, как предположение о распределении случайных величин по нормальному закону позволяет ученым формулировать утверждения о значимости и мощности статистических тестов, а также как управление процессами помогает прогнозировать вероятность отказов исходя из допущения о нормальном характере распределения.

Не каждый показатель можно записать как сумму или среднее значение независимых случайных величин. Следовательно, не всякое распределение будет нормальным. Некоторые показатели представляют собой произведение независимых случайных величин и имеют логнормальное распределение. Логнормальное распределение принимает только положительные значения. Кроме того, у него более длинный хвост, а значит, оно включает больше крупных событий и гораздо больше очень мелких. Хвост такого распределения становится длинным, когда случайные величины, умноженные друг на друга, имеют высокую дисперсию. Распределение с длинным хвостом указывает на более низкую предсказуемость, тогда как нормальное распределение подразумевает регулярность. Как правило, мы предпочитаем регулярность вероятности крупных событий. Таким образом, мы можем извлечь выгоду из понимания логики, создающей разные распределения. В целом мы предпочли бы суммировать аномальные случайные величины, а не умножать их, чтобы снизить вероятность наступления крупных событий.

Глава 6
Степенное распределение: Длинный хвост

В каждом фундаментальном законе есть исключения. Однако закон все равно нужен, иначе все, что у вас есть, – это наблюдения, не имеющие смысла. И это не наука. А просто ведение записей.

Джеффри Уэст

В этой главе мы рассмотрим степенные распределения, которые часто называют распределениями с длинным, или тяжелым хвостом. При построении графика такие распределения создают длинный хвост по горизонтальной оси, отражая крупные события. Численность населения городов, вымирание видов, количество гипертекстовых ссылок во Всемирной паутине и размер компаний – все эти распределения имеют длинные хвосты, как и в случае загруженных видео, проданных книг, цитирования научных статей, военных потерь, наводнений и землетрясений. Другими словами, все они включают в себя крупные события: в Токио 33 миллиона жителей, книг Джоан Роулинг о Гарри Поттере продано более полмиллиарда экземпляров, великое наводнение на Миссисипи в 1927 году покрыло территорию больше площади штата Западная Вирджиния, а глубина затопления превышала 9 метров[103]103
Информацию о последствиях и культурном значении этого наводнения можно найти в книге: Parrish, 2017.

[Закрыть].

Анализ степенного распределения роста людей показывает, насколько такие распределения отличается от нормальных распределений. Если бы значения роста людей распределялись по степенному закону подобно распределению численности населения городов и если бы мы установили, что средний рост составляет 176 сантиметров, то в Соединенных Штатах был бы один человек ростом с Empire State Building, более 10 000 человек выше жирафа и 180 миллионов человек ростом не менее 213 сантиметров[104]104
В этом числовом примере, позаимствованном из статьи Клосета, Янга и Гледича (Clauset, Young, and Gleditsch, 2007), используется показатель степени 2.

[Закрыть].

Распределение с длинным хвостом подразумевает отсутствие независимости, часто в форме положительной обратной связи[105]105
Формальное описание моделей, представленных в данной главе, а также многочисленные примеры распределений по степенному закону ищите здесь: Newman, 2005.

[Закрыть]. Такие события, как продажи книг, лесные пожары и население городов, в отличие от походов в продуктовые магазины, не являются независимыми. Когда один человек покупает книгу о Гарри Поттере, он рекомендует другим тоже ее купить. Когда загорается одно дерево, огонь может перекинуться на соседние деревья. Когда растет численность населения города, в нем увеличивается количество объектов инфраструктуры и возможностей для трудоустройства, что делает его более привлекательным для людей. Социолог Роберт Мертон называет тот факт, что имеющий больше и получит больше, эффектом Матфея: «Ибо всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет» (Евангелие от Матфея, 25:29).

Учитывая разнообразие областей, в которых можно обнаружить распределения по степенному закону, было бы просто замечательно, если бы один механизм мог объяснить их все, но, увы, такого механизма нет. Было бы еще лучше, если бы каждый случай степенного распределения имел единственное уникальное объяснение, но и его нет. Вместо этого мы имеем совокупность отдельных моделей, порождающих степенные распределения, причем все модели объясняют разные явления.

В этой главе мы сосредоточимся на двух моделях – модели предпочтительного присоединения, которая объясняет размер городов, продажи книг и гипертекстовые ссылки во Всемирной паутине, и модели самоорганизованной критичности, объясняющей образование транспортных заторов, количество погибших во время военных действий, землетрясения, пожары и масштаб лавин. В главе 12, где речь пойдет об энтропии, мы изучим третью модель, в которой степенной закон максимизирует неопределенность при наличии фиксированного математического ожидания. В главе 13 показано, что время возврата в модели случайного блуждания также удовлетворяет степенному закону. Другие модели демонстрируют, как степенное распределение возникает вследствие оптимального кодирования, правил случайной остановки и объединения распределений[106]106
См. Newman, 2005 и Piantadosi, 2014.

[Закрыть]. Оставшаяся часть главы посвящена структуре, логике и функции степенного распределения с последующим обсуждением, в ходе которого мы переосмыслим последствия крупных событий и определим пределы нашей способности их предотвращать и планировать.

Степенное распределение: Структура

В распределении по степенному закону вероятность события пропорциональна его масштабу, возведенному в отрицательную степень. Так, например, знакомая функция описывает степенной закон распределения. В степенном распределении вероятность события обратно пропорциональна его масштабу: чем крупнее событие, тем ниже вероятность его наступления. Поэтому в степенном распределении больше мелких событий, чем крупных.

Степенное распределение

Степенное распределение[107]107
Константа C делает полную вероятность всех результатов равной 1. С учетом этого определения степенное распределение удовлетворяет условию масштабной инвариантности. Если мы изменим единицы измерения результатов, форма распределения не изменится.

[Закрыть], заданное на интервале [x_min, ∞), можно записать следующим образом:

p(x) = Cx^−a,

где показатель степени a > 1 определяет длину хвоста, а постоянный член гарантирует, что полная вероятность распределения равна единице.

Величина показателя степени распределения по степенному закону определяет вероятность и масштаб крупных событий. Когда показатель степени равен 2, вероятность события обратно пропорциональна квадрату его масштаба. Событие с масштабом 100 происходит с вероятностью, пропорциональной , или 1 раз на 10 000 случаев. Когда показатель степени увеличивается до 3, вероятность этого же события пропорциональна . При показателе степени 2 или менее у степенного распределения нет четко определенного среднего значения. Математическое ожидание данных, полученных на основе степенного распределения с показателем степени 1,5, никогда не сходится, а беспредельно возрастает.

На рис. 6.1 представлен приближенный график распределения количества ссылок на веб-страницы во Всемирной паутине.

Рис. 6.1. Приближенное степенное распределение ссылок на веб-страницы

Вероятность крупных событий отличает степенное распределение от нормального распределения, в котором крупных событий практически не бывает. В случае распределения с длинным хвостом такие события происходят редко, но с частотой, достаточной для привлечения внимания и подготовки. Даже события, которые происходят один раз на миллион, стоит рассматривать. Например, масштаб землетрясений примерно удовлетворяет степенному закону с показателем степени около 2. Предположим, в определенном регионе землетрясение магнитудой 9,0 по шкале Рихтера (землетрясение, которое разрушает здания и меняет рельеф местности) происходит каждый день с вероятностью один на миллион. В течение столетия землетрясение такого масштаба наступит с вероятностью 3,5 процента[108]108
Эту вероятность можно вычислить, сначала определив вероятность того, что событие не произойдет на протяжении года. Если вероятность наступления события за день составляет , то вероятность того, что оно не наступит в течение года, равна (0,999)³⁶⁵ = 0,69. Следовательно, вероятность того, что событие произойдет, составляет 31 процент. Вероятность того, что не произойдет событие, встречающееся один раз на миллион, рассчитывается аналогичным образом.

[Закрыть].

Для того чтобы увидеть разницу между вероятностью наступления событий один раз на миллион в случае нормального распределении и распределения с длинным хвостом, используем распределение количества погибших в результате террористических актов, которое соответствует распределению по степенному закону с показателем степени 2[109]109
См. Cederman, 2003; Clauset, Young, and Gleditsch, 2007; Roberts and Turcotte, 1998. Вероятность террористического акта с x погибших можно записать как постоянный член со значением примерно 0,06, разделенный на x в квадрате. В случае дискретного распределения, где x принимает только целые значения, распределение по степенному закону можно описать формулой: p(x) = 0,608x⁻². Коэффициент 0,608 выбран так, чтобы сумма значений вероятности была равна 1: . Произведение 0,608 и 1,644934 равно 1.

[Закрыть]. Событие с вероятностью один на миллион включает почти 800 погибших. Если бы количество погибших в результате терактов подчинялось нормальному распределению с математическим ожиданием 20 и стандартным отклонением 5, событие с вероятностью один на миллион привело бы к гибели менее 50 человек.

У распределения по степенному закону есть точное определение. Не каждое распределение с длинным хвостом – это степенное распределение. Построение графика распределения в двойном логарифмическом масштабе позволяет выполнить приближенную проверку того, является ли данное распределение степенным. График в логарифмическом масштабе по обеим осям преобразует значения масштаба событий и их вероятности в логарифмы, а степенное распределение выглядит как прямая линия[110]110
В случае распределения по степенному закону мы берем логарифмы обеих сторон и преобразуем y = Cx^−a в log(y) = log(C) − alog(x), то есть получаем линейную зависимость log(y) от log(x). Отобразив на графике значения log(y) и log(x), мы получим прямую линию. Что касается экспоненциального распределения y = C · A^−x, то прологарифмировав обе стороны, получим log(y) = log(C) − xlog(A), а это означает, что log(y) линейно зависит от x. Следовательно, значение log(y) будет быстро снижаться по log(x), образуя вогнутый график.

[Закрыть].

Рис. 6.2. Распределение по степенному закону (черная линия) vs логнормальное распределение (серая линия)

Другими словами, прямая линия на графике в двойном логарифмическом масштабе – наглядное подтверждение степенного закона, тогда как первоначально прямая линия, которая отклоняется от прямой вниз, соответствует логнормальному (или экспоненциальному) распределению. Скорость, с которой график логнормального распределения изгибается вниз, зависит от значения величин, характеризующих распределение[111]111
Взяв логарифм логнормального распределения, мы получим следующее уравнение: где σ – это натуральный логарифм стандартного отклонения логнормального распределения, косвенный показатель дисперсии распределения. В случае большого значения σ вклад log(x)² будет незначительным до тех пор, пока значение log(x) не станет достаточно большим, чтобы вызвать спад на графике.

[Закрыть]. По мере увеличения дисперсии логнормального распределения длина хвоста увеличивается, делая его более близким к линейному на графике в двойном логарифмическом масштабе[112]112
Чтобы понять, как провести формальное различие между логнормальным распределением и распределением по степенному закону, см. рабочий доклад Бройдо и Клосета (Broido and Clauset, 2018). Авторы показывают, что многие сети, которые относят к категории степенных распределений, могут ими не быть.

[Закрыть].

Особый случай степенного распределения с показателем степени, равным 2, известен как распределение Ципфа. Для степенного распределения с показателем степени 2 произведение ранга события на его вероятность равно постоянной величине – закономерность, известная как закон Ципфа. Частота слов отвечает закону Ципфа. Наиболее распространенное английское слово the встречается в 7 процентах случаев. Второе по распространенности слово of – в 3,5 процента случаев. Обратите внимание, что умножение его ранга (2) на частоту 3,5 процента дает 7 процентов[113]113
В статье Пьянтадоси (Piantadosi, 2014) описывается закон Ципфа в контексте частоты встречаемости слов, а также ряд моделей-кандидатов. Если распределение масштаба событий удовлетворяет степенному закону, то же самое можно сказать и о рангах. Общее доказательство сводится к следующему. Степенное распределение с показателем степени a на открытом интервале [1, ∞) имеет вид p_a(x) = ax^−a. Предположим, у нас есть 100 событий. Пусть S_R обозначает ожидаемый масштаб события с порядковым номером R в списке, упорядоченном по убыванию масштаба. Вероятность события, более крупного, чем S_R, должна быть равной . Например, если R = 3, то вероятность события крупнее S₃ должна составлять 3 процента. Следовательно, . Решая это уравнение, получим , что можно записать так: . В частном случае, когда a = 2, это выражение имеет следующий вид: .

[Закрыть].

Закон Ципфа

В случае степенного распределения с показателем степени 2 (a = 2) произведение ранга события[114]114
Ранг события – это порядковый номер события в упорядоченном списке всех событий. Прим. ред.

[Закрыть] на его вероятность равно постоянной величине:

Ранг события × Масштаб события = константа

Примерно по такому закону распределена численность населения городов во многих странах, в том числе и в США. На основе данных о численности населения городов за 2016 год можно сделать вывод, что произведение ранга города на численность населения дает значение около 8 миллионов.