Электронная библиотека » Георгий Кирьяков » » онлайн чтение - страница 3


  • Текст добавлен: 7 февраля 2024, 16:40


Автор книги: Георгий Кирьяков


Жанр: Математика, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 3 (всего у книги 15 страниц) [доступный отрывок для чтения: 5 страниц]

Шрифт:
- 100% +
Дисперсия

Кроме «точечных» характеристик исследуемой величины, также полезно знать и о степени отклонения значений исследуемой величины от среднего, а также «направлении» отклонения.


Формула отклонения значений от среднего


В результате этой операции будет получена новая величина, которая характеризует величину отклонения выборочного значения от среднего для каждого члена выборки. И значений этого отклонения – ровно столько же, сколько значений в выборке (отклонение рассчитано для каждого выборочного значения). Так же нам хочется понять, каково это отклонение в среднем, и хочется взять и усреднить полученные значения. Но в данном случае проблема заключается в том, что расчет среднего арифметического из значений отклонения даст 0. Просто по причине того, что среднее – это значение, «равноудаленное» от всех значений выборки. Выше было указано, что одно из свойств среднего – это то, что сумма отклонений всех выборочных значений от среднего равно 0. Из сложившегося неудобного положения можно найти два выхода:

– взять модуль (абсолютное значение) отклонений и усреднить их,

– возвести в четную степень полученные отклонения и усреднить их. Проще всего – возвести в квадрат.

Исторически сложилось так, что был выбран второй вариант – просто потому, что степенная функция является дифференцируемой во всей области определения, а модуль – нет. Для статистических расчетов, более сложных, чем обычно используются в геологии, необходимо, чтобы была возможность без лишних проблем интегрировать и дифференцировать функции. В этом отношении степенная функция значительно «удобнее», чем модуль. Поэтому мы имеем в качестве величины, характеризующей разброс данных, усредненную сумму квадратов отклонений.

Итого: чтобы не получить ноль при усреднении отклонений, требуется использовать квадрат величины отклонения. То есть выборочной дисперсией называется величина, рассчитанная по формуле:


Формула для оценки дисперсии выборки


То есть выборочная дисперсия – среднее из квадратов отклонения случайной величины от ее среднего значения.

Считается (и доказывается в классических статистических работах), что выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Для оценки дисперсии генеральной совокупности используется чуть более сложная формула:


Формула для оценки дисперсии генеральной совокупности


Выше мы с помощью несложных логических рассуждений вывели формулу дисперсии. Было бы нелишним понимать смысл этой формулы, но строгого запоминания этих формул не требуется, поскольку они заложены во всем ПО, работающем с данными (по крайней мере, авторам не встречалось ПО, где бы эти формулы не были заложены).

Выше приведены две формулы расчета дисперсии. Необходимо обратить внимание на то, что в задачах моделирования практически всегда мы имеем дело не с генеральными совокупностями, а со случайными выборками из генеральной совокупности. Поэтому мы не имеем точного значения дисперсии, а только ее оценку. В учебниках по математической статистике55
  https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.docx


[Закрыть]
 указано, что верхняя формула (где выполняется деление на численность выборки) дает смещенную оценку дисперсии, а нижняя (где деление выполняется на численность выборки минус 1) – несмещенную. Вторую формулу используют для оценки дисперсии генеральной совокупности.

Теперь о том, какую дисперсию считает ПО, которым мы имеем счастье пользоваться:

– Первым пунктом идет, естественно, великий и ужасный Excel66
  https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.xlsx


[Закрыть]
. В Excel существует две формулы для расчета дисперсии (на самом деле, больше, но глобально – две, остальные – это вариации на тему «использовать логические значения / не использовать логические значения»): ДИСП. В и ДИСП. Г. Причем вторая, как сказано в ее кратком описании, рассчитывает дисперсию генеральной совокупности. Вот, казалось бы, «щасстье привалило». Однако нет: ручная проверка показывает, что результат работы функции ДИСП. Г совпадает с формулой смещенной оценки. В чем же проблема? А проблема очень простая: функция ДИСП. Г считает, что то, что она получила на вход, это и есть генеральная совокупность. А при генеральной совокупности – таки да, надо делить на численность генеральной совокупности. Но у нас-то не генеральная! Хорошо, если генеральная совокупность выглядит как «непьющие мужчины за 40 деревни Чуево-Кукуево» – там вообще считать нечего. Но в моделировании мы практически всегда имеем дело со случайной выборкой. Поэтому функцию ДИСП. Г мы забываем, как страшный сон.

Вывод: Excel для выборочной дисперсии (ДИСП. В) приводит ее несмещенную оценку.

– Google таблицы77
  https://docs.google.com/spreadsheets/d/1dlF4GKxsQ9DQZoPm1JBFQss3XLXqgl_j3h7qTTrEfJM


[Закрыть]
 – аналогично: функция VAR рассчитывает несмещенную оценку, функция VARP совершенно аналогична ДИСП. Г Excel.

– Datamine. Дает смещенную оценку.

– Snowden Supervisor. Дает смещенную оценку.

– Micromine. Дает несмещенную оценку.

– Leapfrog. Дает несмещенную оценку.

И вот вы прочитали предыдущие 6 пунктов и сидите в ужасе: «Чему верить?» А в общем, ничего страшного в описанной ситуации нет. Заметим, что при росте объема выборки (и соответственно, приближении ее к генеральной совокупности) разница между оценкой выборочной дисперсии и дисперсии генеральной совокупности уменьшается (ну просто потому, что разница между делением на 10 и 11 вполне ощутима, а на 10000 и 9999 – почти нет). Ниже представлен график разницы между смещенной и несмещенной оценкой для выборок различного объема, созданных с помощью генератора случайных чисел.

Выборка сгенерирована с помощью генератора случайных чисел (в генератор заложена дисперсия 10), поэтому абсолютные цифры могут несколько «гулять», но тенденция видна невооруженным глазом: при численности выборки более ~100 наблюдений разница между смещенной и несмещенной оценками падает ниже 1% от дисперсии (кстати, на втором листе файла Excel, ссылка на который была чуть выше, эти формулы заложены – можете поиграть с ними). Учитывая обычные объемы выборок для моделирования, можно не забивать себе голову вопросами «это смещенная или несмещенная оценка?».


График разницы между смещенной и несмещенной оценкой для выборок различного объема

Стандартное отклонение и коэффициент вариации

Глядя на формулу дисперсии, можно понять, что единицы измерения дисперсии – это квадраты тех единиц, в которых измеряется исследуемая величина. Во многих случаях это немного неудобно, поэтому имеет смысл взять квадратный корень из этой величины. Полученное значение принято называть среднеквадратичным отклонением или стандартным отклонением. Единицы измерения стандартного отклонения совпадают с единицами измерения исследуемой величины.

При работе с данными довольно часто мы имеем дело с разнопорядковыми величинами, часто еще и измеренными в разных единицах или несущих разный физический смысл. При этом время от времени возникает горячее желание сопоставить между собой разброс двух величин, имеющих разное среднее и зачастую измеренных в разных единицах. Для решения такой задачи требуется некая, видимо, безразмерная величина, которая должна показывать то, насколько разброс данных больше его среднего. То есть, например, отношение стандартного отклонения к среднему по выборке.


Формула коэффициента вариации


Эта величина называется коэффициентом вариации. Эта величина безразмерная (в том смысле, что не имеет «нормальных» единиц измерения – типа сантиметров, тонн или джоулей): и в числителе, и в знаменателе дроби присутствуют величины, измеряющиеся в одинаковых единицах. Коэффициент вариации может измеряться в долях единицы, а может в процентах (разница между «тем и этим» – 100). Коэффициент вариации характеризует степень изменчивости, «неустойчивости», «непостоянства» исследуемой величины. Он может быть использован для сравнения степени изменчивости различных величин – например, содержания металла и сквозного извлечения. Также он используется при проверке того, можно ли использовать кригинг для интерполяции. Считается, что коэффициент вариации больше 2 (или 200%) препятствует удачному использованию кригинга и требуются некоторые действия для его уменьшения – например, ограничение аномальных значений (урезка ураганов) или изучение вопроса об однородности выборки.

Общепринятого ранжирования величин по степени изменчивости на основе коэффициента вариации нет. В советское время предлагалось ранжировать выборки от весьма слабой изменчивости к весьма сильной по реперным значениям коэффициента вариации 0.2—0.4—0.8. По опыту работы с данными опробования золоторудных объектов можно сказать, что подавляющее большинство рудных выборок имеют коэффициент вариации содержаний не менее 0.8 (80%). Очень часто он превышает 2.


§ Задание 1.1

Для выборки значений содержаний проб:

0, 0.2, 0.6, 0.9, 0.9, 1.4, 1.6, 3

рассчитайте:

– Среднее.

– Мода.

– Медиана.

– Дисперсия (несмещенная).

– Стандартное отклонение.

– Коэффициент вариации.

Ответы округлите до двух знаков после запятой.

§ Задание 1.2

Скачайте88
  https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Single_variable_statistical_analysis.xlsx


[Закрыть]
 выборку значений содержаний проб и рассчитайте:

– Среднее.

– Мода.

– Медиана.

– Дисперсия (несмещенная).

– Стандартное отклонение.

– Коэффициент вариации.

Ответы округлите до двух знаков после запятой.

Диаграмма накопленной частоты

Кроме гистограммы, классическим вариантом диаграммы, характеризующей выборку, считается также диаграмма накопленной частоты. Диаграмма накопленной частоты может быть построена как на сгруппированных данных, так и на не сгруппированных.

При построении диаграммы накопленных частот по сгруппированным данным выполняется разбиение всего диапазоны на классы (аналогично тому, как это делается для гистограммы), классы ранжируются по возрастанию, затем для каждого класса суммируется количество данных, попавших в этот класс с количеством данных, попавших во все классы, «ниже» данного. То есть частота данных в каждом классе накапливается от «низов» выборки до ее «верха». В качестве примера рассмотрим некоторую величину, распределенную следующим образом:


Пример распределения


В табличном виде это распределение можно представить следующим образом:



Выполним расчет накопленной частоты для приведенного примера:



И теперь – построение графика:


Диаграмма накопленных частот


При построении диаграммы накопленных частот по не сгруппированным данным последовательность действий чуть другая:

– Данные ранжируются по возрастанию.

– Составляется ранжированный ряд уникальных значений.

– Для каждого уникального значения подсчитывается частота встречаемости.

– Для каждого уникального значения подсчитывается накопленная частота: частота встречаемости этого значения плюс частоты всех значений более низкой величины. То есть в данном случае в качестве классов значений (как в варианте со сгруппированными данными) выступают уникальные значения исследуемой величины.

График накопленных частот для того же распределения, что и выше по не сгруппированным данным, представлен на рисунке ниже.


График накопленных частот по не сгруппированным данным

Коэффициент асимметрии

При построении гистограмм можно получить график как симметричный, в котором больших и малых значений «примерно поровну», так и асимметричный – с преобладанием высоких или низких значений. Для условий данных опробования цветных или драгоценных металлов асимметричный график встречается намного чаще симметричного. Логично, что нужна некая точная характеристика асимметрии, которая позволила бы избежать волюнтаризма в определении степени асимметричности выборки. Так давайте же сконструируем такую характеристику.

Итак, у нас есть набор выборочных значений, основная масса которых группируется «слева» или «справа». Логично задать себе вопрос: слева или справа от чего? Видимо, от среднего арифметического. То есть, если мы попытаемся рассчитать разность (Xi – Xсреднее), то среднее подобных разностей должно бы нам показать направление и величину отклонений выборочных данных от среднего. Возможно, должно, но не будет: сумма подобных разностей всегда будет нулевой – по механизму расчета среднего. Казалось бы, можно возвести в квадрат – как это делалось для расчета дисперсии. Но проблема в том, что знак разности (Xi – Xсреднее) нужен (мы ж хотим понимать – значение ушло «влево» или «вправо» от среднего), а при возведении в квадрат знак «потеряется». Логично тогда использовать нечетную степень – она позволит избежать обнуления суммы разностей, с одной стороны, и «не потеряет знак» разностей – с другой. Первая нечетная степень – 3. То есть логично рассчитать среднее арифметическое кубов разностей. Также хотелось бы, чтобы конструируемая величина допускала сравнение асимметрии распределений разнородных данных, возможно, даже измеренных в разных единицах. То есть эта величина должна быть безразмерной – как сконструированный ранее коэффициент вариации. И кажется вполне логичным, что наше среднее должно быть нормировано на стандартное отклонение – т. е. показывать, во сколько раз асимметрия выборки больше, чем характеристика ее размаха. Ну, а учитывая то, что:

– хочется получить безразмерную величину,

– стандартное отклонение имеет те же единицы измерения, что и выборочные данные,

– мы уже рассчитали среднее из кубов разностей,

становится понятным, что необходимо выполнить возведение в куб также и величины стандартного отклонения. Итоговая величина будет рассчитываться по формуле:



Полученная величина называется коэффициентом асимметрии или просто асимметрией. Коэффициент асимметрии показывает, куда и насколько сильно смещено среднее выборки относительно максимальной частоты распределения. В случае нулевого (или близкого к нулю) коэффициента асимметрии распределение симметрично и «высоких» значений примерно столько же, сколько «низких». В этом случае среднее и медиана выборки близки либо вообще равны.


Распределение с близким к нулю коэффициентом асимметрии


В случае отрицательного коэффициента асимметрии «высоких» значений больше, чем «низких». Среднее ниже медианы, то есть по оси значений смещено влево. В этом случае говорят, что распределение случайной величины имеет левую или отрицательную асимметрию.


Распределение с отрицательным коэффициентом асимметрии


В случае положительного коэффициента асимметрии картина прямо противоположна: «низких» значений больше, чем высоких, среднее смещено относительно медианы вправо (помните пример с жадным директором предприятия? – добавьте к этому «нехорошему» человеку его зама, главбуха, еще парочку топ-менеджеров и получите правоасимметричное распределение зарплат).


Распределение с положительным коэффициентом асимметрии


Отобразим графически все виды асимметрии по отдельности.


Гистограммы различных видов асимметрии


Диаграммы накопленной частоты будут выглядеть следующим образом.


Диаграммы накопленной частоты различных видов асимметрии


Сведем гистограммы на один график.


Гистограммы различных видов асимметрии


Кроме характеристики степени асимметрии, также существует характеристика того, насколько полученная гистограмма «острая» или «тупая».


Гистограммы различных видов асимметрии


Характеристика, которая позволяет судить о степени «резкости» или «экстремальности», носит название коэффициента эксцесса. На практике коэффициент эксцесса используется значительно реже, поэтому в настоящей главе его смысл подробно не раскрывается.

Виды распределений

Нормальное распределение

В статистике существуют некоторые «стандартные» типы распределений, одним из которых является так называемое «нормальное» распределение. Этому распределению соответствуют распределения многих «бытовых» величин: рост и вес определенной группы людей, во многих случаях – распределение ошибок измерения и т. д. Поскольку это распределение является широко распространенным, его параметры хорошо изучены. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю (точнее, неотличимы от нуля). Среднее арифметическое равно медиане.

Кроме того, для нормального закона существует так называемое «правило трех сигм», которое гласит, что:

– 68% значений находятся в пределах плюс-минус 1 стандартного отклонения от среднего значения;

– 95% значений находятся в пределах плюс-минус 2 стандартных отклонения от среднего значения;

– 99,7% значений находятся в пределах плюс-минус 3 стандартных отклонения от среднего значения.


Гистограммы различных видов асимметрии


Это правило позволяет не только находить интервал, куда наверняка попадут практически все значения интересующей нас переменной, но и искать значения вне этого интервала. Эти значения называют выбросами. Появление выбросов не является «запрещенным» с точки зрения нормального распределения, но их наличие маловероятно, а потому подозрительно. Это правило было бы хорошим инструментом для поиска ураганных содержаний, если бы не одно «но»: для его применения требуется, чтобы распределение было, во-первых, однородным, а, во-вторых, не противоречило нормальному закону распределения. Что, к сожалению, чаще всего не так (причем зачастую не выполняется ни первое, ни второе требование).


Логнормальное распределение

Кроме нормального распределения, также достаточно распространенным является так называемое логарифмически нормальное, или короче – логнормальное распределение: такое, при котором нормальному распределению не противоречат логарифмы значений изучаемой величины. Логнормальное распределение имеет правостороннюю асимметрию – то есть его среднее смещено по оси абсцисс вправо от медианы, а коэффициент асимметрии положителен.


Гистограмма логнормального распределения


При работе с распределением со значительной правой асимметрией (например, логарифмически нормальным распределением) гистограммы, построенные обычным образом – т. е. в «натуральных» единицах, весьма «ненаглядны». Не в том смысле, что прямо вот «глаз не отвести», а в том, что смотрю – и ничего не вижу. Что неудивительно: большинство наблюдений сгруппировано «слева» и попадает всего в несколько классов значений. Соответственно, гистограмма распределения с большой правой асимметрией выглядит, например, как-то так.


Гистограмма с правой асимметрией


В общем, не очень читаемая гистограмма. В этом случае необходимо выполнить симметризацию распределения. Так исторически сложилось, что наиболее часто встречаемым способом симметризации является логарифмирование значений. В принципе, симметризацию можно выполнить, например, с помощью корня – квадратного, кубического и т. д. Но логарифмирование обычно дает наиболее качественную симметризацию.

Итак, логарифм. Логарифм – это показатель степени, в которую надо возвести основание, чтобы получить число, которое подвергается логарифмированию. С первого раза непонятно (со второго – тоже не очень). Зато понятно, что логарифм – это штука, у которой есть основание. Уже хорошо. То есть у вас есть некоторое число, которое вы решили подвергнуть логарифмированию. Для этого надо выбрать основание логарифмирования. Основание – тоже число. То есть для логарифмирования надо два числа: одно – которое подвергается логарифмированию, а второе – основание логарифма. А на выходе имеем показатель степени, в которое надо возвести основание, чтобы получить число, которое под знаком логарифма. Давайте это запишем:

 
log2 (8)
 

Здесь написано: «логарифм 8 по основанию 2». Возвращаемся к определению. Результатом логарифмирования будет показатель степени, в которое надо возвести основание, чтобы получить число, подвергаемое логарифмированию. В приведенном примере мы логарифмируем 8 по основанию 2. В какую степень надо возвести 2 (основание), чтобы получить 8? Очевидно, в 3-ю. То есть:

 
log2 (8) = 3
 

Также, исходя из сказанного, совершенно очевидно, что:

 
log3 (9) = 2
log5 (125) = 3
log10 (10000) = 4
 

Ну и напоминаем, что

 
log3 (1) = 0
log5 (1) = 0
log78 (1) = 0
 

Или в общем случае

 
loga (1) = 0, a ≠ 0, a ≠ 1
 

Опять же, чисто исторически сложилось, что в качестве основания логарифма чаще всего принимается два числа – число «e» и 10. Логарифм по основанию «e» называют натуральным, а по основанию 10 – десятичным. Обычно натуральный логарифм обозначают

 
ln (a),
 

а десятичный

 
lg (a)
 

Давайте кратко рассмотрим два наиболее часто встречающихся основания логарифма. С десяткой «все ясно» – это основание нашей системы счисления и совершенно логично равно количеству пальцев на руках (если бы наша цивилизация была цивилизацией токарей-математиков, основанием системы счисления могло бы быть и 8, и 6 – в зависимости от удачливости токарей). А что такое «e»? Это такое очень интересное число, которое является одной из фундаментальных математических констант (наряду, например, с числом π) и всплывает в большом количестве реальных проблем. Если есть несколько минут времени, можно посмотреть вот этот99
  https://www.youtube.com/watch?v=vB73Ynza-0o


[Закрыть]
ролик про число «e». Что еще можно сказать про «e»? Ну, например, то, что оно иррациональное – то есть не может быть вычислено как частное двух целых чисел. В десятичной записи оно имеет бесконечное число знаков после запятой. Также число «e» является трансцендентным – то есть не является корнем ни одного многочлена с целыми коэффициентами. Впрочем, этот факт уже совсем не относится к делу.

Возвращаясь к логарифмированию. Различия в основаниях в подавляющем большинстве случаев никак не сказывается на результате, поскольку для логарифмов действует довольно простое правило замены основания:

 
loga (b) = logc (b) / logc (a),
 

то есть для перехода от десятичного логарифма к натуральному результат надо разделить на константу – на натуральный логарифм 10:

 
lg (a) = ln (a) / ln (10)
 

Ну или в обратную сторону – от натурального к десятичному:

 
ln (a) = lg (a) / lg (e)
 

Поэтому когда речь идет о логарифмировании какой-то выборки, то основание особой роли не играет: любые результаты логарифмирования отличаются друг от друга на постоянный множитель, что не оказывает никакого влияния на характер распределения.

У логарифма есть одно чрезвычайно полезное свойство (правда, в плане обработки выборок, кажется, не применимое):

 
log (a * b) = log (a) + log (b)
 

То есть с помощью логарифмирования умножение сводится к значительно более простой операции сложения. И эта особенность логарифмов, например, дала возможность создать аналоговую вычислительную машину, хорошо знакомую «бумерам» – логарифмическую линейку1010
  https://en.wikipedia.org/wiki/Slide_rule


[Закрыть]
.

Ну и одно неприятное свойство логарифма: логарифм нуля не существует (а в выборках нули, увы, присутствуют).

Возвращаясь к нашим правоасимметричным выборкам. Представим, что в нашем распоряжении есть выборка1111
  https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Log_histo.xlsb


[Закрыть]
с большой правой асимметрией (это не реальные данные, а сгенерированные для иллюстрации процедуры построения). Давайте построим по этой выборке сначала обычную гистограмму, потом – гистограмму в логарифмическом масштабе.

Для построения обычной гистограммы последовательно выполняем шаги:

– Определяем минимум, максимум и размах (Лист «Данные»).

– Задаем количество классов группировки и рассчитываем ширину класса (Лист «Данные»).

– Присваиваем каждому значению номер класса (Лист «Шаг 1 – обычный масштаб»).

– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – обычный масштаб»).

– Строим гистограмму в «натуральном» масштабе (Лист «Шаг 3 – обычный масштаб»).

В итоге получается что-то вот такое:


Гистограмма с правой асимметрией в натуральном масштабе


Как и предупреждали, наглядность полученного графика оставляет желать лучшего.

А теперь давайте построим гистограмму в логарифмическом масштабе. Последовательность действий точно такая же, кроме первого шага – данные необходимо логарифмировать:

– Логарифмируем данные. Пусть это будет натуральный логарифм – как сказано выше, основание логарифма не влияет на характер распределения (Лист «Лог. данные»).

– Определяем минимум, максимум и размах логарифмов (Лист «Лог. данные»).

– Задаем количество классов группировки и рассчитываем ширину класса по логарифмам (Лист «Лог. данные»).

– Присваиваем каждому значению номер класса (Лист «Шаг 1 – лог масштаб»).

– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – лог масштаб»).

– Строим гистограмму в логарифмическом масштабе (Лист «Шаг 3 – лог масштаб»).


Гистограмма с правой асимметрией в логарифмическом масштабе


Красивее же, правда? Необходимо отметить, что в реальной работе вам не придется выполнять все эти нудные операции – практически любое ПО, которым вы будете пользоваться, обладает способностью к построению гистограмм – как в натуральном, так и в логарифмическом масштабе. И переход между натуральным и логарифмическим масштабом обычно выполняется с помощью одной «галочки» в настройках графика. Но понимать, что именно произошло и как строить такую гистограмму, необходимо.

Суммируя: при построении логарифмической гистограммы вы работаете не с исходными данными, а с их логарифмами.


Страницы книги >> Предыдущая | 1 2 3 4 5 | Следующая
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации