Электронная библиотека » Георгий Кирьяков » » онлайн чтение - страница 4


  • Текст добавлен: 7 февраля 2024, 16:40


Автор книги: Георгий Кирьяков


Жанр: Математика, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 4 (всего у книги 15 страниц) [доступный отрывок для чтения: 5 страниц]

Шрифт:
- 100% +
Вероятностный график

Следующий довольно полезный график  – это нормальный вероятностный график, он же вероятностная кривая, он же Probability Plot. Слово «нормальный» в названии довольно часто опускается. Кроме того, для распределений с положительной асимметрией имеет смысл предварительно выполнить симметризацию распределения с помощью логарифмирования – в этом случае слово «нормальный» в названии графика вовсе неуместно.


Вероятностная кривая и соответствующая ей гистограмма распределения


Вероятностный график позволяет визуально оценить однородность выборки, наличие выбросов (ураганных значений), близость исследуемого распределения нормальному (или в случае работы с логарифмами – логнормальному). По сути, вероятностный график – это квантиль-квантильная кривая, построенная по данным двух распределений: исследуемого и нормального. График обычно имеет вид некоторой ломаной кривой, либо серии точек.

По степени «прямоты» вероятностной кривой можно судить о близости рассматриваемого распределения нормальному закону, по наличии резких перегибов и относительно прямолинейных участков на графике – об однородности или неоднородности, а по наличию «срывов» и горизонтальных «ступенек» – о наличии выбросов.

В «докомпьютерную» эпоху для построения вероятностной кривой использовались специальные «вероятностные бланки». С появлением Excel потребность в подобных бланках отпала. Давайте рассмотрим алгоритм построения вероятностного графика на примере данного1212
  https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Probability_plot.xlsx


[Закрыть]
 файла.

На листе «Выборки» с помощью генератора случайных чисел и формулы «НОРМ. ОБР» создаются две распределенные по нормальному закону выборки численностью по 10 000 значений каждая. На листе «Вероятностный график» выполняется объединение двух выборок и строится гистограмма. Для членов объединенной выборки рассчитывается их положение в упорядоченном ряду, для чего используется функция «РАНГ» (столбец «Ранг»).

По сути, результатом функции РАНГ является порядковый номер конкретного члена выборки в упорядоченном ряду. Будь наша выборка упорядочена, достаточно было бы пронумеровать члены итоговой выборки по порядку: «1-2-3…20000». Но выборка не упорядочена и нужна функция «РАНГ». Затем рассчитывается положение каждого члена исследуемой выборки как доля его порядкового номера от общей численности выборки (столбец «Положение члена выборки в долях численности распределения»).


Вероятностная кривая и соответствующая ей гистограмма: а – однородного симметричного распределения, близкого к нормальному, б – неоднородной выборки, представляющей собой объединение двух симметричных выборок, каждая из которых близка к нормальному распределению, в – однородной выборки с большой правой асимметрией, г – неоднородной выборки (интересно то, что обе сгенерированные выборки характеризуются правой асимметрией, которая при их смешении почти не видна)


Завершающим шагом мы получаем член выборки из стандартного нормального распределения, который «должен стоять на том же месте». Для этого используется функция «НОРМ. СТ. ОБР» (столбец «Z-value»). Далее по двум рядам, т. е. членам исследуемой выборки и членам стандартной нормальной выборки, строится обычная диаграмма рассеяния. При наличии статистических пакетов или ПО для горно-геологического моделирования выполнять все подобные манипуляции не требуется и вероятностные кривые можно построить одним движением мышки. Обычно в специализированном ПО вместо Z-value на вертикальной оси откладывается значение вероятности нормального распределения. Для вывода этой оси в файле Excel выполнены дополнительные манипуляции, которые выразились в наличии второй вертикальной оси (справа). Обычно эта ось является единственной вертикальной осью на подобных графиках.

Диаграмма «ящик с усами»

Диаграмму «ящик с усами» («box and whisker plot») или диаграмму размаха можно рассматривать как сильно упрощенный вариант гистограммы, который позволяет визуально оценить размах основной массы значений рассматриваемой переменной. Диаграмма не имеет устоявшегося русскоязычного названия. То название, которое используется для обозначения этого типа диаграммы, по сути, является «калькой» с английского.


Диаграмма «ящик с усами»


Как можно заметить, значения изучаемой величины отложены в данном случае по вертикальной оси. По горизонтальной оси пока не отложено ничего. Диаграмма может быть как «вертикальной» – как на рисунке выше, а может быть «горизонтальной». В этом случае оси меняются местами и значения изучаемой величины откладываются по горизонтальной оси.


Диаграмма «ящик с усами»


Как-то так исторически сложилось, что авторам встречались преимущественно «вертикальные» варианты этой диаграммы, поэтому давайте дальше рассматривать именно его. «Горизонтальные» ящики с усами отличаются от «вертикальных» только номенклатурой осей.

Как следует из названия, у диаграммы есть два элемента – ящик и усы.


«Ящик» и «усы» на диаграмме


Для построения этого типа диаграммы нет каких-то строгих правил, однако обычно «дно» ящика – т. е. его нижняя граница – это первый квартиль (то есть граница 25% данных), а «верх» ящика – это обычно третий квартиль. То есть ниже нижней границы ящика находится 25% наблюдений, упорядоченных по возрастанию, также и выше верхней границы ящика находится 25% наблюдений, упорядоченных по возрастанию.


Первый и третий квартиль на диаграмме


Выше 25%, ниже 25%, следовательно, в ящике находится 100 – 25 – 25 = 50% наблюдений.

С ящиком, кажется, разобрались. Теперь давайте разбираться с усами. Здесь уже вариаций намного больше. Усы могут строиться по минимуму/максимуму – как, например, это делает Excel (правда, он может также на этой диаграмме показывать выбросы – и тогда непонятно, как рассчитываются усы, а официальная справка ответа на этот вопрос не дает). Это могут быть границы первого и последнего децилей, т. е. они могут показывать границы, между которыми заключено 80% наблюдений. В ряде руководств «усы» строятся как полтора межквартильного размаха, который откладывается от границ ящика. Вместо межквартильного размаха может использоваться стандартное отклонение. В общем – широчайший простор для творчества. В любом случае обычно в пределах «усов» находится не менее 80% данных (вместе с теми 50% данных, которые находятся «внутри ящика»).

На диаграмму часто наносят медиану и среднее – и в этом случае можно судить о наличии асимметрии (о наличии асимметрии можно судить и по соотношению верхнего и нижнего усов). Также на эту диаграмму можно нанести точки, которые находятся выше/ниже усов, и в этом случае эти точки можно расценивать как выбросы.


Выбросы на диаграмме


В общем, диаграмма довольно простая, но полезная. Наиболее часто этот тип диаграмм используют для простого визуального сравнения выборок по нескольким доменам на предмет наличия или отсутствия различий.

Давайте представим ситуацию, при которой в нашем распоряжении есть три геологически разнородных тела, несущих минерализацию. Разнородность может обнаруживаться в массе факторов: в минеральном составе интересующей нас минерализации, в принадлежности к разным стадиям рудообразования и т. д.


Выделенные геологом 3 домена


Нам интересно: те различия, которые мы фиксируем в геологических характеристиках, имеют ли какое-либо отражение в характеристиках количественных? Например, в содержании полезного компонента. Для этого данные опробования группируются по выделенным телам (доменам) и для каждой выборки строятся диаграммы «ящик с усами».


Диаграмма «ящик с усами» по трем доменам


Увы, все три тела, выделенных по геологическим характеристикам, оказались различны и по содержаниям. Это различие имеет печальные для нас последствия: при моделировании придется учитывать найденную неоднородность и выполнять в три раза больше вычислений, чем если бы оказалось, что все три выборки схожи по параметрам распределения.

Можно заметить, что в ситуации, описанной выше, мы никак не использовали границу зоны окисления. Это неправильно: необходимо проанализировать вопрос о том, оказывают ли приповерхностные процессы существенное влияние на распределение полезного компонента. Для этого три ранее выделенных выборки необходимо разбить на еще более дробные части. Вот так:


Выделенные геологом 5 доменов


И выполнить ровно те же манипуляции, что для ранее выделенных трех частей нашего массива опробования. И вот здесь уже можно предположить, что первичная минерализация и минерализация, подвергшаяся приповерхностным изменениям, близки по характеристикам распределения: ящики с усами по доменам 1.1/1.2 и 2.1/2.2 похожи. Для того, чтобы убедиться в этом, необходимо использовать еще один тип диаграмм, который будет описан чуть позже. Здесь же хочется сказать, что, в общем, довольно простой тип диаграмм (у которого еще и название вызывает улыбку) позволяет довольно легко визуально сравнить большое количество выборок. Безусловно, это не строгий анализ, но для первичной разбраковки лучшего инструмента придумать сложно.


Ящики с усами по доменам 1.1/1.2 и 2.1/2.2 похожи

График квантиль-квантиль

На предыдущих страницах была смоделирована ситуация трех разнородных геологических тел, два из которых дополнительно испытали приповерхностные изменения. С помощью диаграммы «ящик с усами» мы выяснили, что тела 1, 2 и 3, скорее всего, друг от друга довольно сильно отличаются. Однако также мы выяснили, что выборки, отобранные из окисленной и неокисленной частей двух тел, кажется, не отличаются. Осталось провести более тщательное сравнение для того, чтобы принять решение о том, действительно ли «окисленная» и «неокисленная» выборки относятся к одной генеральной совокупности и при моделировании нет необходимости в разделении всего объема данных на 5 частей.

Принять подобное решение может помочь график, называемый квантиль-квантильной диаграммой. На сленге этот вид диаграммы часто называют «куку», а процесс построения – «кукованием», что объясняется «прямым» прочтением англоязычной версии названия диаграммы как «q-q plot».

Как было сказано, диаграмма строится по данным двух сравниваемых выборок. Для ее построения по каждой выборке рассчитываются процентили, и после расчетов данные наносятся на диаграмму в координатах «процентили по выборке 1» / «процентили по выборке 2». Получается что-то вроде вот такого:


График квантиль-квантиль


В некоторых случаях вдоль координатных осей графика строятся гистограммы (на самом деле, вопрос о том, строить или не строить здесь гистограммы, решается по принципу «а мое ПО это может?». Например, Python – может, и легко. А вот в Excel это сделать тяжело). Тонким зеленым пунктиром на графике нанесена линия «идеального сходства» – то есть та линия, вдоль которой выстроились бы точки, если бы две сравниваемые выборки были идентичны. Соответственно, о сходстве или различии выборок можно судить по степени соответствия реального графика и идеальной прямой.

Напомним внешний вид диаграммы «ящик с усами» для ситуации, описанной ранее.


Диаграмма «ящик с усами» по пяти доменам


На основании этой диаграммы было высказано предположение, что выборки по доменам 1.1 и 1.2, возможно, схожи. Аналогичное предположение было сделано относительно доменов 2.1. и 2.2. Давайте посмотрим на квантиль-квантильные диаграммы этих двух пар доменов:


График квантиль-квантиль по доменам 1.1 и 1.


График квантиль-квантиль по доменам 2.1 и 2.2


Судя по всему, рассматриваемые пары доменов достаточно схожи между собой, и никакого смысла в их разделении не просматривается. Давайте ради любопытства посмотрим квантиль-квантильные диаграммы по другой паре доменов. Например, 2.1 и 3:


График квантиль-квантиль по доменам 2.1 и 3


Видно, что различия между доменами 2.1 и 3 довольно существенные, и при моделировании данные домены смешивать крайне не рекомендуется.

Прочитав эту главу, человек, знакомый со статистикой, может сказать: «Позвольте, зачем это все, если есть такие замечательные вещи, как критерий Стьюдента, критерий Фишера?» И будет отчасти прав: в статистике для сравнения двух выборок действительно используются критерии. Однако есть одна неприятная особенность: эти критерии относятся к параметрическим – т. е. таким, применение которых основывается на предположении о законе распределения изучаемых выборок (причем, нормального закона). А ранее мы отмечали, что реальные выборки в геологии крайне редко подчиняются этому закону, да еще запросто могут быть неоднородными (причем, с негеометризуемой неоднородностью). Поэтому, увы, применение «классических» параметрических критериев сходства зачастую невозможно. Безусловно, существуют критерии непараматрические, но их применение ограничено уже используемым ПО: например, в популярных пакетах для геологического моделирования встроенный функционал для расчета U-критерия Манна – Уитни не встречено. С F-критерием Фишера ситуация лучше. Тем не менее частота использования этих критериев довольно низка, с пониманием их сути, вероятно, ситуация не лучше. А предложенные графики позволяют сделать, в принципе, обоснованный вывод о сходстве или различии двух выборок и, скорее всего, не сильно ошибиться.

Понимание производимых действий

При вычислении характеристик выборки (и вообще при работе с данными) необходимо помнить о смысле вычисляемых величин, чтобы не получить классическую «среднюю температуру по больнице», усреднив температуру пациентов инфекционного отделения с температурой экс-пациентов морга. То есть необходимо, чтобы природа данных была «примерно похожей». Например, если данные опробования представлены относительно большими пробами зоны рассеянной минерализации (например, 1—2 м) с заведомо более низкими содержаниями и пробами стержневых жил по 5—10 см с содержаниями, очевидно, значительно более высокими, то считать среднее по такой выборке, скорее всего, нет особого смысла (и взвешивание здесь не поможет) – просто потому, что такая выборка изначально геологически неоднородна. Безусловно, чисто механически эту величину получить можно, но будет ли она иметь смысл – вопрос дискуссионный. Данная проблема довольно часто встречается, например, при моделировании объектов с длительной историей освоения, когда в советское время опробованию подвергалось почти только визуально выделяемое оруденение (причем пробоотбор выполнялся бороздовым способом, да еще и не бороздами правильного сечения и почти только по штольневым горизонтам), а в современных условиях изучение этих же тел выполняется скважинами колонкового бурения по регулярной равномерной сети с примерно равной длиной секций опробования. В описанной ситуации расчет среднего по рудной выборке «в лоб» практически гарантированно приведет к получению смещенной оценки. К сожалению, абсолютно надежного рецепта устранения неоднородности выборки в таких случаях не существует, каждый объект необходимо рассматривать индивидуально.

Также при работе с данными опробования одно из основных требований к данным – равенство оснований. То есть примерное равенство объемов руды, которое подвергнуто опробованию. Рассматривать в рамках одной выборки данные рядового опробования скважин и валовых проб подземных выработок чисто механически возможно (математика многое стерпит), но вряд ли имеет смысл. Просто потому, что пробы меньшего основания (опробование скважин) заведомо показывают более высокие содержания с принципиально более высокой его вариативностью относительно проб с большим основанием (валовых проб).

При манипуляции с данными всегда необходимо понимать смысл этих манипуляций.

§ Задание 1.3

Скачайте1313
  https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Chart_trainer.xlsx


[Закрыть]
и изучите тренажер графиков. Данные обновляются при нажатии клавиши «F9». Поэкспериментируйте с различными случайными входными данными и для себя ответьте на следующие вопросы:

– Как ведут себя среднее и медиана при нормальном распределении?

– Как ведут себя среднее и медиана при положительной асимметрии?

– Как ведут себя среднее и медиана при отрицательной асимметрии?

– Как ведут себя выбросы при нормальном распределении?

– Как ведут себя выбросы при положительной асимметрии?

– Как ведут себя выбросы при отрицательной асимметрии?

Декластеризация
Кластеризация

В главе, посвященной описанию статистических характеристик, упоминается такое понятие, как представительность. Напомним: представительность – это свойство выборки, которое показывает то, насколько хорошо данная выборка характеризует объект «в целом». Для того, чтобы выборка была представительной, необходимо, помимо прочего, чтобы каждая проба, входящая в выборку, освещала приблизительно одинаковый объем недр. То есть как минимум чтобы разведочная сеть, по которой отбирались пробы, была бы равномерной во всех трех измерениях. Однако жизненный опыт геолога подсказывает, что описанная ситуация встречается крайне редко. На практике значительно более частой является ситуация, при которой в распоряжении геолога есть либо сети разных стадий разведки (например, сеть детальной разведки и сеть эксплуатационной разведки), либо участки сгущения в наиболее «интересных» местах. В результате наличия такой неравномерности использовать выборку «как есть» становится невозможным, поскольку пробы, составляющие выборку, характеризуют резко различные объемы недр. Подобная неприятная особенность пространственных данных называется кластеризацией. Кластером обычно называют группу сближенных объектов. В данном случае такими объектами являются пробы, более подробно освещающие участок, который по какой-либо причине показался геологу более интересным. Часто причиной повышенного интереса являются относительно более высокие содержания в том или ином участке месторождения. В результате проявления подобного интереса в выборку попадает большее количество относительно богатых проб, что на гистограмме проявляется в виде искусственной полимодальности, обусловленной исключительно неравномерностью сети.


Регулярная сеть – кластерные данные


Поскольку описанная ситуация является весьма частой (пожалуй, более частой, чем ситуация равномерной регулярной сети), а также учитывая необходимость использования данных и понимание невозможности их использования «как есть», возникает совершенно логичный вопрос: что делать? Напрашивается минимум два ответа:

– Изменить выборку таким образом, чтобы она стала выборкой, отобранной по регулярной сети.

– Ввести индивидуальные поправочные коэффициенты для каждой пробы, учитывающие неравномерность сети.

Оба предлагаемых способа подготовки данных к использованию носят название процедуры декластеризации (то есть тем действием, которое должно устранить кластеризацию).

Частичное разрежение

Первый путь – путь частичного разрежения сети, т. е., по сути, исключения части данных таким образом, чтобы получаемая выборка уже могла считаться выборкой, отобранной по равномерной сети. Проще всего это сделать, создав модель идеальной сети, а потом подогнать существующие данные под идеал. Например, можно создать геометрически правильную сеть из прямоугольных ячеек одинакового размера, а затем выбрать существующие данные либо:

1. Ближе всего к центрам полученных прямоугольных ячеек.


Остаются пробы, которые ближе всего к центру ячеек


2. Либо случайным образом выбрав по одной пробе из ячейки. То есть:

– На существующую сеть данных «набрасывается» сеть ячеек одинакового размера.

– Из имеющихся данных выбираются:

– либо только те, которые оказались ближе всего к центрам ячеек регулярной сети, а пробы, отстоящие от центра дальше, чем выбранная, исключаются из выборки;

– либо в каждой ячейке регулярной сети случайным образом выбирается проба, а остальные пробы исключаются из рассмотрения.


Остаются случайно выбранные пробы


В итоге выполнения подобной декластеризации получается почти регулярная сеть данных, но где-то в глубине души зреет недоумение: а зачем тогда были потрачены деньги и время на сгущение сети, если потом все равно эти данные выброшены? И логичный вывод относительно этого варианта декластеризации можно сформулировать так: подобный подход не рекомендуется к применению именно по причине исключения части данных (которые, вообще-то, могут нести очень ценную информацию).

Введение поправочных коэффициентов

Второй путь – введение поправочных коэффициентов. Данные коэффициенты позволяют учесть неравномерность сети (кластеризацию) и при расчете статистических характеристик используются для взвешивания. Эти коэффициенты принято называть весами декластеризации. Использование весов является наиболее широко применимым способом учета неравномерности сети. Декластеризация с помощью взвешивания обычно выполняется одним из двух наиболее часто употребимых способов:

– Полигональная декластеризация.

– Присвоение весов пробам.


Полигональная декластеризация

При использовании этого метода каждая проба взвешивается на объем области, которую она освещает. Для этого необходимо геометризовать эту самую область. Разберем алгоритм для двумерного случая. Пусть у нас есть проба, для которой необходимо геометризовать область пространства, освещенной ею. На рисунке ниже она обозначена красным. Алгоритм полигональной декластеризации:

– для данной пробы находятся ближайшие соседи;

– отрезки, соединяющие эту пробу с ближайшими, делятся пополам;

– для всех отрезков строятся серединные перпендикуляры;

– через точки пересечения серединных перпендикуляров проводится контур той области пространства, которая характеризуется данной пробой.

В результате выполнения описанной операции каждая проба оказывается в центре некоторого многоугольника в двумерном случае или многогранника – в трехмерном. И это как раз и будет та область пространства, которая освещается данной пробой. Любая точка внутри данной области ближе к «центральной» пробе этой области, чем к любой другой пробе выборки. Весом каждой пробы в таком случае будет являться площадь этого многоугольника (в двумерном варианте) или объем – в трехмерном. Если вы немного знакомы со статистикой, то да, это «полигоны Вороного». Если же немного забежать вперед, то это не что иное, как интерполяция методом ближайшего соседа.


Алгоритм полигональной декластеризации


У подобной декластеризации есть одна неприятная особенность: пробы на краю изученного пространства оказываются окружены слишком большой областью (просто потому, что за пределами опробованного участка нет проб, которые ограничат многоугольник). В результате пробы на краю исследованной области приобретают неправомерно большой вес.


Краевой эффект. Большая площадь полигонов на краях и, как следствие, не корректные веса у данных проб


Для минимизации краевого эффекта в ПО, в котором реализован этот алгоритм декластеризации, обычно пользователю предлагают ограничить максимальное расстояние, на которое растягиваются получаемые полигоны. Это могут быть контуры границ, каркасы рудных тел или просто предельное расстояние, задаваемое вручную. Необходимо заметить, что это ограничение, задаваемое вручную, несет в себе ощутимую долю волюнтаризма: на какое предельное расстояние тянуть полигон при отсутствии ограничений? 50 м? 100? 500?


Присвоение весов пробам

Рассмотрим также второй способ декластеризации, при которой вес пробе присваивается на основании количества проб в пределах ячейки регулярной сети.


Алгоритм присвоения весов


При таком варианте декластеризации в пределах изученной области создается идеальная модель равномерной регулярной сети. Делается это, как и в предыдущих случаях, путем «набрасывания» сети из ячеек одинакового размера прямоугольной формы – в двумерном случае или ячеек с геометрией «кирпича» – в трехмерном – на опробованную область. После этой операции в пределах каждой «идеальной ячейки» сети подсчитывают количество проб. Предполагается, что вес каждого прямоугольника (или «кирпича» – в случае 3D) равен 1. Тогда вес каждой пробы будет обратно пропорционален количеству проб в пределах данной «идеальной» ячейки. То есть если в пределах ячейки оказывается две пробы, то вес каждой – ½, если 3—1/3 и т. д. При наличии одной пробы в ячейке вес у нее будет равен, очевидно, 1.

В результате каждой пробе придается некий вес, а статистические характеристики рассчитываются с учетом взвешивания. К сожалению, в данном варианте декластеризации тоже есть свои «подводные камни»:

– При наличии неровных контуров исследуемой области (а они почти всегда такие) вес проб на краях опробованного пространства будет выше, чем в центре даже при равномерной регулярной сети – потому что плотность-то та же, а опробованная область «кончилась» раньше, чем ячейка идеальной сети.


Влияние контура рудного тела на веса проб


– Вес проб зависит от выбора начала отсчета «идеальной сети». Например, для ситуации, изображенной на рисунке выше, для отдельных краевых проб можно получить вес, равный 1, просто слегка сместив контуры «идеальных прямоугольников».


Влияние начала отсчета сети декластеризации на веса проб


Чтобы исключить влияние этого фактора, в некоторых случаях проводят несколько шагов декластеризации, вводя систематическое смещение начала сетки1414
  https://geostatisticslessons.com/lessons/celldeclustering


[Закрыть]
.


Начало отсчета помещается в три различных координаты


Веса, полученные после каждого шага смещения, нормируются на единицу, и результаты суммируются. Обычно бывает достаточно 5—10 смещений. По окончании манипуляций веса всех точек снова должны быть отнормированы так, чтобы их сумма была равна единице.


§ Задание 1.4

Для пронумерованных ячеек сети рассчитайте вес каждой пробы путем проведения декластеризации со взвешиванием проб.


Задание 1.4


Страницы книги >> Предыдущая | 1 2 3 4 5 | Следующая
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации