Текст книги "Краткий курс по статистике"
Автор книги: Коллектив авторов
Жанр: Учебная литература, Детские книги
сообщить о неприемлемом содержимом
Текущая страница: 3 (всего у книги 10 страниц) [доступный отрывок для чтения: 3 страниц]
12. Динамические ряды. Средняя хронологическая
1. Изменение социально-экономических явлений во времени изучается при помощи динамических рядов, представляющих собой упорядоченную во времени совокупность значений, характеризующих уровень развития изучаемого явления показателей.
Динамический ряд содержит две обязательные составляющие: показатели периодов и конкретные значения показателей изучаемого явления (уровни ряда).
Динамические ряды характеризуются в зависимости от характера показателей (динамические ряды абсолютных, относительных и средних величин, причем ряды динамики из относительных и средних величин строят на основе производных рядов абсолютных величин) и периода (интервальные и моментные ряды).
Динамический моментный ряд отражает значения показателей на определенный момент времени.
В моментных рядах исследуется разность явлений, отражающая изменение уровня ряда между определенными датами. Накопленные итоги здесь не рассчитываются.
Динамический интервальный ряд содержит значения показателей за определенные периоды времени.
В интервальном ряду уровни можно суммировать, т. е. получать накопленные итоги.
2. Различают следующие основные принципы построения динамических рядов:
☞ уровни должны быть представлены в однородных величинах;
☞ необходима одинаковая полнота охвата различных частей явления.
Одни из основных показателей, характеризующих динамические ряды, – средние уровни. Они рассчитываются в зависимости от вида временного ряда.
Для интервального ряда динамики абсолютных показателей средний уровень ряда рассчитывается по формуле простой средней арифметической:
где n – число уровней ряда.
Для моментного динамического ряда средний уровень рассчитывается по формуле средней хронологической:
где n – число дат.
Средний уровень моментного ряда с неравными интервалами рассчитывается по формуле средней арифметической взвешенной.
В качестве весов берется продолжительность промежутков времени между временными моментами изменений в уровнях динамического ряда:
где t – продолжительность периода (дни, месяцы), в течение которого уровень не изменялся.
3. Сопоставимость уровней динамического ряда по периодам времени состоит в том, чтобы все показатели исчислялись по одним и тем же периодам времени (для интервальных рядов) или на одну и ту же дату (для моментальных рядов).
Сопоставимость уровней динамического ряда по единицам совокупности заключается в том, чтобы все единицы совокупности, включенные в изучаемые показатели рядов динамики, имели качественно однородный статус в периодах времени, входящих в динамический ряд.
В статистике разработана система абсолютных и относительных показателей динамики, используемая для характеристики интенсивности развития во времени:
☞ абсолютный прирост;
☞ коэффициент роста;
☞ темп роста;
☞ темп прироста;
☞ абсолютное значение одного процента прироста.
Абсолютный прирост – скорость изменения ряда, изменение текущего значения признака от значения признака, принятого за базу сравнения.
4. В зависимости от базы сравнения различают базисные и цепные показатели.
Базисные показатели, характеризующие итоговый результат всех изменений в уровнях ряда от периода базисного уровня до данного периода, рассчитывается как
ΔБ = уi – у0,
где yi – уровень сравниваемого периода;
y0 – уровень базисного периода.
Цепные показатели характеризуют интенсивность изменения уровня разных периодов по отношению друг к другу в пределах исследуемого промежутка времени.
Скорость роста – абсолютный прирост с переменной базой (цепной)
ΔЦ = уi – уi—1,
где yi – уровень сравниваемого периода;
yi– уровень предшествующего периода.
5. В статистике принято использовать несколько относительных показателей динамики.
Коэффициент роста (Ki) показывает относительную скорость изменения ряда и определяется как отношение данного уровня к предыдущему или базисному.
Коэффициент роста базисный
K(Б) = уi : у0,
где yi – уровень сравниваемого периода;
y0 – уровень базисного периода.
Коэффициент роста цепной
K(Ц) = уi : уi—1,
где yi – уровень сравниваемого периода;
yi–1 – уровень предшествующего периода.
Темп роста (Тр) представляет собой коэффициент роста, выраженный в процентах:
Тр = К × 100 %,
где К – коэффициент роста.
Темп прироста (Тп) определяется как отношение абсолютного прироста данного уровня к предыдущему или базисному:
– темп прироста базисный:
– темп прироста цепной:
Темп прироста рассчитывается как разность между темпом роста и 100 % или между коэффициентом роста и единицей
Тп = Тр – 100 %,
где Тр – темп роста.
Тп = Ki – 1,
где Ki – коэффициент роста.
Для характеристики интенсивности развития во времени рассчитывается также абсолютное значение одного процента прироста (А.), служащее косвенной мерой базисного уровня. Он представляет собой одну сотую часть базисного:
13. Выборочное наблюдение
1. Чтобы отобранная часть была репрезентативной (т. е. представляла всю совокупность единиц), выборочное наблюдение должно быть специально организовано. Цель выборочного наблюдения – характеристика всей совокупности по отобранной части единиц.
Выборочное наблюдение – несплошное наблюдение, охватывающее отобранную часть единиц генеральной совокупности.
В отличие от генеральной совокупности, представляющей всю совокупность исследуемых единиц, выборочная совокупность представляет часть единиц генеральной совокупности как объекта непосредственного наблюдения. Данный метод позволяет получать при экономии средств и затрат необходимую достоверную информацию.
2. Выборочный отбор может быть повторным и бесповторным.
При повторном отборе вероятность выбора любой единицы не ограничена. При бесповторном отборе выбранная единица в исходную совокупность не возвращается.
Для отобранных единиц рассчитываются обобщенные показатели (средние или относительные). Результаты выборочного исследования распространяются на всю генеральную совокупность.
Величина отклонений при сопоставлении показателей по результатам выборочного исследования с характеристиками для всей генеральной совокупности называется ошибкой наблюдения. Она может быть ошибкой регистрации (несовершенство технических условий) или ошибкой репрезентативности (случайное или систематическое нарушение правил при отборе единиц).
В статистике приняты следующие условные обозначения:
N – объем генеральной совокупности;
n – объем выборочной совокупности;
– средняя в генеральной совокупности;
– средняя в выборочной совокупности;
р – доля единиц в генеральной совокупности;
ω – доля единиц в выборочной совокупности;
σ2 – генеральная дисперсия;
S2 – выборочная дисперсия;
σ – среднее квадратическое отклонение признака в генеральной совокупности;
S – среднее квадратическое отклонение признака в выборочной совокупности.
Основная задача при выборочном исследовании – определение ошибок выборки.
3. Различают среднюю и предельную ошибки (р) для случайной выборки.
Средняя ошибка выборки может быть:
✓ для повторной простой случайной выборки средняя ошибка для средней:
✓ для повторной простой случайной выборки средняя ошибка для доли:
✓ для бесповторной случайной выборки средняя ошибка для средней:
✓ для бесповторной случайной выборки средняя ошибка для доли:
Предельная ошибка выборки Δ может быть:
✓ для повторной случайной выборки предельная ошибка для средней:
✓ для повторной случайной выборки предельная ошибка для доли:
где t – коэффициент кратности;
✓ для бесповторной случайной выборки предельная ошибка для средней:
✓ для бесповторной случайной выборки предельная ошибка для доли:
4. Для типической выборки величина стандартной ошибки зависит от точности определения групповых средних.
При расчете предельной ошибки типической выборки учитывается средняя из групповых дисперсий:
При серийной выборке величина ошибки выборки зависит от числа обследованных серий (s) и величины межгрупповой дисперсии:
Серийная выборка обычно проводится как бесповторная. Формула ошибки выборки в этом случае имеет вид:
где δ2 – межсерийная дисперсия;
s – число отобранных серий;
S – число серий в генеральной совокупности.
В случаях нецелесообразности использования больших выборок используются малые выборки, объем выборочной совокупности которых менее 30.
Различают следующие характеристики малой выборки:
✓ формула средней ошибки имеет вид
✓ при определении доверительных интервалов исследуемого показателя в генеральной совокупности или при нахождении вероятности допуска той или иной ошибки необходимо использовать таблицы вероятности Стьюдента, где
Р = S (t, n).
При этом Р определяется в зависимости от объема выборки и t.
5. С помощью формулы предельной ошибки решаются следующие задачи:
✓ определение возможных пределов нахождения характеристики генеральной совокупности на основе данных выборки;
✓ доверительные интервалы для генеральной средней устанавливаются на основе соотношений
где и – генеральная и выборочная средние соответственно,
Δk – предельная ошибка выборочной средней;
✓ доверительные интервалы для генеральной доли устанавливаются на основе соотношений:
p = w ± Δp,
w – Δp ≤ p ≤ w + Δp.
Определение доверительной вероятности, отличающей характеристику генеральной совокупности от выборочной на заданную величину:
✓ доверительная вероятность служит функцией от t:
t = Δx : μx.
Доверительная вероятность по величине t определяется по специальной таблице.
Определение необходимого объема выборки при помощи допустимой величины ошибки:
Δp = t μp.
14. Способы отбора данных. Виды выборки
1. В теории выборочного метода разработаны различные способы отбора и виды выборки, обеспечивающие репрезентативность исследования. Под способом отбора понимают порядок отбора единиц из генеральной совокупности. Различают повторный и бесповторный способы отбора.
При повторном отборе каждая отобранная в случайном порядке единица после ее обследования возвращается в генеральную совокупность и при последующем отборе может снова попасть в выборку. Этот способ отбора построен по схеме «возвращенного шара»: вероятность попасть в выборку для каждой единицы генеральной совокупности не меняется независимо от числа отбираемых единиц. При бесповторном отборе каждая единица, отобранная в случайном порядке, после ее обследования в генеральную совокупность не возвращается. Этот способ отбора построен по схеме «невозвращенного шара»: вероятность попасть в выборку для каждой единицы генеральной совокупности увеличивается по мере производства отбора.
2. В зависимости от методики формирования выборочной совокупности различают следующие основные виды выборки: собственно случайную, механическую, типическую (стратифицированную, районированную), серийную (гнездовую), комбинированную, многоступенчатую, многофазную, взаимопроникающую.
Простая случайная (собственно случайная) выборка – отбор единиц из генеральной совокупности путем случайного отбора, но при условии вероятности выбора любой единицы из генеральной совокупности. Типическая (стратифицированная) выборка – разделение неоднородной генеральной совокупности на типологические или районированные группы по какому-либо существенному признаку, после чего из каждой группы производится случайный отбор единиц. Серийная (гнездовая) выборка – разделение генеральной совокупности на определенные равновеликие или неравновеликие серии, внутри которых единицы связаны по определенному признаку, путем случайного отбора выделяются серии и затем внутри отобранных серий проводится сплошное наблюдение. Механическая выборка – отбор единиц через равные промежутки (по алфавиту, через временные промежутки, по пространственному способу и т. д.). Комбинированная выборка – сочетание нескольких способов выборки. Ступенчатая выборка предполагает образование внутри генеральной совокупности вначале крупных групп единиц, из которых образуются группы, меньшие по объему, пока не будут отобраны группы или отдельные единицы, которые необходимо исследовать.
3. Выработаны следующие основные способы распространения выборочного наблюдения на генеральную совокупность: прямой перерасчет, метод коэффициентов. Обычно используют интервальную оценку, дающую возможность учитывать размер рассчитанной для средней или для доли признака предельной ошибки выборки. Прямой пересчет – произведение среднего значения признака на объем генеральной совокупности.
При использовании метода коэффициентов, если выборочное наблюдение проводится для проверки и уточнения данных сплошного наблюдения, используется формула
где Y1 – численность совокупности с поправкой на недоучет;
Y0 – численность совокупности без этой поправки;
y0 – численность совокупности в контрольных точках по первоначальным данным;
y1 – численность совокупности в тех же точках по данным контрольных мероприятий.
Если нужно уточнить данные сплошного наблюдения при осуществлении контроля за выборочными исследованиями, то используется метод расчета поправки на недоучет. Данный метод широко применяется при исследовании небольших совокупностей, когда можно рассчитать коэффициент недоучета по каждой категории признаков и распространить результаты на всю совокупность.
Проверка результатов сплошного наблюдения на основе способа коэффициентов широко применяется в социальной и экономической статистике.
4. В статистической практике способы и виды выборок применяются в зависимости от цели и задач выборочных обследований, а также возможностей их организации и проведения. Чаще всего применяется комбинирование способов отбора и видов выборки.
Комбинирование возможно в разных сочетаниях: механической и серийной выборки, типической и механической, серийной и собственно случайной и т. д. К комбинированной выборке прибегают для обеспечения наибольшей репрезентативности с наименьшими трудовыми и денежными затратами на организацию и проведение обследования.
Объем выборки определяется аналитическими задачами исследования, ее репрезентативность – целевой установкой программы исследования. Именно программа задает образ необходимой генеральной совокупности для формирования выборки (например, население страны, региона, города или его отдельные группы).
15. Функциональная, статистическая и корреляционная зависимости
1. На основе анализа в ходе статистического исследования необходимо выявить причинно-следственные зависимости между показателями, т. е. определить зависимость изменения одних показателей от изменения других показателей. По степени зависимости одного явления от другого различают функциональную и обратную связи.
Функциональная связь – полное соответствие между факторными и результативными признаками.
Функциональная зависимость по направлению подразделяется на зависимость прямую (при увеличении факторного признака значение результативного также увеличивается) и обратную (при увеличении факторного признака значение результативного уменьшается).
По аналитическому выражению функциональная зависимость может быть прямолинейной (т. е. ее можно выразить уравнением прямой линии) и криволинейной (можно выразить уравнением кривой). На статистическую зависимость накладывается влияние случайных факторов.
2. При корреляционной связи воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных (рост производительности труда и стажа работы сотрудников, когда стаж работы влияет на производительность труда, но не определяет его всецело).
Парная корреляция – зависимость между результативным и факторным признаками или между двумя факторными признаками представляет собой наиболее простой вариант корреляционной зависимости.
Данная зависимость выражается как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямыми (с увеличением признака х увеличивается и у) и обратными (с увеличением признака х уменьшается признак у). Определение формы связи с последующим расчетом параметров уравнения (нахождение уравнения регрессии) служит одной из основных задач исследования.
Регрессия – количественная мера изменения (уменьшения или увеличения) результативного признака в зависимости от изменения на определенную величину факторного признака.
3. Регрессии относительно числа переменных:
✓ парные – между двумя переменными (y и x), ;
✓ множественные – между зависимой переменной у и несколькими объясняющими переменными х1, х2,… xn:
Регрессии относительно формы зависимости:
✓ линейные – выражаемые линейной функцией
✓ нелинейные – выражаемые нелинейной функцией
✓ показательная гипербола
✓ степенная гипербола
✓ экспоненциальная гипербола
где e – ошибка регрессии.
4. Одна из основных целей статистики – изучение объективно существующих связей между явлениями.
Для определения степени тесноты парной линейной зависимости используется линейный коэффициент корреляции (r).
Для расчета используют формулы:
Линейный коэффициент корреляции может принимать значения в пределах от до +1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» – прямая зависимость, «-» имеет место при обратной зависимости.
Сведения о характере и силе связи зависимости между факторами дают коэффициент корреляции и корреляционное отношение.
Выборочный коэффициент корреляции:
где
5. При большом числе независимых наблюдений, подчиняющихся одному и тому же распределению, и при надлежащем выборе интервалов группировки коэффициент близок к истинному коэффициенту корреляции r. Поэтому использование как меры связи имеет смысл для тех распределений, для которых естественной мерой зависимости служит r, т. е. для нормальных или близких к ним распределений. Во всех других случаях в качестве характеристики силы связи рекомендуетси использовать корреляционное отношение .
Выборочное корреляционное отношение:
Числитель характеризует рассеяние условных средних значений yi = Σjnijyj : nj около безусловного среднего. Величина
используется в качестве меры отклонения зависимости от линейной, поскольку в основном , и лишь в случае линейной зависимости
В случае нормального распределения величина выборочного коэффициента корреляции считается значимо отличной от нуля, если выполняется неравенство
где tα есть критическое значение t-распределения Стьюдента с (n – 2) степенями свободы, соответствующее выбранному уровню значимости α.
Распределение случайной величины
при независимых и имеющих стандартное нормальное распределение ξ0, ξ1, …, ξк называют распределением Стьюдента (Тк) с k степенями свободы.
Если известно, что p ≠ 0, то необходимо воспользоваться Z-преобразованием Фишера (независящим от r и n):
16. Общая и линейная нормальная модели парной регрессии
1. При определении тесноты связи линейной парной регрессионной модели используют парный коэффициент корреляции, для нелинейной – индекс корреляции. Парная регрессия отображает зависимость между результативным признаком и одной факторной.
Парный коэффициент корреляции рассчитывается:
– 1 ≤ rxy ≤ 1.
Индекс корреляции рассчитывается:
Средняя ошибка аппроксимации (среднее отклонение расчетных значений от фактических) рассчитывается:
F-критерий Фишера состоит в проверке гипотезы H0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Сравниваются фактическое Fфакт и критическое (табличное) Fтабл значения F-критерия Фишера.
Fфакт можно рассчитать:
где n – число единиц совокупности;
m – число параметров при переменных x.
Fтабл – максимально возможное значение F-критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости a – вероятность отвергнуть правильную гипотезу при условии, что она верна.
Гипотеза H0 – природа оцениваемых характеристик случайна.
Если Fтабл < Fфакт, то H0 отклоняется, и признается их статистическая значимость и надежность с вероятностью 1 – α. Если Fтабл > Fфакт, то H0 не отклоняется и признается их статистическая незначимость и ненадежность с вероятностью 1 – α. Если коэффициент детерминации не ниже 0,5, тогда средняя ошибка аппроксимации не превышает 8—10 % и отклоняется гипотеза H0 из F-теста, то изучаемая модель хорошо описывает изучаемую закономерность.
2. Для построения нормальной линейной модели парной регрессии зависимость между переменными в генеральной совокупности представляется в виде
y = α + βx + ε,
где х – объясняющая (независимая) переменная – неслучайная величина;
y – объясняемая (зависимая) переменная;
ε – случайный член (ошибка регрессии);
y и ε – случайные величины;
а и ß – параметры уравнения.
Регрессия называется линейной, если зависимости линейны относительно параметров. Наличие в уравнении случайного члена ε (ошибки регрессии) связано с воздействием на зависимую переменную не учтенных в уравнении факторов с возможной нелинейностью модели и ошибками измерений.
Основные причины существования случайного члена: невключение объясняющих переменных или агрегирование переменных. Необходимость аппроксимации объясняется неправильным описанием структуры модели; неправильной функциональной спецификацией или ошибкой измерения (остаточный член служит проявлением указанных факторов).
На основе обработки данных выборочного наблюдения получают управление регрессии:
где – расчетное значение переменной y;
a и b – оценки параметров α и ß.
3. Простейшая задача регрессионного анализа состоит в наилучшем представлении набора наблюдений пар величин x и y линейным уравнением регрессии вида
где – расчетное значение переменной y;
a и b – оценки параметров α и ß.
Для каждой точки можно указать отклонение от расчетной величины функции, изображенной линией регрессии:
где ei – отклонение (остаток) i-го наблюдения;
yi – величина переменной y в i-м наблюдении;
– расчетная величина переменной y в i-м наблюдении, определяемая уравнением регрессии, при значении независимой переменной, равном хi;
i – порядковый номер измерения переменных.
4. Значения оценок а и b параметров уравнения регрессии можно определить методом наименьших общих квадратов (МНК).
Применение МНК (минимизация суммы квадратов остатков) рассчитывается:
где n – количество пар переменных, используемых для анализа.
Необходимые условия минимума представляют собой равенства нулю частных производных суммы квадратов остатков по величинам а и b:
где – дифференциал.
Из этих условий вытекают уравнения для определения величин a и b:
Решение системы уравнений имеет вид:
где и b – выборочные средние значения переменных x и у.
Коэффициент b – угловой коэффициент регрессии, показывающий, на сколько единиц в среднем изменяется переменная у при увеличении независимой переменной x на 1. Коэффициент b связан с коэффициентом корреляции величин x и у:
где rxy – коэффициент корреляции между переменными x и y;
Sx и Sy – стандартные отклонения переменных x и y.
5. Линейная регрессионная модель с к объясняющими переменными – модель множественной регрессии, т. е. обобщения линейной регрессионной модели с одной объясняющей переменной:
y = β0 + β1x1 + …+ βixi + … + βkxk + ε,
где y – зависимая переменная;
x1, xi, xk – независимые переменные;
β0, β1, …, βi, …, βk – параметры модели;
ε – случайный член.
Предполагается, что объясняющие переменные не коррелированы друг с другом.
На основе n наблюдений получают выборочное уравнение регрессии:
y = b0 + b1x1 + … + bixi + … + bkxk,
где b0, b1, …, bi, …, bk – оценки параметров β0, β1, …, βi, …, βk.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?