Автор книги: Наталья Воронина
Жанр: Программы, Компьютеры
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 4 (всего у книги 16 страниц) [доступный отрывок для чтения: 5 страниц]
Вопросы для самопроверки
1) Перечислите ограничения на ввод имен переменных.
2) Что необходимо сделать, чтобы убрать пропущенные значения переменной из анализа?
3) Приведите примеры номинальной, порядковой и количественной шкалы.
4) Что такое псевдоинтервальная шкала?
5) Как правильно вводить данные в SPSS по вопросу, предполагающему не более трех вариантов ответа?
6) Как ввести данные переменной, если необходим текстовый формат значений?
Практическое задание
Попробуйте самостоятельно ввести в SPSS следующие вопросы из анкеты:
• Укажите Ваш пол (варианты ответа: 1 – мужской, 0 – женский).
• Укажите тип населенного пункта, в котором Вы проживаете (4 – большой город, 3 – пригород, 2 – малый город, 1 – деревня).
• Насколько Вы удовлетворены уровнем оплаты труда по шкале от 1 до 10, где 1 – совершенно не удовлетворен, а 10 – полностью удовлетворен?
• Укажите Ваш возраст.
• Ниже перечислены технические устройства. Выберите не более трех устройств, которыми Вы пользуетесь в повседневной жизни чаще всего:
1 – Смартфон.
2 – Ноутбук.
3 – Стационарный компьютер.
4 – Мобильный кнопочный телефон без выхода в Интернет.
5 – Смарт-часы.
6 – Телевизор.
7 – Электронная книга.
8 – Цифровая фотокамера.
Рекомендуемая литература по главе 2
1) Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей: Пер. с нем. / Ахим Бююль, Петер Цефель. – СПб.: ООО «ДиаСофтЮП», 2005. С. 14–43.
2) Виды шкал / Рабочая книга социолога / Под общ. ред. Г. В. Осипова. Изд. 5-е. – М.: Книжный дом «ЛИБРОКОМ», 2009. С. 263–237.
3) Гречков В. Ю. Практика работы с программным комплексом SPSS (V22.0 rus) при анализе результатов маркетинговых исследований / Маркетинговая аналитика с использованием IBM SPSS Statistics: Учебное пособие. – М.: МГИМО-Университет, 2019. С. 98–100.
4) Красниковский В. Я. Статистическая обработка данных социологического исследования средствами программы SPSS: Учебное пособие для студентов, обучающихся по направлению подготовки (уровень бакалавриата) 39.03.01 «Социология». – М.: Прометей, 2021. С. 58–84.
5) Панкратова Е. В., Смирнова И. Н., Мартынова Н. Н. Программа SPSS в социологии / Анализ данных в программе SPSS для начинающих социологов: Учебное пособие. – М.: ЛЕНАНД, 2018. С. 17–42.
6) Пациорковский В. В., Пациорковская В. В. SPSS для социологов. ИСЭПН РАН. – М., 2005. С. 133–152.
7) Таганов Д. SPSS. Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. С. 15–23.
8) Татарова Г. Г. Типы эмпирических данных / Методология анализа данных в социологии (введение) / Учебник для вузов. – М.: NOTA BENE, 1999. С. 58–72.
9) Тихомиров Д. А. Обработка и управление данными в SPSS / Анализ данных (с применением программы SPSS): Учебник / Д. А. Тихомиров. – М.: КНОРУС, 2022. С. 30–38.
Глава 3. Преобразование данных и отбор по условиям
Прежде чем переходить непосредственно к анализу данных, необходимо ознакомиться с возможностями программы для преобразования данных.
3.1. Взвешивание
В некоторых базах данных возникает необходимость взвешивания данных. Взвешивание представляет собой процедуру, которая помогает скорректировать погрешности выборки. В результате взвешивания происходит либо уменьшение количества наблюдений для уравновешивания выборки, либо увеличение количества наблюдений. Например, нам необходимо сравнить две страны, но количество респондентов в России в два раза превышает количество респондентов в Исландии. Тогда с помощью взвешивания можно уменьшить выборку по России, при этом оставив количество респондентов и качество выборки, отвечающие параметрам генеральной совокупности по стране. Или, например, мужчины и женщины представлены в выборке в неравных пропорциях по отношению к генеральной совокупности, в этом случае можно уравновесить количество наблюдений с помощью взвешивания данных. Обычно в открытых международных базах исследований веса уже рассчитаны.
Рассмотрим, как осуществлять процедуру взвешивания, на примере базы ESS, где веса уже рассчитаны. Всего в базе обычно присутствуют три веса: дизайн, популяционный и постстратификационный.
Дизайн-вес. Применение данного веса необходимо для корректировки разной вероятности попадания респондентов в выборку из-за различий в дизайне выборки по странам. В ESS во многих странах используется выборка на основе адресов (по каждому адресу случайным образом выбирается один человек). Поэтому люди, которые проживают одни, имеют в два раза больше шансов попасть в выборку, чем те, кто живет по двое[45]45
Weighting. ESS // URL: https://www.europeansocialsurvey.org/methodology/ess-methodology/data-processing-and-archiving/weighting.
[Закрыть]. Вот именно для корректировки подобных ситуаций используется дизайн-вес.
Популяционный вес. Объем выборок по странам различается в ESS. Например, в Исландии 900 респондентов, а в России 2500, возникает вопрос о корректности межстранового анализа в такой ситуации. Данный вес обеспечивает корректность того, чтобы каждая страна была представлена пропорционально численности ее населения.
Постстратификационный вес предназначен для корректировки систематических ошибок, связанных с отказами отвечать. Данный вес построен с использованием информации о возрастной группе, поле, образовании и регионе[46]46
Руководство по взвешиванию данных в ESS http://www.ess-ru.ru/fileadmin/templates/doc/Wave_6_-_2012/ESS_weighting_data_1.pdf.
[Закрыть].
В гайде по взвешиванию в ESS рекомендуется[47]47
Weighting. ESS // URL: https://www.europeansocialsurvey.org/methodology/ess-methodology/data-processing-and-archiving/weighting.
[Закрыть] всегда использовать комбинированный вес, который называется аналитическим. Он представляет собой перемноженные постстратификационный и популяционный веса и подходит как для анализа внутри страны, так и для межстранового анализа.
Для того чтобы создать переменную с комбинированным весом, необходимо перейти в меню «Преобразование» (Transform) – «Вычислить переменную» (Compute Variable) (рисунок 20).
Рисунок 20. Меню «Преобразование» (Transform – Compute Variable)
Рисунок 21. Диалоговое окно «Вычислить переменную» (Compute Variable), пример расчета веса anweight
Нужно выбрать из списка переменных постстратификационный вес, перенести его в числовое выражение двойным щелчком мыши либо при помощи стрелочки (рисунок 21), затем выбрать символ умножения (*) и перенести таким же образом популяционный вес. После этого необходимо написать новое название переменной веса в графе «Целевая переменная», на рисунке 21 она названа как anweight – сокращенное от аналитический вес. После этого необходимо нажать кнопку «Ок». Новая переменная комбинированного веса появится в самом конце базы.
Для того чтобы произвести процедуру взвешивания, необходимо перейти в раздел «Данные» (Data) – «Взвесить наблюдения» (Weight Cases) (рисунок 22).
Рисунок 22. Меню «Данные» (Data), список команд
В появившемся окне «Взвесить наблюдения» необходимо из списка переменных выбрать последнюю созданную нами переменную комбинированного веса anweight и перенести ее в графу «Взвесить наблюдения по» (рисунок 23). После этого нажать «Ок».
Рисунок 23. Диалоговое окно «Взвесить наблюдения» (Weight Cases)
Рисунок 24. Окно «Переменные» (Variable View) в базе данных ESS за 2016 год
После этого база данных будет взвешена. Проверить это можно, посмотрев в нижний правый угол экрана (рисунок 24), там появится надпись «Взвешивание» (Weight on). Затем можно будет приступать к расчетам, которые вы запланировали в базе ESS, так как в этой базе без взвешивания расчеты будут некорректными.
3.2. Отбор наблюдений
Очень часто перед исследователем стоит задача анализа не всей совокупности респондентов, представленных в выборке, а конкретных групп, например социально-демографических: по возрасту, полу, типу населенного пункта. В этом случае необходимо отобрать наблюдения для анализа. Эта процедура в SPSS находится в графе «Данные» (Data) – «Отобрать наблюдения» (Select Cases) (рисунок 25). Еще она называется «Создание фильтра».
Рисунок 25. Меню «Данные» (Data), список команд
В SPSS существуют возможности 1) выбора наблюдения по определенному условию, 2) извлечения случайной выборки наблюдений из файла данных, 3) разделения наблюдений на группы в соответствии со значениями одной или нескольких переменных (рисунок 26).
Рисунок 26. Диалоговое окно «Отобрать наблюдения» (Select Cases)
Мы можем использовать опцию «Все наблюдения» (All cases), таким образом отключая всю фильтрацию данных, если такая была сделана. По умолчанию мы и так работаем со всеми наблюдениями в файле.
Мы можем выбрать «Если выполнено условие» (If condition is satisfied). То есть указать конкретное условие для выполнения – например, задать фильтр для отбора определенной страны, или пола, или возраста. Или создать многозадачный фильтр, который, например, одновременно включал бы в себя подвыборку респондентов в определенном возрасте, определенного пола из определенной страны.
Мы можем выбрать «Случайную подвыборку» (Random sample of cases). То есть мы можем указать, какой процент наблюдений мы хотим получить. В соответствии с этим будет произведена необходимая подвыборка.
Можем указать «Временный диапазон или диапазон наблюдений» (Based on time or case range). В этом случае мы отбираем наблюдения на основании интервала номеров наблюдений или интервала дат / времени.
Можем использовать «Фильтрующую переменную» (Use filter variable). В качестве фильтрующей используется выбранная числовая переменная файла данных. Тогда отбираются наблюдения с любыми значениями переменной фильтра, кроме нуля и пропущенных.
На практике чаще всего возникает необходимость выбирать для отбора данных опцию «Если выполнено условие» (If condition is satisfied).
Также в окне отбора наблюдений есть графа «Вывод» (Output). В этой графе по умолчанию стоит опция «Отфильтровать неотобранные наблюдения» (Filter out unselected cases). Фильтрующая система создаст специальную переменную «фильтр» по результатам отбора, где обозначит в базе данных все отобранные наблюдения единицей, а неотобранные – нулем, но оставит их в наборе данных.
Пока вы не отключите фильтр (с помощью опции «Выбрать все наблюдения»), будут анализироваться только отфильтрованные вами данные.
Функции SPSS позволяют выбрать опцию «Копировать отобранные наблюдения в новый набор данных» (Copy selected cases to a new dataset). Таким образом, отобранные наблюдения будут скопированы в новый набор данных, при этом исходный набор данных останется нетронутым. Неотобранные наблюдения не будут включены в новый набор данных.
Еще одна опция – «Неотобранные наблюдения удаляются» (Delete unselected cases). С этим вариантом необходимо быть осторожнее, иначе после отобранных вами условий не отобранные вами наблюдения удалятся и после сохранения файла не восстановятся.
Опцию вывода лучше оставить по умолчанию, если нет каких-то специальных задач.
Далее подробнее разберем наиболее применимую опцию отбора наблюдения. Для этого необходимо нажать опцию «Если выполнено условие» (If condition is satisfied) – «Если» (If).
По этой команде откроется окно с возможностью задать условия для отбора необходимой группы для анализа.
Например, вам необходимо отобрать страну для анализа. Тогда выбираем страну из списка переменных «Страны» (cntry[48]48
Здесь и далее будут использоваться имена переменных из баз данных ESS. Если имена переменных не указаны, это означает, что данные взяты из закрытых исследовательских баз.
[Закрыть]), переносим ее в правую часть экрана, пишем знак равно (=), и далее необходимо написать значение, которое закодировано в базе как нужная нам страна. В графе значений данной переменной мы можем посмотреть, какой код имеет каждая из стран. В примере выбрана Россия (рисунок 27).
Рисунок 27. Диалоговое окно «Отобрать наблюдение: Условие» (Select Cases: If), пример единичного условия.
Для этого надо перейти в окно с переменными, найти cntry в базе (шестая строчка сверху) (рисунок 28).
Рисунок 28. Диалоговое окно «Метки значений» (Value Labels) no переменной «страна» (entry)
Данная переменная закодирована текстовыми значениями, а это значит, что при отборе наблюдений мы должны это значение поместить в одинарные кавычки (‘RU’, рисунок 27). Затем нажать «Продолжить» (Continue).
Рисунок 29. Окно «Данные» (Data View), пример после отбора наблюдений
Если вы все сделали верно, то при переходе в раздел «Данные» (Data View) внизу экрана (рисунок 29) вы увидите, что колонка с цифрами наблюдений по другим странам окажется зачеркнутой – останется только Россия.
Если возникает задача ввести несколько условий отбора сразу, то можно воспользоваться специальным значком (&) (рисунок 30). В данном примере сначала отобрана страна [Норвегия (NO)], затем одновременно выполняется условие, что в нашу подвыборку попадут респонденты, чей возраст старше 18 лет. Уточним, что когда переменная закодирована числом, то одинарные кавычки не нужны. Например, если мы хотим отобрать респондентов только женского пола, необходимо будет написать gndr = 2, так как двойкой в базе данных закодированы женщины, а единицей мужчины.
Рисунок 30. Диалоговое окно «Отобрать наблюдения: Условие» (Select Cases: If), пример создания множественного условия отбора
Вы можете выбрать необходимый оператор связи в зависимости от задачи. Также окно отбора наблюдений дает возможность задать функцию в «Группе функций» (Function Group).
Еще одно важное правило при записи чисел в условие отбора – в значениях с десятичными знаками в качестве десятичного делителя должна использоваться точка, а не запятая, например 0.5, а не 0,5.
В таблице 4 приведены все возможные операторы связи, которые предусмотрены программой.
Таблица 4. Операторы связи для отбора наблюдений
3.3. Расщепление файла
Процедура расщепления файла необходима для задач, когда необходимо сравнить результаты по нескольким группам сразу, например, при анализе вопроса: сколько времени на Интернет в день в минутах тратят респонденты из разных населенных пунктов. Для отбора каждого из населенных пунктов мы, конечно, могли бы применить уже знакомую нам процедуру отбора наблюдений, но для этой задачи есть более удобная функция – расщепление файла. Она находится в графе «Данные» (Data) – «Расщепить файл» (Split file) (рисунок 31).
Рисунок 31. Меню «Данные» (Data), список команд
Далее мы находим переменную «тип населенного пункта» (domicile) и переносим ее в правую часть экрана (рисунок 32). Можно выбрать опции «Сравнить группы» или «Организовать вывод по группам» – разница будет только в визуальном представлении, которое будет показано чуть ниже. Графа «Анализировать все наблюдения, группы не создавать» (Analyze all cases, do not create groups) необходима для того, чтобы отменить команду «Расщепить файл». Выберем сначала «Сравнение групп» (Compare groups) и нажмем «Ок».
Рисунок 32. Диалоговое окно «Расщепить файл» (Split File), пример расщепления по переменной «тип населенного пункта» (domicil)
Важно учитывать, что расщепление файла можно применять только к категориальным шкалам (номинальным и порядковым), так как применение к количественным не имеет содержательного смысла – те большие малонаполненные группы, которые получатся в результате подобного расщепления, не будут пригодны для интерпретации в этом случае.
Рисунок 33. Диалоговое окно «Описательные статистики» (Descriptives), пример по переменной частоты использования Интернета (netustm)
После того как произошло расщепление файла по типу населенного пункта, нам необходимо посмотреть, сколько в каждой из групп проводят времени в Интернете. Поскольку переменная количества времени в Интернете в минутах количественная, посмотрим средние значения времяпровождения для каждой из групп. Для этого перейдем в меню «Анализ» (Analyze) – «Описательные статистики» (Descriptive statistics) – «Описательные» (Descriptives) (рисунок 33, рисунок 34), выберем переменную количества времени, проведенного в Интернете», и перенесем в правую часть экрана. Нажмем «Ок», так как средние значения уже заданы в этом анализе по умолчанию.
Рисунок 34. Таблица вывода «Описательные статистики» (Descriptives) по переменной частоты использования Интернета (netustm), расщепленной по переменной «тип населенного пункта» (domicil), вывод организован по опции «Сравнить группы» (Compare groups)
Результаты показывают средние значения для разных типов поселения (рисунок 34). Например, для большого города это в среднем 231,05 минуты в день, а в деревнях в среднем 182,76 в целом по Европе (так как для этого анализа мы не фильтровали данные по странам). Средние значения нельзя сравнивать только по этой таблице. Необходимо делать проверку на статистическую значимость, но это мы рассмотрим в главах 5 и 6.
Если же мы в окне расщепления файла отметим вариант «Организовать вывод по группам» (Organize output by groups), а затем проделаем те же действия по расчету средних значений, то получим следующее визуальное представление результатов (рисунок 35).
Рисунок 35. Таблицы вывода описательных статистик (Descriptives) по переменной частоты использования Интернета (netustm), расщепленной по переменной «тип населенного пункта» (domicil), вывод организован по группам (Organize output by groups)
Такое визуальное представление удобно выбирать в случае, если, например, нужно сделать несколько регрессионных анализов по разным странам, а для сравнения средних значений или частот лучше выбирать сравнение групп в окне расщепления файла.
3.4. «Слить файл», или Объединение данных в SPSS
Иногда исследовательская задача требует объединения различных массивов данных. Например, проведено исследование, посвященное удовлетворенности жизнью в 2020 году, а затем проведено аналогичное в 2022 году на одних и тех же респондентах. Изменились ли результаты исследования за два года? Для проведения специальных статистических тестов необходимо объединить два массива данных.
Другой пример: на базе Европейского социального исследования необходимо рассмотреть динамику отношения к иммигрантам за 10 лет, с 2006 по 2016 год. Все время открывать различные файлы данных может быть неудобно и долго, поэтому нужно объединить все данные в один файл, а потом пользоваться отбором наблюдений, если понадобится какой-то конкретный год исследования.
Следует отметить, что объединять данные можно, только если методика проведения исследования, параметры выборки, формулировка вопросов в анкете, измерение шкал идентичны. Это не значит, что исходный файл и тот, который вы хотите с ним объединить, должны иметь строго одинаковую структуру, у вас могут быть переменные, которые не совпадают, они просто не будут добавлены в анализ при объединении по наблюдениям.
Перед тем как сливать переменные из разных исследований в один файл, рекомендуется сохранить дубликат исходных файлов, чтобы можно было восстановить данные в случае неудачного переноса. Обращаем внимание на то, что чем меньше расхождений между вашим исходным файлом и тем, который вы хотите объединить с исходным, тем меньше вероятность возникновения ошибок при слиянии файлов. Также следует отметить, что слияние файлов возможно только для файлов формата SPSS. Соответственно, если ваши изначальные файлы в ином формате, например в Excel, то необходимо их сначала перенести в SPSS-формат, а потом уже объединять.
Как сделать в SPSS?
«Данные» (Data) – «Слить файлы» (Merge files) – «Добавить наблюдения» (Add Cases) (рисунок 36).
Рисунок 36. Меню «Данные» (Data), список команд
Появится диалоговое окно, в котором есть две опции: 1) «Выберите набор данных в списке открытых наборов…», там будут отображаться файлы, которые уже открыты у вас на компьютере (помимо того файла, в который вы хотите добавить данные), 2) «Внешний файл данных…» – файл, который вы можете загрузить из любой директории вашего компьютера.
Рисунок 37. Диалоговое окно «Добавить наблюдения в…» (Add Cases)
После выбора файла для объединения нажимаем «Продолжить», появится диалоговое окно (рисунок 37). Непарные переменные – это те, которые не войдут в набор данных объединенной базы. Мы с вами изначально выбрали вариант «Добавить наблюдения», те переменные, которые не совпадают в обеих базах (исходной и той, которую вы хотите объединить с исходной), будут исключены. Звездочкой (*) отмечены данные из нашего активного файла, переменные, отмеченные плюсом (+), – из добавленного файла (рисунок 38).
Рисунок 38. Диалоговое окно «Добавить наблюдения из…» (Add Cases)
Опция «Указывать источник наблюдений в переменной» означает, что будет создана отдельная переменная, указывающая источник файла для каждого наблюдения (наблюдения из активного набора нашего наблюдения будут отмечены нулем, а наблюдения из внешнего файла (добавленные) – единицей). После этого можно нажать «Ок» и работать с новым файлом данных. В нашем примере это объединенные волны 8 и 9 Европейского социального исследования.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?