Электронная библиотека » Наталья Воронина » » онлайн чтение - страница 3


  • Текст добавлен: 3 июня 2024, 19:00


Автор книги: Наталья Воронина


Жанр: Программы, Компьютеры


Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Текущая страница: 3 (всего у книги 16 страниц) [доступный отрывок для чтения: 5 страниц]

Шрифт:
- 100% +

Глава 2. Запуск программы, ввод и загрузка данных

Запустите пакет SPSS с помощью двойного щелчка по значку IBM SPSS Statistics. Вы увидите окно (рисунок 2), с помощью которого можете открыть уже имеющуюся у вас базу данных, скачанную из открытых источников. Для демонстрации применения методов анализа данных в нашей книге мы будем часто использовать базу Европейского социального исследования[33]33
  Данные можно скачать на сайте http://www.ess-ru.ru/, далее везде Европейское социальное исследование – ESS.


[Закрыть]
. Когда вы скачаете базу, ее можно будет открыть, либо щелкнув на значок файла в формате. SAV, либо нажав на кнопку «Открыть» (Open).

2.1. Ввод данных по вопросам, предполагающим один вариант ответа

Если же вам необходимо самостоятельно ввести данные после проведенного исследования, то необходимо закрыть выпавшее окно (рисунок 3) либо нажать в левом верхнем углу «Новый набор данных» (New Dataset).


Рисунок 2. Диалоговое окно SPSS при открытии программы


Рисунок 3. Окно редактора переменных SPSS до введения данных


Вы увидите (рисунок 3), что внизу экрана есть два переключателя: «Данные» (Data View) и второй, который сейчас включен на рисунке 3, – «Переменные» (Variable View). Останемся во вкладке «Переменные» (Variable View), чтобы создать новые переменные.

Переменная – это обозначение признака, то есть какой-то характеристики наблюдений. У нас есть некая база наблюдений (или мы хотим создать базу наблюдений), и они у нас описаны по определенным характеристикам. Эти характеристики в анализе данных выступают в качестве переменных. Само свойство, которым мы описываем наблюдения, мы называем признаком, и этот признак принимает различные значения (или их еще называют градации). Рассмотрим, как ввести переменные в программе SPSS.

Как вы видите, в верхней части экрана находятся различные названия. Разберем каждое из них.

«Имя» (Name) позволяет задавать названия переменных. Имя представляет собой короткое название переменной. Например, вы можете называть переменные по номеру вопроса в анкете (V1, V2… V32), чтобы легко синхронизировать между собой анкету и базу данных. Либо вы можете выбирать имя переменной, чтобы понимать, о каком именно вопросе идет речь. Например, если это переменная, отражающая возраст, то можно назвать ее age. Существуют определенные правила заполнения этого поля, нарушение которых приведет к всплывающему окну SPSS с указанием на ошибку.

Для имен переменных существуют следующие правила:

«1) Длина имени не может превышать 8 знаков.

2) Имя должно начинаться с буквы. Остальные символы могут быть любыми: буквами, цифрами, точкой или знаками @, #, _, $. Применяются только буквы латинского алфавита.

3) Имена переменных не могут оканчиваться точкой. Необходимо избегать имен переменных, оканчивающихся символом подчеркивания (чтобы избежать конфликта с переменными, которые автоматически создаются некоторыми процедурами).

4) В именах не могут быть использованы пробелы и специальные символы (например,!? «, *).

5) Каждое имя переменной должно быть единственным»[34]34
  Пациорковский В. В., Пациорковская В. В. SPSS для социологов. Учебное пособие. ИСЭПН РАН. – М.: 2005. С. 43.


[Закрыть]
, уникальным. Например, если база данных должна включать переменные различных по году волн исследования, то следует указать, например, wave2006, wave2007.

После того как вы щелкните по клетке, находящейся под названием «Имя», и напишите название переменной, у вас произойдет автозаполнение остальных клеток (рисунок 4).


Рисунок 4. Ввод данных по переменной «возраст» (age), пример автозаполнения ячеек


«Тип» (Type) позволяет выбрать тип переменной. По умолчанию стоит «Числовой» (Numeric) – это означает, что переменная, которую мы ввели, будет измерена через числа или варианты ответа закодированы с помощью цифр (для семейного положения и т. п.). Например, возраст будет принимать различные числовые значения, которые выбирал каждый из респондентов в исследовании. Если нам необходимо изменить тип переменной, нужно нажать на ячейку «Числовой» (Numeric), появятся три точки (рисунок 5), нажмем на них, всплывет новое окно (рисунок 6).


Рисунок 5. Ввод данных по переменной «возраст» (age), пример заполнения ячейки «Тип переменной»


Когда нам необходима текстовая переменная, следует отметить кружок «Строка» (String). Например, в базе ESS есть номинальная переменная, обозначающая страны Европы. Она измерена в текстовом формате, и вместо значений 1 – Россия, 2 – Германия и т. д. она содержит значения RU – Россия, NL – Нидерланды, IT – Италия.


Рисунок 6. Диалоговое окно «Тип переменной» (Variable Type)


Числовой и текстовый тип являются наиболее часто применимыми, однако в программе есть еще возможность выбрать варианты: «Запятая» (Comma) – числовая переменная, отображающаяся с запятыми, разделяющими каждые три разряда; «Точечная» (Dot) – числовая переменная, отображающаяся с точками, разделяющими каждые три разряда; «Экспоненциальная запись» (Scientific notation) – числовая переменная, значения которой выводятся в экспоненциальной формуле; «Дата» (Data) – запись выводится в формате календарной даты; «Доллар» (Dollar) – числовая переменная со значком доллара вначале; «Выбир. валюта» (Custom currency) – числовая переменная, значения которой выводятся в одном из денежных форматов, который можно выбрать самостоятельно; «Ограниченный числовой» (Restricted numeric) – переменная, значения которой ограничены неотрицательными целыми числами[35]35
  Подробнее см. здесь https://www.ibm.com/docs/ru/spss-statistics/beta?topic=tab-variable-type.


[Закрыть]
.

В окне (рисунок 5) вы видите названия «Ширина» (Width) и «Десятичные» (Decimals). По умолчанию стоит цифра ширины 8 (это означает, что при вводе данных вы можете использовать не более восьми знаков). В нашем примере это переменная возраста, поэтому нам нет необходимости в восьми знаках, нам потребуется не более трех. Число количества знаков после запятой («Десятичные») выбрано 2, но, опять-таки, в примере мы измеряем целые числа возраста, поэтому выберем 0. Нажмем «Ок», чтобы выйти из этого окна.

«Метка» (Label). Здесь следует записать формулировку вопроса из анкеты, но в сжатом виде. Например, вопрос формулировался так: скажите, пожалуйста, насколько Вы удовлетворены уровнем оплаты труда по 11-балльной шкале, где 0 – совершенно не удовлетворен, а 10 – полностью удовлетворен. В метку значений следует записать, например, «Удовлетворенность уровнем оплаты труда». То есть если имя переменной – это короткие обозначение переменной, то метка – это развернутое обозначение.


Рисунок 7. Диалоговое окно «Метки значений» (Value Labels)


«Значения» (Values) позволяют задать значения переменных. Для того чтобы это сделать, необходимо нажать на данную ячейку, появится троеточие в правой части ячейки. После этого необходимо нажать на троеточие, откроется новое окно (рисунок 7).

Например, мы хотим ввести переменную возрастных групп, тогда сначала в открывшемся окне в «Значение» (Value) нам необходимо написать 1, в «Метке» (Value Labels) – возрастную группу, например от 15 до 30 лет, после чего необходимо не забыть нажать кнопку «Добавить» (Add), которая загорится, как только мы введем значение и метку. Затем надо ввести следующую возрастную группу под значением 2 и т. д. Если вдруг совершили ошибку, можно удалить добавленное, нажав на кнопку «Удалить» (Remove). Если допустили опечатку, можно не удалять новое значение, а исправить с помощью кнопки «Изменить» (Change). Приведем еще один пример ввода значений: нам надо ввести переменную «пол», тогда в значении 1 мы можем добавить женщин, а в значении 2 – мужчин. Необходимо вводить и те значения и метки, которые есть у вас в анкете, в том числе такие варианты (если они предусмотрены анкетой), как «Затрудняюсь ответить», «Нет ответа» и т. п.

На рисунке 8 приведен пример заполнения меток значений для переменной «семейное положение». Для значения 1 была введена метка «женат / замужем», для 2 – «незарегистрированный брак» и т. д.

Также в диалоговом окне есть возможность проверить правильность написанного вами текста – «Проверка орфографии» (Spelling).

После того как вы введете метки значений, надо нажать «Ок».


Рисунок 8. Диалоговое окно «Метки значений» (Value Labels), пример ввода данных


«Пропущенные значения» (Missing), к которым относятся, например, варианты «Затрудняюсь ответить», «Нет ответа», «Отказ от ответа». Иногда для задач исследования нам необходимо не включать эти варианты в статистический анализ[36]36
  Когда нас интересуют только ответившие на наш вопрос респонденты.


[Закрыть]
. В таком случае нам надо убрать пропущенные значения. В SPSS существует два вида пропущенных значений: первый – это «пользовательские» пропущенные значения, описанные выше; второй вид – это «системные» пропущенные значения, обычно в окне «Данные» (Data View) они обозначаются точками. Эти точки появляются, если переменная «не содержит значения, такому наблюдению присваивается системное значение отсутствия»[37]37
  https://www.ibm.com/docs/ru/spssstatistics/25.0.0?topic=SSLVMB_25.0.0/spss/tables/nt_missing_values.htm.


[Закрыть]
.

Нажмите на ячейку «Пропущенные» (Missing), справа в ячейке загорится троеточие. Когда вы нажмете на него, всплывет новое окно (рисунок 9).


Рисунок 9. Диалоговое окно «Пропущенные значения» (Missing Values)


По умолчанию стоит опция об отсутствии пропущенных значений. Следующая опция «Отдельные пропущенные значения» (Discrete missing values) позволяет указать те значения, которые вы не собираетесь учитывать при анализе. Разбирая пример по рисунку 8, следовало бы указать в первом «окошке» 6, а во втором – 7, что соответствует вариантам «Затрудняюсь ответить» и «Нет ответа» при ответе на вопрос о семейном положении.

Опция ниже называется «Диапазон пропущенных значений» (Range plus one optional discrete missing value). Например, вам надо убрать в пропущенные варианты ответов номера 6, 7, 8, тогда необходимо в «Минимальное» (Low) поставить 6, в «Максимальное» (High) – 8.

Следующая опция – «Отдельное значение» (Discrete value). Эта опция подходит, например, для таких задач, когда у вас всего одно обозначение для пропущенного значения. Еще бывают случаи, когда у вас трехбалльная шкала. К примеру, вопрос звучит так: голосовали ли Вы на последних выборах? А варианты ответа: 1 – голосовал, 2 – не голосовал, 3 – не было возможности проголосовать. С содержательной точки зрения для вашей задачи необходимо анализировать только голосовавших и не голосовавших. В таком случае в «Отдельное значение» (Discrete value) следует написать 3, тогда программа будет анализировать только варианты 1 и 2. После выбора необходимой опции надо нажать «Ок».

«Столбцы» (Columns) – это ширина столбца по переменной, по умолчанию он равен 8, если вы увеличите его, например, до 20 и перейдете в окно «Данные» (Data View) внизу экрана, то заметите, что столбец расширился.

«Выравнивание» (Align) похоже на функцию Microsoft Word, когда мы выравниваем текст по правому / левому краю или по центру.

Таким образом, ячейки «Столбцы» (Columns) и «Выравнивание» (Align) отвечают за визуальную функцию работы с переменными и никак не влияют на выполнение анализа данных.

«Шкала» (Measure). В данной ячейке нам необходимо определить тип шкалы, которую мы вводим. Нажатие на данную ячейку позволяет выбрать три варианта: порядковая шкала, номинальная и количественная (интервальная, метрическая) – в SPSS переведена как «Шкалы» (рисунок 10).

2.2. Основные типы шкал в социологическом исследовании

Для наглядного представления о том, как научиться различать шкалы, разберем пример. Допустим, у нас есть исследовательская задача – определить, есть ли связь между величиной заработной платы и профессией. И для каждого респондента у нас известно, какая у него зарплата и какая у него профессия. Мы получаем два признака: зарплата и профессия. Профессия имеет градации: социолог, политолог, философ. Варианты профессий разные между собой, но они равноправны. В данном случае нельзя сказать, что кто-то зарабатывает больше-меньше, нельзя найти среднее значение от наименования профессий, потому что это не имеет содержательного смысла.


Рисунок 10. Ввод данных по переменной, ячейка «Шкала» (Measure)


Еще из базы данных нам известен пол респондентов, который имеет два значения (мужской и женский). И еще у нас имеются данные об удовлетворенности трудом (переменная имеет пять градаций: от полной неудовлетворенности к полной удовлетворенности) и длительности рабочей недели, которая измеряется в часах (от 15 до 60 часов).

Что касается степени удовлетворенности трудом, то тут есть градация от низкой к большой. Длительность рабочей недели тоже меняется от малого количества часов к большему. Но у нас в случае удовлетворенности расстояние между ответами очень субъективное – между очень удовлетворен и просто удовлетворен. Например, нельзя сказать, что все респонденты одинаково понимают удовлетворенность на 4. Для кого-то 4 будет низкой удовлетворенностью, а для кого-то это средняя удовлетворенность, например.

А вот длительность рабочей недели имеет четкие, понятные способы измерения – шкала часов. Равные расстояния между градациями. Для всех нас пять часов понимается одинаково. Пол у нас по сути шкалы похож на шкалу с профессиями, но пол у нас идет отдельно. И тут дело как раз в методологии анализа данных. Дело в том, что в статистике шкала, которая имеет два варианта ответа, начинает обладать некими особыми свойствами, с которыми мы познакомимся. Все то, что мы можем делать в социологии со шкалами, не относящимися к количественным, основано на этих свойствах дихотомической шкалы.

Каждый раз, когда мы вбиваем данные в базу, мы указываем значения признаков, градаций.

Шкалы бывают: 1) номинальная, 2) порядковая, 3) количественная, 4) дихотомическая (таблица 3).


Таблица 3. Типы социологических шкал


В некоторых учебниках вместо обозначения «Количественная шкала» используют метрическую, интервальную или числовую шкалу[38]38
  В некоторых учебниках добавляют еще шкалу отношений. У этой шкалы есть нулевая точка и единица измерения. Шкала отношений чаще используется в психологических исследованиях.


[Закрыть]
. В теоретических источниках дихотомическую шкалу не всегда выделяют, но с точки зрения анализа данных это очень важно (об этом будет подробнее далее, см. пункт 8.3). В SPSS также нет возможности выбора дихотомической шкалы, поэтому ее мы будем отмечать в базе данных как номинальную. Любую шкалу, которая у нас есть, мы можем превратить в набор дихотомических переменных при помощи процедуры перекодировки (об этом речь пойдет в пункте 3.5).

Тип шкалы определяет допустимость применения того или иного метода анализа данных. Номинальная шкала сортирует объекты по определенному классу. Каждый класс – это каждое значение признака. Варианты ответов правомерны между собой, и никак проранжировать их нельзя. Когда мы кодируем, мы можем сделать: 1) философы, 2) экономисты, 3) социологи, а можем сделать кодировку: 1) социологи, 2) экономисты, 3) философы – нам эта кодировка будет подходить любой. Важно, чтобы социологи или кто-то еще не попали в одну и ту же градацию с другой профессией. Мы с детства привыкли, что 2 больше 1 и т. д. Но тут мы должны понимать, что за этими цифрами в номинальной шкале не стоят отношения больше-меньше, тут просто обозначения, и компьютер этого не понимает, поэтому очень важно следить за тем, чтобы у нас шкалы не попали в анализ, который не предназначен для них. Например, для номинальных шкал невозможен расчет средних значений, а для количественных шкал нет смысла строить таблицы сопряженности, так как их нельзя будет проанализировать.

В порядковой шкале добавляется отношение порядка. «Совершенно не удовлетворен» плавно меняется до «полностью удовлетворен». Соответственно, здесь порядок кодов важен (например, 1 – совершенно не удовлетворен, 2 – в целом не удовлетворен, 3 – в чем-то удовлетворен, в чем-то нет, 4 – в целом удовлетворен, 5 – полностью удовлетворен).

Для обозначения номинальных, дихотомических и порядковых шкал используют термин «категориальные шкалы».

Именно в количественных шкалах цифры обладают всеми свойствами чисел. Мы можем не только оценить порядок, равенство-неравенство, но и расстояние между градациями. И это расстояние будет объективно, в отличие от порядковой шкалы. Большинство методов анализа данных, которые заложены в SPSS, предназначены для количественных шкал, но, как можно заметить, при просмотре готовых социологических баз данных количественных шкал не так уж много. В основном это открытые вопросы о доходе, возрасте, количестве лет обучения, количестве рабочих часов в неделю и т. п. Поэтому часто исследователи работают с порядковыми шкалами, имеющими пять баллов[39]39
  Вопрос об использовании пятибалльной шкалы остается дискуссионным. Есть мнение о том, что следует использовать шкалу в качестве псевдоинтервальной, начиная с шестибалльной. В данном учебном пособии мы будем придерживаться того, что пятибалльная шкала, имеющая нормальное распределение, будет называться псевдоинтервальной.


[Закрыть]
и больше, имеющими нормальное распределение, как с псевдоинтервальными, условно считая, что расстояния между градациями шкалы примерно равные[40]40
  Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson Prentice Hall, 2009. Pp.13–14.


[Закрыть]
. Как вы увидите дальше, в анализе данных существуют допущения о том, что в целом так делать нельзя, но при определенных условиях – можно.

2.3. Ввод данных по вопросам
С множественными ответами

Итак, мы разобрали пример ввода данных, когда вопрос из анкеты предполагал один вариант ответа (рисунок 5, пример с возрастом). А теперь перейдем к вводу данных переменной, предполагающей несколько вариантов ответа.

Допустим, в анкете есть вопрос[41]41
  Данный вопрос взят из анкеты проекта (РФФИ) «Гражданская ответственность, эмпауэрмент и вовлеченность как основания формирования и институционализации политических практик в России», руководитель Патрушев С. В.


[Закрыть]
: какой страной Вы хотите видеть Россию в будущем? (Выберите не более двух ответов.)

1. Государством всеобщего благоденствия.

2. Евразийской империей.

3. Лидером научно-технологического прогресса.

4. Одним из мировых центров.

5. Обществом среднезажиточных граждан.

6. Сообществом свободных людей.

7. Страной всеобщего равенства и социальной справедливости.

8. Улучшенным вариантом Советского государства.

В данном случае стоит ограничение выбора до двух вариантов ответа. Это означает, что мы должны создать две переменные (рисунок 11). Мы не можем дать им одинаковое имя, хотя в остальных ячейках все будет идентично (эту информацию можно просто скопировать). Как вы помните, каждое имя переменной должно быть уникально, поэтому, чтобы не запутаться, можно назвать V1 и V1_1.


Рисунок 11. Ввод данных по вопросу, предполагающему не более двух вариантов ответа


Таким образом, количество создаваемых нами переменных будет равно заданному количеству возможностей ответить (в нашем примере – не более двух ответов). В значениях необходимо вбивать одинаковые варианты ответов, описанные выше, например: 1 – государством всеобщего благоденствия и т. д.

Если же в анкете вопрос допускает выбор любого количества ответов, то предполагается иной способ ввода данных. Рассмотрим пример[42]42
  Данный пример вопроса взят из анкеты проекта РНФ «Волонтерство в чрезвычайных ситуациях как ответ на природные и техногенные вызовы в России», руководитель Башева О. А.


[Закрыть]
:

Вы занимаетесь волонтерством самостоятельно или в составе какой-то группы / организации? Выберите любое количество ответов.

• В одиночку, самостоятельно 1

• В компании друзей, знакомых, родственников 2

• Вместе с другими волонтерами, с которыми познакомился (-ась) на месте событий 3

• Вместе с другими волонтерами, с которыми познакомился (-ась) в социальных сетях / на интернет-форумах 4

• По месту своей работы, учебы (организованные компанией, в которой работаю / образовательным учреждением) 5

• Я участвовал (-а) в деятельности, организованной официальными службами спасения (например, МЧС, Минздрав и другие) 6

• Я участвовал (-а) в деятельности, организованной муниципальными властями 7

• Через собес, органы социальной защиты населения, другие организации по месту жительства 8

• Через другие государственные и муниципальные учреждения 9

• Через российские благотворительные фонды 10

• Через общественные организации, кроме фондов 11

• Через религиозные общины, приходы 12

• Через национальные общины или землячества 13

• Другое (что именно?) 14

• Затрудняюсь ответить 15

В данном случае необходимо вбивать в «Метку» (Label) не сам вопрос, а варианты ответа (рисунок 12). По каждой переменной в графе «Значения» (Values) нужно будет ввести только два значения: 1 – выбрал этот вариант ответа, 0 – не выбрал.


Рисунок 12. Ввод данных по вопросу, предполагающему любое количество ответов


2.4. Ввод данных по «табличным» вопросам

Теперь перейдем к вопросам, с которыми могут возникнуть сложности при вводе информации. Обратимся к примеру[43]43
  Данный вопрос взят из анкеты проекта «Социальные проблемы современной России», проведенного Российским обществом социологов в 2013 году.


[Закрыть]
(рисунок 13).


Рисунок 13. Пример «табличного» вопроса


В этом примере нет множественных ответов, предполагается один ответ по каждому из четырех суждений. Рассмотрим, как правильно ввести данные в базу SPSS.

В данном примере в графу «Метка» (Label) необходимо вводить не сам вопрос, а суждения о справедливости (рисунок 14), в «Значениях» (Values) необходимо указать градации измерения (они будут везде одинаковые для этого вопроса): 1 – совсем не согласен, 2 – в основном согласен, 3 – в чем-то согласен, в чем-то нет, 4 – в основном согласен, 5 – полностью согласен.


Рисунок 14. Пример ввода данных по «табличному» вопросу


Если при заполнении данных вы столкнулись с ошибкой, например создали лишнюю строку для переменной, можно удалить ее, выделив строку нажатием клавиши мыши, а затем после нажатия на правую кнопку мыши откроется окно, где можно «Очистить» (Clear), «Скопировать» (Copy) или «Вставить» (Paste) необходимую информацию (рисунок 15).


Рисунок 15. Контекстное меню


После того как вы введете всю информацию по вопросам, необходимо перейти в окно «Данные» (Data View) внизу экрана и начать ввод ответов респондентов. На рисунке 16 мы видим пример ввода данных для переменных возраста (age) и пола (gender), числа слева от 1 до 11 обозначают номера респондентов. Например, под номером 1 – первая анкета, которую вы начали вводить, этот респондент ответил, что ему 30 лет и что он мужского пола (1 – так как мы закодировали мужчин единицей). Соответственно, второй респондент – это женщина в возрасте 45 лет (2 – так как мы закодировали женщин двойкой).


Рисунок 16. Пример заполнения данных по переменным возраста (age) и пола (gender) во вкладке «Данные» (Data View)


Рисунок 17. Меню «Файл» (File), список команд


После того как вы закончите ввод данных, следует несколько раз проверить, не совершено ли где-то ошибки или опечатки.

Для того чтобы сохранить имеющуюся базу, необходимо в левом верхнем углу экрана нажать «Файл» (File) и после «Сохранить как» (Save as) (это дает возможность выбора директории для сохранения на компьютере) или просто «Сохранить» (Save) (рисунок 17).

Вы можете выбрать удобный для работы в SPSS язык. Для этого в левом верхнем углу экрана нажмите на SPSS Statistics – «Настройки» (Preferences) – «Язык» (Language)[44]44
  В нашем примере на рисунке 18 все указано на английском, так как наш интерфейс компьютера работает на английском языке.


[Закрыть]
(рисунок 18). Далее в графах «Вывод» (Output) и «Интерфейс пользователя» (User Interface) установите удобный вам язык (рисунок 19)


Рисунок 18. Меню SPSS Statistics, список команд


Рисунок 19. Диалоговое окно «Параметры» (Options)


Страницы книги >> Предыдущая | 1 2 3 4 5 | Следующая
  • 5 Оценок: 1

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации