Электронная библиотека » Александр Богачев » » онлайн чтение - страница 2


  • Текст добавлен: 7 апреля 2020, 10:00


Автор книги: Александр Богачев


Жанр: Маркетинг; PR; реклама, Бизнес-Книги


сообщить о неприемлемом содержимом

Текущая страница: 2 (всего у книги 7 страниц) [доступный отрывок для чтения: 2 страниц]

Шрифт:
- 100% +
Главное во второй главе

• Графики – инструмент коммуникации.

• Необходимо понять контекст, в рамках которого существуют график и презентация.

• Нужно определиться с целью презентации.

• Рекомендуется составлять техническое задание с ключевыми параметрами проекта.

Глава 3
Формулируем сообщение

В конечном итоге убеждают адресата только данные, а не график или оформление. Ведь именно в данных содержится то, на что опирается наше сообщение. Даже самый прекрасно оформленный график не произведет впечатления, если за ним не стоит вдумчивая работа по анализу и интерпретации данных. Все равно что цветастый, полный «воды» и написанный для количества знаков текст, в котором мало смысла и много шаблонных фраз.

Если вы работаете в компании, то данные у вас наверняка есть. Возможно, их даже слишком много. Как правило, это бесконечные таблицы из многих тысяч строк. Возникает очевидный вопрос – как среди этих тысяч строк найти подходящие для презентации данные?

Ответ прост: нужно искать то, что важно. То, что максимально соответствует вашей цели внутри проекта. Что в рамках этой цели интересует вас в первую очередь, без чего эта цель не может быть осуществлена. То, от чего зависит выбор действий для решения конкретной задачи.

Процесс выбора нужных данных можно сравнить с процессом медицинского обследования пациента. В организме есть сотни параметров, которые врач умеет оценивать. А дополнительно к этому – тысячи лабораторных анализов и других исследований. Однако пациента не заставляют сдавать все это при каждом посещении врача. Есть несколько обязательных обследований – например, оценка артериального давления, пульса и частоты дыхания. Большинство остальных врач выбирает по ситуации, в соответствии с задачей. Он учитывает, является визит плановым или экстренным, что пациент сообщает о своих текущих проблемах. Если визит плановый, врач подберет профилактические диагностические мероприятия или исследования, соответствующие хронической болезни. Если же человек готовится заниматься спортом, ему требуется оценить свою физическую выносливость – для этого будут подобраны другие анализы и обследования. То есть из многих тысяч параметров человеческого организма, которые ежедневно динамически меняются, врач выберет для исследования несколько релевантных данной ситуации. Для какого-то случая врач может решить, что обследования и вовсе не нужны, а нужны только конкретные действия. Например, больше спать или бывать на свежем воздухе.

Только вы сами можете понять, что важно для конкретного отчета, презентации или научного исследования. В целом можно сформулировать такое правило: если вы сомневаетесь, что данные значимы и их визуализация нужнаскорее всего, представлять их графически не требуется.

Если вы не уверены, понадобится ли график руководству, можно подготовить и положить его в конец презентации. Если по ходу выступления или в конце возникнет соответствующий вопрос, вы сможете продемонстрировать этот график. Также полезно все материалы, не вошедшие в презентацию, собирать в текстовый файл. После выступления его можно отправить слушателям вместе с презентацией.

Однажды я помогал одному банку улучшить презентацию. Ребята говорили, что потенциальные клиенты с трудом врубаются в графики и в тему презентации. По идее, графики как раз должны были облегчать понимание. Для начала я попытался увидеть презентацию глазами потенциального читателя и самостоятельно понять смысл графиков. На одном из них мое внимание привлекло сильное колебание цены. Я подумал, что смысл графика именно в этом:



Однако оказалось, что слайд создан ради вот этого маленького фрагмента:



В итоге этот фрагмент мы и превратили в слайд.



На графике показано важное событие – покупка клиентом акций. После этой покупки цена акций может расти, а может оставаться прежней. В этом состоит ключевая мысль. При покупке через банк цена почти не меняется. При самостоятельной покупке рынок реагирует резко. Цена повышается, и дальнейшая покупка становится для человека невыгодной.

Финальная версия слайда была примерно такой:



Этот пример показывает, как именно относиться к большому массиву данных. Нужно выбирать из него только релевантные, максимально подходящие для ваших целей срезы: по времени, по категориям и так далее.

Однако в другой ситуации вам, наоборот, может понадобиться более широкий контекст, потому что иначе картина сильно искажается.



Если показать только график А, у читателей сложится обманчивое впечатление, что показатель уверенно растет. В то время как на самом деле это был лишь короткий эпизод. Это хорошо видно на графике B.

Продолжим аналогию с врачом. Представьте, что врач назначает всем пациентам одни и те же обследования, даже не взглянув на людей, вне зависимости от ситуации. Звучит абсурдно? Однако такое происходит очень часто. Сотрудника просят сделать отчет или презентацию с графиками «вот по этой табличке».

Зачастую человек не тратит время, чтобы выяснить: зачем нужна презентация, какова ее цель и что все эти цифры обозначают в разрезе цели. Он просто визуализирует все, что можно визуализировать. Графики могут получиться симпатичными, но вряд ли они улучшат понимание происходящего. Потому что, если понимания происходящего нет у автора графика, его не будет и у зрителя.

Качество данных

С данными всегда что-то не так. Они всегда неполные, есть вопросы к методологии, не такие свежие, как хотелось бы, не совсем в том формате, в каком нужно, не совсем с теми переменными, с какими хотелось бы. Это следует принимать как данность и стараться выжимать максимум из того, что есть.

К данным, к тому, как они собраны, организованы и подготовлены, предъявляются определенные требования. Визуализация данных – это следующий этап после их подготовки и анализа. Если на подготовительном этапе возникли ошибки, то представление таких данных, как бы грамотно оно ни было сделано, не будет стоить многого.


Данные должны быть по возможности:

• максимально свежими

• целостными, полными, единообразными

• сравнимыми – собранными по одной методологии на сопоставимых выборках

• из источников, вызывающих доверие


Этот график, построенный на базе данных террористических актов Мэрилендского университета, показывает количество терактов, совершенных в мире с 1969 по 2019 год. Я потратил много времени, выясняя, почему в середине девяностых годов значения на графике полностью отсутствуют. Я подозревал в ошибке какие-то настройки программы, в которой создавался график. В конечном итоге пришлось обратиться к документации, сопровождавшей базу данных. Выяснилось, что данные за 1993 год отсутствуют по техническим причинам.



Очень важно перед началом работы проверить датасет (набор данных) на полноту, целостность и корректность. Если он небольшой, можно просто просмотреть все значения. Если относительно большой – нужно создать оценочные визуализации.

Очень удобно оценивать целостность датасета и распределение значений в столбцах с помощью софта, подобного Trifacta Wrangler (см. скриншот). Над каждым столбцом строится гистограмма, показывающая распределение данных в нем:



Датасет нужно готовить так, чтобы в каждом столбце находились данные в одном формате и одного типа. Значения должны быть написаны одинаково, с точностью до знака. Если в столбце встречается различное написание или ошибки (например, Массква, Москва, г. Москва) – все должно быть приведено к единообразию. Какие-то столбцы при необходимости нужно разбить, какие-то, напротив, свести в один.



Скажем, таблицы, представленные на сайте Росстата (gks.ru), непригодны для автоматизированной работы с ними. Они неоднородны. Их строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них». Такую таблицу можно только изучать, а проводить по ней анализ и строить графики нельзя. Ту же таблицу про причины смертности можно было бы переделать, например, так:



Подготовительная работа крайне важна. От нее зависит не только то, насколько удобно вам будет работать в аналитической программе или программе для визуализации данных. Подготовка решает, насколько корректными будут ваши выводы и графики в итоге.

Правила оформления датасета

• Первая строка – заголовки столбцов

• Каждый столбец – отдельная категория

• Данные в столбцах однотипны

• Одно событие или объект – одна строка

• Отсутствие пустых строк и столбцов


Иногда предварительная работа (поиск, сбор, подготовка, очистка данных) занимает 80–90 % времени работы над проектом. И это нормально.

Погружение в тему и контекст

Любые количественные значения, которыми наполнены ваши таблицы, – это не просто циферки. Они возникают не из воздуха. За каждым значением стоит процесс или явление в реальном мире. И эти цифры что-то означают. Они собираются по какому-то принципу, следуя какой-то методологии, с какими-то интервалами, с какой-то погрешностью. И каждая из цифр оценивает какой-то маленький аспект огромной многообразной реальности. Важно понимать, насколько достоверно и в каком качестве данные соотносятся с реальностью, какой контекст за ними стоит.

Одно из российских СМИ однажды опубликовало график, посвященный числу эмигрантов из России по годам. И сделало вывод, что в нашей стране все настолько плохо, что с 2012-го года, с третьего срока Путина, народ массово покидает страну. Шутка ли – 300 тысяч эмигрантов в год! Это население крупного областного центра.



Однако же данные эти на самом деле совсем не однозначны. Природа показателей, стоящих за этими цифрами в разные периоды, различна.

Первое, о чем следует сказать: по тем же данным, за тот же период в Россию въехало в два раза больше людей:



И, что более важно, этот график о совершенно разных группах людей. По-хорошему, их вообще нельзя ставить на общую ось. Оказывается, за последние 15 лет Росстат дважды менял методику подсчета мигрантов. С 1997 по 2006 год учитывались только те, кто получил вид на жительство в России или снялся с учета при переезде за границу. С 2007 по 2011 год – получившие разрешение на временное проживание. А с 2012 года (как раз!) стали считать всех, кто въехал в Россию или выехал из нее на срок от девяти месяцев по любой причине.



Согласитесь, между получением вида на жительство и въездом на срок от девяти месяцев есть существенная разница. Куда же все уезжают? В основном в страны Средней Азии и Украину. То есть на самом деле график показывает возросший объем трудовой миграции между странами бывшего СССР. Какова же доля уезжающих в страны дальнего зарубежья по сравнению с концом 1990-х годов?



Она стала гораздо меньше. Особенно хорошо количество уезжающих на Запад видно на этом графике:



Как видим, между 300 тысячами в год и 10 тысячами в год огромная разница.

Насколько этим данным Росстата можно доверять? Есть ли какие-то недочеты в их методологии? Да, есть. Росстат фиксирует выезд человека из России автоматически, по факту истечения срока разрешения на въезд. Так трудовые иммигранты, не продлившие документы, по данным Росстата «становятся» эмигрантами.

При этом никак не учитываются россияне, которые не снимаются с регистрационного учета, уезжая из страны. А таких людей с каждым годом становится все больше. На учет в консульствах западных стран встает в 3–5 раз больше эмигрантов из России, чем фиксируется Росстатом. Тем не менее, говорить о существенном росте количества уезжающих из страны нельзя.

Серые отсечки показывают миграционный баланс – разницу между приехавшими и уехавшими из России с учетом данных консульств принимающих стран. С одной только Германией отрицательный миграционный баланс составляет 10–15 тысяч человек в год. Это значит, что в Германию переезжает на 10–15 тысяч россиян больше, чем граждан Германии переезжает в Россию.

В целом в Европу, США и Канаду ежегодно уезжает около 50–70 тысяч россиян.



Тема непростая: в последние годы размывается само понятие эмиграции, ее становится все сложнее отслеживать и фиксировать.

Без погружения в тему и понимания связей между данными и реальностью создать эффективную, дающую инсайты визуализацию практически невозможно.

Представьте, что ваша компания опиралась бы на анализ уровня этого СМИ? К каким неверным действиям это могло бы привести!

В каждой отрасли знания есть свои значимые аспекты. Если вы хотите разобраться в них, но ваших знаний не хватает – обратитесь к эксперту. Вам нужен специалист, который непосредственно работает с этими данными. Если вы сотрудник, которого попросили сделать инфографику, именно ваша задача – обсудить с заказчиком или начальником, что в данных самое значимое, ключевое.

Знать основы статистики

Чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики. Если вы уже изучали статистику – самое время вспомнить о ней. Это нужно, чтобы избежать бессмысленных и некорректных вычислений и визуализаций на их основе.

Необходимо получить принципиальное понимание, какие расчеты приводят к вызывающим доверие результатам, а какие – нет. Уходить при этом в дебри и подробно разбираться в формулах и сложных видах статистического анализа совершенно необязательно.

Вот, например, карта России. Угадайте, какой показатель здесь закодирован оттенками цвета?



Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург, Краснодарский край. Если любые статистические данные по регионам России не пересчитывать на количество населения, вы всегда будете получать подобную карту.

Например, мы изучаем смертность в ДТП. Здесь важно понять не сколько всего было жертв ДТП в каждом регионе, а сколько их было на каждую тысячу проживающих.

Вот карта общего числа преступлений по регионам за 2018 год в абсолютных числах. Она почти идентична карте, показывающей население:



А вот количество преступлений на 10 000 человек:



Картина меняется радикально. Данные по регионам почти всегда нужно нормировать, то есть приводить к количеству населения или к площади.

Нельзя вольно обращаться и с процентными значениями. Обычно их нельзя просто так складывать или высчитывать из них среднее.



Допустим, нам известно, что 18 % взрослых и 21 % детей в России страдает аллергией. Из этого совершенно не следует, что аллергией страдает 39 % населения, как это показывает картинка выше. Также из этого не следует, что процент аллергиков среди населения всех возрастов равен 19,5 ((18+21)/2). Чтобы узнать процент аллергиков всего среди населения, нам нужны дополнительные данные. Необходимо знать процент взрослых и детей в России. Допустим, детей 10 %, а взрослых – 90 %. Теперь проводим следующие вычисления: (90 × 0,18 + 10 × 0,21)/100 = (16,2 + 2,1)/100 = 18,3 %.

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.

Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:

• статистического

• визуального


Статистические методы используются для того, чтобы узнавать:

• количество значений в каждой категории

• распределение значений внутри категории: какие значения встречаются чаще, какие – реже

• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана

• максимальные и минимальные значения и так далее


Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.

Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.

Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.

Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.

Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.

Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018:



В правом нижнем углу рабочей области есть зеленая кнопка «Анализ данных». Выделим столбец с зарплатами, нажмем на кнопку:



Сверху мы получим результаты статического анализа – ключевые значения, описывающие столбец с числами:



Теперь выделим всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа:







Как видите, весьма неплохо! Мы получили и ключевые значения, описывающие датасет, и сводные таблицы, и поисковые визуализации. Скорее всего, именно такие графики мы бы построили сами, пытаясь понять данные.

Конечно, они далеки от оптимальных и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные круглым значениям (раньше они были кратны 800000):



Работа функции «Анализ данных» хорошо показывает процесс анализа данных и основные его компоненты. В том числе создание сводных таблиц, необходимых для получения агрегированных, обобщенных данных. Что это такое и зачем нужно, мы обсудим немного позже.

В анализ обычно включаются основные показатели:

• количество значений

• максимальное, минимальное, среднее значение

• топ-5, топ-10

• распределение значений внутри категории

• динамика

• какой процент к целому составляют значения

• разница в абсолютных цифрах и в процентах (например, со средним/прошлым)


Итак, как найти важное и интересное в вашем датасете?

Для начала – понять, какие значения в вашем наборе данных встречаются чаще, какие – реже. Выявить тенденции и тренды, понять, что из них выбивается. Затем нужно начать задавать вопросы, проверять гипотезы. Общайтесь со своим набором данных, как вы общались бы с человеком.

Вопросы могут быть такими:

• Кто лидеры рынка? Отстающие?

• В каком регионе максимальные продажи?

• Какой средний чек?

• Кто лидер по KPI?

• Как изменился уровень продаж за последние полгода?


Или гипотезы:

• Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?

• Правда ли, что на конверсию больше всего влияет канал продаж?


Вы можете задавать датасету все вопросы, которые кажутся вам важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то. У вас могут возникнуть новые мысли, которые вы захотите проверить. Продолжайте этот процесс, пока не поймете, что узнали все, что вам было нужно.

Именно из ответов на ваши вопросы и результатов проверки гипотез появятся основные мысли – сообщения, которые мы будем представлять в виде графиков.

Создание новых данных внутри датасета

Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.

Уровень агрегированности (обобщенности, детализации) данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неагрегированной форме. Для каждого тренера выделена отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести агрегацию по результату команд. Сервис посчитал среднюю зарплату тренеров команд, не вышедших из группы и прошедших дальше.

Иногда же таблицы к вам поступают (например, от аналитиков) уже агрегированными (сводными). Это удобно, так как вам не нужно проводить эту работу. Однако, если данные сильно различаются в широком диапазоне, их усреднение может сильно исказить общую картину.


Вот таблица со статистикой посещаемости первого сезона ютуб-программы «вДудь»:



Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Оформление не имеет для них существенного значения. Это важно для финальных графиков, которые готовятся к размещению в презентации или для публикации. А для поисковых визуализаций мы просто оставим стандартные настройки программы (в данном случае для визуального анализа мы использовали Tableau).

Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов – чуть более 124 млн, всего роликов за период – 34, среднее количество просмотров каждого ролика – 3,64 млн, минимальное (режиссер Хлебников) – 1,6 млн, максимальное (Слава КПСС) – 6,6 млн.

Первый ролик вышел 7 февраля, последний – 18 октября 2017 года.

Посмотрим динамику просмотров по датам:



Очень удачная визуализация, которая дает представление о взлетах и падениях популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики.

Чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим линейный график на столбиковую диаграмму:



Становится интересно, в какие дни чаще всего выходили интервью, смотрим:



Выпусков в среду было меньше, чем во вторник, но медиана просмотров у них больше. Медиана – это число в середине набора чисел. Половина чисел расположена ниже этого значения, половина – выше.



Чтобы понять почему так вышло, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.



Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие:



Самое время более наглядно изучить, какие ролики самые популярные, а какие – наоборот:



По-хорошему нам надо сделать поправки на то, как долго ролик находится на ютубе и на количество подписчиков в момент выхода программы. Например, видео с Познером добавлено ровно в день составления датасета и наберет еще немало просмотров. Сейчас мы опустим эти моменты для понимания главного.

Что еще может нас заинтересовать? Вот распределение роликов по месяцам и по количеству просмотров:




Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако даже в процессе беглого анализа мы уже агрегировали и создавали новые данные в наборе! Мы объединяли данные, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.

Новые данные в набор (скажем, даты рождения участников) мы можем добавить и из других датасетов или определить самостоятельно. Давайте добавим новый столбец, в котором укажем основную область деятельности участников интервью:



Теперь мы можем не только увидеть, кто из гостей Дудя более популярен, но и узнать, персонажи из каких сфер людям более интересны.




Или объединить их:



Или даже посмотреть, когда именно и как часто гости из разных сфер приходили к Дудю:



А теперь размером кружочка закодируем число просмотров, то есть добавим еще одно измерение:



Эти визуализации дают нам много интересной информации. Например, что в марте-мае Дудь пообщался с тремя видеоблогерами и больше их не звал, что кинодеятели приходят примерно через равные промежутки времени. Чтобы получать детальную информацию, можно использовать интерактивные возможности вашего софта для визуального анализа:



Чтобы находить в датасетах интересное, вам наверняка придется агрегировать данные и создавать новые – качественные и количественные.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> Предыдущая | 1 2
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации