Текст книги "А мне помогло. Как ориентироваться в море информации о здоровье и осознанно принимать решения"
Автор книги: Алия Сарманова
Жанр: Здоровье, Дом и Семья
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 26 (всего у книги 43 страниц)
§ 2. Что оценивают в исследованиях эффективности
Все три фактора, о которых мы поговорили в первом параграфе главы – контроль, ослепление и рандомизация, – касаются организации или дизайна научного исследования. А сейчас переходим к тому, что именно изучали, какой результат со статистической точки зрения получили и насколько ему можно верить. Начнем с простого примера.
2.1 Конечные точки научных исследованийПредставьте себя в магазине бытовой техники. Вы пришли туда со своей проблемой – ваш пылесос/компьютер/телевизор окончательно устарел и вы присматриваете что-то получше. Прогуливаетесь вдоль идеально освещенного ряда моделей, каждая из которых хороша по-своему: одна – современная и минималистичная, другая – яркая и элегантная с блестящими хромовыми деталями, третья – со множеством функций и дополнительных насадок…
– Чем отличаются эти модели? Какая лучше? Что выбрать? – спрашиваете вы проходящего мимо консультанта.
– А что для вас важно? – профессионально улыбаясь, спрашивает он в ответ. – Мощность, вес, удобная ручка, уровень шума, сколько прослужит… а может, цена?
Примерно так рассуждают ученые, планируя исследование. Все начинается с практической проблемы – существующее лечение / диагностика / диета / комплекс упражнений устарело. Помогает не всем, не всегда или, может, не так хорошо, как хотелось бы, и, возможно, есть что-то новое, что можно протестировать. Первое, с чем нужно определиться, – что для нас важно и как будем это измерять. Ученые называют такие показатели клиническими исходами или конечными точками (с англ. outcome или endpoint) [40]. Исходы, или конечные точки, – это то, что мы подразумеваем, когда говорим «укрепляет сердце», «борется с раком», «помогает при артрите»… За каждой формулировкой стоит определенный параметр, который можно как-то измерить и проследить.
Термин «конечная точка» изначально использовали при анализе выживаемости, где «смерть» была по всем параметрам последним измерением. Сейчас термин «конечная точка» применяется в более широком смысле и обозначает определенное событие, по достижении которого основное наблюдение за участниками прекращают. Например, конечной точкой может быть интересующее нас событие (выздоровление, уменьшение симптомов, операция и т. д.), либо невозможность продолжать наблюдение за участником (отказ от участия, переезд, смерть и т. д.), либо достижение определенного временного интервала (например, 2 года или 5 лет). Схематично можно изобразить так:
Рисунок 23. Наблюдение за конечными точками в течение года
Конечные точки, как правило, наиболее важные события в жизни пациента, которые могут отличаться в зависимости от заболевания и цели лечения. Например, если цель исследования – сравнить эффективность двух препаратов железа в лечении железодефицитной анемии, конечной точкой будет достижение определенного значения показателей железа в крови, которые отражают устранение железодефицита. Если заболевание может привести к преждевременной смерти (например, рак или тяжелые аутоиммунные болезни), конечной точкой будет летальный исход. Если заболевание не приводит к преждевременной смерти (во всяком случае, в ближайшем будущем), можно оценивать другие показатели, например частоту операций по замене сустава при остеоартрозе, частоту госпитализаций при неконтролируемой артериальной гипертензии. Качество жизни может выступать конечной точкой в случае, когда заболевание неизлечимо, но лечение может облегчить симптомы [38].
Однако не все интересующие нас события можно точно измерить и однозначно интерпретировать. Например, боль обычно измеряется по 10‐балльной шкале, хотя это оценка субъективна. Восприимчивость к боли у разных людей разная, для одного сделать инъекцию – как «комарик укусил», а для другого – «очень больно». Для каждого одна и та же процедура может ощущаться по-разному в зависимости от того, кто делает инъекцию, когда ее делают – утром, пока мы еще свежи и полны сил, или после рабочего дня, когда болит голова и усталость валит с ног.
По степени важности и точности определения конечные точки делят на твердые и мягкие.
• Твердые (или жесткие) конечные точки отражают наиболее важные события в период лечения: выздоровление, госпитализацию, смерть, серьезные осложнения, которые легко отследить и измерить.
• Мягкие конечные точки – менее точны в измерении или субъективны (например, уровень боли, общее самочувствие пациента).
• Суррогатные (промежуточные) точки отражают промежуточные или временные эффекты лечения (например, изменения в физических и лабораторных данных), если достижение твердых конечных точек требует времени.
Например, при артериальной гипертензии суррогатной конечной точкой будет снижение давления после приема лекарства, а твердой – уменьшение смертности, частоты инсультов или гипертрофии левого желудочка. При пневмонии суррогатной точкой будет снижение температуры тела и лейкоцитоза в крови (что уже заметно на 2–3‐й день лечения), а твердой – полное выздоровление (обычно наступает через 7–10 дней). При диабетическом поражении почек суррогатной будет микроальбуминурия в анализе мочи, а твердой – почечная недостаточность.
Рисунок 24. Конечные точки в исследовании
Предполагается, что суррогатные конечные точки должны влиять или предсказывать твердые и конечный исход. Для этого связь между ними должна быть биологически обоснована, а изменения должны отражать видимое улучшение или выздоровление на фоне лечения. Однако в отличие от твердого шарика из стекла, который всегда остается шариком неизменной формы и размера, что в воздухе, что в воде, что в песке, форма и размеры мягкого шарика из ваты зависят от многих условий – так и мягкие конечные точки, а также суррогатные не всегда сопоставимы между исследованиями и не всегда отражают последующие важные события в жизни пациента.
Так случилось с подсчетом CD4‐лимфоцитов (разновидность белых кровяных клеток, которую раньше называли Т-хелперами) у ВИЧ-положительных лиц. Известно, что по мере развития СПИДа (последней стадии развития ВИЧ-инфекции) количество CD4‐лимфоцитов медленно уменьшается, поэтому казалось, что чем больше CD4‐лимфоцитов в крови, тем дольше проживет пациент. Ранние исследования показали: чем раньше начать лечить ВИЧ-положительных лиц, у которых еще нет симптомов заболевания, тем медленнее снижается число CD4‐лимфоцитов. Поэтому данный показатель выбрали суррогатной конечной точкой в рандомизированном контролируемом испытании CONCORDE, где сравнивали две тактики лечения зиновудином – раннее и позднее начало. Результаты оказались неожиданными: хотя в группе лечения у пациентов количество CD4‐лимфоцитов снижалось медленнее, показатель выживаемости оказался одинаковым: в обеих группах – 3 года. Измерение CD4‐лимфоцитов для прогнозирования СПИДа оказалось ненадежной промежуточной точкой. Как и при других заболеваниях, наилучший прогноз на сегодня дает комбинация нескольких точек, которая в случае с ВИЧ включает процент CD4-С29-лимфоцитов, степень усталости, возраст, уровень гемоглобина, а не просто количество CD4‐лимфоцитов.
Это не единственный пример, когда промежуточная конечная точка оказалась ненадежной. То же случилось в исследованиях желудочковых экстрасистол (незначительное нарушение ритма сокращения сердца) для прогнозирования смерти от серьезных нарушений ритмов сердца, концентрации антибиотиков в крови для прогнозирования клинического излечения от инфекции, бляшек на МРТ для выявления прогрессирования множественного склероза.
Ненадежность суррогатных промежуточных точек является основной проблемой исследований многих лекарств с недоказанной эффективностью, когда исследования вроде бы проводили, вроде был эффект, но изучались только мягкие или суррогатные конечные точки, а вот эффективность в твердых конечных точках либо не изучалась, либо не обнаружилась. Например, препараты кальция однозначно и достоверно изменяют уровень кальция в крови (мягкая точка), но для нас гораздо важнее знать, могут ли они на самом деле укрепить кости и предотвратить переломы в будущем (твердая точка).
Практические рекомендации
Когда услышите про эффективность какого-то средства, которое «чистит печень», «укрепляет сосуды» или «восстанавливает суставы», поинтересуйтесь, как именно измерялось улучшение и насколько эти параметры важны для решения конкретной проблемы.
Поэтому, чтобы зарегистрировать лекарственный препарат и вывести его на рынок, лекарство должно показать эффект на мягких или твердых конечных точках, а лучше – на тех и на других. Например, для вакцин суррогатная точка – иммуногенность, то есть потенциальная способность вызывать в организме образование иммунных клеток, а эффективность защиты от вируса и снижение смертности от коронавируса – твердые.
Иммуногенность вакцины теоретически определяет, насколько хорошо она может защищать от вируса. Но это необязательно так. Именно поэтому, чтобы оценить эффективность вакцины, важно ее протестировать на большой выборке в реальных условиях. Вакцина будет считаться эффективной, если может защитить хотя бы 50 % вакцинированных.
Далее поговорим о цифровых результатах – как измеряется эффективность в цифрах и как их интерпретировать.
2.2 Размер эффекта имеет значениеДля сравнения эффективности различных видов лечения в статистике есть термин – «размер или величина эффекта» (с англ. effect size), отражающий, насколько велика разница между группами [3]. Чем больше разница в результатах после лечения или другого вмешательства, тем более вероятно, что оно эффективно (я здесь говорю «более вероятно», поскольку размер эффекта всегда интерпретируется вместе с другими характеристиками – доверительным интервалом, р-значением и клинической значимостью, о которых тоже поговорим в этом параграфе главы).
В зависимости от того, как измеряется клинический исход или конечная точка, размер эффекта в РКИ измеряется следующими статистиками:
• Если измерения количественные (так называемые непрерывные переменные (с англ. continuous), например выраженность боли в баллах, длительность заболевания в днях или количество койко-дней), то вычисляется арифметическая разность или стандартизованная разность средних (с англ. standardized mean difference, SMD, или Cohen’s d) – арифметическая разница между измерениями, разделенная на величину стандартного отклонения внутри группы (разброс значений, отражающий и точность измерений, и объем выборки).
Если новое лечение дает тот же эффект, что и плацебо, разница равна нулю. Если новое лечение лучше, чем плацебо, разница выходит со знаком плюс, если хуже – со знаком минус. Разница в 0,2 считается маленькой, в 0,5 – средней, а больше 0,8 – большой.
• Если измерения являются бинарными (да/нет) или порядковыми категориями (количество смертей/выздоровлений/госпитализаций и т. д.), размер эффекта вычисляется тремя относительными показателями, о которых мы уже говорили в 5‐й главе:
º отношение шансов (ОШ, с англ. odds ratio) – отношение шансов развития определенного клинического исхода в основной группе к шансам его развития в контрольной группе;
º относительный риск (ОR, с англ. relative risk) – отношение вероятностей развития определенного исхода в группах сравнения. Например, соотношение пациентов, получивших ответ на лечение, разделенное на соотношение пациентов, ответивших на другое лечение (или плацебо);
º отношение рисков (с англ. hazard ratio) – показатель, который в широком смысле эквивалентен относительному риску (ОР; см. выше), но применяется в случаях, когда величина риска меняется со временем. Этот показатель включает информацию, собранную неоднократно за период наблюдения, и используется при оценке изменений выживаемости.
Чем ближе значение этих трех показателей к 1, тем меньше различий в эффективности вмешательств, применявшихся в основной и контрольной группах.
Важно обращать внимание, если разница представлена в абсолютных цифрах или в относительных цифрах (например, «улучшение при лечении X в пять раз выше улучшения при лечении Y»). В жизни мы часто сталкиваемся с относительными и абсолютными показателями в период распродаж, когда одни продавцы пишут: «Купите со скидкой 1000 рублей» (абсолютная разница в цене), а другие: «Купите со скидкой 30 %» (относительная разница в цене). Или, возвращаясь к нашему примеру в магазине бытовой техники, разница между моделями по интересующим вас параметрам может быть как в относительных показателях – этот работает на 30 % дольше, чем другой, так и в абсолютных – этот прослужит вам на 2 года больше.
Как и в магазине, для оценки эффективности нам нужны и относительные, и абсолютные показатели. Предположим, мы знаем, что терапия удваивает вероятность успешного исхода. Абсолютный эффект лечения зависит от исходной вероятности успешного исхода. Если он низкий, скажем 1 %, терапия увеличивает успешные результаты только на один процентный пункт до 2 %, что является довольно небольшим увеличением в абсолютном выражении. Напротив, если исходный уровень успеха составляет 30 %, показатель успеха лечения составляет 60 %, это гораздо большее увеличение в абсолютном выражении.
Во время массовой вакцинации от коронавируса мы то и дело видели в новостях обнадеживающие результаты исследований эффективности вакцин: американской фармкомпании Pfizer и немецкого BioNTech была 95 %. Эффективность другой американской вакцины фирмы Moderna, по предварительным данным, составляла 94 %. Эффективность российской вакцины «Спутник» по предварительным данным, составляла 91 %. Но что на самом деле значит эффективность 90 %?
Некоторые ошибочно полагали следующее: вакцина защищает от вируса 90 человек из 100. На самом деле это значит, что вакцина снижает риск заражения на 90 %. Это относительный показатель, более точно называемый «относительное снижение риска» (англ. relative risk reduction), который рассчитывается как арифметическая разница между риском среди невакцинированных и риском среди вакцинированных, поделенная на риск среди невакцинированных. Он говорит нам, например, «насколько хорошо вакцина защищает участников исследования от заболевания».
Давайте посмотрим на абсолютные цифры на примере вакцины компании «Модерна» (предварительное название mRNA‐1273). Всего в исследовании приняло участие 30 420 человек, которые были рандомно распределены в две группы по 15 210 в каждой. За время наблюдения симптомы SARS-CoV‐2 появились у 185 участников плацебо группы и у 11 участников, получивших вакцину: 185 – 11 / 185 = получим 94 % эффективность. Важно, что тяжелая инфекция наблюдалась только у 30 человек, 1 из которых умер, и все были в плацебо-группе.
Когда мы говорим о вакцинах, есть еще один показатель, взволновавший население, – это абсолютное снижение риска (англ. absolute risk reduction). Данный показатель рассчитывается как арифметическая разница между процентом заболевших между группами. То есть если в относительной разнице мы принимаем во внимание только число заболевших, здесь мы берем в расчет всех, получивших или не получивших вакцину. В случае с «Модерной», число заболевших в плацебо-группе составило 185 из 15 210, то есть 1,22 %, а среди вакцинированных 11/15 210–0,07 %. Арифметическая разница между этими показателями и будет абсолютным снижением риска – то есть чуть более 1 %. Такой результат насторожил многих пользователей интернета, и добавил аргументов в пользу того, что строгие меры по контролю коронавируса и массовая вакцинация не обоснованы. Однако, если посмотреть на абсолютное число инфицированных в группах (185 против 11), разница очевидна. 1 % кажется маленьким числом, а 164 предотвращенных инфекций, среди которых могли оказаться пожилые или ослабленные болезнями люди, – это много.
2.3 Доверительный интервалЕще одним важным показателем для любой статистики является доверительный интервал – показатель точности количественного показателя.
Практически все измерения имеют некоторую погрешность. Если измерить один и тот же показатель 10 раз, результаты могут отличаться из-за естественной изменчивости и экспериментальной неточности. Некоторые измерения имеют меньшую погрешность, как, например, измерение роста человека. Если измерить 10 раз в один и тот же час рост одного и того же человека, вероятная разница будет в пределах сантиметра. Если измерять рост в течение дня, разница будет в пределах нескольких сантиметров просто потому, что рост в течение дня действительно меняется. Другие измерения, например УЗИ, зависят не только от особенностей организма, но и от особенностей аппарата и квалификации врача и часто дают большие различия между сканированиями. В некоторых случаях ошибка измерения может быть большой в сравнении с реальной разницей. Это если измерять одного и того же человека. А если нескольких людей? Погрешности неизбежны.
Поэтому для каждого количественного результата, в том числе эффективности, обычно измеряют его доверительный интервал (ДИ, или англ. confidence interval CI), то есть диапазон возможных значений, в котором с определенной вероятностью находится истинное значение. Альтернативная интерпретация – если провести очень большое количество аналогичных независимых экспериментов, то 95 % полученных значений будут находиться в пределах этого диапазона. Доверительный интервал часто выкидывают из новостей, только упоминая, что новое лечение «на 17 % увеличивает выживаемость», но эти 17 % – усредненное значение. Важно знать диапазон – от 15 до 20 % или от 3 до 35 %?
Когда вы покупаете в магазине 1 кг сахара, то предполагаете, что в измерении веса могут быть погрешности – там на самом деле может быть 1010 граммов, или 997 граммов, или даже 975. Если бы это было научное исследование, в результатах ученые бы написали: средний вес этой упаковки сахара составляет 1000 граммов (95 % ДИ 990 до 1010). И здесь важно отметить, что доверительный интервал показывает не диапазон значений отдельных измерений, а диапазон, в котором ожидается обобщающий показатель – среднее значение (или другой обобщающий показатель) при повторении эксперимента.
Доверительный интервал рассчитывается не только для средних значений (как в примере с сахаром), но и для разности показателей в сравниваемых группах. В таком случае доверительный интервал разности дает понимание, насколько в реальности эти группы различаются. Когда доверительный интервал пересекает 0, это означает, что существует вероятность, что исследуемый эффект или разница между группами может быть как положительной, так и отрицательной. Иными словами, результаты исследования не являются однозначными и не позволяют нам сделать окончательный вывод о наличии или отсутствии эффекта. Для получения более точных и надежных результатов требуется дальнейший анализ или сбор дополнительных данных.
Доверительный интервал также рассчитывается для показателей размера эффекта – отношение шансов, отношение рисков и т. д. Ранее в 5-й главе мы говорили, что если ОШ = 1 или ОР = 1, то это означает, что шансы или риск одинаковы для обеих групп, и это справедливо не только для самого показателя, но и для его доверительного интервала. Так и на рисунке внизу мы видим, что лечение А и Б пересекают линию неэффективности, а лечение В и Г – нет. Отсюда делаем вывод: эффект первых двух препаратов статистически незначим.
Рисунок 25. Как интерпретировать эффективность вмешательства с помощью доверительного интервала
Повторим все, что мы изучили в этом параграфе главы на примере РКИ эффективности диеты, богатой омега‐3 кислотами, у пациентов с мигренью, о котором мы говорили ранее. Помните, там было 3 группы, которым прописали либо диету, богатую только омега‐3 (вторая группа), либо диету, богатую и омега‐3, и омега‐6 (третья группа), либо диету, в которой содержание омега кислот соответствовало среднестатистической диете (контроль). В качестве конечных точек ученые выбрали содержание 17‐гидроксидокозагексаеновой кислоты (17-HDHA) в плазме крови (суррогатная конечная точка) и результаты теста из 6 вопросов о том, как головная боль влияет на жизнь пациента, под названием HIT‐6 (твердая, или жесткая, конечная точка). Показатели измерили в начале исследования и спустя 4 месяца.
17-HDHA – предшественник оксилипинов, которые вырабатываются из омега‐3 кислот и показали обезболивающий эффект в лабораторных исследованиях. Обе диеты, богатые омега‐3, действительно смогли повысить исходный уровень 17-HDHA в крови: средняя разница с поправкой на исходный уровень во второй группе равнялась 1,4 нг/мл (95 % ДИ 1,2 до 1,6), в третьей – 1,2 нг/мл (95 % ДИ 1,0 до 1,5), тогда как в контрольной был всего 0,7 нг/мл (95 % ДИ 0,4 до 0,9). Предполагалось, что изменения в лабораторных анализах крови отразятся на влиянии мигрени на жизнь пациента, которое оценивали с помощью теста HIT‐6. Например, один из вопросов теста звучал так: «За последние 4 недели как часто вы чувствовали себя сытым по горло и раздраженным из-за головных болей?» – и общий результат варьировался между 36 и 78 баллами (чем выше балл, тем сильнее влияние мигрени на жизнь пациента). Это как раз то, что важно для врача и пациента. Но, как оказалось, ни одна из диет не смогла уменьшить этот показатель. Разница между второй и контрольной группой с поправкой на исходные значения составила –1,5 балла, а в целом сравнение с исходным уровнем («до и после») показало, что если в начале исследования участники оценили влияние мигрени на их жизнь на 62,7 балла, то после 4 недель диеты группы диеты, богатой только омега‐3, этот показатель снизился до 58,4 балла. «Ну хоть какое-то улучшение» – возможно, подумают некоторые. Однако взглянем на доверительный интервал разности до и после от –4,2 до 1,2 – а это значит, что при повторении эксперимента 100 раз на разных, но таких же выборках пациентов разница средних значений составит для некоторых пациентов –4,2, а для некоторых +1,2 балла. Примерно такой же показатель получили в третьей группе: –1,6 (95 % ДИ от –4,2 до 1,0). Заметьте, мы в первую очередь ориентировались на разницу с контрольной группой, поскольку в ней на среднестатистической диете тоже было улучшение с 62,3 балла до 59,9 (95 % ДИ от 58,0 до 61,8).
Незначительное улучшение все-таки было. Помимо первичных конечных точек (17-HDHA и HIT‐6), ученые оценивали среднее количество часов головной боли в день. И здесь показатели между группами действительно отличались: если в контрольной группе в среднем голова болела в течение 2,1 часа, то во второй группе всего 1,4 часа, а в третьей – 1,3 часа. То есть разница составила –0,7 часа (95 % ДИ от –1,1 до –0,3) и –0,8 (от –1,2 до –0,4). Также улучшение отметили в количестве дней с головной болью за месяц – приступы мигрени стали реже.
Этот пример с исследованием эффективности диеты, богатой омега‐3, в лечении мигрени еще раз напоминает нам о важности твердых точек (так как показатели 17-HDHA улучшились, а результат HIT‐6 теста нет), о важности контрольной группы (ведь им тоже стало лучше), а также о том, что нужно обязательно взглянуть на цифры и их доверительные интервалы, чтобы понять, что кроется за словами «стало лучше» и «помогло» ли вмешательство.
А дальше остановимся еще на одном показателе, который часто встречается в результатах научных исследований как подтверждение эффективности, но не всегда таковым является.
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.