Мета-анализ: искусство неверной трактовки
- Библиотека /
-
4030
Мета-анализ — вершина доказательной пирамиды и святой грааль для многих исследователей, выводы которого зачастую воспринимаются как жирная точка в рассматриваемом научном вопросе. Но несмотря на все достоинства, мета-анализ может содержать ложные выводы и ошибки. В представленной статье Джон Иоаннидис говорит о подводных камнях в области мета-исследований: систематических ошибках, приводящих к искажению результата, в том числе о таких известных явлениях, как публикационное смещение, выборочное предоставление результатов и выборочный анализ данных.
У мета-анализа есть масса достоинств, но нередко он приводит к неверным и обманчивым результатам. В этом обращении к председателю SRSM (Society for Research Synthesis Methodology) я привожу примеры, иллюстрирующие данные проблемы, включая примеры мета-анализа как клинических, так и неэкспериментальных исследований. Я также затрагиваю проблемы определения величины эффекта, смещения (в частности, погоню за значимостью исследования) и достоверности мета-исследований. Я рассматриваю факторы, повлиявшие на достоверность мета-анализа, включая величину эффекта, множественность анализа, шкалу измерения данных, гибкость анализа, представление данных и конфликты интересов. В сложившихся обстоятельствах опрос экспертов мета-аналитиков, принявших участие во встрече SRSM, показал, что большинство из них полагают, что реальный эффект может с равной вероятностью находиться как в пределах 95% доверительного интервала мета-анализа, так и вне его. И, наконец, я расскажу о включении мета-анализа в более обширный нынешний план исследований и предложу несколько новых моделей мета-анализа. Во многих/большинстве/всех областях все первичные исследования могут быть спланированы, выполнены и интерпретированы как потенциальный мета-анализ.
Вступление
Я хотел бы начать с отказа от ответственности. Мне кажется, что как мета-аналитик я совершил слишком много ошибок. Возможно, почти всё в моей карьере было ошибкой, и большая часть того, что я не считаю ошибкой, тоже ошибочно. На этот доклад меня главным образом вдохновили мои собственные ошибки, убедившие меня в том, что мета-анализ — это великолепный дизайн исследования, в особенности если его результаты ошибочны, и нам повезло понять эти ошибки. В этом обзоре причин, по которым мета-анализ может быть ошибочным, я сначала приведу два конкретных примера из личного опыта, которые иллюстрируют некоторые противоречия и трудности, возникающие в ходе мета-исследования. Затем я приведу теоретические размышления и эмпирические подтверждения тому, что мета-анализ — это прекрасный способ наломать дров, и расскажу, как это можно и нужно исправить, если это вообще возможно. Это обращение к председателю, а не систематическая экспертная оценка, поэтому будьте внимательны: я могу снова оказаться не прав!
Случай первый: кортикостероиды при остром бактериальном менингите
Использование кортикостероидов для лечения пациентов с острым бактериальным менингитом было изучено по меньшей мере на 3883 пациентах в ходе 23 исследований, опубликованных начиная с 1963 года (согласно данным последнего мета-анализа). Здесь мы видим пример типичной ситуации, в которой мета-анализ, как предполагалось на протяжении многих десятилетий, может быть полезен: когда имеется много небольших испытаний, не позволяющих сделать определённые выводы (Sacks et al., 1987), и когда вам, возможно, хотелось бы выяснить и объяснить причины их неоднородности (Olkin, 1995). Количество доступных исследований и общий объём выборки немного больше, чем то, что мы в среднем видим в текущих медицинских мета-анализах (Moher et al., 2007), но не значительно.
Как и во многих других областях, количество опубликованных обзоров применения стероидов в лечении острого бактериального менингита значительно превосходит число опубликованных исследований. Поиск на PubMed по запросу «Обзор ИЛИ Мета-анализ» с (стероид ИЛИ кортикостероид ИЛИ дексаметазон) И менингит [‘Review OR Meta-analysis’ (steroid OR corticosteroid OR dexamethasone) AND meningitis] выдаёт 424 результата на июль 2010 г. Большинство из них — несистематические обзоры. Не все из них напрямую связаны с лечением острого менингита стероидами, но не будет ошибкой сказать, что в целом количество обзоров будет по меньшей мере в десяток раз превосходить число статей. Судя по их огромному количеству, несистематические обзоры остаются одним из наиболее популярных и весомых способов засорения научной литературы. К тому же, они по-прежнему получают безоговорочную поддержку самых престижных журналов и ведущих учёных. Например, Nature, Science и New England Journal of Medicine до сих пор практически полностью полагаются на несистематические экспертные обзоры при кратком изложении и популяризации науки.
Мы надеемся, что мета-анализ помогает в борьбе с несистематическими обзорами и предложит достоверные данные. Однако, не всё так просто. Для начала, у нас нет ни одного мета-анализа. Тринадцать из 424 результатов поиска отмечены тегом «мета-анализ». При ближайшем рассмотрении оказалось, что 11 из них действительно имеют отношение к применению стероидов при лечении острого менингита (Assiri et al., 2009; Coyle, 1999; Geiman and Smith, 1992; Ioannidis et al., 1994; McIntyre et al., 1997; Prasad and Haines, 1995; van de Beek et al., 2003, 2007, 2010; Vardakas et al., 2009; Yurkowski and Plaisance, 1993). Но приводят ли результаты этих мета-анализов к одному и тому же выводу?
В блоке 1 я привёл некоторые дословные цитаты из шести мета-анализов (Ioannidis et al., 1994; McIntyre et al., 1997; van de Beek et al., 2003, 2007, 2010; Vardakas et al., 2009), начиная с того, автором которого стал я в 1994 г. Я привожу только 6 из 11 мета-анализов простоты ради, и поверьте мне, ситуация была бы схожей, если не ещё более запутанной, приведи я все 11 анализов. Вот некоторые критерии включения/невключения работ: «Я не включил два мета-анализа потому, что они были опубликованы раньше, чем мой мета-анализ, а мне хотелось всем показать, что я был первым; один я пропустил в ходе первоначального отбора; в одном были слишком мудрёные данные; и ещё один я пропустил, потому что мне стало скучно, и к тому же оставалось мало времени на завершение этого обращения». Если эти критерии покажутся вам немного субъективными и недостаточно научными, вот вам ещё одно, более формальное (но не обязательно более честное) заявление, у которого больше шансов пройти экспертную оценку: «Я выбрал мета-анализы, опубликованные в ведущих медицинских журналах и библиотеке Кокрейновского сотрудничества, так как они с большей вероятностью будут отличаться высоким качеством, а также два недавно опубликованных анализа». Критерии включения/невключения — волшебный инструмент для выбора понравившихся нам данных и достижения результатов, к которым мы пришли ещё до проведения анализа. Давайте не будем забывать об этом, когда будем говорить о самом мета-анализе и о том, как выбирают, какие же данные и исследования в него включить.
В 1994 году, во время прохождения специализированной подготовки, я столкнулся со случаем сильного желудочно-кишечного кровотечения у ребёнка, получавшего дексаметазон для лечения острого бактериального менингита. При поддержке Джозефа Лау я провёл мета-анализ, в котором во всех комплексных испытаниях рассматривались четыре события (Ioannidis et al., 1994). Общее число свидетельств было очень мало (обычное дело для свидетельств существенного вреда вследствие медицинского вмешательства (Hernandez et al., 2008; Papanikolaou and Ioannidis, 2004)), но я пришёл к заключению, что эти негативные последствия нужно подвергнуть серьёзному рассмотрению и сопоставить с пользой (Ioannidis et al., 1994). Я не посмел тогда засомневаться в пользе стероидов. В то время её принимали как само собой разумеющееся. И не потому, что об этом свидетельствовали два предыдущих мета-анализа — в 1994 году мало кого волновали систематические обзоры. Её принимали как данность, потому что так утверждали все эксперты, а два маленьких исследования, опубликованных в New England Journal of Medicine в 1988 и 1991 годах, показали невероятно огромный номинально статистически значимый лечебный эффект (относительный риск значительно выраженного снижения слуха или глухоты — 0,07 и относительный риск неврологических и слуховых осложнений — 0,36), основываясь на ряде событий у 200 и 101 случайного выбранных пациентов соответственно (Lebel et al., 1988; Odio et al., 1991).
В 1997 году обновлённый мета-анализ (McIntyre et al., 1997) продемонстрировал более скромные результаты, и был сделан вывод, что стероиды действительно помогали справиться с некоторыми бактериями, но далеко не со всеми. В нём также говорилось о том, что сокращение продолжительности лечения до двух дней может уменьшить наносимый вред, хотя существенной разницы в случае серьёзных повреждений не наблюдалось. База данных систематических обзоров Кокрейнского сотрудничества впервые опубликовала систематический обзор на данную тему в 2003 году (van de Beek et al., 2003). В нём говорилось о существенной пользе дексаметазона при лечении детей и о том, что неблагоприятный эффект не увеличился, в то время, как о взрослых пациентах было предоставлено недостаточно данных. Так как Кокрейновский обзор отправляли в (электронные онлайн) издания, в конце работы авторы добавили список дополнений, потому что было опубликовано новое исследование, в котором утверждалось, что дексаметазон в два раза снижал смертность среди взрослых, и, следовательно, его нужно принимать всем взрослым (van de Beek et al., 2003). Кокрейновский обзор обновили в 2007 году (van de Beek et al., 2007). В то время несколько новых исследований не показали никакой пользы от стероидов. Авторы обзора заметили, что отличительной особенностью этих исследований было то, что они проводились среди детей из стран c низким уровнем дохода. Поэтому авторы обзора пришли к заключению, что применение стероидов эффективно в лечении детей из стран с высоким, а не низким уровнем дохода. Никого больше не волновал вред стероидов. В мета-анализе данных о взрослых пациентах, опубликованном в 2009 году, особо подчёркивалось, что стероиды нужно давать всем пациентам (Vardakas et al., 2009). Казалось бы, конец истории. Но затем в 2010 году (van de Beek et al., 2010) был опубликован детальный мета-анализ данных индивидуального уровня, в котором говорилось о том, что нет никаких подтверждений существенной пользы от стероидов в лечении менингита, независимо от того, какая группа была исследована. Добавление опубликованных групповых данных, которое не было доступно на индивидуальном уровне, не повлияло на данное заключение (van de Beek et al., 2010).
Блок I. Дословные выдержки из шести мета-анализов об использовании кортикостероидов в лечении острого менингита.
Lancet 1994.
Общее число случаев кровотечения при отсутствии коагулопатии составило 4 из 803 (0,5%). Среди пациентов, принимающих плацебо (n=397), таких случаев не наблюдалось, в сравнении с 4 случаями среди принимавших стероиды (n=406) пациентов. Разность рисков составила 0,71% c 95% доверительным интервалом от −0,65 до 2,08% (метод Дерсимоняна-Лейрда (DerSimonian and Laird model), 2p=0,31) и вероятностью 3,96 с 95% доверительным интервалом 0,85–18,48 (метод Мантеля-Хенцеля (Mantel-Haenszel model), 2p=0,08).
В целом, клинически значимые случаи желудочно-кишечных кровотечений редки среди детей с бактериальным менингитом. Избыточная частота возникновения, связанная со стероидами, вероятно, ниже 1%. Однако, данный эффект может быть серьёзным… Небольшое увеличение… могло быть клинически значимым и, возможно, его стоило сравнить с благоприятным неврологическим действием.
JAMA 1997.
При лечении менингита, вызванного гемофильной палочкой типа b, дексаметазон в целом уменьшает значительно выраженное снижение слуха (комбинированное отношение шансов (ОШ), 0,31; 95% доверительный интервал, 0,14-0,69).
Что касается пневмококкового менингита, то только исследования, в которых дексаметазон принимали на ранних стадиях, продемонстрировали существенную защиту от значительно выраженного снижения слуха (комбинированное ОШ, 0,09; 95% доверительный интервал, 0,0-0,71).
Дексаметазон не привёл к существенному увеличению негативных побочных эффектов, за исключением повторной лихорадки.
Доля пациентов с желудочно-кишечным кровотечением увеличилась при длительном лечении дексаметазоном (0,5% в контрольной группе, 0,8% при лечении в течение 2 дней и 3,0% при лечении в течение 4 дней).
ВЫВОДЫ: Доступные данные о вспомогательном лечении дексаметазоном подтверждают его пользу в лечении менингита, вызванного гемофильной палочкой типа b, и, если его принимают совместно с парентеральными антибиотиками или перед их приёмом, помогает в лечении пневококкового менингита у детей. Оптимальным может быть ограничение приёма дексаметазона до 2 дней.
Cochrane 2003.
При использовании кортикостероидов число нежелательных явлений не увеличилось в значительной мере.
ВЫВОДЫ ЭКСПЕРТА. Вспомогательное лечение кортикостероидами эффективно при остром бактериальном менингите у детей. Ограниченные данные о лечении взрослых демонстрируют пользу от вспомогательного лечения кортикостероидами, но для окончательных выводов необходимо проведение дополнительных исследований.
ДОПОЛНЕНИЯ. В процессе проверки данного систематического обзора были опубликованы результаты Европейского исследования дексаметазона при лечении бактериального менингита у взрослых. Из него следует, что в ходе рандомизированного двойного слепого многоцентрового исследования, в котором участвовал 301 взрослый, страдающий бактериальным менингитом, было выявлено снижение смертности, связанное с дексаметазоном (относительный риск смерти, 0,48; 95% доверительный интервал от 0,24 до 0,96; p=0,04). Следовательно, всем взрослым, страдающим бактериальным менингитом, следует принимать дексаметазон перед первой дозой антибиотиков или вместе с ней.
Cochrane 2007.
ЗАКЛЮЧЕНИЕ АВТОРА. В целом, кортикостероиды существенно снизили уровень смертности, значительно выраженное снижение слуха и неврологические осложнения. Взрослым с внебольничным бактериальным менингитом кортикостероиды нужно давать в сочетании с первой дозой антибиотиков. Данные также подтверждают эффективность использования кортикостероидов при лечении детей в странах с высоким уровнем доходов населения. Мы не обнаружили положительного эффекта при лечении кортикостероидами детей из стран с низким уровнем доходов населения.
European Journal of Neurology 2009.
Доступные на данный момент сведения говорят о том, что все взрослые, страдающие бактериальным менингитом, должны принимать дексаметазон
Lancet 2010.
Дексаметазон не был связан с существенным снижением смертности (270 из 1019 [26,5%] принимавших дексаметазон по сравнению с 275 из 1010 [27,2%] принимавших плацебо; ОШ 0,97, 95% доверительный интервал 0,79-1,19), смертности или серьёзных неврологических последствий или двусторонней глухоты (42,3 по сравнению с 44,3%; 0,92, 0,76-1,11), смертности или любых неврологических последствий или любой степени потери слуха (54,2 в сравнении с 57,4%; 0,89, 0,74–1,07), или смерти или двустороннего значительно выраженного снижения слуха (36,4 по сравнению с 38,9%; 0,89, 0,73-1,69).
Дексаметазон никак не повлиял ни на одну из ранее указанных подгрупп (включая особые болезнетворные микроорганизмы), предшествующее лечению дексаметазоном лечение антибиотиками, ВИЧ-статус или возраст.
Объединение данных по смертности с данными всех других опубликованных исследований не оказало существенного влияния на результаты.
ИНТЕРПРЕТАЦИЯ. Дополнительное использование дексаметазона при лечении острого бактериального менингита не оказывает существенного влияния на снижение смертности или неврологических последствий. Существенного эффекта не наблюдалось ни в одной из указанных подгрупп. Таким образом, польза от применения дексаметазона в качестве дополнительного лечения для всех или некоторых из подгрупп остаётся недоказанной.
Подведём итог развития событий:
1994: вопрос о пользе не стоит, но следует остерегаться негативных последствий;
1997: однозначная польза при борьбе с определёнными видами бактерий, ограничить применение до 2 дней во избежание негативных последствий;
2003: однозначная польза лишь для детей; негативные последствия не увеличились;
2003, поправка: наблюдается польза и для взрослых;
2007: польза только в странах с высоким уровнем доходов населения;
2009: явная польза, принимать всем, точка;
2010: вообще никакой пользы.
Итак, к чему мы пришли после полувека рандомизированных исследований стероидов в лечении острого менингита? Скорее всего, к тому, что стероиды не оказывают существенного влияния — положительного или отрицательного — на исход событий при лечении острого менингита. Пожалуй, это хорошее предположение почти для каждого случая медицинского вмешательства, которое можно сделать ещё до того, как были получены какие-либо данные. Однако, согласно последним полученным результатам и доверительным интервалам недавнего мета-анализа (van de Beek et al., 2010), следующие альтернативные сценарии пока исключать нельзя.
1. Стероиды умеренно полезны.
2. Стероиды умеренно вредны.
3. Стероиды и умеренно полезны, и умеренно вредны.
Само собой разумеется, результаты и выводы мета-анализов по данной теме использовались во множестве исследований. Другие авторы тоже пытались понять причины, по которым результаты мета-анализов противоречивы, и их рассуждения также отчасти противоречивы (Jadad et al., 1997; Katerndahl and Lawler, 1999; Linde and Willich, 2003), но некоторые сходства всё же есть. Я отметил некоторые причины в Таблице 1 и включил своё видение проблемы. Довольно опрометчиво делать выводы о том, какие же причины смогут объяснить противоречие по вопросу использования стероидов, в частности. Я подозреваю, что как и в большинстве случаев, это многофакторный процесс, в котором взаимодействует множество причин. Однако больше всего меня тревожит то, что и по сегодняшний день мета-анализ остаётся ретроспективным занятием. Почти все выводы из Таблицы 1 могут быть сделаны постфактум после просмотра данных или фрагментов первоначальных исследований. Разные данные, разные анализы и разные интерпретации дают возможность прийти к любому желаемому заключению.
Таблица 1. Некоторые причины противоречий в мета-анализах на одну и ту же тему.
- Разная постановка вопроса исследования
- Разные источники данных
- Разные стратегии поиска
- Разный хронометраж (изменение/накопление данных)
- Разные критерии включения/невключения данных для дизайна исследования
- Разные критерии включения/невключения подходящих популяций
- Разные критерии включения/невключения для параметров, дополнительных вмешательств и других особенностей
- Ошибки в первичных данных
- Ошибки в извлечении данных
- Различия в устранении неопределённости и разрешении конфликтов при выборе исследования и очистке данных
- Различия в извлечении неопубликованных данных
- Различия в определении результатов
- Разные критерии для проведения количественного синтеза
- Разные модели статистического анализа
- Разница в использовании анализа подгрупп, мета-регрессий и других видов исследовательского анализа
- Выборочное представление результатов мета-анализа
- Разное использование и интерпретация неоднородности показателей
- Разница в использовании критериев для определения смещения и интерпретации результатов их применения
- Неуместный акцент на возможных противоречиях, которые не обязательно являются таковыми (не исключено)
Прежде чем перейти к рассмотрению следующего случая, я хотел бы представить вам информацию о том, какие из статей о стероидах и менингите стали наиболее авторитетными. В целом, в последнее десятилетие именно на мета-анализ чаще всего ссылаются в медицинской литературе (Patsopoulos et al., 2005). Это может быть как благом, так и проклятием. Однако это не проблема для литературы о стероидах и менингите. Согласно ISI Web of Science, четырьмя наиболее цитируемыми работами остаются два ранних исследования, в которых был выявлен огромный лечебный эффект, что явно несопоставимо с медицинской реальностью (словом, с любой реальностью), ещё одно исследование, которое обнаружило невероятный лечебный эффект среди взрослых, и несистематический обзор, одобряющий использование стероидов, — все 4 были опубликованы в New England Journal of Medicine. Возможно, мета-анализ и не привёл к каким-то общим выводам, однако обнадёживает тот факт, что 4 другие самые цитируемые работы также были ошибочными.
Случай второй: в поисках генов болезни Паркинсона
Охота за генетическими факторами распространённых болезней стала популярной темой для мета-анализа. Лично я наделал в ней множество ошибок. В этой области имеется настолько много исследований и данных, что невозможно устоять перед искушением использовать их для мета-анализа. Муин Хури придумал термин HuGE (от англ. Human Genome Epidemiology — эпидемиология генома человека), продемонстрировав прекрасное понимание ситуации (Khoury and Little, 2000). Только по теме болезни Паркинсона на июнь 2010 года было опубликовано 757 статей о генетических ассоциациях, в которых говорится об обнаружении 2398 различных однонуклеотидных полиморфизмов, и 7 полногеномных поисков ассоциаций, в которых были рассмотрены сотни тысяч полиморфизмов (www.pdgene.org, 2010). Уже опубликовано несколько десятков мета-анализов с «положительными» результатами (читай как «номинально статистически значимые ассоциации, p<0,05»). Однако совсем немного генетических локусов успешно прошли репликацию и выдержали тщательные проверки. Вероятнее всего, на данный момент мы нашли всего 4-5 локусов, в которых полиморфизмы бесспорно связаны с риском возникновения болезни Паркинсона. Остальные положительные результаты подтвердить не удалось.
В 2004 году я стал соавтором мета-анализа (Maraganore et al., 2004) данных индивидуального уровня по UCHL1 (убиквитин-карбоксиконцевая гидролаза L1), которым я очень гордился. В него включили всех ведущих исследователей, которые опубликовали работы о взаимосвязи UCHL1 с болезнью Паркинсона, а ведущие статистики и эпидемиологи из «Мейо Клиник» (Mayo Clinic) проводили анализ. Для меня было честью принимать участие в этой работе. Данные были очищены, стандартизированы и централизованно проанализированы — всё было прозрачно. На реализацию проекта ушло примерно 2 года, и конечный результат, как ясно из заголовка, казался окончательным: «UCHL1 — ген предрасположенности к болезни Паркинсона». P-значение суммарного эффекта достигало 0,001. Следует учитывать, что в то время значение p=0,001 считалось убедительным в области эпидемиологии и продолжает оставаться таковым во всех тех областях эпидемиологии и клинических исследований, на которых не отразились изменения в полногеномном поиске ассоциаций (Ioannidis et al., 2009; McCarthy et al., 2008), где были агностично протестированы миллионы полиморфизмов. В обсуждении работы 2004 года (Maraganore et al., 2004) мы тщательно изучили и исключили возможность систематической ошибки. Изначально я предложил не использовать воронковый график и связанные с ним критерии асимметрии, так как в то время я уже начал задумываться о том, что они недостаточно чувствительны и специфичны для обнаружения систематических ошибок. Но рецензенты настояли на том, что мы должны «продемонстрировать воронковые графики и критерий Эггера, чтобы исключить возможность публикационного смещения». Поэтому в опубликованную работу включены воронковые графики во всей своей красе, и добавлено утверждение: «воронковые графики и критерий Эггера не выявили публикационного смещения» (Maraganore et al., 2004).
Двумя годами позже в том же журнале, самом престижном в области неврологии, была опубликована работа (Healy et al., 2006) с заголовком прямо противоположным нашему: «UCHL1 не является геном предрасположенности к болезни Паркинсона». Мы включили 4194 случая и представителей контрольных групп в наш исходный мета-анализ. Опровержители провели новое исследование с 3023 участниками, а также провели новый мета-анализ, включивший в себя многие (но не все) из тех исследований, которые использовали мы. Общий размер выборки возрос до 6594 участников. Как в повторном исследовании (репликации), так и в новом мета-анализе все точечные оценки суммарных отношений шансов были в диапазоне 0,96-1,01. По результатам основного анализа отношение шансов составило 1,00. Доверительные интервалы оказались достаточно узкими, а все p-значения — очень далекими от номинальной значимости. Результаты были довольно убедительными.
Но и на этом история не закончилась. Три года спустя появился новый мета-анализ связи гена UCHL1 и болезни Паркинсона, включивший 18 исследований — я не смог найти общий размер выборки мета-анализа в работе (Ragland et al., 2009). Мутация в этом гене была связана с номинально значимым эффектом у европеоидов при доминантной модели (p=0,02) и у азиатов при рецессивной модели (p=0,006). Авторы мета-анализа пришли к положительному выводу в пользу присутствия умеренной достоверности (Ioannidis et al., 2008). Это и остаётся самой свежей официальной точкой зрения в опубликованной литературе по состоянию на лето 2010 года: UCHL1 влияет на риск развития болезни Паркинсона. Но вскоре, в рамках консорциума Генетической эпидемиологии болезни Паркинсона, мы решили провести новый мета-анализ вопроса о UCHL1, включая опубликованные и новые ожидаемые генотипированные данные всех команд консорциума (на данный момент в количестве 40), в котором мы хотели наконец разобраться с этим спорным вопросом. Мета-анализ консорциума индивидуального уровня (неопубликованные данные, личное общение) снова продемонстрировал суммарное отношение шансов приблизительно равное 1,00, а доверительные интервалы исключили увеличение или уменьшение относительного риска на 10%, основываясь на куда большем объёме информации, чем в последнем опубликованном мета-анализе. Этот ожидаемый мета-анализ ещё не был опубликован. И я не уверен, что он будет опубликован, т.к. демонстрирует отрицательный результат. Есть вероятность, что UCHL1 будут ещё долго обвинять в причастности к болезни Паркинсона в публикуемой литературе. Ошибочность этого заявления может быть известна посвященным, но не широкой научной общественности. Подозреваю, что в научной литературе полно такого мусора, и его так и не убрали.
Какова побочная выгода от того, что никто не убирает остатки неподтверждённых гипотез? Во-первых, наш мета-анализ 2004 года по прежнему часто цитируют, т.к. согласно официальной научной литературе и последнему слову в науке мета-анализа, UCHL1 — это ген, отвечающий за болезнь Паркинсона. Во-вторых, несколько лабораторий всё ещё получают миллионы долларов, евро и юаней на изучение этого важного гена. В-третьих, все последующие гипотезы, зависящие от информации о гене UCHL1, строятся на неверных предположениях. Ошибок становится всё больше.
Некоторые первоначальные мысли: величина эффекта и место мета-анализа
Мета-анализ был бы прекрасной идеей, если бы доступная информация по любому вопросу была представлена случайной выборкой из огромной вселенной потенциальной информации, которая могла бы быть собрана с использованием объективных методов и несмещённых измерений. В таком случае можно было бы ожидать существенную неопределённость в оценке эффекта при появлении первых данных, но неопределённость снижалась бы с появлением дополнительной информации, а точечная оценка эффекта оставалась бы непредвзятой на протяжении всего исследования. То же было бы применимо и к влиянию потенциальных модификаторов. Однако у нас есть существенные подтверждения тому, что во многих областях величина эффекта изменяется с течением времени.
Многие эффекты со временем снижаются (Gehr et al., 2006; Ioannidis, 2005a, 2006; Jennions and Moeller, 2002; Krum and Tonkin, 2003; Leimu and Koricheva, 2004; Trikalinos et al., 2004; Zollner and Pritchard, 2007). Печально известные нереплицирующиеся снижающиеся эффекты присутствуют в некоторых дисциплинах, таких, как изучение генетических связей гена-кандидата и фаз сцепления (Ioannidis, 2006; Zollner and Pritchard, 2007). Но эта проблема присуща даже исследованиям с самым точным дизайном, например рандомизированным исследованиям медицинского вмешательства (Gehr et al., 2006; Ioannidis, 2005a; Krum and Tonkin, 2003; Trikalinos et al., 2004). Проблема затрагивает как примитивные, так и лучшие и самые влиятельные рандомизированные исследования (Ioannidis, 2005a). Примерно четверть эффектов, представленных в самых цитируемых рандомизированных исследованиях, опровергнуты или признаны преувеличенными (более чем в два раза) в сравнении с эффектами, просматриваемыми в гораздо более крупных испытаниях, проведённых в течение десятилетия (Ioannidis, 2005a).
Важно отметить, что в большинстве случаев обнаружения таких крупных противоречий в ранних исследованиях, мета-анализы редко служили инструментом для влияния на общественное и экспертное мнение, хотя могли бы играть эту роль куда чаще. Обычно это было привилегией отдельных крупных и хорошо организованных исследований. Как только происходило опровержение, тут же появлялись мета-анализы. В неком смысле, мета-анализы каждый раз следовали веяниям моды. В тех редких случаях, когда мета-анализы смели подвергнуть сомнению превалирующее мнение, например, в случае эффективности рентгеновской маммографии (Gøtzsche and Olsen, 2000) или токсичности росиглитазона (Nissen and Wolski, 2007), мета-аналитики навлекали на себя бурную и даже гневную реакцию научного сообщества и корпораций. Почему-то, несмотря на то, что мета-анализ со временем стал престижным, многие всё ещё считают его вспомогательным методом, который не способен изменить или подвергнуть сомнению научные заключения. Мета-анализ охотно принимают, когда он не подвергает сомнению экспертное мнение или общественную политику, и получает одобрение, когда подтверждает экспертное мнение. Мета-анализ, который ставит под сомнение общепринятое экспертное мнение, часто считают еретичеством.
Конечно, многие мета-анализы не демонстрируют снижение эффекта со временем. Величина эффекта может оставаться постоянной (и даже увеличиваться) в некоторых мета-анализах. Это может говорить о наличии реальных эффектов. Однако нужно исключить ещё одну альтернативу: смещение может быть настолько большим, что оно даже не позволяет возникнуть опровержению. В таких случаях литература кристаллизируется вокруг ложных утверждений.
Систематические ошибки мета-анализа
Ошибка может быть классифицирована как случайная или систематическая (смещение) (Ioannidis, 2005b). Обычно и тех, и других хватает в любой области исследований. По сути, случайную ошибку можно представить как один из видов смещения с определёнными свойствами, например, ожидаемое (но не обязательно наблюдаемое) среднее равное 0. Но я буду придерживаться традиционного определения. Считается, что с помощью мета-анализа можно снизить относительную важность случайной ошибки. Но от этого была бы реальная польза, если бы смещение тоже уменьшалось или хотя бы не увеличивалось в процессе.
Мета-анализ несёт в себе систематические ошибки всех тех фрагментов данных, из которых он состоит. Это привело к тому, что противники мета-анализа бесцеремонно поднимают избитый спор о том, что мета-анализ — это «мусор на входе — мусор на выходе». Однако, это не обязательно недостаток (Ioannidis and Lau, 1999). В этом отношении систематический обзор предоставляет полезную возможность исследовать, определить и описать эти систематические ошибки. Возможно, что ещё более важно, мета-анализ предоставляет возможность выделить систематические ошибки, характерные для всей области исследования, а не для отдельно взятых работ.
Самая притягательные из них те, которые можно объединить в группу под названием «систематические ошибки, совершаемые в погоне за значимостью». Они включают в себя публикационное смещение, выборочное предоставление результатов, выборочный анализ данных и фабрикацию (Рисунок 1) (Dwan et al., 2008).
Самой обсуждаемой проблемой стало публикационное смещение (Rothstein et al., 2005). Почему-то главным поводом для беспокойства в литературе стало то, что существуют неизвестные исследования, но они пропадают в ящике стола. Хотя я и считаю, что эта проблема более распространена, чем несуществующие исследования, которые, тем не менее, попадаются на глаза (фабрикации, явная фальсификация), я подозреваю, что публикационная ошибка для целых исследований — не самая большая проблема в большинстве научных областей. Выборочное представление и выборочный анализ отдельных данных являются самой большой и сложно обнаруживаемой проблемой, вызывающей тревогу у авторов во многих областях (Chan and Altman, 2005; Chan et al., 2004a,b; Contopoulos-Ioannidis et al., 2006; Mathieu et al., 2009). Выборочное предоставление результатов, которое реализуется через сокрытие информации об отдельных результатах, схоже с публикационным смещением в том, что «отрицательные» результаты могут быть не опубликованы. Представление результатов выборочного анализа может ещё чаще встречаться во многих областях. Оно заключается в том, что результаты, которые должны были оказаться «отрицательными» согласно точному, заранее определённому плану анализа (если он вообще существовал), анализируют таким образом, что они становятся «положительными». Между этими видами недобросовестного обращения с данными существует континуум, так как часть анализа подразумевает определение и обработку конечной информации (Chan and Altman, 2005; Chan et al., 2004a,b; Contopoulos-Ioannidis et al., 2006; Mathieu et al., 2009). В некоторых областях исследования представляют собой нечто размытое и могут быть равносильны оценке результата, анализу или нескольким результатам и анализам, собранным вместе удобства ради.
Я раньше также использовал термин «ошибка многообразия результатов» (Contopoulos-Ioannidis et al., 2006) (или ошибка лернейской гидры, в честь многоголового монстра, который доставил Геркулесу немало хлопот своей множественностью) для описания схожих проблем. Например, в неудачном мета-анализе (Contopoulos-Ioannidis et al., 2006) в 21 исследовании двух факторов генетического риска, которые могут влиять на ответ на терапию астмы бета2-агонистами, мы обнаружили 384 различных типа анализа разнообразных результатов и определений факторов генетического риска. Если бы их все проанализировали и представили результаты во всех исследованиях, мы получили бы 21×384=8064 эффекта. Однако были представлены лишь 485 (6%) эффектов, из которых только 243 (50%) были обозначены статистически незначимыми, в то время как остальные 244 были отмечены как многообещающие. Насколько нам известно на данный момент, скорее всего оба варианта никак не влияют на ответ на терапию астмы бета2-агонистами. Следовательно, вероятнее всего были исследованы по меньшей мере несколько тысяч эффектов, о большинстве из которых не сообщили, а некоторые превратили из «отрицательных» в «положительные». Такая интерпретация этих данных наиболее вероятна ещё и потому, что (хотя бы в теории) почти во всех данных исследованиях могли быть легко измерены все/большинство данных эффектов, даже если не все 8064 были измерены.
В Таблице 2 я привожу предполагаемый процент эффектов, которые не были представлены в различных областях исследований, основываясь на некоторых эмпирических данных (таких, как только что описанное мной исследование, и других (Chan and Altman, 2005; Chan et al., 2004a,b; Contopoulos-Ioannidis et al., 2006; Mathieu et al., 2009)), личном опыте и беседах с коллегами из других областей. Также в Таблице 2 я привожу предполагаемый процент, включающий не только не представленные эффекты, но и эффекты, которые не были получены точно согласно заранее определённому плану анализа, который полностью соблюдался. На мой взгляд, во многих областях эти числа близки к 100% просто потому, что во многих исследованиях заранее определённый протокол и план анализа попросту отсутствует.
Рисунок 1. Систематические ошибки вследствие погони за значимостью.
Таблица 2. Оценка несообщённых и сообщённых или неверно представленных эффектов в различных областях.
Область (ссылки) |
Несообщённые эффекты∗ (%) |
Несообщенные или неверно представленные эффекты† (%) |
Рандомизированные исследования, эффективность (Chan and Altman, 2005; Chan et al., 2004a,b; Mathieu et al., 2009) |
30-50 |
50-70 |
Рандомизированные исследования, безопасность (Chan and Altman, 2005; Chan et al., 2004a,b; Mathieu et al., 2009) |
60-70 |
70-95 |
Исследовательская эпидемиология (Contopoulos-Ioannidis et al., 2006) |
80-99 |
90-100 |
Подтверждающая эпидемиология‡ |
40-60 |
60-80 |
Общественные науки и образование‡ |
40-95 |
70-100 |
∗Эффекты, которые уже могут (или должны) быть получены, но тем не менее не приведены в опубликованных отчётах.
†Эффекты, которые уже могут быть получены, но либо не были приведены в опубликованных отчётах, либо приведены в отчёте согласно анализу, который не был заранее определён и не проводился по плану или откровенно отличался от данного плана.
‡Насколько мне известно, нет конкретных данных; личные предположения или обсуждения с коллегами.
Мета-аналитики разработали немало критериев для определения и исключения публикационного смещения, но я боюсь, что их возможности не так уж велики (Ioannidis, 2008a; Ioannidis and Trikalinos, 2007b; Lau et al., 2006). В действительности на них может повлиять любая погрешность погони за значимостью и огромное количество других моментов, таких как подлинное разнообразие эффектов отдельного исследования. Ни один из этих критериев не прошёл перспективной валидации, и нам не известна их чувствительность и специфичность в определении смещения какого-либо типа. Для этого необходимо знать как настоящие полученные данные, так и их последующее отражение в опубликованных работах. Я бы предположил, что доступные на данный момент критерии для определения смещения очень плохо справляются со своей задачей. В сущности, 90% мета-анализов не соответствуют минимальным требованиям для применения таких популярных критериев, как критерий асимметрии (Ioannidis and Trikalinos, 2007b). На мой взгляд, в идеале эти критерии должны быть адаптированы для оценки разных областей исследования с множеством мета-анализов, а не отдельных мета-анализов (Ioannidis, 2009; Ioannidis and Trikalinos, 2007a). Если во всей области есть намёки на смещение, то она может повлиять на любой мета-анализ в этой области, хотя невозможно с уверенностью сказать, какой или насколько. Я считаю эту неопределённость честным признанием. Мне становится крайне неловко, когда о смещении утверждают исходя из таких критериев для отдельных мета-анализов, и очень стыдно, когда утверждают, что никакого смещения нет, и «отрицательные» результаты применения критериев исключили публикационное смещение или даже любую систематическую ошибку в целом (Ioannidis and Trikalinos, 2007b).
Я также считаю, что нужно помнить о важности времени при накоплении доказательств и их представлении публике. Термин «смещение вследствие отставания» описывает запоздалую публикацию «отрицательных» результатов в сравнении с «положительными» результатам из одинаково хорошо проведённых и одинаково крупных исследований. Это было хорошо задокументировано в эмпирических исследованиях (Ioannidis, 1998; Stern and Simes, 1997). Можно обобщить, сказав, что фрагменты собранных объективных свидетельств находятся во временны́х взаимоотношениях с видимыми опубликованными свидетельствами. По умолчанию, последнее постоянно задерживается на разные периоды времени и искажается, но как задержка, так и искажение, могут меняться со временем.
В то же время, сказать, что при такой ошибке «положительный» результат всегда предпочтут «отрицательному», будет чрезмерным упрощением. При некоторых обстоятельствах очень заманчиво получить и опубликовать крайне «отрицательные» результаты. Например, феномен Протея демонстрирует (Ioannidis and Trikalinos, 2005), что в молекулярной эпидемиологии зачастую в первую очередь публикуют самые впечатляющие результаты, за которыми быстро (в течение 1 года) следуют самые впечатляющие противоположные результаты, которые опровергают первоначальное утверждение. Возможность опровергнуть престижное исследование в таких случаях может быть очень заманчивой. Результаты последующих исследований, как правило, располагаются меж этих двух крайностей. Один из способов понять этот феномен — рассмотреть информативность каждого исследования, а не его статистическую значимость. Исследование, которое в большей мере меняет наши первоначальные убеждения, обладает большей информативностью. Высокая информативность характерна как для первых исследований с выраженными эффектами, так и для исследований с нулевыми эффектами в среде, где ранее были выявлены выраженные эффекты. Я думаю, что нам надо внимательнее изучить, как в разных областях исследований и средах публикаций относятся к информативности. Моделирование процесса отбора (Hedges and Vevea, 2005) может потребовать принятия во внимание всех данных аспектов: хронометраж свидетельств, типы результатов и типы результатов в связи с предыдущими свидетельствами. Необходимо также принять во внимание силу воздействия публикации и учесть, что значит быть на публичном обозрении в постоянно меняющейся среде публикаций (Young et al., 2008).
Достоверность мета-анализа
Ранее я уже говорил (Ioannidis, 2005b), что в целом достоверность вывода исследования (вывод = результат исследования, который достигает желаемого уровня статистической значимости или соответствует другому критерию, который делает его «положительным» или заслуживающим внимания) зависит от предтестовой вероятности (множество сравнений против реальных связей), данных, систематической ошибки и исследуемой области, и все перечисленные факторы могут зависеть друг от друга. Я также предложил моделирование данных факторов. Самая тревожная ситуация возникает тогда, когда научная область работает в стиле анализа и публикации, где наблюдаемые эффекты, в общем-то, являются просто точными подсчётами степени чистого смещения, существующего в области. Такое случается, когда исследователи работают в «нулевой области», т.е. в области, где нет ненулевых эффектов, и ситуация также схожа, когда исследователи работают в областях с малой долей ненулевых эффектов. Как я говорил ранее (Ioannidis, 2005b), в таком случае, среди различных нулевых областей, дисциплины, в которых эффект больше (= рассматриваются наукой как более успешные), просто подвержены большему смещению, чем те, что обнаруживают меньшую величину эффекта, в то время, как в той же научной дисциплине более успешны те, в которых наблюдается наибольшее чистое смещение. Судя по моему опыту в генетической эпидемиологии, одними из самых непокорных областей, в которых продолжают фигурировать и публиковаться эффекты большой величины, становятся области, в которых очень слабо взаимодействие либо с методами клинических исследований, либо с последними достижениями в сфере генетических методов, например, ортопедия. На самом деле, я считаю, что, если систематически измерить средние эффекты заявленных аллелей генов-кандидатов в рамках разных направлений медицины, можно получить относительную оценку методологической незрелости и проникновения погрешностей в разные области специализации, так как нам известно, что около 95% заявленных ассоциаций генов-кандидатов оказались ложными, согласно результатам репликаций из более надёжных полногеномных поисков ассоциаций (Siontis et al., 2010). Моя команда применила такой же принцип при интерпретации работ китайских специалистов по ассоциациям генов-кандидатов (Siontis et al., 2010). Мета-анализы исследований на китайском языке всегда приходили к выводу, что ассоциация существует, с очень большими эффектами, гораздо большими, чем в мета-анализе исследований на английском языке. Ретроспективно мы теперь можем с определённой уверенностью заявить, что средний эффект, наблюдаемый в мета-анализах, — всего лишь средняя величина смещения, которая была больше в китайской литературе, нежели в англоязычной.
Посттестовая вероятность получения истинных результатов мала:
- при малой величине эффекта;
- при малых масштабах исследования;
- в «горячих областях» (в них работает множество конкурирующих команд);
- при большом размере баз данных;
- когда методики анализов более гибкие; и
- когда есть сильная заинтересованность в результатах.
Мы можем рассмотреть каждый из этих факторов в применении к мета-анализу.
Величина эффекта
Во-первых, мета-анализ можно применить к любой проблеме исследования, независимо от заложенной величины эффекта. Однако, его польза наиболее очевидна, когда величина эффекта мала, т.к. в таких случаях он обладает сравнительным преимуществом перед одиночными исследованиями, и у него больше шансов продемонстрировать номинально значимый результат.
Размер выборки
Что касается размера выборки, считается, что мета-анализ представляет собой совокупность максимального количества надлежащих свидетельств. Однако, как только свидетельства разбивают на подгруппы или подвергают регрессионному мета-анализу (ключевая черта и цель многих мета-анализов), эффективная выборка снова становится маленькой, зачастую гораздо меньше выборки отдельных исследований.
«Горячие» области
В теории, у мета-анализа есть огромное преимущество: он объединяет данные, полученные конкурирующими командами исследователей, и в нём не должно возникать проблем, типичных для изолированных одиночных исследований. Однако, как показывает пример со стероидами для лечения менингита, мета-анализ сам стал крайне конкурентной областью, и по многим темам был проведён не один мета-анализ. Я подозреваю, что в погоне за кажущейся информативностью авторы многих мета-анализов могут пытаться показать, что они обнаружили что-то новое, не обязательно статистически значимое, в сравнении с предыдущими конкурентами. Иначе зачем публиковать в выдающихся журналах работы с уже известными данными? Всё это делает мета-анализ крайне подверженным смещению в погоне за значимостью (или смещению в погоне за информативностью).
Большие базы данных
Базы данных мета-анализов по определению больше баз данных одиночных исследований, т.к. мета-анализ должен предоставить самое масштабное доказательство. Конечно, тщательный протокол мета-анализа может сделать анализ базы данных более целенаправленным. При анализе отдельных фрагментов данных может наблюдаться существенная изменчивость различия и даже субъективность в том, как их определяют или хотят определить в процессе извлечения данных. Оставив в стороне простые ошибки извлечения данных, каждый, кто проводил мета-анализ, осознаёт, что нужно повторно уточнять данные и прояснять определения, независимо от того, насколько детальным был заранее разработанный план по извлечению данных. Можно даже усомниться, возможен ли, строго говоря, заранее разработанный план: мета-анализ ретроспективен, и, что ещё хуже, данные уже хорошо известны (или могли быть хорошо известны [должны быть хорошо известны?]) мета-аналитику.
Гибкость анализа
Нет нужды напоминать столь искушённой публике, состоящей из ведущих методистов, что в мета-анализе анализ может быть довольно гибким. Это подразумевает использование различных моделей (например, фиксированные, случайные, иерархические), метрик и, следовательно, алгоритмов оценки, как для подсчётов оценки эффектов, так и для измерений неопределённости. Когда дело доходит до вторичного анализа и определения систематических ошибок, разнообразие становится ещё более впечатляющим. Даже простое решение о том, поддаются ли некоторые данные количественному синтезу, вызывает разногласия у различных авторов.
Заинтересованность в результатах
Я оставил заинтересованность в результатах напоследок. Мета-анализ со временем приобретает престиж, а вместе с ним растёт и заинтересованность в результатах. Это значит, что результаты и их интерпретация, помимо поиска научной истины, могут служить и другим — эгоистичным — целям. Я это называю ошибка non nobis, non nobis Domine sed nomini tuo da gloriam (не нам, Господи, не нам, но имени твоему дай славу. — прим. пер.), ссылаясь на надпись на мече, который я увидел в Толедо по пути сюда. Это цитата псалма, ставшего девизом рыцарей тамплиеров, которые желали (якобы неэгоистично) убить любого врага (в нашем случае, получить правильные результаты) во славу высшей сущности. В таблице 3 указано, каким сущностям служат результаты мета-анализа (а также кто в них заинтересован). Классическая ситуация: мета-анализ промышленного продукта проводится участниками индустрии, производящими эти продукты, финансируется ими или иначе подвергается их влиянию (Jørgensen et al., 2006). Ясно видно, что такие исследования сильно искажены, и я согласен с положением Кокрейновского сотрудничества о запрете финансирования производителями систематических обзоров определённых вмешательств (Jørgensen et al., 2008).
Таблица 3. Организации, которые могут быть заинтересованы в мета-анализе не только как в способе поиска истины.
Промышленность и различные корпоративные бизнес-организации
Профессиональные ассоциации
Практикующие врачи
Учёные
Сами мета-аналитики
Всё, что связано с финансированием, даже государственное финансирование на конкурсной основе
Всё, что связано с повышением, получением должности и признанием среди коллег
Всё, что связано с догмами, верованиями и спекуляциями
Всё вышеуказанное
Однако наивно полагать, что промышленность подлая, а остальные лица, вовлечённые в мета-анализ, — святые. Практикующие врачи, учёные и их профессиональные сообщества могут многое потерять или получить благодаря мета-анализу. Если всерьёз воспринимать результаты мета-анализа, то объём практики в отдельно взятых узких профессиях существенно уменьшится. Например, захотят ли терапевты признать, что им нужно прекратить свою деятельность? Сомневаюсь. Я оказался в такой ситуации, когда проводил мета-анализ инвазивного лечения в сравнении с консервативным в терапии стабильной хронической ишемической болезни сердца. В ходе нашего анализа, проведённого в 2005 году (Ioannidis and Katritsis, 2005), мы не обнаружили никакой пользы от инвазивного лечения, равно как и авторы крупного рандомизированного исследования, опубликованного 2 года спустя (Boden et al., 2007). Если бы результаты были восприняты всерьёз, то число инвазивных процедур, проводимых кардиологами, в некоторых странах сократилось бы на 80% или даже больше. Это значит, что инвазивные кардиологи потеряли бы 80% своих активов. В противовес данным результатам тут же вышли редакционные статьи инвазивных кардиохирургов, которые попытались смягчить негативный характер результатов (Siontis et al., 2009). Затем инвазивные кардиологи сами опубликовали мета-анализы на ту же тему, демонстрируя статистически значимую пользу от инвазивных процедур (Jeremias et al., 2009; Schömig et al., 2008). Этого достигли главным образом выбирая, какие испытания следует или не следует включить. Например, включение испытаний на пациентах, недавно перенёсших острый коронарный синдром, а значит находящихся в нестабильном состоянии, при котором инвазивное вмешательство может принести пользу, предсказуемо изменило суммарный эффект и (что ещё важнее) его номинальную статистическую значимость.
Проблемы могут появиться и у теоретиков, если мета-анализ опровергнет их теории и станет на их пути к научной славе. Сложности могут возникнуть и у самих мета-аналитиков, если результаты мета-анализа будут противоречить предыдущим работам и заявлениям, мешать публикациям в крупных журналах, получению средств на поиск доказательств и проведение мета-анализов, повышению и так далее. В предыдущем абзаце я наверное защищаю собственный мета-анализ, потому что не хочу снова оказаться неправ. В общем, добро пожаловать в реальный мир. Нужно очень внимательно присмотреться, чтобы увидеть, какие силы стоят за каждым мета-анализом или комментариям к нему.
Существующие, но преувеличенные эффекты
Эффект может быть ненулевым, но всё же преувеличенным в сравнении с действительностью. Это может повлиять на интерпретацию свидетельств и практическое применение. В нескольких научных областях был замечен феномен проклятия победителя (для обзора см. ссылку (Ioannidis, 2008c)) по отношению к величине эффекта. Если отбор эффектов проходит на основе прохождения порога статистической значимости или другого схожего порога (например, в данном случае, коэффициент Байеса), наблюдаемая величина эффекта преувеличена. Это приводит к преувеличенным оценкам эффекта в первоисточниках, даже если наблюдается хоть какой-нибудь ненулевой эффект. Это применимо и к мета-анализу, если мы сосредотачиваемся только на тех мета-анализах, которые имеют статистически значимые результаты. Например, во всей Кокрейновской базе систематических обзоров, когда в 2005 году я изучил 461 независимый мета-анализ, объединявший по меньшей мере 4 исследования и показавший номинально значимый эффект, я обнаружил очень сильную обратную связь между количеством свидетельств и величиной эффекта (Ioannidis, 2008c). В качестве контраргумента можно сказать, что области, которые имеют больше доказательств, нацелены на меньшие эффекты, чем области с ограниченной доказательной базой. Следовательно, обратная взаимосвязь между размером выборки и величиной эффекта в мета-анализах может наблюдаться вследствие стремления к статистической мощности. Однако вряд ли это может стать объяснением. В большинстве случаев ожидаемые величины эффектов в медицине примерно одинаковы и довольно скромны. Выраженные эффекты возможны лишь в редких случаях. К тому же, исследования, в которых ожидаются выраженные эффекты, нарушают принцип равновесия, и вряд ли их будут изучать в рандомизированных исследованиях (Djulbegovic et al., 2000, 2008). Более того, даже если вопрос о статистической мощности поднимался в одиночных исследованиях, то в мета-анализе он практически не учитывается. А методисты отметят, что нет смыла задумываться об этом постфактум, по крайней мере, в рамках ретроспективного мета-анализа (хотя мне представляется полезной концепция использования в последующих испытаниях подсчёта соотношения размер выборки/значимость с учётом уже существующих мета-анализов (Sutton et al., 2007); но это уже другой вопрос). Поэтому я подозреваю, что большинство выраженных эффектов, заявленных в ранних мета-анализах с выборкой в несколько сотен человек, в общем, существенно преувеличены в сравнении с реальными эффектами, даже если реальные эффекты ненулевые. Эмпирическая оценка медицинских мета-анализов, которые обновлялись на протяжении 5 лет, выявила, что статистически значимые эффекты лечения умеренно преувеличены. А когда значимый суммарный эффект основан на ограниченных данных, преувеличения гораздо серьёзнее (Pereira and Ioannidis, 2011). Рискну обобщить и сказать, что, возможно, большинство суммарных эффектов мета-анализа во многих научных областях, где выборки гораздо меньше,чем в медицине, тоже преувеличены, и довольно сильно.
Ограниченность мета-анализа
Последняя проблема, которую я хотел бы обсудить, заключается в том, что большинство нынешних мета-анализов не способны ни на что, кроме оценки и синтеза уже существующих свидетельств. Даже если исследование использовало все доступные данные и было безупречно с точки зрения плана, проведения, анализа результатов и отчётности, возникающие свидетельства могут быть подвержены существенному смещению, а синтез может стать всего лишь официальным оправданием. Причина заключается в том, что до сегодняшнего для, за редким исключением, у мета-анализа не было возможности вмешаться в постановку научной проблемы и план исследования. Если проблема и план исследования нерелевантны, противоречат друг другу, или всё вместе взятое, то идеальный мета-анализ идеального исследования тоже будет нерелевантным, противоречивым, или всё вместе взятое.
Я всё больше разочаровываюсь, осознавая, что, проводя мета-анализ, мы просто ведём поиски под уличным фонарём, ограниченные тем, что сделали другие. Можно решить, что в науке общее сознание думающих учёных должно нести ответственность за общий план проводимого исследования. Невозможно сказать, что же такое идеальный план исследования, но серьёзный учёный должен быть способен максимально приблизить свою работу к этому нереальному идеалу. Боюсь, в большинстве научных областей это не так. Например, в медицине рандомизированные исследования считаются самыми непредвзятыми, а их мета-анализы имеют существенную значимость. Но кто разработал план исследований для рандомизированных исследований? Уже многие годы, за редким исключением, фармацевтические компании выступают заказчиками или участвуют в финансировании практически каждого влиятельного рандомизированного исследования (Patsopoulos, Ioannidis, and Analatos, 2006). План клинического исследования — не открытый мир, и далеко не каждый учёный или группа учёных могут выбрать лучшую проблему для изучения. Наоборот, он больше напоминает серию изолированных городов-государств (компаний-государств), где каждая компания разрабатывает свои планы исследования, преследуя единственную цель: убедиться, что максимальное число их продуктов получит лицензию на самое широкое применение при максимальном числе показаний. Это значит, например, что компании стараются не спонсировать исследования, в которых проводится сравнение их продуктов со схожими продуктами других производителей, если только конкурирующая компания не подставная (Ioannidis, 2008b). В ходе оценки 577 исследований, спонсированных 15 ведущими компаниями, было обнаружено, что только в 18 случаях прямые сравнительные исследования активных вмешательств, разработанных различными компаниями, были спонсированы двумя или более представителями индустрии (Lathyris et al., 2010). И это несмотря на то, что для большинства медицинских проблем уже разработаны эффективные препараты (различными компаниями), которые должны быть использованы для сравнения в последующих испытаниях, если мы хотим добиться значимых результатов. Очевидно, что нынешние исследования проводятся с целью получения отдельными компаниями одобрения регуляторных органов и рекламы. Мета-анализы, обрабатывая данные таких исследований, волей-неволей служат тем же целям.
Мета-анализ также не принимает во внимание такие особенности медицинских испытаний, как тот факт, что компании стремятся организовать для каждого из своих продуктов исследования по множеству показаний к применению (Ioannidis and Karassa, 2010). Это хороший способ добиться более широкого применения препарата. Обычно мета-анализ фокусируется лишь на одной проблеме. В этом отношении ему не удаётся разобраться с внутренней многогранностью рассматриваемого вопроса. Более того, для каждого показания проводится множество испытаний, зачастую с применением правила остановки испытания при увеличении числа ошибок и повторными промежуточными анализами. Такая остановка испытания ведёт к преувеличению величины эффекта (Bassler et al., 2010; Hughes and Pocock, 1988; Montori et al., 2005; Pocock and Hughes, 1989). Хотя эти правила могут быть приемлемыми для одиночных испытаний, они не учитывают всё множество тестируемых показаний и испытаний, проводимых для каждого показания. Они также не рассчитаны на то, что преувеличенные эффекты будут приняты за реальные и станут поддержкой рекомендаций и общественной политики. Исходная ситуация такова: необходимо протестировать много показаний в большом количестве исследований, и большое количество промежуточных анализов. Затем мы также должны рассмотреть вероятность того, что существуют схожие по действию средства (той же или другой компании), для каждого из которых проводятся аналогичные испытания. Даже если данное средство неэффективно для всех показаний, для некоторых оно может всё же оказаться эффективным, чисто случайно. Затем в игру вступает мета-анализ и подтверждает его эффективность. Недавно я приводил некоторые примеры (Montori et al., 2005). Скажем, анти-ФНО препараты. Было проведено 188 исследований для по меньшей мере 42 разных пар «препарат-показание». Были опубликованы 34 мета-анализа. Все они заявляли об эффективности для отдельных показаний, но ни один из них не рассмотрел все данные по всем лекарствам и показаниям, и ни один из них, конечно, не принял во внимание влияние ранней остановки и тот факт, что доказательства для большинства показаний не были опубликованы и всё ещё обрабатываются. Ещё одни примером могут послужить более 1000 испытаний бевацизумаба, которые проводились более чем для десятка различных показаний. Все шесть мета-анализов в этой области фокусировались на единственном показании и основывались на результатах всего нескольких преждевременно прерванных испытаний.
В целом, не принимаемое во внимание множество испытаний и ранняя остановка, наверное, являются проблемами, типичными не только для области медицины, в которой исследования инициируются, как правило, фармацевтическими компаниями. Я подозреваю, что подобные проблемы неучтённого множества существуют и в других областях, где исследования формируют другие механизмы, не обязательно индустрия.
Выводы
В этом обращении я попытался донести моё растущее осознание того, что мета-анализ как прототип дизайна исследования является прекрасным инструментом для совершения ошибок, а иногда и осознания лежащих в их основе смещений. Делать ошибки легко, а вот для обнаружения смещений требуется предельное внимание к деталям и широкий (а также беспристрастный) взгляд на данные. Иногда мета-анализ может также обнаружить реальные эффекты, но, наверное, лучше не требовать от него слишком многого. Здорово, если нам удаётся обнаружить реальный эффект, и даже способность собрать, тщательно исследовать и шире взглянуть на данные и количественно оценить их полезна сама по себе, хотя большинство учёных и неучёных требуют большего и хотят перейти к применению результатов исследования. Я думаю, что как систематические ошибки, так и реальные эффекты обманчивы. И мы должны признать, что можно ошибаться и при их наличии, и при их отсутствии. Я приветствую более эмпирические способы работы с различными критериями испытаний и подходы для определения смещений и реальных эффектов, чем те, что мы используем сейчас, потому что, на мой взгляд, последние переоценены и зачастую неоптимальны.
И наконец, я считаю, что нечестно будет оставить мета-анализ главным образом ретроспективной практикой и просто ждать от него сбора данных, которые были получены для других целей. Мета-анализ должен стать проспективной отраслью с широким охватом, синонимичной с первоначальным исследованием. Это значит, что мета-анализ должен играть ведущую роль, как на первых этапах разработки плана исследования, так и в дальнейшем. Я считаю, что появление взаимодействующих консорциумов учёных, проводящих проспективные мета-анализы, — шаг в данном направлении, которое, надеюсь, станет ведущей парадигмой во многих научных областях. В конце концов, все исследования можно рассматривать как огромный, непрерывный кумулятивный мета-анализ.
Исследование
В завершение этого обращения к председателю я провел опрос присутствовавших членов сообщества и гостей и раздал им короткие анкеты, в которых была описана следующая ситуация.
Во время работы вы находите мета-анализ, согласно которому суммарный стандартизированный эффект, равный 0,30, находится в 95% доверительном интервале от 0,10 до 0,50. Какова вероятность того, что реальные эффекты также будут внутри этого доверительного интервала? Пожалуйста, дайте количественную оценку в процентах (а не качественное утверждение).
Кроме того, я попросил респондентов указать, сколько лет они работают с мета-анализом (менее 5 лет, 5–20 лет, более 20 лет). Цель опроса заключалась в том, чтобы выяснить, как мета-аналитики оценивают достоверность стандартного метода измерения вероятности суммарного эффекта. Этот опрос можно рассматривать как настоящее полевое испытание метода на точность и достоверность.
Всего поступило 33 ответа. Из них в двух было сказано, что процент неизвестен или его невозможно рассчитать, в 28 ответах было дано конкретное число, а в трёх указан диапазон (два диапазона были связаны с различиями между постоянными и случайными эффектами, а в третьем ответе был дан диапазон 0-95%). В дальнейшем анализе я использовал среднее значение диапазонов этих трёх групп. Несмотря на несколько комментариев, пронизанных справедливым негодованием по поводу моего чрезмерного упрощения («мне нужно больше информации»; «это некорректная интерпретация доверительного интервала», «истинный эффект — это параметр (одиночное значение, а потому он не может иметь вероятностного распределения)»; «невозможно вычислить»; «сложно!»; «когда как, конечно»; «ну если нужно дать распределение вероятности…»), я был приятно удивлен тем, что в 31 ответе из 33 имелась какая-то количественная информация. Распределение ответов показано на рисунке 2. Половина экспертов мета-аналитиков указали 50% или близкую к этому величину. Только три мета-аналитика посчитали, что в 95% мета-анализов с такими результатами реальная величина будет находиться внутри 95% доверительного интервала, в то время как несколько человек дали крайне пессимистичные прогнозы; один эксперт даже указал 0%, то есть реальный эффект абсолютно точно будет лежать вне 95% доверительного интервала. Интересно отметить, что 7 из 8 мета-аналитиков с самым долгим опытом работы (более 20 лет) указали величину 50% или около того (один из них указал диапазон 0-95%, который я грубо усреднил до 47,5%), и только один дал ответ 75%. Молодые же мета-аналитики, напротив, продемонстрировали более широкое разнообразие ответов (Рисунок 2).
Рисунок 2. Результаты опроса экспертов мета-аналитиков по поводу вероятности нахождения реального эффекта в пределах 95% доверительного интервала мета-анализа.
ДИ — доверительный интервал.
Результаты этого опроса можно интерпретировать по-разному. Средняя величина 50% по сравнению с идеальными 95% может означать, что респонденты считают, что фактическая неопределенность значительно больше, чем учитывает общепринятый доверительный интервал; что эффект отличается от рассчитанного; или что имеют место оба эти явления. Для того чтобы разъяснить этот вопрос, нужны дополнительные исследования, а пока результаты опроса говорят о том, что эксперты скептически относятся к эффектам, полученным в результате мета-анализа, и сомневаются в их достоверности, а традиционный совет о расчёте суммарного эффекта с 95% доверительным интервалом никак не решает проблему. Если бы я сам был участником опроса, то ответил бы «когда как», хотя величина 50% звучит вполне правдоподобно. В среднестатистическом мета-анализе фактический результат наверняка может с равной вероятностью находиться и внутри 95% доверительного интервала, и вне его. Так стакан наполовину пуст или наполовину полон?
Перевод — Анна Лукашевич, редактура — Валерия Антонова. Иллюстрация Анастасии Икусовой, адаптация графиков — Радмир Абильев.
Джон П.А. Иоаннидис (John P.A. Ioannidis). «Meta-research: The art of getting it wrong». Res. Syn. Meth. 2010, 1 169-184.
Список литературы смотрите в первоисточнике.
Источник: brights-russia.org