Теоретические основы биостатистики при проведении фармакоэкономических исследований

Библиотека /
22 июня 2009
8548

При проведении фармакоэкономических исследований первым этапом, после составления проекта исследования, является сбор и анализ информации. Следует отметить, что корректно выполненный анализ собранной информации является одним из важнейших критериев проведения качественного фармакоэкономического исследования.

При этом важную роль играет не только правильность выбора того или иного показателя с позиций некоторых умозаключений, но и соблюдение протокола формализованного выбора и оценки информации.

Для реализации данной задачи применяются инструменты, предоставляемые наукой - статистикой и входящей в ее состав дисциплиной, называемой биостатистикой.

Биостатистика (Biostatistics) - научная отрасль, связанная с разработкой и использованием статистических методов в научных исследованиях в медицине, здравоохранении и эпидемиологии [9].

В настоящее время имеется обширный выбор программного обеспечения, позволяющего провести статистический анализ получаемых данных, не обладая глубокими знаниями в этой дисциплине.

Однако для исследователя в области фармакоэкономики существует необходимость знания основ биостатистики для понимания и более гибкого использования инструментов этой дисциплины. Кроме того, знание основных понятий биостатистики важно для понимания результатов уже проведенных клинических и фармакоэкономических исследований с целью оценки возможности их использования в своих работах. Учитывая, тот факт, что при проведении фармакоэкономических исследований довольно часто приходится обращаться к данным зарубежных источников, в том числе и на иностранных языке, следует обратить внимание на проблему соотнесения терминологии биостатистики принятой в России и за рубежом. Данная статья прежде всего предназначена специалистам в области проведения фармакоэкономических исследований для создания у них знания основных понятий и принципов биостатистики, которые позволили бы им работать и корректно применять результаты существующих отечественных и зарубежных исследований.

Биостатистика, как и статистика в целом, подразделяется на два раздела:
• Описательную биостатистику (Descriptive biostatistics)
• Аналитическую биостатистику (Inferential biostatistics).

Целью описательной биостатистики является сбор и систематизация данных (в том числе получение обобщенных показателей) о предмете исследования. Аналитическая биостатистика ставит перед собой задачу получения статистических выводов на основе собранной и систематизированной информации об объекте исследования. Теоретические основы и применение инструментов аналитической биостатистики будут рассмотрены в одной из следующих статей. Данная статья посвящена обзору теоретических основ описательной биостатистики [5, 6, 7]
.
Описательная биостатистика. Виды данных.

В зависимости от дизайна фармакоэкономического исследования информация может быть получена путём проведения нового клинического исследования (проспективный дизайн) или по средствам анализа результатов уже существующих исследований (ретроспективный дизайн). В первом случае происходит работа с первичными данными, во втором – с вторичными (прошедшими хотя бы первичную статистическую обработку). Помимо указанного выше деления данных на первичные и вторичные, имеется более функциональная классификация данных, которая позволяет определить дальнейшие методы обработки информации.

Данные:

• Качественные
- Бинарные
- Ординарные

• Количественные
- Дискретные
- Непрерывные

Качественные данные (Qualitative data) – данные, характеризующие некоторые категорийные признаки, такие как пол, наличие того или иного заболевания/симптома, стадия заболевания и т.д.

В некоторых зарубежных работах качественные данные подразделяют на качественные бинарные данные (Binary data) и ординарные, или упорядоченные (Ordinal data). Бинарные данные, характеризуют признак, который может принимать только два значения, по принципу да/нет, например, болен/здоров (болен/не болен). Упорядоченные данные – это вид качественных данных, которые после сбора были упорядочены по какому-то принципу, например распределение пациентов по стадиям заболеваний – I, II, III и т.д. стадия.

Количественные данные (Quantity data) характеризуют признаки, имеющие численное выражение. Примерами количественных данных являются количество госпитализаций пациентов с ишемической болезнью сердца, рост, уровень гемоглобина в крови и т.д.

Количественные дискретные данные (Discrete data) описывают признак, который может быть выражен в виде целых положительных чисел. Количество приступов бронхиальной астмы у пациента за исследуемый период можно отнести к количественным дискретным данным.

Количественные непрерывные данные (Continuous data) характеризуют признак, который может принимать любое значение в установленном интервале, и перечислить все значения которого не представляется возможным. Так, например, данные о температуре пациента, изменения массы тела пациента в результате проводимой терапии относятся к количественным непрерывным данным, так как могут принимать в ограниченном интервале любое значение (снижение массы тела пациента может быть равным 0,1 кг, 0,2 кг, 0,11 кг, 0.100001 кг и т.д.) [2, 5, 6, 7].

Описательная биостатистика. Измерение центральной тенденции. Измерение вариации.

Фармакоэкономическое исследование проводится для определенной (целевой) популяции. При этом, как правило, изучать детально всю исследуемую популяцию довольно затруднительно, так как это требует высоких затрат ресурсов и времени, которыми исследователь не обладает. Поэтому, фармакоэкономическое исследование осуществляется на основе данных об отдельных определенным образом отобранных из всей целевой популяции небольших группах пациентов. В биостатистике целевая популяция называется генеральной совокупностью (Population), а выбранная из неё для непосредственного участия в исследовании группа – выборочной совокупностью или выборкой (Sample). Пациенты, составляющие генеральную совокупность или выборку, соответственно называются элементами генеральной или элементами выборки. На основании данных полученных по выборочной совокупности производят оценку всей целевой популяции – генеральной совокупности (задача аналитической биостатистики). Для корректной оценки генеральной совокупности выборка из неё должна обладать важным качеством – репрезентативностью (Sample representativeness) – свойством достоверно представлять генеральную совокупность, из которой она была отобрана.

После отбора из генеральной совокупности выборки производят коллекцию (сбор) данных по выборке. Первичные выборочные данные представляют собой неупорядоченный ряд значений того или иного признака, принимаемого каждым элементом выборки. Работа с таким массивом данных достаточно трудоёмка. Исследователя чаще всего не интересует значение признака для каждого элемента выборки отдельно. Задача, стоящая перед исследователем – произвести оценку всей выборки в целом. В биостатистике существует несколько способов (характеристик) для оценки признака выборки (или генеральной совокупности) в целом. Они подразделяются на точечные характеристики (measures of location) и характеристики вариации (measures of spread). Точечные характеристики измеряют центральную тенденцию признака в выборке или генеральной совокупности и включают:
• Моду (Moda)
• Медиану (Median)
• Среднюю (Mean)

К характеристикам вариации относятся:
• Размах колебаний (Range)
• Среднее линейное отклонение (Average linear deviation)
• Дисперсия (Dispersion)
• Стандартное отклонение (Standart deviation)
• Размах квартилей (Inter-quartile range)

Характеристики вариации необходимы для оценки распределения (группировки) значений признака относительно найденной центральной тенденции, или другими словами для определения надежности характеристики центральной тенденции.

Характеристики выборки принято называть статистиками, а характеристики генеральной совокупности – параметрами [2, 6, 7].

Характеристики центральной тенденции

Мода (Moda) – это наиболее часто встречающиеся значение признака в выборке (или генеральной совокупности).

Рисунок 1: Среднее количество дней нетрудоспособности при заболевании.

На рисунке 1 проиллюстрирована гипотетическая ситуация ретроспективного анализа некоторого заболевания. Предметом изучения было количество дней нетрудоспособности, вызванное данным заболеванием. Анализировались амбулаторные карты 11 пациентов. В результате выяснилось, что наиболее часто (в 4 случаях) пациенты были на больничном листе в течение 20 дней. Следовательно, значение 20 дней и будет модой данной выборки. Использование моды имеет смысл в тех случаях, когда целью исследование является нахождение и дальнейший анализ наиболее распространенного значения признака.

Медиана (Median) – ещё одна характеристика для оценки центральной тенденции. Она может применяться только для ранжированного (упорядоченного по убыванию или возрастанию) ряда значений признака. Медиана представляет собой центр построенного ряда значений признака, то есть справа от медианы и слева от медианы находится половина всех данных.

Рассмотрим нахождение медианы на основе данных предыдущего примера. Для этого сначала необходимо ранжировать собранные данные. После этого определяется центр данных, который и будет являться медианой. В данном примере медиана равна 15 (рис. 2).

Рисунок 2: Среднее количество дней нетрудоспособности при заболевании.

Медиану используют в тех случаях, когда значения исследуемого признака варьируются и сильно отличаются друг от друга. Следует отметить, что медиана используется в биостатистике довольно редко.

Наиболее часто для измерения центральной тенденции используется средняя арифметическая, или просто средняя. Средняя (Mean) – это отношение суммы всех значений, принимаемых признаком, к объёму анализируемой выборки (или генеральной совокупности). Средняя выборки (Sample mean) находится по формуле:

Средняя генеральной совокупности (Population mean) находится по формуле:

В случае предложенного выше примера средняя выборки находится следующим образом:

Характеристики вариации

После нахождения характеристики центральной тенденции признака в выборке (генеральной совокупности) возникает необходимость её оценки. Для этой цели существуют характеристики вариации.

Размах колебаний (Range) – простейшая оценка вариации, представляющая собой разность между максимальным и минимальным значением признака. Размах колебаний находится по формуле:

Размах колебаний используется как первичная грубая характеристика вариации признака, так как зависит лишь от двух значений признака – максимального и минимального.

Для более точной оценки вариации признака существует характеристика среднее линейное отклонение (Average linear deviation), которое определяется как средняя арифметическая из абсолютных значений отклонений от средней арифметической и находится по следующим формулам.

Среднее линейное отклонение генеральной совокупности (Population Average linear deviation):

Среднее линейное отклонение выборки (Sample Average linear deviation):

Ещё одной характеристикой вариации признака является дисперсия (Dispersion), которая определяется как средняя арифметическая квадратов отклонений от средней арифметической. Формулы для нахождения дисперсии выборки и дисперсии генеральной совокупности:

Дисперсия генеральной совокупности (Population dispersion):

Дисперсия выборки (Sample dispersion):

При нахождении дисперсии выборки уменьшение знаменателя на единицу представляет собой поправочный коэффициент представительности выборки. Наибольшую ценность при анализе данных имеет не дисперсия (так как получаемые при её расчете данные имеют абстрактную размерность «в квадрате»), а производная от неё характеристика – среднее квадратическое отклонение, или стандартное отклонение (Standart deviation), которое определяется как корень квадратный из дисперсии.

Формула расчета стандартного отклонения генеральной совокупности (Population standart deviation):

Формула расчета стандартного отклонения выборки (Sample standart deviation):

Стандартное отклонение, являясь основной характеристикой вариации признака, имеет широкое применение в статистическом анализе при проведении статистических тестов.

В зарубежных исследованиях можно встретить такую характеристику вариации как размах квартилей (Inter-quartile range) (также как и медиана эта характеристика применима только для упорядоченных (ранжированных) по возрастанию/убыванию данных). Под квартилями понимают значения, которые делят весь ранжированный ряд данных на четыре равные по численности группы. Размах квартилей определяется как разность третьего и первого квартилей:

При этом между первым и третьим квартилем находится 50% данных, а второй квартиль совпадает с медианой [2, 3, 7, 8].

Описательная статистика. Оценка рисков

Перед исследователями, проводящими фармакоэкономический анализ, часто стоит задача выбора показателя эффективности изучаемой медицинской технологии. Одним из наиболее распространенных в медицинской практики способов выражения эффективности является оценка влияния медицинской технологии на риск возникновения того или иного благоприятного/неблагоприятного состояния. Биостатистика предоставляет ряд показателей, связывающих медицинскую технологию и результат её применения. Также существует два подхода оценки рисков:
• Заболеваемость (Incidence)
• Распространенность (Prevalence)

При определении рисков по методике «заболеваемость» (Incidence), учитывается только новые случаи исходов, возникших за время наблюдения. Определение рисков по методике «распространенность» (Prevalence) подразумевает под собой учет всех случаев (и старых и новых) данного исхода в популяции за период наблюдения. Поэтому по методике «заболеваемость» обычно рассчитываются риски острых состояний, а методика «распространенность» применяется при оценке рисков хронических состояний [4, 7].

После определения подхода к оценке рисков, возникает задача корректного выбора показателя риска. К наиболее распространенным показателям оценки риска относятся:
• Относительный риск, или соотношение рисков (Risk Ratio)
• Соотношение шансов (Odds Ratio)
• Соотношение оценок (Rate Ratio);
• Снижение абсолютного риска (Absolute risk reduction)
• Число пациентов, нуждающихся в лечении (Number needed to treat)

Относительный риск, или соотношение рисков (Risk Ratio) определяется как отношение риска наступления исхода в группе применения данной медицинской технологии к риску наступления исхода в контрольной группе. При этом риск наступления/ненаступления исхода равен отношению числу испытаний в результате, которого исход наступил к общему числу испытаний для данной группы.

Соотношение шансов (дословный перевод от английского Odds Ratio) – это отношение шанса наступления исхода в группе применения данной медицинской технологии (воздействия данного фактора) к шансу наступления исхода в контрольной группе. В этом случае под шансом подразумевается отношение числа испытаний, в результате которых исход наступил к числу испытаний, в результате которых исход не наблюдался.

Для удобства перед определением показателей относительного риска и соотношения шансов составляют таблицу сопряженности, в которой отражаются все возможные исходы исследования по изучению данной медицинской технологии

Таблица 1 . Таблица сопряженности.

Состояние	Группа
	I	II
	Применения медицинской технологии или воздействия фактора	Контроль	Итого
Наступление исхода	A	B	E
Не наступление исхода	C	D	F
Итого	G	H	I

После построения таблицы сопряженности рассчитываются показатели риска.

Формулы расчета показателя «относительного риска» (Risk Ratio):
Риск наступления исхода в группе I:

Риск наступления исхода в группе II:

Относительный риск:

Формулы расчета показателя «отношения шансов» (Odds Ratio):
Шанс наступления исхода в группе I:

Шанс наступления исхода в группе II:

Отношение шансов:

После расчета показателей риска, становится возможным определить влияние исследуемой медицинской технологии на вероятность наступления исхода. Интерпретация полученных значений показателей риска представлена в таблице 2.

Таблица 2. Интерпретация показателей риска.

R (OR) = 1	Риск наступления исхода в исследуемой и контрольной группах равнозначный
RR (OR) < 1	Риск наступления исхода в исследуемой группе ниже, чем в контрольной группе
RR (OR) > 1	Риск наступления исхода в исследуемой группе выше, чем в контрольной группе

Показатель соотношение оценок (дословный перевод английского Rate Ratio) используется в случае сравнения наступления данного исхода у двух групп с различными периодами наблюдения. Соотношение оценок:

Выбор того или иного показателя риска определяется особенностями проводимого исследования. Показатель «соотношение шансов» (Odds Ratio) обычно применяется в исследованиях по типу «случай-контроль» (Case-control study) с постоянной популяцией и редкими исходами (вероятность наступления меньше 10% (Rare endpoint)). Показатель «относительный риск» (Risk Ratio) используется в когортных исследованиях (Cohort study) с постоянной популяцией и часто встречающимися исходами (Common endpoint). В случае когортного исследования распространенного состояния у групп с различными периодами наблюдения применяется показатель «соотношения оценок» (Rate Ratio)
(табл. 3) [10].

Таблица 3. Выбор показателя риска.

Условия	Показатель
Условия	Odds ratio	Risk Ratio	Rate Ratio
Тип исследования	Исследования по типу «случай-контроль»	Когортное исследование	Когортное исследование
Характер состояния	Редкое состояние (вероятность наступления меньше 10%)	Распространенное состояние	Распространенное состояние
Характер получаемых данных	Постоянная популяция	Постоянная популяция	Различный период наблюдения групп

Снижение абсолютного риска (Absolute risk reduction) определяется как разность рисков анализируемых исходов между исследуемой группой и группой контроля:

На основе показателя «снижение абсолютно риска» вычисляется другой часто применяемый показатель – число пациентов, которых необходимо пролечить (дословный перевод с английского Number needed to treat (NNT) ). NNT показывает, сколько пациентов надо пролечить, чтобы избежать одного неблагоприятного исхода, и рассчитывается как величина, обратная абсолютному снижению риска [1, 5, 6, 7]. Число пациентов, которых необходимо пролечить:

Пример построения таблицы сопряженности и расчета основных показателей оценки риска

В результате проведенного ретроспективного исследования по изучению связи риска смертности при инфаркте миокарда (ИМ) и назначения лекарственного средства стрептокиназа было установлено, что из 8592 пациентов, получавших стрептокиназу скончался 791 человек, а в контрольной группе численностью 8595 (не получавших стрептокиназу) умерли 1029 человек [7].

Таблица 4. Пример построения таблицы сопряженности в исследовании ЛС стрептокиназа.

Состояние	Группа
	I	II
	Группа, получавшая стрептокиназу	Группа контроля	Итого
Наступление ИМ	791	1029	1820
Не наступление ИМ	8592 – 791 = 7801	8595 – 1029 = 7566	15367
Итого	8592	8595	17187

Таблица 5. Расчет относительного риска (Risk Ratio).

Риск ИМ в группе, получавшей стрептокиназу	RiskI =	791/8592	= 0.0921
Риск ИМ в группе контроля	RiskII =	1029/8595	= 0.1197
Относительный риск	Risk Ratio (RR) =	0.0921/0.1197	= 0.7693

Таблица 6. Расчет отношения шансов (Odds Ratio).

Шанс ИМ в группе, получавшей стрептокиназу	OddsI =	791/7801	= 0.1014
Шанс ИМ в группе контроля	OddsII =	1029/7566	= 0.1360
Отношение шансов	Odds Ratio (OR) =	0.1014/0.1360	= 0.7456

Таблица 7. Расчет абсолютного снижения риска (Absolute risk reduction (ARR) ) и числа пациентов, которых необходимо пролечить (Number needed to treat (NTT) ).

Абсолютное снижение риска	Absolute risk Reduction (ARR) =	0.1197-0.0921	= 0.0276%
Числа пациентов, которых необходимо пролечить	Number needed to treat (NTT) =	1/0.0276	= 36 человек

После проведенной оценки рисков на основе данных исследования были получены следующие результаты:

Относительный риск ИМ при проведении фармакотерапии стрептокиназой составил 0.7693, отношение шансов – 0.7456. На основании полученных данных можно сделать вывод, что риск ИМ при проведении лечения стрептокиназой ниже, чем при его отсутствии (так как RR и OR меньше 1). Для того чтобы избежать одного случая ИМ необходимо пролечить 36 человек.

Знания описательной биостатистики помогают читать и понимать статистический аппарат проведенных исследований при осуществлении поиска информации, что существенно поднимает эффективность и качество проведения информационного поиска и использования обнаруженных данных в своём исследовании.

Литература

1. Краткий словарь терминов // Международный журнал медицинской практики. – издательство Медиа Сфера. – 2005. – №1.
2. Сулицкий В. Н. Методы статистического анализа в управлении: Учеб. пособие. – М.: Дело, 2002. – 520 с.
3. Таха, Хэмди, А. Введение в исследование операций, 6-е издание.: Пер. с англ. – М.: Издательский дом «Вильямс», 2001. – 912 с.
4. B. Roe and H. Doll. Prevalence of urinary incontinence and its relationship with health status. Crown copyright, Journal of Clinical Nursing 9(2):178-187, March 2000.
5. Chap. T. Le. Introductory Biostatistics. – New Jersey.: John Wiley & Sons, 2003. – 549 c.
6. Harvey Motulsky “Intuitive Biostatistics". – Oxford University Press, USA, 1995 – 408 с.
7. Introduction to biostatistics: Textbook. Vienna School of Clinical Research. 2009.
8. http://en.wikipedia.org/wiki/Biostatistics
9. http://ru.wikipedia.org/wiki/Биостатистика
10. http://www.medtran.ru/rus/trials/clinicaltrials.htm

Опубликовано: Фармакоэкономика. 2009; N2: c.9-14

В.Г. Серпик

Контакт: Серпик В.Г. тел.: 8-915-439-19-73 e-mail: rbdfkc@gmail.com

THEORETICAL BASIS OF BIOSTATISTICS FOR PHARMACOECONOMIC RESEARCHERS

Serpik V. G.

Laboratory of pharmacoeconomics, Moscow medical academy named after I.M. Sechenov, Moscow

Conducting pharmacoeconomic study usually includes search information. Well done search information provides quality for whole further pharamacoeconomic study. Thus the need for formal data collection and analysis is existed to improve quality of conducting search information. Biostatistics is a statistic discipline and allows to conduct quantity-based formal data analysis. Knowledge biostatistic theory and biostatistic terminology (including Russian and English terms correlation) represent itself an important theoretical basis for conducting high-quality pharamacoeconomic studies.

Резюме:

При проведении фармакоэкономических исследований обязательным этапом является сбор (поиск) данных. Корректно произведенный поиск информации обеспечивает качество всего дальнейшего исследования. Поэтому возникает необходимость формализованного сбора и анализа данных, обеспечивающих качество проведения информационного поиска. Биостатистика, являясь дисциплиной науки статистики, позволяет произвести количественно обоснованный формализованный анализ данных. Знание основ биостатистики, терминологии, применяемой в ней (в том числе соотнесения названий принятых в английском и русском языках между собой), представляют собой важную теоретическую основу для проведения качественных фармакоэкономических исследований.

Ключевые слова: Фармакоэкономическое исследование, Биостатистика, Теоретические основы биостатистики, Терминология биостатистики

Лаборатория фармакоэкономики, Московская медицинская академия им. И.М. Сеченова, г. Москва

Теоретические основы биостатистики при проведении фармакоэкономических исследований

Рекомендации по разработке и проведению внешне контролируемых исследований лекарственных средств и биологических препаратов

Этическая экспертиза исследований реальной клинической практики

Руководство для комитетов по этике «Этическая экспертиза биомедицинских исследований»

Этическая экспертиза биомедицинских исследований: руководство для комитетов по этике

Результаты исследований дурвалумаба

Обзор исследований реальной клинической практики

Мифы о проведении академических клинических исследований