Толковый словарь англоязычных терминов
- Библиотека /
-
2445
А
-level – -уровень: пороговый уровень статистической значимости; вероятность ошибочно отклонить нулевую гипотезу. Чем меньше -уровень, тем меньше риск совершения этой ошибки. Устанавливается исследователем произвольно (обычно принимается равным 0,05, 0,01 или 0,001). См. также -level.
Синонимы: -mistake – -ошибка; first level mistake – ошибка первого рода; probability of overdiagnosis – вероятность гипердиагностики; significance level -уровень значимости ; type one error – ошибка первого рода.
Absolute risk reduction, ARR - абсолютное снижение риска: разность частоты исходов в контрольной группе (CER) и частоты исходов в экспериментальной группе (EER):
ARR=CER-EER.
Absolute value of – абсолютное значение, абсолютная величина (модуль) числа : неотрицательное число, обозначаемое и определяемое следующим образом:
если , то ,
если , то .
Actuarial method – актуарный метод: метод анализа времени до наступления изучаемого события (исхода) с помощью таблиц дожития.
Accuracy of a diagnostic test – точность диагностического теста: доля правильных результатов теста в общем количестве результатов. Иначе: сумма истинноположительных и истинноотрицательных результатов теста, делённая на общее количество результатов.
Alternative – альтернатива: см. alternative hypothesis.
Alternative hypothesis – альтернативная гипотеза, альтернатива: предположение, принимаемое в случае отклонения нулевой гипотезы. Как правило, альтернативная гипотеза — это единственное утверждение, являющееся логическим отрицанием нулевой гипотезы. Часто альтернативная гипотеза означает наличие связи между изучаемыми переменными.
Пример. Нулевая гипотеза – связи между признаками нет; альтернатива: связь между признаками есть.
Пример. Нулевая гипотеза – ; двусторонняя альтернатива – ; односторонняя альтернатива – . См. также single tail test, double tail test.
Analysis of time before an understudying outcome – анализ времени до наступления изучаемого исхода: статистические процедуры для анализа времени между точкой включения участника в исследование и определенным изучаемым исходом (например, выздоровлением).
Синоним: survival analysis – анализ выживаемости.
Analysis of Variance, ANOVA – дисперсионный анализ: метод многомерного статистического анализа, целью которого является проверка значимости различия между средними в группах с помощью сравнения дисперсий.
Дисперсионный анализ является наиболее общим методом сравнения средних, поскольку позволяет выявлять значимые различия средних в нескольких группах.
Основой дисперсионного анализа является критерий Фишера (обобщение t-критерия на случай сравнения более двух групп).
ANOVA: см. Analysis of Variance.
AR: см. attributive risk.
Area under curve, AUC – площадь под кривой: удобный способ обобщения информации, полученной из серий последовательных измерений, например, при длительном повторном обследовании пациентов или при изучении кривых «доза-эффект». Вычисляется путём суммирования площадей под кривой между каждой парой последовательных наблюдений.
Area under ROC-curve, AUROC – площадь под ROC-кривой: площадь под характеристической кривой диагностического теста. Изменяется в пределах от 0,5 (абсолютно неинформативный тест) до 1 (идеально точный тест). Изменяется в пределах от 0,5 (абсолютно неинформативный тест) до 1 (идеально точный тест). См. также ROC-curve.
ARR: см. absolute risk reduction.
Association – ассоциация: более обширный термин, чем корреляция, т.к. применятся для поиска не только линейной связи между переменными. Обычно применяется при анализе взаимосвязи качественных признаков.
Assurance – достоверность: степень, с которой изменение отражает истинное значение измеряемого признака. Достоверность исследования (внутренняя обоснованность исследования) определяется тем, в какой мере полученные результаты справедливы в отношении данной выборки.
Asymptotic distribution – асимптотическое распределение: распределение в предположении, что объём выборки стремится к бесконечности. Асимптотическое распределение статистики есть распределение в ситуации, когда объём выборки становится бесконечным.
Хотя в жизни бесконечный объём выборки никогда не достигается, при заданном конечном объёме выборки можно рассматривать асимптотическое распределение как приближение действительного распределения. Такое приближение обычно улучшается с ростом объёма выборки.
Синоним: limiting distribution – предельное распределение.
Attribute data – качественные данные: номинальные (nominal data) и порядковые (ordered data) данные, которые отражают условные коды неизмеряемых категорий или условную степень выраженности признака.
Пример. Степень ожога (1,2,3 или 4) – порядковая качественная переменная, название применяемого для лечения препарата – порядковая номинальная переменная.
Синоним: qualitative data
Attributive risk (attributable risk, AR) – абсолютное увеличение риска: дополнительный риск возникновения неблагоприятного исхода (например, рецидива заболевания) в связи с наличием определенной характеристики (фактора риска) у объекта исследования.
Это та часть риска развития исхода, которая связана с данным фактором риска, объясняется им и может быть устранена, если этот фактор риска устранить. Абсолютное увеличение риска – это разность частоты исходов в группе с фактором риска (EER) и частоты исходов в контрольной группе (СER):
AR=EER-CER.
AUC: см. area under curve.
AUROC: см. area under ROC-curve.
Average rank – средний ранг: пусть имеется выборка из наблюдений . Упорядочим выборку по возрастанию: . Предположим, что наблюдение имеет ту же величину, что и (совпадающие с ним) некоторые из остальных наблюдений.
Средний ранг в ранжировке наблюдений есть среднее арифметическое из рангов, которые были бы назначены и остальным значениям , таким же, что и , если бы равные наблюдения оказались различными.
Пример. Ранжируем выборку из пяти наблюдений (11,12,14,14,14). Значение «14» встречается в ней 3 раза. Если бы равные наблюдения мы считали различными, то набор рангов для этой выборки был бы (1,2,3,4,5). Поскольку все значения «14» равноправны, присваиваем им усреднённый ранг (3+4+5)/3=4 и получаем набор рангов (1,2,4,4,4).
Синоним: midrank – средний ранг, срединный ранг.
В
-level – -уровень: вероятность ошибочного принятия (не отклонения!) нулевой гипотезы об отсутствии различий. Значение -уровня в публикациях обычно не приводится. Значение -уровня обычно устанавливается равным 0,2 или 0,1. Величина () – статистическая мощность теста (вероятность выявления разницы между группами при условии, что она действительно существует).
Если выборки малы, то статистическая мощность может быть низкой. Для больших выборок статистические тесты имеют большую статистическую мощность; это означает, что истинные различия между группами выявляются с большей вероятностью. Cм. также: -level.
Синонимы: -mistake – -ошибка; second level mistake; type two error – ошибка второго рода.
Bar chart: см. histogram.
Bayesian statistics – байесовская статистика: статистика, основанная на теореме Томаса Байеса, описывающей математическую взаимосвязь априорной (предтестовой), условной и апостериорной (послетестовой) вероятностей. Используется главным образом в оценке диагностических тестов.
Bernoulli trial – испытание (по схеме) Бернулли: испытание Бернулли – эксперимент только с двумя возможными исходами.
Пример. Результат диагностического теста (исходы «болен» и «здоров»).
Bimodal distribution – бимодальное распределение: распределение, имеющее две моды (т.е. два "максимума" плотности распределения).
Binary data – бинарные данные: данные, выражаемые только двумя допустимыми альтернативными значениями (например; «есть» - «нет», «здоров» - «болен»).
Синоним: dichotomic data – дихотомические данные.
Bivariate distribution function – двумерная функция распределения: двумерная функция распределения пары случайных величин определяется для каждой пары чисел как вероятность исхода
Синонимы: cumulative bivariate distribution function – интегральная двумерная функция распределения; bivariate distribution – двумерное распределение.
Blinded method (blinded trial) слепое исследование: клиническое исследование, в котором либо одна, либо все стороны (клиницисты, пациенты, медицинский персонал, статистики и т. д.) не владеют информацией о распределении пациентов по группам изучаемого вмешательства.
Термин «двойное слепое исследование» (double-blinded trial) обычно употребляется в отношении исследований, ослеплённых со стороны и пациентов, и медицинского персонала. Для исключения двусмысленности всегда полезно уточнять, какая из сторон ослеплена.
Blinding – ослепление: метод, используемый в исследованиях, для того, чтобы устранить систематическую ошибку оценки. Суть метода: предотвращение осведомлённости больных, медицинского персонала, статистиков о том, какие из наблюдений к какой из исследуемых групп относятся (экспериментальной либо контрольной).
Синоним: из соображений деонтологии вместо термина "ослепление" часто используют термин маскирование (masking).
Bonferroni correction – поправка Бонферрони: один из способов преодоления проблемы множественных (многократных) сравнений средних. Применяется как поправка к уровню значимости, рассчитанному с помощью критерия парных сравнений (например, t-критерия), в случае, если сравниваются k>2 выборок.
Box-and-whiskers plot – диаграмма размаха, график «ящики-усы»: вид графического отображения данных, когда диапазоны или характеристики распределения значений переменной изображаются отдельно для групп наблюдений, заданных значениями другой, категориальной (группирующей), переменной.
Для каждой группы вычисляется статистика центра (медиана или среднее) и статистики диапазона (например, квартили или стандартные отклонения), и выбранные значения изображаются на диаграмме размаха. Также могут быть изображены точки выбросов (outliers) .
Визуально анализируя диаграмму размаха, можно получить представление об изменчивости переменной. На данной диаграмме размаха отмечены три выброса – два «слишком больших» значения и одно «слишком маленькое». Например, значение Тромбоциты = 73 оказывается выбросом для группы мужчин, но при рассмотрении группы женщин это наблюдение оказывается «нормальным».
Сравнение групп, изображенных на диаграмме размаха, производится с помощью критериев парных сравнений (t-критерий, критерий Манна-Уитни и др.) в случае двух групп, и с помощью дисперсионного анализа (ANOVA) или введения поправки Бонферрони в случае нескольких (более двух) групп.
Синоним: box plot.
C
CAT: см. critically appraised topic.
Case-control study – исследование случай-контроль: в исследование включаются пациенты, уже имеющие интересующий исход (случай) – иногда такую группу называют основной, а в контрольную группу включаются пациенты, не имеющие такого исхода. Затем анализируется анамнез на предмет наличия или отсутствия в нем некоего фактора, предположительно приводящего к развитию исхода. См. также control group.
Синоним: control group study
Case series – серия случаев: исследование серии пациентов, имеющих интересующий исход (интересующее состояние). Контрольная группа в таком исследовании отсутствует.
Censored data – цензурированные данные, неполные данные: один из типов данных, используемых в анализе времени до наступления исхода (анализе выживаемости). Цензурированные наблюдения содержат неполную информацию: например, «пациент A был жив, по крайней мере, 4 месяца после операции, затем он был переведён в другую клинику и контакт с ним был потерян». Сравните с полными данными: «пациент B прожил 17 месяцев после операции».
Синоним: trimmed data.
CER: см. control event rate.
Characteristic curve of diagnostic test – характеристическая кривая диагностического теста: график, характеризующий диагностическую точность теста и строящийся в координатах (чувствительность; единица минус специфичность).
Синоним: ROC-curve – ROC-кривая.
Characteristic – признак: характеристика объекта исследования (наблюдения). Различают качественные (attribute, qualitative) и количественные (quantitative) признаки. См. также: attribute data, quantitative data.
Синоним: variable – переменная.
Clinical practice guideline - клиническое руководство: систематически разработанные положения, помогающие практическому врачу и его пациенту, в условиях специфических клинических обстоятельств, принять решение об адекватной медицинской помощи.
Cluster analysis (clustering) – кластерный анализ (кластеризация): совокупность методов многомерного статистического анализа, включающая в себя набор различных алгоритмов классификации объектов. Классификация состоит в разбиении заданной выборки объектов (пациентов, признаков и др.) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. См. также: multivariate analysis.
Cochrane collaboration – Кохрановское сотрудничество: всемирная ассоциация, организующая систематические обзоры в области доказательной медицины. См. также: meta-analysis - мета-анализ.
Сoefficient of variation – коэффициент вариации: см. variation coefficient.
Cohort – когорта: группа участников исследования, объединенных каким-либо общим признаком на момент формирования группы, и исследуемая на протяжении длительного периода времени.
Пример. Когорта женщин, родившихся в 1950 году; когорта водителей грузовиков в возрасте от 30 до 40 лет, являющихся курильщиками.
Cohort study – когортное исследование: состоит в наборе двух групп (когорт) пациентов, одна из которых подвергается изучаемому вмешательству, а другая – нет. Далее эти когорты прослеживаются на предмет выявления интересующих исходов.
Например, из популяции отбираются две или более группы (когорты) людей, изначально не имеющих изучаемого заболевания (исхода). Отличаются группы между собой тем, что на одну группу людей воздействует изучаемый фактор риска (например, курение), а на другую — нет. После этого они сравниваются между собой на предмет появления у них данного исхода. Таким образом можно понять, как изучаемый фактор риска связан с последующими исходами (заболеваниями).
Conditional distribution function – условная функция распределения: условная функция распределения случайной величины обусловленная наступлением некоторого события выражает для любого числа условную вероятность события , другими словами, события " меньше ".
Эти вероятности условны, в том смысле, что они вычисляются в предположении, что событие наступило.
Обычно используется обозначение , показывающее, что это условная функция распределения,
заданная при осуществлении события . См. также: distribution function – функция распределения.
Синонимы: conditional distribution – условное распределение; conditional cumulative
distribution function – условная интегральная функция распределения.
Confidence coefficient – коэффициент доверия: коэффициент доверия для доверительного интервала параметра есть вероятность того, что этот интервал «накроет» неизвестное (истинное) значение . Чаще всего в качестве коэффициента доверия выбирают 0,95. См. также: confidence interval – доверительный интервал.
Синоним: coverage probability – вероятность накрытия.
Confidence interval, CI – доверительный интервал: некоторый двусторонний доверительный интервал для неизвестного параметра есть интервал, обладающий тем свойством, что с вероятностью он содержит истинное неизвестное значение параметра .
Величина характеризует неточность измерений, от неё зависит ширина доверительного интервала. Обычно в отчетах используют 95%-доверительный интервал: диапазон значений, внутри которого (с вероятностью 95%) лежат истинные значения (изучаемого показателя) всей популяции.
Пример. Запись «RR=1,71; 95 % CI 1,01 to 2,89» означает, что истинное значение отношения рисков (RR) с вероятностью 95% лежит в промежутке от 1,01 до 2,89 (это интервальная оценка отношения рисков). Точечная оценка отношения рисков: RR=1,71. Обычно в прикладных исследованиях приводится как точечная, так и интервальная оценка.
Confounding variable – смешанная величина: величина, не являющаяся объектом исследования, которая, однако, может повлиять на результат исследования.
Например, исследователь пытается выяснить, влияет ли пол на риск развития рака лёгких. Смешанной величиной в таком исследовании может являться фактор курения.
Синоним : interfering factor – мешающий, вмешивающийся фактор.
Contingency table – таблица сопряженности: таблица абсолютных частот (количества) наблюдений, столбцы которой соответствуют значениям одного признака, а строки – значениям другого признака (в случае двумерной таблицы сопряженности).
Значения абсолютных частот располагаются в клетках на пересечении рядов и колонок. Обычно используется для выявления зависимости между категориальными переменными.
Continuous data – непрерывные данные: количественные данные, принимающие значения на непрерывной шкале значений. Альтернативой непрерывным данным служат дискретные данные. См. также: quantitative data.
Continuous random variable – непрерывная случайная величина: случайная величина называется непрерывной, если для всех чисел Это всё равно, что потребовать, чтобы вероятность принять любое заданное числовое значение, равнялась нулю: .
Равенство вероятности события нулю вовсе не означает невозможности этого события. Когда говорят, что , то имеется в виду, что в длинной серии повторений опыта относительная частота событий будет весьма близка к нулю (если не равна ему).
Control event rate, CER – контрольная частота исходов: частота исходов в контрольной группе пациентов.
Control group – контрольная группа: выделенная группа при проведении клинических исследований. Как правило, пациенты контрольной группы не получают лекарство (плацебо) или к ним применяется традиционный метод лечения.
Контрольная группа служит базой при сравнении результатов лечения. Различают контроль исторический (historical control group) и контроль параллельный (parallel control group).
Controlled study – контролируемое исследование: исследование, в котором данные собираются от основной (экспериментальной) и контрольной групп.
Correlation – корреляция: статистическая связь двух переменных (количественных или порядковых), показывающая, что большему значению одной величины в определенной части случаев соответствует большее (в случае положительной, прямой корреляции) или меньшее (в случае отрицательной, обратной корреляции) значение другой величины.
Correlation coefficient – коэффициент корреляции: численная мера силы и направления связи между двумя количественными или качественными порядковыми признаками. Коэффициент корреляции может принимать значения от −1 до +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0 — связь слабая или вообще отсутствует.
Различают параметрические (Пирсона) и непараметрические (Спирмена, Кендалла, тау) способы подсчёта коэффициента корреляции. Для обозначения параметрического коэффициента корреляции Пирсона обычно используется обозначение , для рангового коэффициента корреляции Спирмена – обозначение .
Сorrelation analysis – корреляционный анализ: метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей. Корреляционный анализ применяется только для анализа связи количественных и/или качественных порядковых признаков.
Correlative test – парный тест: тест для сопоставления связанных выборок. См. также: paired samples.
Covariance – ковариация, смешанный второй момент: пусть - две случайные величины. Ковариация определяется как математическое ожидание случайной величины при условии его существования. Ковариация случайных величин обозначается По сути, ковариация показывает как сильно связаны между собой случайные величины (переменные).
Coverage probability – вероятность накрытия: см. confidence coefficient.
Critical level – критический уровень: см. level of statistic.
Critical region – критическая область проверки гипотезы: область тех выборочных значений корреляции, которые приводят к отклонению нулевой гипотезы. Обычно критическая область выбирается так, чтобы попадание в неё статистики критерия имело;
а) низкую вероятность, когда верна нулевая гипотеза
б) высокую вероятность, когда верна альтернативная гипотеза.
Назначение уровня значимости, равного , означает вероятность попадания статистики критерия в критическую область при верной нулевой гипотезе.
Синоним: rejection region – область отклонения.
Critically appraised topic (CAT): краткое изложение статьи, целью которого является грамотно ответить на конкретный клинический вопрос.
Crossover (cross-over) study design – перекрестное планирование (дизайн) клинического исследования: последовательное проведение двух или более видов терапии (в определённой заранее или случайной последовательности) в одной и той же группе пациентов.
Cumulative distribution function – интегральная функция распределения: см. distribution function.
D
Decision analysis – анализ решений: использование точных, количественных методов для принятия решений в условиях неопределённости.
Density function – плотность распределения, плотность вероятности кумулятивная функция распределения: см. probability density function.
Depending samples – зависимые выборки: см. paired samples.
Dichotomic data – дихотомические данные: см. binary data.
Discrete data – дискретные данные: количественные данные, выражаемые ограниченным набором значений (обычно целыми числами). Альтернатива непрерывным данным. Например, количество беременностей у женщины определённой возрастной группы – дискретный показатель. См. также: quantitative data – количественные данные.
Discrete random variable – дискретная случайная величина: случайная величина, множество возможных значений которой конечно. См. также: random variable.
Descriptive statistics – описательные статистики: параметры выборки, описывающие набор данных: например, среднее, медиана, дисперсия, стандартное отклонение.
Descriptive analysis – описательный анализ: общее название статистических процедур, целью которых является получение обобщённой информации о данных. Как правило, описательный анализ является первым этапом статистической обработки данных статистического исследования.. См. также: descriptive statistics.
Discriminant analysis – дискриминантный анализ: многофакторный статистический метод построения моделей и выявления комбинаций наиболее информативных признаков, характеризующих номинальные категории (группы). Наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют выборку на группы.
Пример. Врач-исследователь может регистрировать различные переменные, относящиеся к состоянию больного, чтобы выяснить, какие признаки лучше показывают, что пациент, вероятно, выздоровел полностью, частично или совсем не выздоровел.
См. также: multivariate analysis.
Dispersion – рассеяние, разброс, дисперсия: мера разброса данной случайной величины, т. е. её отклонения от математического ожидания. Обозначается в русской литературе и (от англ. variance) в зарубежной. Также часто употребляется обозначение или . Квадратный корень из дисперсии называется стандартным отклонением. , или стандартным отклонением. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.
Синонимы: variability, variance, variation.
Distribution-free confidence interval – свободный от распределения доверительный интервал: случайный интервал при известных допущениях относительно соответствующей совокупности (совокупностей), из которой получены наблюдения, называется свободным от распределения доверительным интервалом с коэффициентом доверия для параметра , если, при соответствующих допущениях, вероятность того, что этот случайный интервал содержит истинное значение , равна вне зависимости от свойств генеральной совокупности (совокупностей).
Distribution-free test – свободный от распределения критерий: статистический критерий, при выполнении известных допущений относительно соответствующей генеральной совокупности, из которой извлечена выборка, называется свободным от распределения критерием размера для гипотезы , если, при упомянутых допущениях, вероятность отвергнуть , когда она верна, равна , независимо от распределения соответствующей генеральной совокупности.
Синоним: nonparametric test – непараметрический критерий.
Distribution-free method: см. nonparametric statistical methods.
Distribution function – функция распределения: функция распределения случайной величины, обозначенной , определенная для всех , определяет вероятность исхода или, другими словами, события: «X меньше x» .
Как правило, для функции распределения используется обозначение . То есть, согласно определению, . Если - случайная величина из совокупности , то задание для всех полностью характеризует совокупность .
Синоним: cumulative distribution function – интегральная функция распределения.
Distribution of a characteristic in data – распределение признака по выборке: набор частот упорядоченных значений признака на выборке. Обычно представляется в виде графика (по оси абсцисс – интервалы значений признака, по оси ординат – частоты упорядоченных значений признака).
Double-blinded (method, trial) : двойное слепое исследование. См. также: blinded method.
Double tail test, double-tailed test – двусторонний критерий: условие проверки гипотез, определяемое до сбора данных. Двусторонний тест не предполагает, что заранее известно направление смещения значения анализируемого параметра одной группы по отношению к другой. Двусторонний тест носит более универсальный характер, чем односторонний. Он также более консервативен по сравнению с односторонним тестом. См. также single tail test.
Синоним: two-tailed test.
E
EER: см. experimental event rate.
Effect size:величина эффекта.
Empirical distribution function – эмпирическая функция распределения: пусть случайная выборка из совокупности . Эмпирическая функция распределения, определяется для любого по формуле:
Эмпирическую функцию распределения можно рассматривать как приблизительную оценку истинной функции распределения случайной величины . Точность такого приближения обычно улучшается с ростом объёма выборки.
Синоним: sample distribution function – выборочная функция распределения, функция распределения выборки.
Equivalent tests – эквивалентные статистические критерии: два статистических критерия (скажем, критерии I и II) проверки гипотезы эквивалентны, если для любой возможной выборки решение, принятое с помощью одного из критериев, согласуется с решением, принятым с помощью другого критерия. А именно: критерии I и II эквивалентны, если критерий I отвергает тогда и только тогда, когда критерий II тоже отвергает , и критерий I принимает тогда и только тогда, когда и критерий II принимает .
ER: см. event rate.
Estimate – оценка: значение параметра распределения на выборке, которое отражает соответствующее истинное значение этого параметра в популяции. Точечная оценка (point estimate) – одно число (например, среднее). Интервальная оценка (interval estimate) – интервал значений признака (например, доверительный интервал (confidence interval)).
Например, исследователь хочет узнать среднее артериальное давление 50-летних индейцев (истинное среднее). Для этого он берёт группу из 50 человек и вычисляет среднее арифметическое (точечную оценку истинного среднего). Вычисленное значение отличается от истинного среднего. Величину этого отличия характеризует интервальная оценка (доверительный интервал). Cм. также: estimator – оценочная функция.
Синонимы: estimator.
Estimator – оценка, статистика, используемая в качестве оценки, оценочная функция: величина, подсчитанная по специальной формуле, которая на основе наблюдений выборки оценивает (даёт приближённое значение) истинную величину некоторого параметра выборки. Точечная оценка – одно число, интервальная оценка – интервал значений признака. См. также assessment.
Синонимы: estimate (point estimator – точечная оценка или точечная оценочная функция, interval estimator – интервальная оценка).
Event – событие: клинический исход, наблюдаемый в исследовании. Например, возникновение рецидива, наступление выздоровления, летальный исход.
Event rate, ER – частота событий: отношение количества событий (исходов) в группе к количеству наблюдений в группе. Например, если событие наблюдалось в 38 случаях из 100, то ER=0,38. Термины CER и EER, описывают эту частоту в контрольной и экспериментальной группах, соответственно.
Evidence-based health care – научно-обоснованная система здравоохранения: применение принципов научно-обоснованной медицинской деятельности (доказательной медицины) ко всем аспектам здравоохранения; включая материально-техническое оснащение и управление.
Evidence-based medicine – доказательная медицина: концепция использования в медицинской практике научно (статистически) обоснованных фактов, полученных в ходе корректно проведенных клинических исследований. См. также: Cochrane collaboration.
Execution error – «роковая» ошибка: см. gross error.
Expectation (of a continuous random variable) – математическое ожидание (непрерывной случайной величины): пусть – непрерывная случайная величина с плотностью распределения . Тогда математическое ожидание – это площадь между кривой и горизонтальной осью. Для – отрицательная функция, и соответствующая площадь ниже оси вычитается из части, относящейся к Как правило, для математического ожидания используется обозначение или . По сути, математическое ожидание это математическая формализация понятия среднего значения для количественного непрерывного признака.
Синонимы: mean of , mean of the population, first moment of - среднее
значение , среднее по совокупности , первый момент .
Expectation (of a discrete random variable) – математическое ожидание (дискретной случайной величины): пусть – дискретная случайная величина, принимающая значения с вероятностями Тогда математическое ожидание равно . Как правило, для математического ожидания используется обозначение или . По сути, математическое ожидание это математическая формализация понятия среднего значения для количественного дискретного признака.
Синонимы: mean of , mean of the population, first moment of - среднее
значение , среднее по совокупности , первый момент .
Experimental event rate, EER – экспериментальная частота исходов: частота исходов в экспериментальной группе пациентов.
Experimentwise error rate – вероятность ошибочного решения: рассмотрим метод множественных сравнений, включающий частных решений. Пусть обозначает число неправильных решений. Вероятность ошибочного решения для такого метода множественных сравнений определяется как . Вероятность ошибочного решения – это вероятность события при нулевой гипотезе. Таким образом, для метода множественных сравнений вероятность ошибочного решения равна , или . См. также multiple comparison procedure – метод множественных сравнений.
Синоним: probability error rate – вероятная частота ошибки, вероятная доля ошибок.
F
File drawer problem – публикационное смещение: см. publication bias.
Factor analysis – факторный анализ: многофакторный статистический метод, главными целями которого являются:
1) сокращение числа переменных (редукция данных),
2) определение структуры взаимосвязей между переменными, т.е. классификация переменных.
Обычно факторный анализ применяется для перехода от большого числа взаимосвязанных переменных (признаков), описывающих выборку, к малому числу переменных. См. также: multivariate analysis.
Failure rate – интенсивность отказов: соотношение числа отказов в единицу времени к среднему числу наблюдений, работающих без отказов в данный отрезок времени при условии, что отказавшие наблюдения не восстанавливаются и не заменяются исправными. В качестве отказа можно понимать любой исход: например, возникновение рецидива, наступление выздоровления, летальный исход.
Forest plot: изображение результатов индивидуальных исследований в мета-анализе в виде диаграммы, состоящей из серии горизонтальных отрезков, отображающих оцененные в этих исследованиях доверительные интервалы исследуемой величины. См. также: meta-analysis (мета-анализ).
Frequency – частота: см. relative frequency.
Frequency plot: см. histogram.
Funnel plot: графическое изображение результатов индивидуальных исследований в мета-анализе с целью показать, повлияло ли публикационное смещение (см. publication bias) на результаты мета-анализа.
G
Gaussian distribution – Гауссово распределение , нормальное распределение: см. normal distribution.
Gross error – грубая ошибка: расхождение (большое) между тем, что должно было быть (при правильном выполнении исследования), и тем, что произошло на самом деле.
Например, если мы перепутали десятичные знаки при записи наблюдений, то тем самым мы совершили грубую ошибку. Если мы включили в выборку из одной совокупности наблюдение из другой совокупности, то мы сделали грубую ошибку.
В общем случае невозможно выделить грубую ошибку только на основе статистических методов.
Синоним: execution error – «роковая» ошибка.
H
Hazard function – функция риска: вероятность наступления критического исхода (смерти, отказа и др.) на временном интервале , при условии, что в момент критическое событие ещё не произошло. dt – ширина интервала времени (как правило, выбирается достаточно малой).
Heterogeneity – неоднородность, гетерогенность: в клинических исследованиях этот термин чаще всего означает несовместимость между исследованиями, включёнными в систематический обзор: клиническая неоднородность (исследования различны клинически), или статистическая неоднородность (один результат отличается от другого).
В статистике термин встречается в основном в сочетании гетерогенная выборка, означающее неоднородную выборку, т.е. состоящую из неоднородных объектов (например, выборки из городского и сельского населения, генетически гетерогенные выборки мух и т. п.). Употребляется также понятие степень гетерогенности выборки.
Нeterogeneous sample – гетерогенная выборка: неоднородная выборка; выборка, состоящая из неоднородных объектов (например, выборки из городского и сельского населения, «генетически гетерогенные выборки мух» и т. п.). Употребляется также понятие «степень гетерогенности выборки». См. также homogeneous sample.
Histogram – гистограмма: тип графика для изображения формы распределения данных или его параметров (среднего, дисперсии и др.). Огибающая гистограммы демонстрирует форму функции плотности распределения.
Синонимы: hystogram, frequency plot, bar chart.
Historical control group – историческая контрольная группа: контрольная группа, сформированная и обследованная в период, предшествующий исследованию.
Homogeneous sample – гомогенная выборка: выборка, все объекты которой одинаково распределёны, то есть выбраны из одного и того же распределения. См. также heterogeneous sample.
Hypothesis – гипотеза: научная гипотеза – утверждение, которое можно подтвердить или опровергнуть на основании результатов исследования; статистическая гипотеза – представление научной гипотезы в форме, приемлемой для проверки методами статистического анализа данных.
См. также: alternative hypothesis – альтернативная гипотеза; null hypothesis – нулевая гипотеза.
Hypothesis distribution: распределение (условное) статистики критерия при условии, что верна определённая гипотеза. См. также: null distribution – распределение при выполнении нулевой гипотезы.
Hypothesis test – критерий для проверки гипотезы: критерий для проверки гипотезы – это решающее правило (метод), отвергающее или принимающее нулевую гипотезу на основе выборочных наблюдений.
Синонимы: statistical test – статистический критерий; significance test – критерий
значимости; test – критерий.
Hystogram: см. histogram.
I
Incidence: количество новых случаев заболевания или людей, подвергшихся заболеванию в течение определённого периода времени в определённой группе населения.
Independent (attributive) characteristic – независимый (характерный) признак: признак, который включается в статистическую модель с целью анализа его влияния на зависимый (объясняемый) признак. С учетом совокупности значений независимых признаков можно рассчитать значение зависимого признака (задача регрессионного анализа).
Independent events – независимые события: заданные событий называются независимыми, если для любых целых чисел от 1 до
Синоним: mutually independent events – взаимно независимые события.
Independent repeated Bernoulli trials – независимые повторные испытания Бернулли: мы говорим: « независимых повторных испытаний Бернулли», описывая эксперимент, состоящий из испытаний, обладающих следующими тремя свойствами:
а) каждое отдельное испытание может привести к одному из двух исходов (которые обычно условно называют «успехом» и «неудачей»),
б) вероятность успеха остается одной и той же для всех испытаний,
в) все испытаний независимы.
Пример. Количество девочек в выборке из 100 новорождённых – случайная величина, подчиняющаяся распределению Бернулли.
Independent trials – независимые испытания (опыты): рассмотрим эксперимент, состоящий из испытаний. Будем говорить, что испытания независимы, если для любого множества событий, таких, что зависит лишь от испытания зависит лишь от испытания зависит лишь от испытания события независимы.
Приме.:Последовательность величин артериального давления у последовательно пришедших на приём к врачу пациентов – независимые случайные величины.
Independent (unconjugated) samples – независимые (несвязанные) выборки: выборки, в которые объекты исследования набирались независимо друг от друга. Альтернатива независимым выборкам – зависимые (связанные, парные) выборки.
Например, если основная и контрольная группы при сравнении различных методов лечения формируются с помощью случайного выбора из некоторого набора пациентов, то такие выборки являются независимыми. См. также paired samples.
Independent variable – независимые случайные величины: заданные случайных величин называются (взаимно) независимыми, если для любых выполняется равенство:
Cм. также: random variable.
Синоним: mutually independent variables – (взаимно) независимые случайные величины.
Indicator variable – переменная-счетчик: дихотомическая (бинарная) переменная, которая обращается в 1, если событие произошло, и в 0, если оно не произошло.
Intention-to-treat, ITT: тип клинических исследований, при котором считается, что каждый пациент принадлежит к той группе, в которую он был включён на момент начала исследования, даже если он менял группу лечения в процессе исследования или не прошёл курс лечения до конца.
Interfering factor – мешающий, вмешивающийся фактор: независимый признак, связанный с другим исследуемым независимым признаком и влияющий на исследуемый признак (исход). См. также: confounding variable.
Interquartile range – интерквартильный размах: интервал значений признака, содержащий центральные 50% наблюдений выборки, т.е. интервал между 25-м и 75-м процентилями. Квартильный размах используется вместе с медианой (вместо ) для описания данных, имеющих распределение, отличное от нормального.
Синоним: quartile range – квартильный размах.
Interval estimator – интервальная оценка: см. estimator.
ITT: см. intention-to-treat.
L
Level of significance – уровень статистической значимости: допускаемая исследователем величина т.е. максимально допускаемая исследователем вероятность ошибочного отклонения нулевой гипотезы (гипотезы об отсутствии различия между группами, об отсутствии взаимосвязи признаков и т.д.). Обычно за величину уровня значимости принимаются значения 0,05; 0,01 или 0,001.
Синонимы: critical level – критический уровень, liminal level of statistical significance – пороговый уровень статистической значимости.
Lifetime table, life-time table – таблица времён жизни: один из способов описания выживаемости в выборке при работе с цензурированными данными. Такую таблицу можно рассматривать как расширенную таблицу частот. Область возможных времен наступления критических событий (смертей, отказов и др.) разбивается на некоторое число интервалов.
Для каждого интервала вычисляется число объектов, которые в начале рассматриваемого интервала были живы и число объектов, которые умерли в данном интервале. Вычисляются относительные доли этих объектов. Также вычисляется число объектов, которые были изъяты или цензурированы на каждом интервале. На основании этих величин вычисляются некоторые дополнительные статистики. См. также: survival analysis.
Likelihood ratio - отношение правдоподобия: отношение вероятности получения конкретного результата диагностического теста у пациента с наличием заболевания, к вероятности такого же результата у пациента без заболевания.
Liminal level of statistical significance – пороговый уровень статистической значимости: см. level of significance.
Linear regression – линейная регрессия: разновидность регрессии (regression) для моделирования зависимости между зависимой переменной и одной или несколькими независимыми переменными в виде линейного уравнения:
.
См. также: regression.
Cиноним: multiple linear regression – множественная линейная регрессия.
Linked samples – связанные выборки: см. paired samples.
Logistic regression – логистическая регрессия: разновидность регрессии (regression) для моделирования зависимости между одной или несколькими независимыми переменными и одной зависимой переменной , изменяющейся в диапазоне от 0 до 1. Чаще всего используется для оценки вероятности исхода события (зависимая переменная).
Частным случаем является бинарная логистическая регрессия (binary logistic regression), когда зависимая переменная является бинарной (дихотомической). См. также: regression.
Синоним: logit regression – логит регрессия.
Lognormal distribution, log-normal distribution – логнормальное распределение: несимметричное распределение, обладающее тем свойством, что если фактор имеет логнормальное распределение, то его логарифм , имеет нормальное распределение.
Примеры случайных величин, как правило, имеющих логнормальное распределение: длительность инкубационного периода инфекционного заболевания, концентрация вредных примесей в образце воды, время начала болезни Альцгеймера у пациента, возраст первого вступления в брак и т. д.
Lower quartile – нижний квартиль: 0,25-квантиль (25%-процентиль) распределения. См. также: percentile.
Синонимы: lower quartile point – нижняя квартильная точка.
M
Masking – маскирование: см. blinding.
Maverick: резко отклоняющийся результат. См. также: outlier - выброс..
Maximum – максимум: максимум чисел есть число (числа), не меньшее (не меньшие), чем все остальные. Как правило, используется обозначение
Например: , .
Mean observation – среднее значение: описательная статистика (точечная оценка), являющаяся мерой центральной тенденции для приближенно нормально распределенных данных. Если распределение не соответствует закону нормального распределения, то для характеристики центральной тенденции следует использовать медиану, а не среднее.
Mean (of a population) – генеральное среднее, среднее совокупности: см. expectation.
Mean (of a sample) – выборочное среднее, среднее значение выборки: пусть - выборка. Среднее значение выборки оценивается по формуле:
.
Для обозначения среднего значения выборки чаще всего используются обозначения и
Синоним: sample mean – выборочное среднее значение.
Measure of dispersion – меры дисперсии, меры разброса: статистики, описывающие вариабельность значений признака (дисперсия, стандартное отклонение, размах, квартильный размах).
Median – медиана: значение признака, разделяющее пополам распределение наблюдений на интервале значений признака, т.е. половина значений в выборке меньше медианы, а вторая половина – больше её. Используется для описания центральной тенденции распределения количественных и порядковых признаков, независимо от его закона.
Median (of a sample) – медиана выборки: пусть - выборка и - упорядоченные значения выборки. Если - четное число (т. е. если , где - любое целое), то медиана выборки равна .
Если - нечетное число (т. е. если для некоторого целого ), то медиана выборки равна Замечание: медиана выборки единственна.
Синоним: sample median – выборочная медиана.
MeSH (Medical Subject Headings): справочник медицинских терминов, созданный и поддерживаемый United States National Library of Medicine (NLM), используемый во многих базах данных и библиотеках для классификации и индексации медицинской информации.
Meta-analysis – мета-анализ: статистический анализ, обобщающий результаты нескольких исследований, исследующих одну и ту же проблему (обычно эффективность методов лечения, профилактики, диагностики). Объединение исследований обеспечивает большую выборку для анализа и большую статистическую мощность объединяемых исследований. Используется для повышения доказательности или уверенности в заключении об эффективности исследуемого метода.
Синоним: многоцентровой анализ.
Midrank – средний (срединный) ранг: см. average rank.
Minimum – минимум: минимум из чисел есть число (числа), которое не больше всех остальных. Как правило, используется обозначение .
Например: , .
Mode – мода: описательная статистика, соответствующая значению признака, наиболее часто встречающемуся в исследуемой выборке. Подходит для описания дискретных, порядковых, номинальных данных. Не подходит для описания непрерывных данных. Мода может не существовать или быть не единственной.
Model (statistical) – статистическая модель: математическое уравнение, описывающее (в большей или меньшей степени) взаимосвязь между признаками (переменными).
Moment – момент: пусть - случайная величина из генеральной совокупности . Для любого целого , … мы называем – математическое ожидание случайной величины ( в степени ) моментом совокупности . Заметим, что первый момент ( ) – это просто математическое ожидание совокупности.
Moving examination – скользящее исследование: метод проверки устойчивости, надёжности, работоспособности (валидности) статистической модели путём поочерёдного удаления наблюдений и пересчёта модели. Чем более сходны полученные результаты, тем более устойчива, надёжна модель. Термин встречается также в мета-анализе (meta-analysis) для проверки устойчивости результатов путём поочерёдного удаления отдельных исследований.
Multimodal distribution – мультимодальное распределение: см. polymodal distribution.
Multiple comparison procedure – метод множественных сравнений: метод множественных сравнений – это статистический метод, который на основе выборочных наблюдений даёт некоторое число (скажем, ) утверждений (решений) относительно интересующих нас параметров. Методы множественных сравнений позволяют избежать ложных заключений о наличии различий между группами, тогда как на самом деле верна нулевая гипотеза об отсутствии различий.
Пример: Исследуется новый способ обучения школьников письму. Основная группа – дети, обучаемые новым методом, контрольная группа – школьники, обучаемые традиционным методом. Дети из этих групп могут сравниваться по различным показателям, таким как грамотность, качество почерка, скорость письма и т. д. Чем больше факторов сравнения будет включено в такое исследование, тем более вероятно, что найдётся значимое отличие групп хотя бы по одному признаку.
Синоним: multiple decision procedure – метод множественных решений.
Multiple linear regression – множественная линейная регрессия: см. regression, linear regression
Multivariate analysis – многомерный анализ, многофакторный анализ: анализ влияния двух и более объясняющих (независимых) признаков на один объясняемый (зависимый) признак. В зависимости от вида признаков и конкретных целей анализа выделяются: кластерный анализ (cluster analysis), факторный (factor analysis), канонический (canonical analysis), дискриминантный (discriminant analysis) . Схожие задачи решаются при помощи деревьев классификации (classification trees) или многомерного шкалирования (multidimensional scaling).
Multivariate regression – множественная регрессия:. cм. regression.
N
N-of-1 trial (N of 1 trial): тип клинических исследований, когда пациент проходит методы лечения последовательно: экспериментальная терапия, затем стандартная терапия или плацебо. Пациент и лечащий врач по возможности не владеют информацией о характере текущего лечения (слепое исследование – см. blinded method). Методы лечения применяются циклически, до тех пор пока пациент и лечащий врач не будут убеждены в том, что эти два лечения точно различаются, или точно не различаются.
Negative predictive value, NPV, -PV – отрицательное прогностическое значение, прогностическая ценность отрицательного результата: доля правильных отрицательных результатов диагностического теста.
NNH: см. number needed to harm.
NNT: см. number needed to treat.
Nominal data – номинальные данные: это качественные данные, которые отражают условные коды неизмеряемых категорий, не подлежащих упорядочиванию. Альтернативой служат качественные порядковые данные, которые могут быть ранжированы в убывающем или восходящем порядке.
Например, идентификатор (номер/название) больницы, в которой проводилось оперативное вмешательство – пример номинальных данных. Тяжесть состояния больного при поступлении в клинику (тяжёлое, средней тяжести,…) – пример качественных порядковых данных.
Nomogram – номограмма: графическая схема, состоящая из нескольких шкалированных линий, расположенных таким образом, чтобы отрезок, соединяющий известные значения на двух шкалах, показывал неизвестное значение в точке пересечения с третьей шкалой. Используется, например, для расчёта объема выборки при планировании исследования (номограмма Алтмана).
Nonparametric statistical methods – непараметрические статистические методы: статистические методы с (некоторыми) желательными свойствами, сохраняющимися при относительно слабых допущениях о рассматриваемых генеральных совокупностях. Непараметрические методы позволяют обрабатывать данные "низкого качества" из выборок малого объёма с переменными, про распределение которых мало что или вообще ничего неизвестно.
Непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.
Синонимы: nonparametric procedure/ technique, distribution-free method.
Более узкие термины:
nonparametric test – непараметрический критерий;
nonparametric estimator – непараметрическая оценка (оценочная функция);
nonparametric confidence interval – непараметрический доверительный интервал;
nonparametric multiple comparison procedure – непараметрический метод множественных сравнений.
Normal distribution – нормальное распределение: симметричное колоколообразное распределение. У нормального распределения среднее, мода и медиана совпадают. Большинство параметрических тестов разработаны для анализа параметров, имеющих нормальное распределение..
Исторический пример величины, имеющей нормальное распределение – обхват груди солдат шотландской армии (исследование бельгийского учёного Quetelet, 1974).
Синоним: Gaussian distribution – Гауссово распределение.
NPV: см. negative predictive value.
Null distribution – распределение при выполнении нулевой гипотезы: распределение статистики при выполнении нулевой гипотезы, т.е. распределение статистики в условиях, когда нулевая гипотеза верна. См. также: hypothesis distribution.
Null hypothesis – нулевая гипотеза: нулевая гипотеза означает принадлежность рассматриваемого распределения некоторому классу. Часто нулевая гипотеза формулируется указанием значения какого-нибудь параметра. Прилагательное «нулевая» возникло в статистической терминологии, поскольку исходная гипотеза часто утверждает, что никаких различий не наблюдается.
Например, при проверке распределения признака на нормальность с помощью критерия Колмогорова-Смирнова: – распределение является нормальным. При проверке отличия средних в группах с помощью критерия Стьюдента (t-критерия): – средние в группах равны.
Синоним: hypothesis – гипотеза , основная гипотеза.
Number needed to harm, NNH: количество пациентов, которых необходимо лечить для появления одного дополнительного случая с наличием побочного эффекта (по сравнению с контрольной группой). Т.е. если взять основную и контрольную группу объёма NNH, то в основной группе количество случаев с побочными эффектами будет на 1 меньше. NNH – величина, обратная абсолютному увеличению риска (AR):
.
Number needed to treat, NNT: количество пациентов, которых необходимо лечить для предотвращения одного неблагоприятного исхода (по сравнению с контрольной группой). Т.е. если взять основную и контрольную группу объёма NNT, то в основной группе количество неблагоприятных исходов будет на 1 меньше. NNT – величина, обратная абсолютному снижению риска (ARR):
.
O
Odds – шансы: отношение вероятности того, что событие произойдёт, к вероятности того, что событие не произойдёт. На практике вычисляется как отношение частот произошедшего события к не произошедшему событию. Например, если частота события равна 0.2 (20%), то частота не произошедшего события равна 0.8 (80%), и .
Odds ratio, OR – отношение шансов: отношение шансов изучаемого события в основной группе к шансам в контрольной:
.
Operative test characteristics – операционные характеристики теста: к операционным характеристикам диагностического теста обычно относят его чувствительность (sensitivity), специфичность (specificity), прогностическую ценность положительного результата (PPV), прогностическую ценность отрицательного результата (NPV) и др.
OR: см. odds ratio.
Order statistics – порядковые статистики: пусть есть выборка из наблюдений и пусть – те же наблюдения, упорядоченные по возрастанию их величин. Тогда называются порядковыми статистиками. В частности - я порядковая статистика.
Ordered data – порядковые данные: качественные данные, значения которых могут быть ранжированы по какому-либо принципу, но интервал между значениями таких данных не может быть выражен количественно. Обычно качественно отражают условную степень выраженности какого-либо признака.
Тяжесть состояния больного при поступлении в клинику (тяжёлое, средней тяжести,…) степень ожога (1,2,3 или 4) – пример качественных порядковых признаков.
Outcome – исход: клинически значимое явление (клинический исход, событие). Лабораторный показатель или признак (промежуточный исход, или косвенный критерий оценки), который служит объектом интереса исследователя. При проведении клинических испытаний исходы служат критериями оценки эффективности лечебного или профилактического воздействия.
Outlier – выброс: резко отклоняющееся значение наблюдаемой величины. Выбросом считается наблюдение, которое лежит аномально далеко от остальных из серии параллельных наблюдений. Т.е. выбросы – это значения количественного признака, располагающиеся на краях интервала допустимых значений.
Синонимы: maverick – резко выделяющийся результат; straggler – оторвавшийся результат.
P
-value – -уровень: рассчитанная в ходе статистического теста вероятность ошибочного отклонения нулевой гипотезы. Для принятия решения о том, необходимо ли отклонить нулевую гипотезу по результатам статистического теста, значение сравнивают с принятым исследователем критическим (пороговым) уровнем значимости ( -level). Если -уровень меньше уровня значимости ( -level), то нулевая гипотеза отклоняется. В обратном случае говорят, что данные не противоречат нулевой гипотезе.
Чем меньше -уровень, тем более значимой называется тестовая статистика. Чем меньше -уровень, тем сильнее основания отвергнуть нулевую гипотезу. Таким образом, -уровень находится в убывающей зависимости от надёжности результата. См также -level.
Paired samples – парные выборки: выборки, в которые участники исследования набирались парами, или выборки состоящие из одних и тех же объектов исследования, обследованных в разные моменты времени (до и после лечения). См. также: independent samples – независимые выборки.
Синонимы: depending samples, linked samples.
Parallel control group – параллельная контрольная группа: контрольная группа, формируемая одновременно с формированием основной группы. См. также: control group.
Parameter – параметр: параметр есть относительно постоянный показатель, характеризующий совокупность, распределение или статистическую модель.
Пример. Параметры нормального распределения – среднее, дисперсия.
Parameters of a central tendency – параметры центральной тенденции: статистические параметры распределения, отражающие наиболее типичное значение признака на выборке (среднее значение, медиана, мода). См. также: spreading parameters.
Parametric statistical methods – параметрические методы статистики: класс статистических методов, используемых для анализа данных, которые образуют известное распределение (обычно нормальное). Названы так потому, что основываются на оценке параметров (таких как среднее или стандартное отклонение) выборочного распределения интересующей величины. См. также: nonparametric statistical methods.
Percentile – процентиль: см. quantile.
Point estimator (estimate) – точечная оценка: см. estimator, estimate.
Polymodal distribution – полимодальное распределение: распределение, имеющее несколько мод (т.е. два или более "пика"). Полимодальность распределения часто может показывать, что выборка не является однородной, и наблюдения порождены двумя или более наложенными распределениями.
Синоним: multimodal distribution – мультимодальное распределение.
Population (statistical meaning) – популяция (в статистическом смысле): группа субъектов, из которой сделана выборка, и на которую следует распространять результаты исследования.
Positive predictive value, PPV, +PV – положительное прогностическое значение, прогностическая ценность положительного результата: доля правильных положительных результатов диагностического теста.
Postprimary data analysis – вторичный анализ данных: анализ данных, не предусмотренный в протоколе (плане, структуре) исследования, или анализ уже существующих данных (когда план исследования формируется после сбора данных). Результаты вторичного анализа данных часто являются основанием для выдвижения научных гипотез. Интерпретация результатов вторичного анализа данных должна быть весьма осторожной, поскольку часто они являются порождением систематического различия между сопоставляемыми группами.
Синоним: secondary data analysis.
Power – мощность: мощность критерия относительно определенной альтернативы есть вероятность (правильного) отбрасывания нулевой гипотезы, т. е. отбрасывания (непринятия) нулевой гипотезы в случае, когда на самом деле верна альтернативная гипотеза. Мощность против определенной альтернативы равна , где - вероятность ошибки II рода для этой альтернативы. См. также: Level.
Если сравниваемые выборки малы, то статистическая мощность может быть низкой. Для больших выборок статистические тесты имеют большую статистическую мощность. Это означает, что истинные различия между группами выявляются с большей вероятностью.
Синонимы: statistical power, sample power.
Power (of statistical test) – мощность статистического критерия: вероятность того, что статистический тест при заданных объемах групп выявит различие между этими группами как статистически значимое, при условии что различие на самом деле имеет место.
Power (of the study) – мощность исследования: вероятность, с который искомый эффект (цель исследования) будет обнаружен, при условии, что он имеет место. Статистическая мощность исследования прямо пропорциональна размеру выборки. В проспективном исследовании она должна быть определена на стадии планирования и описана в разделе «Материал и методы» при описании определения размера выборки. При планировании исследования желаемая мощность обычно принимается равной 0,8 или 0,9.
PPV: см. positive predictive value.
Primary data analysis – первичный анализ данных: оценка параметров распределения выборки и проверка гипотез, сформулированных на этапе планирования исследования (до сбора данных). См. также postprimary data analysis.
Probability (of an event) – вероятность (события): вероятность события , обозначаемая есть число в диапазоне от нуля до единицы, указывающее, насколько правдоподобно, что событие произойдет. Вероятности подчиняются следующим правилам:
если событие наверняка произойдет;
если событие невозможно (не может осуществиться);
если события не могут осуществиться одновременно (несовместны);
.
Probability density function – плотность распределения вероятностей: плотность распределения вероятностей непрерывной случайной величины может быть представлена графиком кривой. Эта кривая обладает следующими свойствами:
а) лежит не ниже горизонтальной оси,
б) площадь между кривой и горизонтальной осью равна единице.
Вероятности события соответствует площадь под кривой (выше горизонтальной оси) между точками
Синоним: density function – плотность распределения, плотность вероятности.
Probability error rate: см. experimentwise error rate.
Problem of multiple comparisons – проблема множественных сравнений: проблема завышения статистической значимости результатов статистических тестов, возникающая при выполнении большого числа статистических тестов на одной выборке.
Prognostic value of a negative outcome – прогностическая ценность отрицательного результата: см. negative predictive value.
Prognostic value of a positive outcome – прогностическая ценность положительного результата: см. positive predictive value.
Prospective study – проспективное исследование: исследование, в котором группы формируются до сбора данных. Cм также: retrospective study.
Publication bias – публикационное смещение: систематическая ошибка мета-анализа, связанная с погрешностью отбора публикаций, возникающая из-за склонности некоторых исследователей, редакторов и других лиц преимущественно публиковать положительные (статистически значимые) результаты научных исследований, опуская статистически незначимые, неоднозначные или противоречащие ожиданиям данные.
Синоним: file drawer problem.
Q
Quantile – квантиль: число, такое что заданная случайная величина не превышает его лишь с фиксированной вероятностью. Например, 0,25-квантиль – число, ниже которого лежит примерно 25% выборки.
Синоним: percentile – процентиль.
Qualitative data – качественные данные: см. attribute data.
Quantitative data – количественные данные: данные, измеряемые с помощью чисел, имеющих содержательный смысл. Количественные данные могут быть непрерывными (cantinuaes data) или дискретными (discrete data).
Quartile range – квартильный размах: см. interquartile range.
R
Randomization – рандомизация: способ случайного распределения объектов исследования в основную и контрольную группы с использованием специальных средств (таблиц или счётчика случайных чисел, подбрасывания монеты и других способов случайного назначения номера группы включаемому наблюдению). С помощью рандомизации сводятся к минимуму различия между группами по известным и неизвестным признакам, потенциально влияющим на изучаемый исход.
Randomized controlled clinical trial – рандомизированное контролируемое клиническое исследование: клиническое исследование, в котором пациенты распределяются по группам лечения случайным образом (с помощью процедуры рандомизации) и имеют одинаковую возможность получить исследуемый или контрольный препарат (препарат сравнения или плацебо). В нерандомизированном исследовании процедура рандомизации не проводится.
Randomized decision – рандомизированное решение: решение, основанное на статистической процедуре, называется рандомизированным решением, если после получения данных и вычисления соответствующей статистики требуются дополнительные усилия, причем для получения решения надо ввести некоторый (не связанный с данными) случайный механизм.
Random sample – случайная выборка: последовательность случайных величин есть случайная выборка объема , если каждый из имеет одно и то же распределение и все величины независимы.
Random variable – случайная величина: некоторая функция, принимающая одно из своих возможных значений в результате эксперимента (опыта, испытания) и такая, что для любой совокупности её значений можно указать вероятность того, что полученное в результате эксперимента конкретное значение будет принадлежать этой совокупности. В результате определяется распределение вероятностей случайной величины. Случайная величина полностью определяется своим распределением вероятностей.
Пример. В медицине в качестве эксперимента чаще всего выступает рассмотрение карты или анкеты пациента. Соответствующими примерами случайных величин могут служить такие характеристики, как его возраст (если указана вероятность попадания конкретного значения в любой заданный возрастной интервал) и тип патологии (если указана вероятность встречаемости каждого типа).
Rank – ранг: номер наблюдения, присвоенный ему при процедуре ранжировки. Наблюдения ранжируют (им присваиваются ранги), упорядочивая их по величине и назначая им номера (называемые рангами), соответствующие их месту в упорядочении. Обычно наблюдения ранжируются от меньшего к большему (from least to greatest). Тогда ранг среди наблюдений равен 1+ (число наблюдений меньших ).
Примечание: В этом определении предполагается, что среди наблюдений нет одинаковых, совпадающих с Определение, пригодное для работы с одинаковыми наблюдениями – см. average rank (средний ранг).
Ranking – ранжирование: процедура присвоения рангов элементам выборки. Обычно используется в непараметрических методах для работы с данными «низкого» качества. См. также: rank, nonparametric statistical methods.
Receiver operating characteristic curve – кривая операционной характеристики диагностического метода: см. characteristic curve of diagnostic test.
Regression – регрессия: статистический метод исследования и моделирования зависимости между зависимой переменной и одной или несколькими независимыми переменными . В случае нескольких независимых переменных регрессия называется множественной (multivariate regression). Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные – критериальными. Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.
Пример: уравнение простой линейной регрессии из исследования К.Пирсона (1903) моделирует связь между ростом сыновей и их отцов . Рост сыновей здесь – выходная переменная, рост отцов – входная переменная (предиктор).
Rejection region – область отклонения (гипотезы): см. critical region.
Relative frequency – относительная частота, частотность: рассмотрим длинную серию повторений одного и того же эксперимента. Относительная частота события определяется как отношение где число повторений, а - число тех повторений, в которых осуществилось событие
Пример: из 1000 школьников, включённых в исследование, у 128 было обнаружено снижение остроты зрения. Относительная частота снижения остроты зрения у школьников, оцененная по этой выборке, равна или 13%.
Синоним: frequency – частота.
Relative risk, RR – относительный риск: отношение величины риска в экспериментальной группе к величине риска в контрольной группе:
.
Синоним: risk ratio – отношение рисков.
Relative risk reduction, RRR – относительное снижение риска: отношение абсолютного снижения риска к величине риска в контрольной группе:
.
Representative sample – репрезентативная выборка: выборка конечного объёма, обладающая всеми свойствами исходной популяции, значимыми с точки зрения задач исследования. Является одним из ключевых понятий анализа данных.
Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она быласобрана.
Например, если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной. Построенный на ее основе опрос общественного мнения будет содержать смещение оценок и приводит к фальсификации результатов.
Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности.
Retrospective study – ретроспективное исследование: исследование, в котором группы формируются после сбора данных. Cм. также: prospective study.
Risk – риск: вероятность того, что событие или определенный исход наступит. Измеряется в долях или процентах.
Risk ratio – отношение рисков: см. relative risk.
Robust (method) – устойчивый, робастный (метод): статистический метод называется устойчивым (робастным) по отношению к некоторому принятому допущению, если он относительно нечувствителен к небольшим отклонениям от этого допущения.
Пример: при больших размерах выборок критерий Стьюдента (t-критерий) устойчив к нарушению предположения о нормальности.
ROC-curve – ROC-кривая: см. сharacteristic curve of diagnostic test.
RR: см. relative risk.
RRR: см. relative risk reduction.
S
Sample – выборка: часть популяции, полученная путём отбора. По результатам анализа выборки делают выводы о всей популяции, что правомерно только в случае, если отбор был случайным. Поскольку случайный отбор из популяции осуществить практически невозможно, следует стремиться к тому, чтобы выборка была по крайней мере репрезентативна по отношению к популяции. См. также: representative sample – репрезентативная выборка.
Sample correlation coefficient – выборочный коэффициент корреляции: пусть – набор значений двух факторов и на выборке объёма . Выборочный коэффициент корреляции равен:
где Коэффициент корреляции, подсчитанный таким образом, называется коэффициентом корреляции Пирсона.
Sample distribution function – выборочная функция распределения, функция распределения выборки: см. empirical distribution function.
Sample mean – выборочное среднее значение: см. mean (of a sample).
Sample median – выборочная медиана: см. median (of a sample).
Sample power – мощность выборки: см. power.
Sample standard deviation – выборочное стандартное отклонение: см. standard deviation (of a sample).
Sample variance – выборочная дисперсия: см. variance (of a sample).
Scatter plot – диаграмма рассеяния: вид графического отображения данных, когда каждое наблюдение изображается точкой на координатной плоскости, где оси соответствуют переменным (X - горизонтальной, а Y - вертикальной оси).
Две координаты, которые определяют положение каждой точки, соответствуют значениям двух переменных для этой точки. Диаграмма рассеяния визуализирует зависимость между двумя переменными X и Y (например, весом и ростом пациента).
SD: см. standard deviation.
Secondary data analysis: см. postprimary data analysis.
SEM: см. standard error of the mean.
Sensitivity, Se – чувствительность: характеристика диагностического теста; доля лиц с заболеванием, имеющих позитивный результат диагностического теста («доля больных, признанных больными»).
Significance level – уровень значимости: уровень значимости критерия есть вероятность ошибочно отвергнуть нулевую гипотезу, т. е. вероятность отклонения нулевой гипотезы, когда на самом деле она верна.
Синоним: -level – -уровень.
Significance test – критерий значимости: см. hypothesis test.
Single tail test, single-tailed test – односторонний критерий: статистический критерий, учитывающий априорные знания о направлении (увеличении либо уменьшении) значения исследуемого параметра одной группы по отношению к этому же параметру другой группы. Требуемое для одностороннего теста минимальное различие между группами меньше, чем для двустороннего теста.
Specificity, Sp – специфичность: характеристика диагностического теста; доля лиц без заболевания, имеющих отрицательный результат теста. («доля здоровых, признанных здоровыми»).
Spreading parameters – параметры рассеяния: статистические параметры распределения, отражающие вариабельность значений признака на выборке (среднеквадратическое отклонение, дисперсия, квартильный размах, коэффициент вариации). См. также parameters of central tendency.
Standard deviation (of a population) – среднее квадратичное отклонение (совокупности): квадратный корень из дисперсии совокупности. См. также dispersion.
Standard deviation (of a sample), SD, s – среднее квадратичное отклонение (выборки): пусть - выборка. Среднее квадратичное отклонение выборки оценивается по формуле:
.
где - среднее значение выборки.
Синоним: sample standard deviation – выборочное среднее квадратичное отклонение.
Standard error of the mean, SEM – стандартная ошибка среднего: теоретическое стандартное отклонение всех средних выборки размера , извлекаемое из совокупности. SEM зависит от совокупной дисперсии (сигма) и размера выборки . Подсчитывается следующим образом:
.
где - квадрат стандартного отклонения, подсчитанный по выборке, – число наблюдений в выборке.
Standard normal distribution – стандартное нормальное распределение: нормальное распределение с нулевым средним и стандартным отклонением, равным 1. В литературе используют обозначение .
Standardization – стандартизация: трансформация данных, включающая следующие этапы:
1) из каждого значения вычитается среднее значение, оцененное по имеющимся данным,
2) полученные на первом шаге значения делятся на стандартное отклонение, оцененное по имеющимся данным.
Стандартизация приводит все исходные значения (не обращая внимания на их начальные распределения и единицы измерения) приводит к набору сравнимых элементов из распределения с нулевым средним и стандартным отклонением, равным 1.
Данный вид преобразования очень широко применим, так как он упрощает механизм сравнения переменных. Очень часто стандартизация используется на первых этапах многомерного анализа (см. multivariate analysis).
Если исходные данные имели нормальное распределение, стандартизованные данные будут иметь стандартное нормальное распределение.
Statistical model – статистическая модель: см. model (statistical).
Statistical power – статистическая мощность: см. power.
Statistical test – статистический критерий: см. hypothesis test.
Straggler: оторвавшийся результат. См. также: outlier.
Stratification – стратификация: метод формирования выборки, при котором совокупность всех участников, соответствующих критериям включения в исследование, сначала разделяется на группы (страты) на основе одной или нескольких характеристик (обычно пола, возраста), потенциально влияющих на изучаемый исход, а затем из каждой из этих групп (страт) независимо проводится набор участников в экспериментальную и контрольную группы. Это позволяет исследователю соблюдать баланс важных характеристик между экспериментальной и контрольной группами.
Survival analysis – анализ выживаемости: см. analysis of time before an understudying outcome.
Survival function – функция выживаемости: функция , показывающая вероятность того, что время наступления критического события (смерти, отказа и др.) будет больше .
Symmetric distribution – симметричное распределение: распределение, функция плотности которого обладает следующим свойством: если разбить график функции плотности пополам в точке среднего, то распределения значений с двух сторон от этой центральной точки будут "зеркальным отображением" друг друга. Для симметричных унимодальных распределений мода, медиана и среднее совпадают.
Systematic review – систематический обзор: статья, в которой авторы проводят анализ существующих публикаций и медицинской литературы, обобщая большое количество научно обоснованных данных и объясняя причины расхождения результатов различных исследований. Специальный вид систематических обзоров – мета-анализ (см. meta-analysis).
T
Test – критерий: см. hypothesis test.
Test statistic – статистика (лежащая в основе) критерия: статистика критерия – подсчитываемая по имеющимся данным функция (см. random variable), определяющая критическую область критерия (см. critical region) для проверки гипотезы (см. hypothesis). На основе значения статистики критерия подсчитывается -уровень (см. -уровень) и принимается (или не принимается) решение об отклонении нулевой гипотезы.
Trimmed data – цензурированные данные: см. censored data.
Two-tailed test – двусторонний тест: см. double tail test.
Type I error – ошибка I рода: вероятность неверного отклонения нулевой гипотезы, т. е. отклонения нулевой гипотезы, когда она на самом деле верна («ложная тревога»).
Синоним: -error.
Type II error – ошибка II рода: вероятность неверного принятия нулевой гипотезы, т. е. принятия нулевой гипотезы, когда на самом деле она не верна («пропуск цели»).
Синоним: -error.
U
Uncorrelated – некоррелированный: случайные величины и называются некоррелированными, если их коэффициент корреляции . См. также: correlation coefficient.
Underpowered study, under-powered study: исследование, имеющее недостаточную мощность для того, чтобы обнаружить искомое различие между группами. См. также: power (of the study).
Unimodal distribution – унимодальное распределение: распределение, имеющее только одну моду (т.е. один "пик"). Типичный пример - это нормальное распределение. Альтернатива унимодальному распределению – полимодальное распределение (см. polymodal distribution).
Unitized risk – унифицированный риск: см. variation coefficient.
Univariate analysis – одномерный анализ: анализ каждого признака независимо от других.
Синоним: unidimensional analysis.
Upper quartile – нижний квартиль: 0,75-квантиль (75%-процентиль) распределения. См. также: percentile.
Синонимы: upper quartile point – верхняя квартильная точка.
V
Validity – обоснованность, валидность: мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. Внутренняя валидность (internal validity) исследования указывает на полноту и целостность экспериментального плана. Внешняя обоснованность (external validity) исследования указывает на правомерность, с которой результаты могут быть распространены на генеральную совокупность (т.е. применены к не включённым в исследование пациентам).
Variable – переменная, переменная величина: см. random variable.
Variance (of a population) – дисперсия (генеральной совокупности): см. dispersion.
Variance (of a sample) – дисперсия (выборки): пусть - выборка. Дисперсия выборки оценивается по формуле:
где - среднее значение выборки (cм. mean).
Синоним: sample variance – выборочная дисперсия.
Variation coefficient – коэффициент вариации: мера относительного разброса случайной величины; показывает, какую долю среднего значения этой величины составляет её средний разброс. Коэффициент вариации равен отношению стандартного отклонения к среднему значению: или .
Коэффициент вариации имеет смысл использовать при ненулевых средних значениях. Коэффициент полезен в ситуациях, когда о размерах отклонения величины можно судить, зная ее среднее значение.
Иногда предлагается условная классификация вариабельности выборки на основе коэффициента вариации: при выборка вариабельна слабо, при - средне, при - сильно.
Синоним: unitized risk – унифицированный риск, coefficient of variation.
W
Weighted mean difference, WMD – взвешенная разность средних значений: оценка величины терапевтического эффекта (в мета-анализе, см. meta-analysis) в случае, если эффект является количественным фактором (например, величина артериального давления или изменение роста).
Если фактор бинарный (как например, летальный исход или инфаркт миокарда), вместо WMD применяется отношение шансов (см. odds ratio). Разности средних значений (в основной и контрольной группах) взвешиваются для того, чтобы учесть индивидуальные особенности исследований (объёмы выборок, точность оценок и др.).
WMD: см. weighted mean difference.
Список источников
1. В. П. Боровиков. STATISTICA. Искусство анализа данных на компьютере: для профессионалов (2-е издание), – СПб.: Питер, 2003. – 688 с.: ил.
2. О. Ю. Реброва. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М., МедиаСфера, 2002. 312 с.
3. B. S. Everitt. The Cambridge dictionary of statistics,– Cambridge University Press: New York, 2006.- 442 p.
4. CEBM Glossary (Centre for Evidence Based Medicine, www.cebm.net).
5. EBM Glossary (электронная версия журнала Bandolier, www.medicine.ox.ac.uk).
6. М. Холлендер, Д. А. Вулф. Непараметрические методы статистики. – М.: Финансы и статистика, 1983. – 518 с.: ил.
ИСТОЧНИК: http://www.statsoft.ru