В эпидемиологических исследованиях исследователи используют логистическую регрессию в качестве аналитического инструмента для изучения связи бинарного результата с набором возможных воздействий.

Методы

Используя имитационное исследование, мы проиллюстрируем, как аналитически полученное смещение при моделировании отношения шансов в логистической регрессии изменяется в зависимости от размера выборки.

Результаты

Логистическая регрессия переоценивает отношения шансов в исследованиях с малым и средним размером выборки. Смещение, вызванное малым размером выборки, носит систематический характер и отличается от нуля. Оценки коэффициента регрессии отклоняются от нуля, отношения шансов - от единицы.

Вывод

Если объединить несколько небольших исследований без учета систематической ошибки, обусловленной внутренними математическими свойствами модели логистической регрессии, исследователи могут быть введены в заблуждение к ошибочной интерпретации результатов.

Задний план

Модели логистической регрессии дают оценки отношения шансов и позволяют вносить поправки на искажающие факторы. Имея репрезентативную случайную выборку из целевой исследуемой популяции, мы знаем, что отношение шансов отражает соотношение заболеваемости между подвергшимися и не подвергавшимися воздействию, и мы предполагаем, что отношение шансов моделей логистической регрессии не имеет систематической ошибки.

Снижение достоверности меры воздействия в эпидемиологических исследованиях можно рассматривать как введение в четыре ступени иерархии - искажение, искажение, неправильная классификация и аналитическое изменение меры воздействия [1].

Неотъемлемые математические свойства используемой модели могут смещать показатель эффекта, такой как отношение шансов, смоделированное с помощью логистической регрессии.

Логистический регрессионный анализ имеет привлекательные с аналитической точки зрения свойства. По мере увеличения размера выборки функция распределения отношения шансов сходится к нормальному распределению, центрированному на предполагаемом эффекте. Логарифмически преобразованное отношение шансов, предполагаемые коэффициенты регрессии, быстрее сходится к нормальному распределению [2]. Однако, как мы покажем ниже, особенно для небольших исследований, логистические модели дают смещенное отношение шансов.

Аналитически полученная причина смещения может быть прослежена до метода нахождения точечной оценки. Логистическая регрессия работает с оценками максимального правдоподобия. Отношение шансов и бета-коэффициенты оценивают влияние воздействия на результат, причем последний из них является натуральным логарифмом первого. В иллюстративных целях здесь мы используем бета-коэффициенты вместо отношения шансов, но сделанные выводы относятся к отношениям шансов, как и для бета-коэффициентов.

Асимптотическое смещение оценки максимального правдоподобия, смещение( β), можно резюмировать как

где bi( β) зависит от оцененного коэффициента бета β. С этой точки зрения систематическая ошибка - это дополнительный термин, который зависит от размера выборки n(или какой-либо другой меры скорости передачи информации). Исследователи стремятся удалить член первого порядка, O (n-1), а именно первый член вышеупомянутого уравнения.

Методы

С помощью следующего имитационного исследования мы демонстрируем, как размер выборки определяет размер смещения в оценках параметров логистической регрессии. Предположим, что заболевание вызвано одним продолжительным воздействием (например, ИМТ) и одной дискретной переменной воздействия (курение, да или нет). Целевая популяция состоит из 100000 человек. Значение параметра совокупности для переменной непрерывного и дискретного воздействия составляет 2 и -0,9 соответственно [см. Дополнительный файл 1 для получения дополнительной информации]. Из этой целевой группы исследователи случайным образом берут выборку, размер которой определяется обстоятельствами и ограничениями ресурсов. Здесь мы проводим повторные выборки с априориопределили размеры выборки, которые варьировались от 100 до 1500 с шагом 5. Для каждого размера выборки мы отбираем 1000 выборок, чтобы обеспечить надежную оценку. Затем мы применили обычную регрессионную модель наименьших квадратов для оценки b1 ( β). Мы оценили взаимосвязь между n-1 и коэффициентами логистической регрессии для данного размера выборки путем подбора следующего уравнения на основе аддитивного определения смещения.

По мере увеличения размера выборки, n→ ∞, смещение сходится к нулю (lim n→ ∞ b1 ( β) n-1 = 0), таким образом, пересечение соответствует несмещенной оценке значения параметра совокупности. В качестве внешней проверочной меры мы сравнили оцененную параметрическую кривую с непараметрической оценкой функции регрессии и вычислили ее производные с помощью ядерных оценок регрессии и автоматически адаптированной функции пропускной способности локального плагина. Производные использовались в качестве эмпирического подтверждения наших выводов о скорости сходимости.

Результаты и обсуждение

Таблица 1 суммирует предполагаемое эмпирическое смещение в расчетных коэффициентах регрессии. С увеличением размера выборки оценочные коэффициенты асимптотически приближаются к значению генеральной совокупности (рисунок 1). Подгонка лучше для непрерывных переменных (R 2 = 0,963), чем для дискретных (R 2 = 0,836). Это приводит к большей вариативности оценок логистической регрессии для дискретных переменных. Как для непрерывных, так и для дискретных переменных воздействия асимптотическое смещение сходится к нулю по мере увеличения размера выборки, но интенсивность сходимости различается. Кроме того, функция плотности выборки довольно искажена в меньших выборках и приближается к симметричному распределению с увеличением размера выборки (рис. 2). Неравномерное распределение выборки чаще приводит к оценкам экстремальных значений,доля которых уменьшается с увеличением размера выборки (рис. 3).

Оценки коэффициентов и систематическая погрешность, зависящая от размера выборки, в оценках логистической регрессии. Отклонение от истинного значения совокупности (2 соответственно -0,9 в данном случае) представляет собой аналитически вызванное смещение в оценках регрессии.

Распределение выборки оценок коэффициентов логистической регрессии при различных размерах выборки.

Увеличение размера выборки не только снижает аналитически вызванную систематическую ошибку в оценках регрессии, но и защищает от оценок экстремальных значений.

Таким образом, мы можем сделать вывод, что исследования, использующие логистическую регрессию в качестве аналитического инструмента для изучения связи переменных воздействия и результатов, переоценивают эффект в исследованиях с малым и средним размером выборки. Величина этой аналитически полученной систематической ошибки зависит от размера выборки и структуры данных. Смещение, вызванное малым размером выборки, носит систематический характер и отличается от нуля. Оценки коэффициента регрессии отклоняются от нуля, отношения шансов - от единицы. Этот аналитический уклон является признанным статистическим феноменом [3–8], но частично неизвестен практикам, а частично игнорируется. Обоснование незнания заключается в предположении, что смещение намного меньше стандартной ошибки оценки [9]. Последовательные оценки могут быть смещены в конечных выборках, и требуются корректирующие меры. Однако,рекомендуется соблюдать осторожность, так как коррекция смещения может привести к увеличению дисперсии и среднеквадратичной ошибки оценки [10]. В литературе было предложено несколько корректирующих мер; как оценка с поправкой на смещение или складной нож [4]. Бутстреппинг, особенно метод квадратичного бутстрапа, оказался приемлемой корректирующей мерой [11]. Джуэлл предлагает альтернативы оценке максимального правдоподобия, но приходит к выводу, что небольшой выигрыш в точности может не стоить увеличения сложности [5]. Скорректированные на смещение оценки максимального правдоподобия могут быть получены с помощью дополнительной взвешенной регрессии [7] или соответствующей модификации функции оценки [3]. Надлежащая и хорошо продуманная стратегия выборки может улучшить производительность оценки при малых выборках [12].

Исследования, проводимые по одной и той же теме с различными размерами выборки, будут иметь разные оценки эффекта с более выраженными оценками в исследованиях с небольшой выборкой или исследованиях с сильно стратифицированными данными. В малых или даже в умеренно больших размерах выборки их распределения сильно искажены, а отношения шансов завышены. Здесь мы не можем дать четких указаний относительно того, насколько большой должна быть адекватная выборка, это в значительной степени зависит от конкретного исследования. Лонг [13] утверждает, что использовать оценки максимального правдоподобия для выборок менее 100 рискованно, в то время как выборки более 500 должны быть адекватными. Однако это сильно зависит от структуры данных. Исследования с очень частым или чрезвычайно редким исходом обычно требуют больших выборок. Количество переменных воздействия и их характеристики сильно влияют на требуемый размер выборки.Дискретное воздействие обычно требует большего размера выборки, чем непрерывное воздействие. Для высококоррелированных экспозиций также требуются более крупные образцы.

Эффект небольшого исследования, феномен небольших исследований, сообщающих о более значительных эффектах, чем большие исследования, неоднократно описывался [14]. Выборочная публикация «положительных исследований» может частично объяснить это явление. Однако мы показали, что отношения шансов переоцениваются в небольших выборках из-за свойств, присущих моделям логистической регрессии. Эта систематическая ошибка в одном исследовании может не иметь никакого отношения к интерпретации результатов, поскольку она намного ниже стандартной ошибки оценки. Но если несколько небольших исследований с систематически завышенной величиной эффекта объединить вместе без учета этого эффекта, мы можем неверно истолковать доказательства в литературе за эффект, хотя в действительности такового не существует.

Вывод

Исследования с малым и средним размером выборки, использующие логистическую регрессию, переоценивают меру эффекта. Мы советуем проявлять осторожность при объединении небольших исследований с систематически завышенной величиной эффекта.

использованная литература

  1. 1.

Steineck G, Hunt H, Adolfsson J: Иерархическая ступенчатая модель систематической ошибки - Оценка лечения рака с помощью эпидемиологических методов. Acta Oncologica. 2006, 45: 421-429. 10.1080 / 02841860600649293.

Agresti A: Категориальный анализ данных. 1990, серия Wiley по вероятности и статистике, Нью-Джерси, John Wiley & Sons Inc.

Ферт D: Снижение смещения оценок максимального правдоподобия. Biometrica. 1993, 80 (1): 27-38. 10.1093 / biomet / 80.1.27.

Кокс Д.Р., Хинкли Д.В.: Теоретическая статистика. 1982, Чепмен и Холл, Лондон

Джуэлл Н.П.: систематическая ошибка малой выборки точечных оценок отношения шансов из сопоставленных наборов. Биометрия. 1984, 40: 412-435. 10.2307 / 2531395.

Ejigou A: Свойства малой выборки оценщиков отношения шансов при множественном сопоставлении в исследованиях случай-контроль. Биометрия. 1990, 46: 61-69. 10.2307 / 2531630.

Кордерио Г. М., МакКаллаг П. Коррекция смещения в обобщенных линейных моделях. JR Statist Soc B. 1991, 53 (3): 629-643. [http://www.jstor.org/pss/2345592]

Nam JM: Оценщик максимального правдоподобия логарифмического отношения шансов с поправкой на смещение. Biometrica. 1993, 80 (3): 688-694. 10.1093 / биомет / 80.3.688.

Pawitan Y: Во всем правдоподобии: статистическое моделирование и вывод с использованием правдоподобия. 2001, Oxford University Press, Нью-Йорк

Маккиннон Дж. Г., Смит А. А.: Приблизительная коррекция систематической ошибки в эконометрике. Журнал эконометрики. 1998, 85 (2): 205-230. 10.1016 / S0304-4076 (97) 00099-7.

Клаескенс Дж., Аэртс М., Моленбергс Г.: метод квадратичной начальной загрузки и улучшенная оценка в логистической регрессии. Статистика и вероятностные письма. 2003, 61: 383-394. 10.1016 / S0167-7152 (02) 00397-8.

Дейтрих Дж .: Влияние стратегий выборки на свойства малой выборки логита-оценщика. Журнал прикладной статистики. 2005, 32: 543-554. 10.1080 / 02664760500078888.

Длинный SL: модели регрессии для категориальных и ограниченно зависимых переменных. 1997, Передовые количественные методы в социальных науках 7. Публикации SAGE, Thousand Oak

Sterne JAC, Gavaghan D, Egger M: Публикация и связанная с ней систематическая ошибка в метаанализе: мощность статистических тестов и распространенность в литературе. Журнал клинической эпидемиологии. 2000, 53: 1119-1129. 10.1016 / S0895-4356 (00) 00242-0.

История до публикации

Историю до публикации этого документа можно найти здесь: http://www.biomedcentral.com/1471-2288/9/56/prepub

Благодарности

Авторы выражают благодарность Ларри Лундгрену, Ульрике Олофссон и рецензентам за комментарии и обсуждения. Это исследование было поддержано Шведским онкологическим обществом и Шведским исследовательским советом.

Информация об авторе

Принадлежности

Отделение клинической эпидемиологии рака, Отделение онкологии, Академия Сальгренска, Гётеборгский университет, Швеция

Сциллард Немес, Дзюнмей Мяо Джонассон, Анна Генелл и Гуннар Стейнек

Отделение клинической эпидемиологии рака, Отделение онкологии и патологии, Каролинский институт, Швеция

  1. Сциллард Немес

Вы также можете найти этого автора в PubMed Google Scholar

Вы также можете найти этого автора в PubMed Google Scholar

Вы также можете найти этого автора в PubMed Google Scholar

Вы также можете найти этого автора в PubMed Google Scholar

Автор, ответственный за переписку

Дополнительная информация

Конкурирующие интересы

Авторы заявляют, что у них нет конкурирующих интересов.

Вклад авторов

NSz задумал исследование и участвовал в его разработке, осуществил его реализацию и подготовил первую версию рукописи. JMJ участвовал в разработке исследования. AG участвовала в проведении исследования. GS координировал исследование. Все авторы участвовали в написании и одобрили окончательную версию.

Электронный дополнительный материал

12874_2009_372_MOESM1_ESM.pdf

Дополнительный файл 1: смещение отношения шансов при моделировании логистической регрессии и размер выборки. Подробное описание дизайна исследования (PDF 29 КБ)