Читать реферат по социологии: "Множественное заполнение пропусков как метод борьбы с пропущенными данными" Страница 1

назад (Назад)скачать (Cкачать работу)

Функция "чтения" служит для ознакомления с работой. Разметка, таблицы и картинки документа могут отображаться неверно или не в полном объёме!

Введение

статистический агрегатирование пропуск данные

Одной из неизбежных проблем, сопутствующих любому социологическому исследованию, являются пропуски в данных, приводящие к невозможности применения изначального дизайна исследования, потере данных и смещению результатов. Некоторые виды пропусков - систематические, или неигнорируемые - возможно избежать или устранить только на этапе сбора информации, например, при помощи внесения изменений в анкету, дополнительного инструктажа интервьюеров или многократного обращения к одному и тому же респонденту. Однако существуют методы, позволяющие бороться с игнорируемыми (случайными и полностью случайными) пропусками уже на этапе анализа данных, когда информация собрана и вернуться к этапу опроса нет возможности. На сегодняшний день таких методов разработано достаточно много, от наиболее простых (например, исключение неполных наблюдений) до сложных, в основе которых лежат сложные алгоритмы подбора пропущенных значений в зависимости от характера пропусков, имеющихся в массиве данных и предположений исследователя.

Один из таких сложных способов борьбы с пропущенными данными - разработанный Дональдом Рубином в 1987 году и активно развивающийся метод множественного заполнения пропусков - предполагает подстановку на место каждого пропуска не одного значения, как в случае более простых способов, а нескольких (в среднем, от 3 до 5). В результате исследователь получает три-пять полных массивов, затем анализирует каждый из них и агрегирует результаты, полученные одним и тем же методом на каждом из заполненных массивов, с применением специфических формул, называемых правилом Рубина. Многократная подстановка пропущенных значений позволяет ввести поправку на неопределенность пропуска, то есть не рассматривать подставленное значение как фиксированное и точное отражение того ответа, который на самом деле мог бы дать респондент на данный вопрос.

Очевидно, что проводить один и тот же анализ несколько раз на каждом массиве, а затем объединять их - задача достаточно трудоемкая. Этот процесс отчасти автоматизирован в статистических пакетах, поддерживающих процедуру множественного заполнения пропусков, однако нередко исследователь все же сталкивается с необходимостью подсчитывать параметры вручную с использованием правила Рубина (к примеру, если дизайн исследования предполагает использование процедуры бутстреп для верификации результатов, а используемым статистическим пакетом является SPSS, который не производит процедуру бутстреп на массиве, созданном в результате применения множественного заполнения пропусков). В связи с этим исследователями неоднократно производились попытки упростить алгоритм множественного заполнения пропусков, однако до сих пор они ограничивались каким-либо специфическим видом анализа (к примеру, отбором подобного по вероятности - propensity score estimation [18]) или не слишком распространенной исследовательской ситуацией (например, когда есть возможность опросить всю генеральную совокупность и, в результате, отпадает необходимость в учете выборочной дисперсии [22]). Таким образом, не существует теоретических или эмпирических доказательств того, что эффективные альтернативы применению правила Рубина для всех прочих исследовательских


Интересная статья: Быстрое написание курсовой работы