Внутренняя валидность

«Угрозы внутренней валидности» - выражение, относящееся к плану исслед., к-рое интерпретаторы данных используют для описания ряда вопросов, возникающих в связи с возможными неточностями при интерпретации причинно-следственных связей между изучаемыми переменными. Некоторые из этих угроз уже упоминались, в частности, при описании квазиэкспериментов. Выражение регрессия к среднему показателю используется для описания эффекта неточного измерения текущего и будущих наблюдений, и она представляет собой серьезную угрозу для внутренней валидности плана психол. исслед.

Другой угрозой является естественное развитие, поскольку испытуемые подвержены естественным процессам созревания и развития с течением времени независимо от манипуляций, к-рые совершает над ними исследователь. Эта последняя гипотеза, в частности, объясняет необходимость использования в исслед. контрольных групп, позволяющих осуществлять сравнения с естественно развивающимися испытуемыми.

Еще одной угрозой является отсев. Систематическое сокращение количественного состава групп вследствие выбывания, неявок, переезда людей в другой город, незаполненных критериальных опросников, и т. д. может делать менее заметной в результатах исслед. роль тех оставшихся участников, к-рые оказываются в меньшей степени подвержены эксперим. воздействию. А ведь чем более заметны улучшения по критерию, тем лучше выглядит эффективность самого изучаемого воздействия.

Угроза отбора возникает на этапе формирования исслед. состава групп участников. Систематический отбор или пассивный отбор (собственное желание) участников для изучаемого воздействия или условия может приводить к возникновению различий среди некоторых групп перед началом исслед. Эти группы будут по-прежнему отличаться от других и после реализации воздействия - даже когда они сами не подвергались воздействию. Поэтому, для достижения высокой внутренней валидности (причинно-следственных) утверждений в отношении взаимосвязей переменных, необходима формулировка и проверка альтернативной гипотезы о том, какими могли бы быть эти эффекты в отсутствие такого воздействия или условия.



Фон относится к тем изменениям контекста проводящегося исслед., к-рые могут смешиваться с самими изучаемыми воздействиями. Подобное смешение делает невозможным отнесение изменений в испытуемых на счет исследуемого воздействия или внешних изменений.

Инструментальная погрешность яв-ся угрозой внутренней валидности, почти исключительно присущей психологии, поскольку она возникает в результате происходящих со временем изменений стандартов наблюдателя или условий наблюдения. Эти изменения вызывают различия в оценках. Проблема состоит в том, что подобные расхождения в стандартах измерения могут приводить к ошибочным оценкам тех изменений, к-рые являются следствием изучаемых воздействий.

Эффект тестирования яв-ся примером другой, почти исключительно присущей психологии, угрозы внутренней валидности. Она связана с эффектом улучшения показателей испытуемых просто в результате предыдущего прохождения теста.

Нестабильность ,как было указано выше, вытекает из попыток интерпретировать происходящие непосредственно после эксперим. воздействия или спустя к.-л. время естественные изменения испытуемых и измерений.

Существуют также четыре аффективных угрозы внутренней валидности: подражание, компенсаторное соперничество, компенсаторное уравнивание, и деморализация. Они тж присущи исключительно психол. науке, поскольку возникают в результате эмоциональных изменений у испытуемых и проводящего измерения персонала как формы адаптации к тому факту, что они не попали в число «избранных» участников исслед., получающих и осуществляющих эксперим. воздействие.

Внешняя валидность и метаанализ

Наконец, существует понятие внешней валидности - суммы характеристик исслед., к-рая позволяет осуществлять обобщение или распространение получаемых в исслед. (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исслед.

Метаанализ. Внешняя валидность результатов исслед. существенно усиливается, когда объединяется и обобщается целый ряд исслед. одной и той же воздействующей переменной. Такая процедура называется метаанализом .В метаанализе определяются величина эффекта, оказываемого эксперим. воздействием и основными условиями исслед. на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, к-рый позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исслед. определяется простым делением разности между средними показателями по критериальной переменной в эксперим. группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исслед., не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.

Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.

См. также Контрольные группы, Экспериментальные методы, Проверка гипотезы, Измерение, Статистика в психологии

Дж. Эшер

Методы многомерного анализа (multivariate analysis methods )

Многомерность свойственна психол. данным по природе, поскольку они чаще всего состоят по крайней мере из неск. наблюдений за поведением одного человека или группы лиц. М. м. а. и были созданы для совместной обработки таких данных, напр. для их исслед. с целью обнаружения присущих им базисных характеристик либо, в случае дедуктивного подхода, для проверки или оценки априорных гипотез в отношении этих данных. В своих лучших образцах многомерный анализ представляет собой обобщение одномерного анализа, так что в тех случаях, когда данные состоят из значений только одной переменной, многомерный метод будет давать тот же результат, что и соотв. одномерный метод. Так, есть статистики, базирующиеся на многомерном распределении случайных величин, к-рые можно свести к таким хорошо известным одномерным статистикам, как хи-квадрат или t -критерий.

Многомерный анализ включает широкий спектр мат. и статистических методов и, вообще говоря, не существует общепринятого определения границ этой области. По общей договоренности, однако, такие специализированные предметы, как теория надежности или теория латентных черт, не считаются разделами многомерного анализа в силу их обособленных традиций в сфере психол. исслед. Методы анализа множественных дихотомических переменных часто рассматриваются и изучаются под своими названиями, напр. логлинейные модели. Также анализ повторных наблюдений, проведенных на одном человеке или на каком-то др. объекте, скажем, классе, обычно относится к особой области, наз. анализом временных рядов.

Модели

Многомерный анализ требует соединения трех различных типов информ. в одном методе, к-рый можно применять на практике. С т. зр. психолога, из накопленных в психологии действенных идей и знаний необходимо извлекать наиболее существенное и применять к ситуации анализа исходных данных. Такое очищенное знание, особенно если оно формализовано, наз. психол. моделью. Психол. модель обеспечивает контекст для выбора наиболее подходящего метода из множества многомерных или др. методов анализа (либо статистического описания) данных.

Второй тип используемой информ. - это мат. или структурная модель, устанавливающая отношения между осн. переменными, наблюдениями, параметрами и пр. Структурная модель является формально-математическим представлением, к-рое предполагается релевантным многомерной ситуации в силу психол. модели. В общем, многомерные методы основываются на линейных по своей природе моделях. Т. к. психол. теории часто предполагают существование нелинейных связей, иногда бывает трудно сделать допущение о линейности. И все-таки принятие этого допущения может быть оправданным в тех случаях, когда большинство зависимых (т. е. предсказываемых) переменных имеют аппроксимативно непрерывный характер. Если же эти переменные являются дихотомическими или порядковыми, будет трудно обосновать допущение о линейности иначе как соображениями удобства или аппроксимации.

Третий тип информ. - это статистическая модель. Такую модель нужно разрабатывать всякий раз, когда предполагается что-то большее, чем простое описание данных. В этом случае, помимо статистического описания данных, интерес могут представлять выводы о более широкой совокупности, на выборке из к-рой и были получены изучаемые данные. Осн. вопрос при состыковке структурной и статистической моделей - ошибка, обусловленная структурой наблюдений (error structure of observations ). Недавно полученное обобщение многомерного нормального распределения, допускающее ненулевой, но постоянный эксцесс кривых плотности распределения переменных, оказалось полезным в качестве основы для расширения традиционных методов; был тж введен ряд непараметрических методов.

В добавление к описанию распределения переменных статистическая модель должна описывать модель выборки, используемой для получения наблюдений. Обычно полагают, что таковая является моделью независимых случайных наблюдений, при к-рой на оценки каждого отдельного человека не влияют оценки др. людей. Наконец, статистическая модель должна точно определять границы области действия определенных статистических или случайных процессов.

Хотя М. м. а. можно и нужно использовать как разведочные, для проникновения в суть собранных данных и формулирования гипотез о скрывающихся за ними факторах, большой класс этих методов составляют конфирматорные (подтверждающие) по своему характеру методы, предназначенные для проверки теорий. В общем, конфирматорный подход к многомерному анализу претендует на решение следующих задач: а) оценивание параметров распределения для проверки гипотез об этих параметрах; б) определение доверительных областей измеренных значений переменных на основе обоснованного применения теории выборок и стандартных ошибок; в) оценивание адекватности гипотетической структурной модели; г) сравнение контрастных моделей; д) придание вероятностных формулировок разным результатам и е) доверительное оценивание выводов.

Методы

Осн. многомерные методы можно разбить на 3 категории: методы линейных моделей, методы линейной композиции и линейные структурные методы. Их классиф. зависит от того, в какой степени включаемые в анализ переменные можно считать случайными, а не заданными или известными, и в какой мере можно опираться на теорию малых выборок, а не только на теорию больших выборок, учитывая, что теория линейных моделей является наиболее разработанной, а структурные методы, по крайней мере, достаточно хорошо разработаны в статистическом плане. Как уже упоминалось, существуют еще и нелинейные методы.

См. также Корреляция и регрессия, Статистика в психологии

П. М. Бентлер

Методы тестирования (testing methods )

Психол. тесты разраб. для столь широкого разнообразия целей, что сами М. т. значительно варьируют от теста к тесту. Существует множество континуумов, по к-рым можно классифицировать отдельные тесты.

С т. зр. содержания тест может измерять максимальное выполнение или типичное выполнение, выявлять лучший уровень, к-рого может достичь обследуемый, либо типичный уровень его выполнения. Тесты на максимальное выполнение (maximum performance tests )предполагают правильные и неправильные ответы; тесты на типичное выполнение (typical performance tests )обычно оценивают различия в стилях выполнения, без использования сравнительной оценки ответов с т. зр. их эффективности.

Тесты на максимальное выполнение можно разделить на две категории: тесты способностей и тесты достижений. Чистые тесты способностей (ability tests )измеряют то, что чел. оказывается в состоянии делать, и обычно формулируют тестовые задания в виде проблем, непосредственным опытом решения к-рых тестируемый вряд ли обладает. Чистые тесты достижений (achievement tests )оценивают объем знаний, к-рый чел. усвоил в процессе предшествующего обучения. Однако это различие не всегда является очевидным, поскольку тесты способностей, как правило, тж предполагают использование ранее усвоенных правил и принципов. Большинство споров, касающихся ошибок в тестах способностей, концентрируются вокруг вопроса о том, в равной ли степени все потенциальные обследуемые имели в своей жизни возможность овладеть этими предполагаемыми в качестве предварительного условия умениями.

Тесты способностей и тесты достижений можно классифицировать на континууме скорость - возможность. Чистые тесты скорости (speed tests )состоят из вопросов, на к-рые легко дать правильный ответ, но этот ответ необходимо дать быстро. Чистые тесты возможностей (power tests )состоят из заданий, обычно различающихся по степени трудности, к-рые оценивают максимальное выполнение без ограничений времени на работу с ними.

В соответствии с др. принципом классиф. можно выделить тесты действия, или «практические» (performance tests ), и тесты вербальные, или «теоретические» (nonperformance tests ). Тесты действия обычно требуют явного, активного реагирования, такого как моторные и манипулятивные действия, в то время как вербальные тесты обычно предполагают письменные вербальные ответы на вопросы.

Тесты личности (personality tests )подразделяются на два осн. типа: объективные и проективные. Объективные тесты личности (objective personality tests ), такие как Миннесотский многофазный личностный опросник (ММРI ), обычно включают вопросы, предполагающие ответы в форматах «да/нет» или множественного выбора, к-рые доступны объективной количественной обработке. Эти вопросы (или утверждения), составляющие пункты теста, часто объединяются в шкалы, измеряющие различные аспекты личности. Несмотря на объективность получения оценок по отдельным шкалам, их интеграция в профили для целостного описания личности обычно предполагает привлечение субъективных суждений. Проективные тесты (projective tests )используют неопределенные стимулы, к-рые обследуемый должен интерпретировать, предположительно путем «проецирования» в эту интерпретацию отдельных аспектов своей собственной личности. Классическими проективными тестами являются Тест чернильных пятен Роршаха и Тест тематической апперцепции (ТAT ). Проведение и обработка проективных тестов требует специальной подготовки и значительного профессионального опыта.

Тесты могут разраб. для индивидуального или групп. проведения. Индивидуальные тесты, такие как IQ -тесты Векслера, требуют для проведения больших временных затрат. Групп. тесты, такие как Тест академических способностей (SAT ), требуют меньших временных затрат, но обычно не позволяют тестирующему оценивать аттитюды к тестированию, анализировать стратегию ответов или расспрашивать тестируемого в отношении специфических ответов с целью поиска дополнительной, уточняющей информ.

Тремя осн. подходами в интерпретации тестовых показателей являются нормативный, ориентированный на статистические нормы, критериально ориентированный и ипсативный. Нормативный подход используется наиболее часто и предполагает сравнение индивидуального показателя с групповым, рассматриваемыми в качестве нормы. Критериально-ориентированная система связывает уровень выполнения теста индивидуумом с абсолютными стандартами или критериями. Ипсативный подход предполагает сравнение индивидуальных показателей друг с другом.

См. также Психометрика

М. Эллин

Методы эмпирического исследования (empirical research methods )

Слово «эмпирический» буквально означает «то, что воспринимается органами чувств». Когда это прилагательное употребляется по отношению к методам научного исслед., оно служит для обозначения методик и методов, связанных с сенсорным (чувственным) опытом. Поэтому говорят, что эмпирические методы основываются на т. н. «твердых (неопровержимых) данных» («hard data» ). Кроме того, эмпирическое исслед. твердо придерживается научного метода в противоположность др. исследовательским методологиям, таким как натуралистическое наблюдение, архивные исследования и др. Важнейшая и необходимая предпосылка, лежащая в основе методологии эмпирического исслед. состоит в том, что оно обеспечивает возможность своего воспроизведения и подтверждения/опровержения. Пристрастие эмпирического исслед. к «твердым данным» требует высокой внутренней согласованности и устойчивости средств измерения (и мер) тех независимых и зависимых переменных, к-рые привлекаются с целью научного изучения. Внутренняя согласованность является осн. условием устойчивости; средства измерения не могут быть высоко или хотя бы достаточно надежными, если эти средства, поставляющие сырые данные для последующего анализа, не будут давать высокие интеркорреляции. Неудовлетворение этого требования способствует внесению в систему дисперсии ошибок и приводит к получению неоднозначных или вводящих в заблуждение результатов.

Типичные нарушения внутренней валидности вывода

Изменения исторического фона, матурация, несоответствие составов контрольной и экспериментальной групп, отсев респондентов, нестабильность инструментального комплекса, эффект тестирования, реактивный эффект. «Натурные» эксперименты.

На результаты эксперимента оказывают влияние любые события, происходящие во время проведения исследования, особенно если оно занимает продолжительное время. Сама зависимая переменная меняется под влиянием посторонних обстоятельств, и какое из них обусловило изменения, - остается неясным. Причины изменений обозначаются как изменения исторического фона. Под «историей» имеется в виду история эксперимента.

Предположим, проверяется гипотеза о воздействии пропаганды на поведение избирателей. В соответствии со схемой эксперимента осуществляется замер электоральных предпочтений до пропагандистской атаки и после нее. Затем сопоставляются значения этой переменной в двух группах: экспериментальной, подвергавшейся пропагандистскому воздействию, и контрольной, где на избирателей не оказывалось влияния. Предположим, далее, что установлены существенные различия между экспериментальной и контрольной

3 Кэмпбелл Дж, Модели эксперимента в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М.И. Бобневой; Вступ. ст. Г.М. Андреевой. М.: Прогресс, 1980. С.72 - 73.


труппами. Однако можем ли мы быть уверены, что различия обусловлены именно пропагандой. За короткий промежуток времени на мнения избирателей могли повлиять различные события: повышение цен, сенсационные разоблачения политических лидеров, рост инфляции. Все эти факторы могут служить основой альтернативных гипотез. Чем больше временной промежуток между претестом и посттестом, тем больше вероятность «исторических» искажений результатов эксперимента.

Модификацией «исторических» изменений являются естественные изменения в самом объекте экспериментирования - «матурация». С течением времени меняется не только внешняя среда, но и внутренние качества испытуемых. Предположим, что экспериментальной проверке подвергается метод преподавания и предварительные измерения отделены от итоговых измерений временем, занимающим почти весь учебный год. Разумеется, за этот период произойдут существенные сдвиги в уровне усвоения материала студентами - здесь нельзя сбрасывать со счетов то обстоятельство, что испытуемые стали взрослее и, вероятно, умнее. Результат может быть вызван и новым методом преподавания, и взрослением экспериментального контингента. Даже если эксперимент длится два-три часа, на его результаты может повлиять усталость и раздражение испытуемых.

Несоответствие составов групп. На внутреннюю валидность вывода оказывают искажающее влияние изменения в составе экспериментальной и контрольной групп. Особенно часто это случается тогда, когда для эксперимента выбираются примерно равные по возрасту классы, студенческие группы. Однако проконтролировать все различия довольно трудно. Например, более высокий уровень сплоченности в одной группе может привести к существенным искажениям результатов. Надежное средство выравнивания составов контрольной и экспериментальной групп - рандомизация.

Отсев испытуемых. Если эксперимент длится долго, вероятность избежать отсева испытуемых по разным причинам довольно высока. Поэтому при осуществлении итоговых измерений невозможно с уверенностью сказать, насколько повлияло выбытие испытуемых на результат. Чаще всего из экспериментов выбывают испытуемые из контрольных групп.

Нестабильность инструментального комплекса. Изменения могут затрагивать не только внешние обстоятельства (фон) и испытуемых, но и измерительный инструментарий исследования. Проблема заключается в том, что в отличие от естественных наук в социологии и психологии измерительные инструменты (в том числе интервьюер) меняются. А смена измерительного комплекса влечет за собой смещение данных. Здесь нельзя менять ни wording, ни калибровку, ни


стиль интервьюирования. При экспериментах, связанных с контролем успеваемости студентов, такого рода погрешности практически неизбежны. Необходимо не только сохранить критерии оценки знаний - часто интуитивные, но даже тот психологический настрой, который был присущ экзаменатору в момент первой проверки. Смена экзаменатора в данном случае эквивалентна смене инструмента и препятствует всяким сопоставлениям.

Экспериментальный инструментарий предполагает однократное применение к одному испытуемому. В противном случае возникнет эффект тестирования. Если экспериментатор обратится с тем же тествопросником вторично, результаты замера будут иными, поскольку испытуемый уже знаком с инструментом и будет осознанно или неосознанно корректировать свои реакции, например, стараться вспомнить, что говорил прошлый раз, и воспроизводить свои ответы. Собственно говоря, знакомый испытуемому тест-вопросник - уже другой инструмент, чем тот, который применялся на стадии претеста, и сравнение данных содержит существенную погрешность.

И, наконец, самые существенные искажения связаны с влиянием на результат эксперимента наряду с независимой переменной самой экспериментальной ситуации - часто такое влияние называют реактивным эффектом.

Лучше всего проиллюстрировать возникновение реактивного эффекта на примере проверки нового метода лечения. Зная о том, что на них испытывается новый метод лечения, пациенты обнаруживают заметные улучшения по крайней мере в клинической симптоматике заболевания. Лучше себя чувствуют даже те, кто входит в контрольную группу, т. е, не находится под воздействием экспериментальной переменной.

Влияние инструмента на реакции респондентов может быть самым неожиданным. В литературе хорошо описан «эффект интервьюера», когда ответы в значительной мере обусловлены невольным воздействием личности интервьюера. Реже упоминается, что вопросы, задаваемые в ходе одного интервью, обнаруживают более высокую корреляцию, чем те же вопросы, включенные в разные анкеты. Если вопросы интервью следуют друг за другом, наблюдается «галаэффект»: корреляция между ними выше, чем между такими же, но «отдаленными» вопросами. Корреляция между данными, полученными в один день, выше, чем корреляция между данными, полученными в разные дни.

Следует различать действие экспериментальной переменной и экспериментальной ситуации. В последнем случае мы имеем дело с реактивным эффектом. В медицине от него пытаются избавиться с помощью placebo - контрольным больным дают «видимость» экспе


риментальной переменной, например, таблетки такого же цвета и вкуса, какие дают экспериментальным больным. Таким образом, placebo является одним из способов выравнивания эффекта экспериментальной ситуации. В социологии применить placebo практически невозможно.

Имеются и другие факторы, снижающие внутреннюю валидность: взаимодействие фактора отбора с «матурацией», деморализация испытуемых, связанная с кажущимися неудачами; имитация воздействия и т. п.

Нарушения внутренней валидности, обусловленные изменениями «исторических» обстоятельств эксперимента, компенсируются сравнением контрольной и экспериментальной групп - изменения в данном случае затрагивают и тех, и других испытуемых. Аналогичным образом изменения в измерительном инструментарии затрагивают обе группы. Реактивный эффект также оказывает одинаковое воздействие на всех испытуемых. Особенно серьезную опасность представляют посторонние переменные, связанные с недостаточным выравниванием групп.

Внешняя валидность, как уже говорилось, это возможность распространить установленные зависимости за рамки экспериментального материала. При высокой внутренней валидности, т. е. при уверенности, что изменения в переменной х вызывают определенные изменения в переменной у, внешняя валидность может оказаться совершенно неудовлетворительной.

Предполагается, что в отличие от лабораторного эксперимент «на натуре» ближе к жизни. Часто эксперименты, проводимые на улице, на производстве, в общественных учреждениях, по месту жительства и т. п. называют в отличие от лабораторных «естественными». Здесь этические проблемы, связанные с навязыванием ничего не подозревающим людям экспериментальной «легенды», стоят особенно остро.

В литературе имеются десятки примеров замаскированных полевых экспериментов, позволяющих сравнить ситуации с разными значениями независимой переменной. Изучалась реакция публики на «пешеходов» высокого и низкого социального статуса, переходящих проезжую часть на красный сигнал светофора. Разумеется, пешеходами были экспериментаторы, одетые так, как одеваются люди высокого и низкого социального положения. Рассылались письма с просьбой о приеме на работу, при этом в одной группе указывались сведения уголовного характера, в другой - нет. Зависимой переменной в данном случае являлись реакции работодателей. Женщина рядом с автомобилем, у которого села покрышка... В одних случаях она демонстрирует просьбу о помощи, в других - нет. «Нищие», внешний вид которых отчетливо идентифицируется с представителями опре


деленных этнических групп, сидят на тротуаре... «Джентльмен» спрашивает прохожих, не уронил ли кто только что найденную долларовую бумажку... Помощники экспериментатора собираются на улице в группы разной величины, а затем устанавливается число прохожих, привлеченных группой. Несколько «хулиганов» на улице пристают к дамам... Письма делового, любовного и «нейтрального» содержания, «по ошибке» попавшие в чужие руки... Перечень подобных естественных экспериментов бесконечен. Однако свидетельствуют ли они о связи переменных - неясно. Остается сомнение: являются ли естественные эксперименты более естественными и валидными, чем эксперименты в лабораториях. Очевидный «минус» естественных экспериментов - нарушение моральных норм, связанное с целенаправленным обманом испытуемых, не дававших согласия на участие в «социодраме». Отчасти исследователей извиняет то обстоятельство, что моделируемые ситуации входят в число повседневных и не связаны с ущербом, кроме незначительной потери времени. Но, бывает, мера превышается. Известны, например, опыты С. Мильгрема с кажущимся применением электрошока к испытуемым, создание ситуаций, связанных с угрозой верной гибели, и т. п.

3. Типы квазиэкспериментальных и экспериментальных планов

«Исследование случая», эксперимент ex post facto, временные серии, панельные исследования и тренды, план с эквивалентными выборками, экспериментирование на одном объекте с претестом и посттестом, сравнение нерандомизированных контрольной и экспериментальной групп, экспериментальный план с предварительным и итоговым замерами и контрольной группой, эксперимент Р. Соломона для четырех групп, план с контрольной группой без претеста, перекрестный квазиэкспериментальный план, экспериментальный план с претестом и посттестом, план с временной серией и контрольной группой.

Многие социологические эксперименты строятся по упрощенному плану «исследования случая»: выбирается удобная группа испытуемых, к ним применяется воздействие экспериментального фактора х и замеряется результат О.


В данном случае не производится ни контроля, ни сравнения, и невозможно утверждать ничего определенного о связи экспериментальной переменной с эффектом. Вывод в данном случае основан на имплицитном предположении, какими могли бы быть данные, если бы не было экспериментальной переменной х. Нередко в качестве экспериментов такого рода рассматриваются крупные политические события (разгон парламента, политические выборы, революции и т. п.). Когда Лайфорд Эдварде связывал причину революции с моральной атакой публицистов на привилегии власть предержащих, он имел в виду некие глобальные исторические эксперименты, результатом которых явился политический переворот 4 .

Связь между «причиной» и «следствием» в лучшем случае обсуждается в риторических терминах, но никоим образом не контролируется, поэтому речь в данном случае идет не об эксперименте, а о квазиэксперименте. Ситуация, сложившаяся после «экспериментального» события, может быть объяснена множеством факторов, не связанных с экспериментальной переменной. Поэтому в социологии конкурируют разные в равной степени убедительные версии, но о внутренней валидности вывода судить невозможно. Внешняя валидность рассматриваемого плана также сомнительна. «Часто результаты таких исследований представляют собой унылое нагромождение конкретных деталей, скрупулезных наблюдений, измерений и т. п., причем точности в таких случаях добиваются не там, где надо», - пишет Дж. Кэмпбелл 5 . Никакое сравнение отдельно взятых факторов не может получить обоснованную теоретическую интерпретацию.

Несмотря на очевидную слабость такого рода, квазиэксперименты играют важную роль в социальных и поведенческих науках, особенно в тех областях, где взаимообусловленные признаки не обязательно являются независимой и зависимой переменными в строгом смысле. В социологии чаще изучается связь не между стимулом и реакцией, а между «качествами», одно из которых считается причиной, а другое - следствием. Когда исследуется связь социального статуса и политических установок, первое «качество» с полным основанием считается независимым. Однако в данном случае сложно судить о временной последовательности воздействия. Первое условие эксперимента здесь

4 Edwards L. The natural history of revolution. 2nd ed. Chicago: The University of Chicago Press, 1970.

5 Кэмпбелл Дж. Модели экспериментов в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М.И. Бобневой; Вступ. ст. Г.М. Андреевой. М.: Прогресс, 1980. С. 49.


соблюсти невозможно. Второе условие эксперимента также нарушено, поскольку в социологии переменные чаще всего не специфицированы и образуют синдромы. Например, классовая принадлежность означает и владение собственностью, и образование, и культурные приоритеты, и престиж. Такого рода синдромы, как правило, не поддаются разложению на единичные признаки и, следовательно, экспериментальной манипуляции. И, наконец, в естественных условиях невозможно выровнять экспериментальную и контрольную группы. Поэтому требования сравнения, манипулирования и контроля оказываются невыполнимыми для большей части социологических задач. Отсутствие экспериментального контроля может быть с успехом компенсировано философским теоретическим дискурсом. Например, пресловутый английский индивидуализм объяснялся Э. Канетти разрозненностью индивидов, окруженных морем и воображающих себя капитанами 6 .

При сравнении статистических групп основная трудность состоит в установлении тех, кто подвергся воздействию экспериментальной переменной. Собственно говоря, необходимо четко отделить контрольную группу от экспериментальной после того, как экспериментальная переменная уже «сработала» без участия со стороны экспериментатора. Этой схеме Ф. Чэпин дал наименование ex post facto. Он изучал влияние школьного обучения на жизненный успех и карьеру за период в десять лет 7 . Данные о карьере собирались методом интервью, а ситуация в школе устанавливалась из архивных источников. Чэпин обнаружил, что окончившие школу имели более высокие показатели жизненного успеха, чем те, кто не смог завершить обучение. Было также установлено, что естественная «контрольная» группа отличалась от «экспериментальной»: социальный статус родителей респондентов, окончивших школу, был выше, чем у «контрольных» респондентов. Спрашивается, не является ли успешное окончание школы, продвижение в статусе на протяжении последующих десяти лет следствиями «третьего» фактора, например родительской семьи и окружения? Чэпин выравнивал группы учеников по социальному статусу родителей и другим «стартовым» признакам, которые могли повлиять на жизненный успех и карьеру. Массив разделялся только по признаку окончания / не окончания школы. Выравнивание, осуществленное Чэпином, не считается вполне корректным: для тех,

6 Канетти Э. Народы и символы // Новое время. 1991. № 32. С.41 - 43.

7 Сhapin F.S. Experimental design in sociological research. New York: Harper, 1955. P. 99-124.


кто окончил школу, может быть много иных объяснений жизненного успеха, чем социальный статус родителей.

Квазиэкспериментальные исследования и статистическая обработка данных позволяют достаточно надежно проверять гипотезы о взаимосвязях. Например, для проверки гипотезы о влиянии стабильности родительской семьи на стабильность семьи второго поколения весь массив наблюдений делится на две группы: респондентов, у которых родительская семья распалась, и тех, у которых она не распалась (промежуточными формами в данном случае можно пренебречь). Если в первой группе число разводов оказывается существенно выше, чем во второй, гипотеза не отвергается. Разумеется, утверждать о причинной связи этих признаков оснований мало, хотя такая связь не исключается. Более строгий контроль взаимодействия переменных обеспечивается методами многомерного анализа, которые позволяют выявить связь переменных в «чистом» виде, без посторонних влияний.

Сочетание квазиэкспериментальных планов с достаточно большим числом наблюдений значительно увеличивает как внутреннюю, так и внешнюю валидность вывода. В социологических исследованиях может эффективно применяться квазиэкспериментальный план временных серий. Он основан на введении экспериментального фактора после длительных наблюдений за динамикой переменной и установления тренда.

Изменение временного ряда после экспериментального воздействия свидетельствует о том, что причиной изменения, скорее всего, является х. Например, если производительность труда, достаточно долго сохранявшаяся на стабильном уровне, изменилась после оборудования рабочих мест более сильным освещением, можно полагать, что освещение повлияло на производительность труда. Рискованность такого вывода была продемонстрирована экспериментами в Хоуторне.

Квазиэкспериментальный план наблюдения одной и той же группы респондентов на протяжении длительного времени получил в социологических исследованиях наименование панели. Впервые панель была использована П. Лазарсфельдом, Б. Берельсоном и X. Годе для изучения установок избирателей на президентских выборах. В 1940 г. в небольшом американском городке Эри Коунти (штат Огайо) исследователи сформировали панель из 600 человек и опрашивали их ежемесячно с мая по ноябрь, чтобы установить изменение электоральных предпочтений. Кроме панели, интервьюировались три рандоми


зированных контрольных группы по 600 человек каждая 8 . В отличие от панели, которая опрашивалась ежемесячно, контрольные группы опрашивались по одному или по два раза 9 . Реактивный эффект панели контролировался в соответствии со схемой контрольных опросов (табл. 6.2).

(internal validity) В. в. относится к степени уверенности, с к-рой можно судить о предполагаемой каузальной связи между переменными. Эксперимент обладает В. в. в той мере, в какой наблюдаемые эффекты можно отнести к влиянию независимых переменных, а не к.-л. др. посторонних факторов. Приписывание причинной обусловленности обычно предполагает, что две переменные - причина и следствие - будут сопряженно изменяться, однако прежде чем делать вывод о В. в., необходимо продемонстрировать, что А действительно вызывает Б (т. е. что возникновение одного лишь А приводит к Б). Можно, напр., ошибочно посчитать, что обучение решению перцептивно-моторных задач в домашних условиях а) приводит к повышению успеваемости детей в школе, б) тогда как в действительности такой желаемый рез-тат обусловлен не столько самим перцептивно-моторным обучением, в) сколько родительской заботой и вниманием. Психол. эксперименты особенно подвержены вводящим в заблуждение и непредусмотренным эффектам побочных переменных, поскольку эти эксперименты крайне редко можно реализовать в таких идеально чистых условиях, какие создаются в физ. лабораториях. Поэтому преимущественной заботой исследователей в психологии становится планирование экспериментов т. о., чтобы получаемые в них положительные рез-ты позволяли делать выводы о существовании причинно-следственных связей. В. в. отличают от внешней валидности, относящейся к возможности распространения рез-тов за пределы того специфического контекста, в к-ром была установлена В. в. Напр., если бы в тщательно контролируемых условиях удалось доказать, что переполненность клеток, в к-рых содержатся лабораторные животные, приводит к агрессивному поведению у белых крыс (В. в.), были бы у нас основания для распространения этого вывода на людей, проживающих в гетто (внешняя валидность)? В. в. следует отличать от конструктной валидности, к-рая является теорет. объяснением предполагаемой причинно-следственной связи. В большинстве случаев, однако, когда существуют все разумные основания считать В. в. установленной, исследователю хочется сформулировать концептуальную основу или конструкт для объяснения этих связей. Кроме того, В. в. не следует смешивать с внутренней согласованностью - термином из области тестирования, относящимся к интеркорреляциям внутри нек-рого набора заданий. При установлении В. в. необходимо убедиться в существовании определенной последовательности событий. Очевидно, если существует связь между А и Б, и А всегда предшествует Б, логично предположить, что А вызывает Б, а не наоборот. Помимо орг-ции максимально возможного контроля над условиями окружения и эксперим. ситуации проводящие исслед. психологи занимаются отбором испытуемых такими способами, к-рые исключают систематические ошибки при распределении их в эксперим. и контрольные группы. Они тж прибегают к тщательно разраб. эксперим. планам (учитывающим ковариацию и включающим уравновешивание) для осуществления статистических способов контроля над влиянием переменных, с тем чтобы можно было делать обоснованные суждения о причинных связях. Далее в сокращенной форме приводится проведенный Куком и Кэмпбеллом анализ проблем, возникающих при проведении квазиэксперим. или полевых исслед. в психологии, каждая из к-рых представляет собой потенциальную угрозу для В. в. Конкретные события, к-рые происходят между первым и вторым измерениями, могут изменять реакции испытуемого. Напр., если в исслед. проверяется влияние нового лекарственного препарата на уменьшение тревоги, а в период между измерениями над данной местностью пронесся торнадо, то на рез-ты измерения уровня тревоги может серьезно повлиять страх, вызванный этой катастрофой. Кроме того, изменения, естественно происходящие с течением времени и связанные с развитием испытуемых, тж могут вызывать последствия, к-рые загрязняют эксперимент (т. е. улучшения в перцептивно-моторных умениях у детей м. б., скорее, следствием простого взросления, нежели обучения). В исслед., предполагающем повторные тестирования, многократное применение того же самого инструмента могут приводить к кумулятивному эффекту, к-рый загрязняет исследуемое воздействие (напр., улучшение в оценках IQ в рез-те "обогащения" среды может стать следствием знакомства с данным интеллектуальным тестом). Механические или сделанные чел. изменения в инструментах, используемых для измерений, могут вызывать иные, нежели исследуемое воздействие, эффекты. Со временем механическая пружина может утратить свою эластичность или исследователь может изменить свою ориентацию. Пренебрежение феноменом статистической регрессии (тенденции высоких и низких оценок при повторном тестировании изменяться в сторону области средних значений) может привести к получению чрезмерно положительной и вводящей в заблуждение оценке взаимосвязи и, как следствие, к ошибочным выводам в отношении причинной обусловленности. Непреднамеренная ошибка в процессе отбора испытуемых для контрольной и/или эксперим. группы может вызывать рез-ты, связанные с этим неучтенным, но неслучайным распределением отдельных испытуемых. В этом случае различия между группами, обусловленные скорее отбором испытуемых, нежели самими исследуемыми воздействиями, могут приводить к ошибочным выводам. Любое выбывание испытуемых в ходе проведения эксперимента (сознательный уход, болезнь или даже смерть) может искажать рез-ты эксперимента, если такая убыль выходит за пределы случайного отсева. Неопределенность в отношении того, является ли А причиной или рез-том Б, неизбежно сказывается на В. в. Играет ли футбольная команда лучше из-за присутствия на трибунах большего числа болельщиков или, наоборот, большее число болельщиков собралось на игру потому, что эта команда стала играть лучше? Случайная и нежелательная коммуникация между группами, принимающими участие в исслед., разрушает эксперим. наивность испытуемых и может формировать установки и ожидания, не связанные с целями данного исслед. В свою очередь, эксперимент сам может вызывать компенсаторное соперничество, чувство обиды, возмущение и деморализацию у отдельных испытуемых и/или их групп - состояния, к-рые не имеют отношения к целям эксперимента и могут искажать его рез-ты. Поскольку экспериментаторы работаю не в вакууме, иногда случается, что по административным или соц. причинам группы получают компенсаторное воздействие, к-рое приводит к уравниванию эффектов и работает против достижения валидных рез-тов. Напр., предоставление хотя бы минимальной терапии контрольной группе пациентов, к-рые вообще не должны были получать никакой терапии, м. б. оправданным с т. зр. гуманности, но, без сомнения, наносит ущерб цели такого эксперимента. Не существует способов проведения совершенного эксперимента (т. е. такого, в к-ром достигается настолько полный контроль, что было бы невозможно отнести полученный рез-т или взаимосвязь к категории артефактов). Кроме того, обычно сам контекст психол. экспериментов делает их чрезвычайно подверженными интерпретационной двусмысленности и получению ошибочных выводов. Однако глубокие познания в этой области и внимание к тем многочисленным ловушкам, к-рые подстерегают психолога при проведении квазиэксперим. исслед., могут ему помочь планировать эксперименты, позволяющие с большей вероятностью получать истинные выводы в отношении В. в. См. также Доверительные границы, Экспериментальные планы, Проверка гипотезы, Каноны Милля, Вероятность, Статистическая значимость Э. Э. Вагнер

Другие новости по теме.

Общие сведения

При обладающем внутренней валидностью исследовании исследователь уверен, что результаты, полученные измерением зависимой переменой, непосредственно связаны с независимой переменной, а не с каким-нибудь другим неконтролируемым фактором .


Wikimedia Foundation . 2010 .

Смотреть что такое "Внутренняя валидность" в других словарях:

    Внутренняя валидность - См. Валидность. Психология. А Я. Словарь справочник / Пер. с англ. К. С. Ткаченко. М.: ФАИР ПРЕСС. Майк Кордуэлл. 2000 … Большая психологическая энциклопедия

    ВНУТРЕННЯЯ ВАЛИДНОСТЬ - См. валидность, внутренняя … Толковый словарь по психологии

    Внутренняя валидность - (internal validity) – степень уверенности, с которой можно судить о предполагаемой каузальной связи между переменными … Энциклопедический словарь по психологии и педагогике

    В. в. относится к степени уверенности, с к рой можно судить о предполагаемой каузальной связи между переменными. Эксперимент обладает В. в. в той мере, в какой наблюдаемые эффекты можно отнести к влиянию независимых переменных, а не к. л. др.… … Психологическая энциклопедия

    Словарь-справочник по педагогической психологии

    Внутренняя валидность (обоснованность) - вид теоретической валидности, выражающийся в корреляции нескольких показателей (мер) одного и того же понятия … Социологический словарь Socium

    Внутренняя валидность эксперимента - критерий оценки планирования и проведения исследования, позволяющий считать достоверными выводы относительно именно представленной в гипотезе зависимости (а не какой то другой) … Словарь по педагогической психологии

    Качество эксперимента, гарантирующее обоснованность выводов: 1) о том, что именно экспериментальный фактор является причиной изменений, зарегистрированных в зависимой переменной (внутренняя валидность);2) о том, что выявленная зависимость… … Словарь бизнес-терминов

    Валидность (англ. validity) мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики.… … Википедия

    - (англ. validity) мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики. Как в… … Википедия

Понятие «валидность» ввел в употребление Д. Кэмпбелл. Различают внутреннюю и внешнюю валидность эксперимента. Существуют также конструктная и операциональная валидности.

Внутренняя валидность характеризует меру влияния на изменение зависимой переменной тех условий (независимой переменной), которые варьирует экспериментатор. Чем больше влияют на изменение зависимой переменной неконтролируемые исследователем условия, тем ниже внутренняя валидность эксперимента. Высокая внутренняя валидность - главный признак хорошего эксперимента. Внутренняя валидность тем выше, чем больше вероятность того, что экспериментальный эффект (изменение зависимой переменной) вызван изменением независимой переменной.

Кэмпбелл выделил несколько основных факторов, нарушающих внутреннюю валидность эксперимента.
1. Селекция - неэквивалентность групп по составу, которая вызывает систематическую ошибку в результатах (например, исследуются группы младших школьников, но одни из обычных классов, а другие - из класса коррекции)
2. Статистическая регрессия - частный случай ошибки селекции, когда группы отбирались на основе «крайних» показателей (допустим, исследовали очень глупых и очень умных детей, а считалось, что взяли «середнячков»).
3. Экспериментальный отсев - неравномерное выбывание испытуемых из сравниваемых групп, приводящее к неэквивалентности групп по составу.
4. Естественное развитие - изменение испытуемых, являющееся следствием течения времени, без связи с конкретными событиями изменение состояния (голод, усталость, болезнь и др.), свойств индивида (возрастные перемены, накопление опыта и т.п.). Также на нарушение внутренней валидности влияет большое количество побочных переменных.

Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, будут соответствовать жизненной ситуации, послужившей «первообразом» для эксперимента.

Кроме того, внешняя валидность характеризует возможность обобщения, переноса результатов, полученных в эксперименте, на весь класс жизненных ситуаций, к которым принадлежит «первообразная», и на любые другие.

В принципе возможны такие эксперименты, которые не соответствуют никаким реальным жизненным ситуациям, а служат лишь для проверки гипотез, источником которых является развитая теория. Например, эксперименты по сенсорной депривации или выработке классических условных рефлексов у собак не соответствуют никакой жизненной реальности.

Внешняя валидность иногда трактуется как характеристика эксперимента, определяющая возможность переноса (обобщения) полученных результатов на различные времена, места, условия и группы людей (или животных). Однако возможность переноса является следствием двух причин:
- соответствия условий эксперимента его «первообразной» жизненной ситуации («репрезентативность» эксперимента) (например, исследование мотивации учащихся - репрезентативный эксперимент, т.к. все учащиеся находятся в ситуации учебной деятельности и так или иначе мотивированы на учебу);
- типичности самой «первообразной» ситуации для реальности («репрезентативность» ситуации). Выбранная для моделирования в эксперименте ситуация может быть совершенно нерепрезентативной с точки зрения жизни той группы испытуемых, которая участвует в эксперименте, или являться редкой и нетипичной (например, исследование поведения в экстремальных ситуациях пенсионеров села Банниково).

Кэмпбелл называет главные причины нарушения внешней валидности:
1. Эффект тестирования - уменьшение или увеличение восприимчивости испытуемых к экспериментальному воздействию под влиянием тестирования.
2. Условия проведения исследования. Они вызывают реакцию испытуемого на эксперимент. Следовательно, его данные нельзя переносить на лица, не принимавшие участия в эксперименте, этими лицами является вся генеральная совокупность, кроме экспериментальной выборки.
3. Интерференция экспериментальных воздействий. Испытуемые обладают памятью и обучаемостью. Если эксперимент состоит из нескольких серий, то первые воздействия не проходят для них бесследно и сказываются на появлении эффектов от последующих воздействий.

В реальной практике редко возникает возможность провести «правильное» исследование по всем законам и с учетом всех условий и требований. В действительности чаще оказывается невозможным подобрать репрезентативные выборки, исключить эффекты селекции, выбывания, да и возможность переноса результатов на всю популяцию зачастую оказывается нереальной. Поэтому в психологии разработаны так называемые планы квазиэкспериментов.

Квазиэкспериментом является любое исследование, направленное на установление причинной зависимости между двумя переменными («если А, то В»), в котором отсутствует предварительная процедура уравнивания групп или «параллельный контроль» с участием контрольной группы заменен сравнением результатов неоднократного тестирования группы (или групп) до и после воздействия. Выбираются две естественные группы, например два параллельных школьных класса. Обе группы тестируются. Затем одна группа подвергается воздействию (ставится в особые условия деятельности), а другая - нет. Через определенное время обе группы проходят тестирование повторно. В педагогической практике большинство исследований проведено по типу квазиэкспериментальных.

Кэмпбелл ввел еще одно важное понятие, а именно - конструктную валидность. Она характеризует правильность обозначения (интерпретации) причины и экспериментального эффекта с помощью абстрактных терминов из обыденного языка или формальной теории. Кэмпбелл отмечает, что установление внутренней валидности требует отбраковывания альтернативных объяснений связи между зависимой и независимой переменными. Установление конструктивной валидности требует отказа от альтернативных интерпретаций соотношения причины и следствия с понятиями, взятыми из той или иной теории. Таким образом, конструктная валидность определяется правильностью употребления терминов той или иной теории при интерпретации данных эксперимента.

На основе теории выдвигается гипотеза, которая в конечном счете и проверяется в эксперименте. Методики и план эксперимента должны соответствовать проверяемой гипотезе - степень этого соответствия и характеризует операциональную валидность.

Например, исследовать степень притязаний с помощью анализа степени привлекательности спутника (спутницы) испытуемого нельзя.