Глава 12. Индивидуальные различия - Оценка индивидуальных различий

Содержание материала

 

Оценка индивидуальных различий

Во многих промышленно-развитых странах широко используется объективная оценка индивидуальных различий, особенно различий в когнитивных и интеллектуальных способностях. В начальных школах детей часто распределяют по классам в зависимости от достигнутого ими успеха при прохождении тестов. Тесты на одаренность или способности являются частью процедуры поступления во многие колледжи и большинство профессиональных и высших учебных заведений. Кроме того, многие промышленные и правительственные агентства подбирают кадры, назначают и продвигают сотрудников по службе на основе данных тестирования.

Тесты для оценки интересов, склонностей и личных качеств также знакомы большинству из нас. Помогая учащимся выбрать профессию, консультанты смогут предложить лучший выбор, если им что-то известно об учащемся помимо его академической успеваемости. Отбирая кандидатов на высокие посты, наниматели часто хотят знать их стиль общения, способность справляться со стрессом и т. д. Какое лечение будет наиболее успешным для человека с эмоциональными нарушениями, или как помочь реабилитации освобожденного уголовника — для всего этого нужна объективная оценка индивидуальных различий. Помимо практических применений, эти методы оценки существенны для теории и исследований индивидуальных различий. Действительно, некоторые ученые, изучающие личность (см. гл. 13), разработали методы оценки, отвечающие особенностям их подходов.

Характеристики хорошего теста?

Поскольку тесты и другие средства анализа играют важную практическую и научную роль, необходимо, чтобы они точно измеряли то, для чего предназначены, а именно они должны обладать надежностью и валидностью.

Тесты также должны быть стандартизированы; под этим понимается, что условия прохождения теста должны быть одинаковыми для всех тестируемых. Например, инструкции, сопровождающие тест, должны быть одинаковыми для всех тестируемых лиц.

Надежность. Если тест или метод оценки надежен, он должен давать воспроизводимые и согласованные результаты. Если тест дает разные результаты при применении его в разных случаях или при выполнении подсчетов разными людьми, значит, он ненадежен. Простая аналогия — резиновая линейка. Если неизвестно, насколько она растягивается при каждом измерении, то результаты будут ненадежны, независимо от того, насколько аккуратно проводилось каждое измерение.

Как правило, надежность оценивается путем соотнесения двух групп показателей. Например, один и тот же тест можно дать той же группе испытуемых дважды. Если тест надежный, то показатели испытуемых в первом случае должны высоко коррелировать с показателями во втором. Если это так, то говорят, что этот тест обладает повторяемой надежностью или временной стабильностью.

Конечно, в реальной практике мало кто захочет давать один и тот же тест тем же людям дважды. Но есть много ситуаций, когда возникает желание провести аналогичные виды того же теста  —   например, когда учащиеся выпускного класса средней школы, намерившиеся поступить в колледж, хотят дважды пройти Тест школьной успеваемости (Тест Академических Способностей) (Scholastic Assessment Test, SAT). Чтобы убедиться, что две формы того же теста дают эквивалентные показатели, обе они предлагаются той же группе людей и затем сопоставляются. Если получена высокая корреляция между ними, то говорят, что этот тест обладает надежностью при изменении формы. Некоторые из вопросов, входящих в SAT, на самом деле не связаны с показателями учащегося, но они оцениваются статистически, чтобы их можно было использовать в будущем в аналогичных формах этого же теста.

Другой общей мерой надежности является внутренняя согласованность теста — то, в какой степени разные его вопросы или пункты измеряют одно и то же. Это можно оценить путем вычисления корреляции между показателями, полученными группой индивидов по каждому пункту и всему тесту в целом. Всякий пункт, не коррелирующий с общим показателем, является ненадежным; он не вносит вклад в измеряемый тестом параметр. Отбрасывание ненадежных пунктов «очищает» тест, повышая его внутреннюю согласованность. С увеличением числа надежных элементов в тесте растет и надежность общего показателя теста.

Результаты большинства тестов и анализов обрабатываются объективно, чаще всего компьютером. Но иногда требуется оценить умственную деятельность или социальное поведение субъективно. Знакомый пример этому — экзаменационные испытания. Чтобы оценить надежность таких субъективных суждений, с помощью независимых судей получают две или более групп данных, которые сопоставляются друг с другом. Например, два наблюдателя могут независимо оценивать группу детсадовских детей на агрессию; или двух или более судей могут попросить прочитать прошлые инаугурационные обращения президента и оценить их с точки зрения оптимистичности или количества негативных ссылок на Ирак. Если корреляция между оценками судей высока, то говорят, что данный метод обладает межэкспертным согласием или межоценочной надежностью.

Вообще, хорошо построенный, объективно обработанный тест способности должен обеспечивать надежность не менее 0,90. Для тестов личности и субъективных суждений, применяемых в исследовательских целях, приемлемым иногда может быть коэффициент 0,70, но при этом заключения о конкретном человеке следует делать с большой осторожностью. Как отмечалось выше, надежность общего показателя теста возрастает с ростом числа надежных пунктов теста. Это же рассуждение можно применить к субъективным оценкам и повысить надежность метода, добавив больше судей, оценщиков или наблюдателей. Например, если корреляция оценок двух наблюдателей составляет только 0,50, то исследователь может добавить третьего аналогичного наблюдателя и тем самым повысить межоценочную надежность их суммарных оценок до 0,75; с добавлением четвертого оценщика надежность возрастет до 0,80.

Валидность. Надежность показывает, насколько тест способен измерять что-то, но высокая надежность не гарантирует, что этот тест измеряет именно то, что требуется; она не гарантирует валидности (адекватности) теста. Например, если в последнем экзамене вашего курса психологии встречается слишком много трудных слов или заковыристых вопросов, то он может оказаться тестом ваших вербальных способностей или вашей изощренности, а не усвоения материала курса. Такой экзамен может быть надежным: при повторном прохождении учащиеся получат те же оценки и отдельные компоненты экзамена будут измерять одно и то же, — но это не будет валидным тестом достижений в данном курсе.

Иногда валидность теста можно оценить, сопоставив показатель теста с некоторым внешним критерием. Такая корреляция называется коэффициентом валидности. Например, относительно сильная положительная корреляция между показателями в SAT и успехами первокурсника в колледже показывает, что у этого теста приемлемая валидность. Валидность такого рода называется критериальной, или эмпирической, валидностью. Учитывая чувствительность тестов к расовым и половым различиям, суды все чаще требуют от компаний и правительственных агентств, применяющих тесты для отбора персонала, чтобы эти тесты коррелировали с показателями работы человека, то есть чтобы они обладали критериальной, или эмпирической, валидностью.

Валидность особого рода, относящаяся особенно к тестам, применяемым в исследованиях личности, называется конструктивной валидностью. Если исследователь создает тест для измерения некоторого понятия или концепции, являющихся частью теории, не всегда можно вычислить единый коэффициент, который показывал бы его критериальную валидность, поскольку неизвестен внешний критерий. Например, как исследователю оценить валидность теста на мотивацию к достижению успеха? Здесь может быть несколько возможностей. Можно дать этот тест ответственным исполнителям фирм и посмотреть, коррелирует ли он с их зарплатой. Возможно, этот тест будет коррелировать с оценкой учителями честолюбия своих учеников. Проблема в том, что нет единого критерия, который исследователь готов был бы принять за окончательный «истинный» ответ. Если тест коррелировал с зарплатой ответственных исполнителей, это выглядело бы убедительным, но если нет, исследователь не был бы склонен оценить этот тест как невалидный. В психологии личности это известно как проблема критерия: не существует меры «истины», позволяющей признать тест валидным. Соответственно, исследователь вместо этого пытается установить его конструктивную валидность.

Это осуществляется в самом процессе исследования. Ученый использует свою теорию и для построения теста, и для прогнозирования вытекающих из нее следствий. Затем проводятся исследования с использованием этого теста, чтобы проверить прогноз. В той степени, в которой результаты нескольких конвергирующих исследований подтверждают предсказания теории, и эта теория, и сам тест одновременно приобретает валидность. Чаще оказывается, что смешанные результаты указывают на то, в каком направлении должны быть модифицированы и теория и тест.

В частности, Мак-Клелланд (McClelland, 1987) предложил теорию мотивации к достижениям, которая, по его замыслу, должна была выявлять честолюбивых высокорезультативных индивидуумов в любой сфере деятельности и объяснять их высокую мотивацию. Для проверки этих теоретических предположений был разработан тест, оценивающий уровень мотивации к достижениям. Результаты нескольких исследований показывают, что предсказания, согласно данной теории, подтверждаются для мужчин, занимающихся предпринимательской деятельностью, но не для женщин или индивидуумов, занимающихся другими видами деятельности, например научными исследованиями. Соответственно, теория была модифицирована для использования преимущественно по отношению к достижениям в области предпринимательства, а тест был модифицирован таким образом, чтобы он являлся более валидным и для женщин.

Оценка интеллектуальных способностей

Первую попытку создать тесты интеллектуальных способностей предпринял сэр Фрэнсис Гальтон столетие назад. У натуралиста и математика Гальтона интерес к индивидуальным различиям возник под влиянием эволюционной теории его двоюродного брата Чарльза Дарвина. Гальтон полагал, что некоторые семьи обладают биологическим превосходством — они сильнее и умнее других. Интеллект, рассуждал он, это вопрос исключительно сенсорных и перцептивных навыков, передающихся от одного поколения к следующему. Поскольку вся информация приобретается посредством органов чувств, то чем чувствительнее и точнее перцептивный аппарат индивида, тем он умнее.

Вера Гальтона в наследуемость интеллекта привела его к предположению, что умственные способности человечества можно повысить с помощью евгеники, или селективного производства потомства. К счастью, он более известен благодаря применению статистики в исследованиях интеллекта, чем проповедованию евгеники.

В 1884 году Гальтон применил набор тестов (для измерения таких переменных, как размер черепной коробки, время реакции, острота зрения, слуховой порог и память на зрительные формы) для обследования более 9000 посетителей Лондонской выставки. К своему разочарованию, он обнаружил, что выдающиеся британские ученые не отличаются от обыкновенных граждан размером черепа и что такие показатели, как скорость реакции, не особенно связаны с другими мерами интеллекта. Хотя его тест оказался не очень удачным, Гальтон все же изобрел коэффициент корреляции, который, как мы уже видели, играет важную роль в психологии.

Первые тесты, приближающиеся к современным тестам интеллекта, разработал французский психолог Альфред Бине. В 1881 году французское правительство утвердило закон, по которому посещение школы стало обязательным для всех детей. Раньше те, кто не справлялся с учебой, оставались дома; теперь учителям пришлось справляться с широким диапазоном индивидуальных различий. Чтобы извлечь пользу из принятой школьной программы, правительство попросило Бине создать тест, позволяющий обнаруживать детей, которые слишком медленно соображали.

Бине предположил, что интеллект следует измерять при помощи задач, требующих рассуждения и способностей к решению задач, а не перцептивно-моторных навыков. В сотрудничестве с другим французским психологом Теофилом Симоном в 1905 году Бине опубликовал шкалу, которую он пересмотрел в 1908 году и еще раз в 1911-м.

Бине рассуждал, что медленно соображающие или тупые дети похожи на нормальных детей с задержкой умственного развития. Медленно соображающий ребенок должен справляться с тестами аналогично нормальному ребенку меньшего возраста, тогда как умственные способности одаренного ребенка будут соответствовать более старшему возрасту. Бине разработал шкалу тестов, включающую компоненты возрастающей сложности и позволяющую измерять такие изменения в интеллекте, которые обычно связываются с увеличением возраста. Чем выше по шкале поднимается ребенок, правильно отвечая на вопросы теста, тем выше его умственный возраст (УВ). Понятие умственного возраста было главным в методе Бине; с помощью этого метода можно было сравнивать УВ ребенка с его хронологическим возрастом (ХВ), определяемым по дате рождения.

Шкала интеллекта Стэнфорд—Бине. Льюис Терман из Стенфордского университета адаптировал пункты теста, предложенные первоначально Бине, для американских школьников. Он стандартизировал применение теста и разработал возрастные нормы, предъявляя этот тест тысячам детей. В 1916 году он опубликовал Стэнфордскую версию тестов Бине, известную теперь как шкала интеллекта Стэнфорд—Бине (Stanford—Binet Intelligence Scale); она пересматривалась в 1937, 1960, 1972 и последний раз — в 1986 году. Несмотря на свой возраст, тест Стэнфорд-Бине — один из наиболее часто применяемых.

Терман сохранил понятие умственного возраста, предложенное Бине. Каждый пункт теста был нормирован но возрастам, то есть он соответствовал возрасту, при котором его проходит существенное большинство детей. Умственный возраст ребенка определяется путем суммирования количества пунктов, пройденных на каждом возрастном уровне. Кроме того, Терман принял удобный индекс интеллекта, предложенный немецким психологом Вильямом Штерном. Этот индекс называется коэффициентом интеллекта, широко известным как IQ (Intelligence Quotient). Он выражает интеллект как отношение умственного возраста (УВ) к хронологическому (ХВ):


Число 100 используется как множитель, так что когда УВ равен ХВ, IQ будет равен 100. Если УВ меньше ХВ, IQ будет меньше 100; если УВ больше ХВ, то IQ будет больше 100.

В последней версии теста Стэнфорд—Бине вместо показателя IQ используются оценки возрастных стандартов. Их можно выражать в перцентилях, показывающих, сколько процентов испытуемых в стандартизируемой группе попадают выше или ниже данного показателя (Thorndike, Hage & Satter, 1986). И хотя концепция IQ все еще используется в тестировании интеллекта, последний уже не вычисляется по приведенной формуле. Вместо этого используются таблицы перевода исходных показателей теста в стандартные показатели, которые подобраны так, что в каждом возрасте средний показатель равен 100.

В соответствии с современным взглядом на интеллект как состоящий из различных способностей, в версии 1986 года все задания Теста Стэнфорд—Бине разбиты на 4 большие группы в соответствии с областями интеллекта: вербальное мышление, абстрактное/визуальное мышление, количественное мышление и кратковременная память (Scatter, 1988). Для каждой группы существует отдельный показатель; в табл. 12.2 приведены некоторые примеры пунктов теста, сгруппированные по областям.

 
 

 

< Рис. Тестовые материалы к шкале интеллекта Стэнфорд— Бине образца 1986 года. >

Шкалы интеллекта по Векслеру. В 1939 году Дэвид Векслер разработал новый тест, поскольку полагал, что тест Стэнфорд—Бине слишком зависит от речевых способностей и, кроме того, не годится для взрослых. Векслеровская шкала интеллекта взрослых (Wechsler Adult Intelligence Scale, WAIS) (1939, 1955, 1981) состоит из двух частей — вербальной шкалы и шкалы достижений, по которым получаются раздельные показатели, а также интегральный показатель IQ. Пункты теста описаны в табл. 12.3. Позднее Векслер разработал аналогичный тест для детей, Векслеровскую шкалу интеллекта для детей (Wechsler Intelligence Scale for Children, WISC) (1958, 1974, 1991).

 
 

 

Пункты, относящиеся к шкале достижений, требуют манипуляций с кубиками, картинками и другими материалами. Векслеровская шкала позволяет также вычислять показатель по каждому из субтестов, так чтобы экзаменатор имел более ясную картину интеллектуальных сил и слабостей индивида. Например, расхождение показателей для вербального теста и теста достижений подсказывает экзаменатору обратиться к конкретным проблемам научения, таким как трудности с чтением или нарушения речи.

Шкала Стэнфорд—Бине и шкала Векслера дают хорошую надежность и валидность. Их повторяемая надежность составляет около 0,90, и обе они обладают достаточной валидностью в прогнозировании школьных успехов с коэффициентом валидности около 0,50 (Sattler, 1988).

Групповые тесты способностей. Шкалы Стэнфорд—Бине и Векслера являются тестами индивидуальных способностей; то есть они применяются специально подготовленным экзаменатором к отдельному индивиду. Групповые тесты способностей, наоборот, применяются одним экзаменатором к большому числу людей и обычно в виде бланков, заполняемых с помощью ручки.

Тест школьной успеваемости (Тест Академических Способностей) (SAT) и Американский тест для колледжей (American College Test, ACT) — это примеры групповых тестов общих способностей, и они знакомы большинству студентов колледжей в США. Практически во всех колледжах с 4- годичным обучением от абитуриентов требуют пройти один из таких тестов; это делается для того, чтобы установить общий стандарт для учащихся средних школ с разными программами и выпускными оценками. SAT подвергся серьезному пересмотру в 1994 году, и помимо прочих изменений, теперь в нем есть новый раздел и математические вопросы открытого типа (а не только с выбором из возможных вариантов, как раньше). Эти изменения, как и некоторые из недавних изменений, внесенных в ACT, явились реакцией на новые направления в школьных программах, отдающие предпочтение более сложным навыкам чтения, письма и математического мышления.

Корреляция между показателями SAT и средними отметками первокурсников варьируется в разных исследованиях, причем средняя величина составляет 0,38 для вербального раздела SAT и 0,34 для математического раздела (Linn, 1982). Когда эти корреляции корректируются с учетом того, что многие учащиеся с очень низкими показателями не зачисляются в колледж (и значит, их нельзя включать в подсчет валидной корреляции), в результате получаются корреляции в диапазоне 0,50. Это значит, что 44% учащихся из верхней пятой части распределения показателей SAT попадут также и в верхнюю пятую часть распределения средних отметок первокурсников, по сравнению всего с 4% учащихся, попадающими в нижнюю пятую часть распределения показателей в SAT. Таким образом, показатели SAT значительно улучшают прогнозируемость, но ясно также и то, что отметки первокурсников, имевших идентичные показатели в SAT, сильно отличаются.

< Рис. Оценки по Тecтy школьной обучаемости (Scholastic Aptitude Test, SAT) используются для предсказания академической успеваемости в колледже. Корреляция между оценками SAT и средними отметками учащихся младших курсов составляет около 0,50. >

Факторный подход. Некоторые психологи считают, что интеллект есть некоторая общая способность понимания и мышления, проявляющая себя в разных формах. Так полагал и Бине. Хотя в его тесте были самые разные разделы, он заметил, что одаренные дети превосходят тупых по всем показателям. Поэтому он предположил, что разные задачи позволяют получить выборки показателей для обобщенной базовой способности. Сходным образом, несмотря на то что Векслер составил свою шкалу из различных подшкал, он также полагал, что «интеллект является совокупной или глобальной способностью индивида действовать целенаправленно, мыслить рационально и эффективно справляться со своим окружением» (Wechsler, 1958).

Другие психологи, однако, сомневаются в существовании «общего интеллекта». Они считают, что тесты на интеллект измеряют ряд умственных способностей, относительно независимых друг от друга. Одним из методов получения более точной информации о способностях, определяющих успешность выполнения теста на интеллект, является факторный анализ. Этот математический метод используется для определения минимального количества факторов, или способностей, лежащих в основе паттерна корреляций, полученных для некоторого массива различных тестов. Основная идея заключается в том, что два теста, которые очень сильно коррелируют друг с другом, возможно, измеряют одну и ту же способность. Факторный анализ данных, полученных при помощи набора тестов, показывает, сколько в имеющемся наборе корреляций есть различимых факторов, а также вес или влияние каждого из них.

Создатель факторного анализа Чарльз Спирман (Spearman, 1904) первым предположил, что все индивиды обладают разными факторами общего интеллекта (g). Человека можно охарактеризовать как в целом одаренного или тупого в зависимости от того, каким g он обладает. Согласно Спирману, фактор g — основная детерминанта успешности выполнения пунктов теста на интеллект. Кроме этого, для отдельных способностей или тестов специфичны особые факторы, называемые s. Например, арифметические тесты или тесты на пространственные отношения будут каждый иметь свой s. Измеренный у индивида интеллект будет отражать величину g плюс величину различных s- факторов. Успехи индивида в математике будут определяться его общим интеллектом плюс математическими способностями.

Позднее Луис Терстоун (Thurstone, 1938) возражал против идеи Спирмана об общем интеллекте, полагая, что при помощи факторного анализа его можно разделить на ряд первичных способностей. После многократных применений тестов, факторного анализа данных, очистки шкал и повторного тестирования Терстоун выделил 7 факторов, из которых он составил свой тест первичных умственных способностей (Test of Primary Mental Abilities).

Пересмотренные варианты этого теста все еще широко используются, но его прогнозируемость не выше, чем у тестов общего интеллекта, таких как шкалы Векслера. Терстоун надеялся путем факторного анализа открыть первоэлементы интеллекта, но эта надежда реализовалась не полностью по нескольким причинам. Вычисленные им первичные способности не являются совершенно независимыми; действительно, значительные взаимокорреляции между ними говорят в пользу концепции фактора общего интеллекта, лежащего в основе отдельных способностей. Кроме того, ряд первичных способностей, выделенных путем факторного анализа, зависит от характера самих пунктов теста. Другие исследователи, используя различные по содержанию пункты тестов и иные методы факторного анализа, выделяли от 20 до 150 факторов, отражающих диапазон интеллектуальных способностей (Guilford, 1982; Ekstrom, French & Harman, 1979; Ekstrom et al, 1976).

Это отсутствие согласия в количестве и характере факторов вызывает сомнения в ценности факторного подхода. Тем не менее факторный анализ продолжает оставаться основным методом изучения интеллектуальной деятельности (Comrey & Lee, 1992; Carrol, 1988), и мы встретимся с ним снова при обсуждении черт личности.

Оценка личности

Личность можно определить как отличительный и характерный паттерн мышления, эмоций и поведения, формирующий личный стиль взаимодействия индивида с его физическим и социальным окружением. Когда в повседневной жизни нас просят описать чью-либо личность, мы склонны пользоваться терминами, описывающими черты личности, — такими прилагательными, как умный, экстравертивный, добросовестный и т. д. Специалисты по психологии личности с давних времен пытались разработать формальные методы описания и измерения личности, систематизируя способы описания нами личностных черт, используемые в повседневной жизни. В частности, они пытаются выйти за пределы житейских понятий о чертах личности тремя путями. Во-первых, они стремятся сократить потенциальный набор терминов, обозначающих черты, до разумного небольшого набора, который охватывал бы все разнообразие человеческой личности. Во-вторых, они пытаются убедиться, что их методы измерения характеристик личности надежны и валидны. Наконец, в-третьих, они проводят эмпирические исследования, чтобы вскрыть связи между различными чертами личности, а также между личностными характеристиками и конкретными видами поведения.

Чтобы составить исчерпывающий, но разумный перечень личностных качеств, можно заглянуть в словарь. Ведь в процессе своей эволюции язык кодирует большинство, если не все важные различия между индивидами, имеющие значение в повседневной жизни. Язык воплощает опыт, накопленный культурой, и полный словарь является письменным отражением этого опыта. В 30-х годах два специалиста по психологии личности действительно предприняли такую попытку и прошлись по полному словарю. Они отыскали примерно 18 000 слов, обозначающих особенности поведения, — почти 5% английской лексики. Затем они сократили этот список до примерно 4500 терминов, отбросив неясные слова и синонимы. Наконец, они разделили этот список на психологически значимые подмножества (Allport & Odbert, 1936).

В последующем ученые использовали эти термины для получения личностных оценок индивида. Сверстников, хорошо знающих индивида, просили оценить его по определенному признаку методом шкалирования. Оценивающего могли попросить, например, оценить человека по признаку дружественности, используя 7-балльную шкалу в диапазоне от «вовсе не дружественный» до «очень дружественный». Часто такие шкалы помечались двумя точками, означающими противоположные черты, например «властный—покорный» или «добросовестный—ненадежный». Индивидов могли также просить оценить по этим шкалам самих себя.

Например, Рэймонд Кеттел (Cattel, 1966, 1957) вначале сократил список Оллпорта—Одберта до менее чем 200 терминов и затем получил оценки сверстников и самооценки. После этого он применил метод факторного анализа, описанный нами выше, чтобы определить, сколько личностных факторов позволяют описать полученную картину корреляций между оценками. Его анализ дал 16 факторов. Сходную процедуру использовал британский психолог Ханс Айзенк, получивший два личностных фактора: интроверсию—экстраверсию (параметр, впервые введенный психоаналитиком Карлом Юнгом) и эмоциональную устойчивость—неустойчивость, которую он назвал невротизмом (Eysenck, 1953). (Айзенк предложил также третий параметр, но он не настолько принят и исследован, как другие два [Eysenck & Eysenck, 1976]). Интроверсия—экстраверсия означает то, насколько человек в основном ориентирован внутрь, на самого себя, или — наружу, на внешний мир. На интроверсивном полюсе этой шкалы находятся индивиды, которые застенчивы и предпочитают работать в одиночку; они склонны уходить в себя, особенно во время эмоционального стресса или конфликта. На экстраверсивном полюсе находятся индивиды, которые общительны и предпочитают род занятий, позволяющий им непосредственно работать с другими людьми; во время стресса они ищут компанию. Невротизм (устойчивость—неустойчивость) — это параметр эмоциональности, на невротическом, или неустойчивом, полюсе которого находятся индивиды угрюмые, тревожные, темпераментные и плохо приспособленные, а на другом, стабильном, полюсе — спокойные, хорошо приспособленные индивиды. На рис. 12.1 показано, как из этих двух параметров образуется ряд подпризнаков, связанных с этими факторами.

 

Рис. 12.1. Личностные факторы, по Айзенку. На рисунке показаны два основных фактора, выявленных Айзенком и другими в исследованиях взаимокорреляции личностных черт путем факторного анализа. Ось «устойчивый—неустойчивый» отражает фактор невротизма; ось «интроверт—экстраверт» отражает фактор экстраверсии. Другие расположенные по кругу термины показывают отношение других личностных качеств к этим двум факторам (по: Eysenck & Rachman, 1965).

 
Сколько же существует основных факторов личности? Даже такая строгая процедура, как факторный анализ, не дает определенного ответа. Так, Кеттел насчитал их 16, а Айзенк — 2 (или 3). У других исследователей эти цифры отличаются еще больше. С аналогичной ситуацией мы уже встречались раньше, когда отмечали, что число факторов, определяющих понятие интеллекта, может быть 1 (g — общий фактор интеллекта у Спирмана), 7 (первичные умственные способности у Терстоуна) или целых 150 (Guilford, 1982).

Разногласия частично возникают из-за того, что в анализе закладывается разное количество личностных черт; частично потому, что анализируются разные типы данных (например оценки сверстников и самооценки), а частично — из-за применения разных методов факторного анализа. Но значительная часть этих разногласий — из области вкуса. Исследователь, предпочитающий более дифференцированное или подробное описание личности, устанавливает для фактора более низкий критерий и таким образом получает больше факторов, утверждая, что если увеличить число смешиваемых факторов, то потеряются важные различия. Другие исследователи, подобно Айзенку, предпочитают смешивать несколько факторов нижнего уровня и брать более общие, утверждая, что результирующие факторы получатся более стабильными (с большей вероятностью снова возникнут в другом анализе). Например, когда 16 факторов Кеттела сами подвергаются факторному анализу, два фактора Айзенка появляются как сверхфакторы. Можно сказать, что это иерархия личностных черт, в которой каждая широкая и общая черта состоит из нескольких подчиненных, более узких черт.

Несмотря на эти разногласия, многие исследователи приходят сейчас к тому, что 5 личностных характеристик могут стать наилучшим компромиссом (John, 1990). Хотя эти 5 факторов, называемых теперь «большой пятеркой», первоначально состояли в списке Оллпорта—Одберта, полученном путем факторного анализа (Norman, 1963), они же теперь появляются в самых разнообразных тестах личности (McCrae & Costa, 1987; Digman & Inouye, 1986). Все еще нет согласия в том, как лучше всего называть и интерпретировать эти факторы, однако представляется возможным объединить их аббревиатурой «OCEAN» (OCEAN: Openness to experience, Conscientiousness, Extraversion, Agreableness, and Neurotizm; открытость опыту, добросовестность, экстравертность, уступчивость и невротизм.) В табл. 12.4 приведены некоторые примеры шкал для измерения личностных качеств, характеризующие каждый из этих пяти факторов. Многие специалисты по психологии личности признают открытие и подтверждение валидности «большой пятерки» факторов одним из главнейших достижений современной психологии личности.

 

В таблице приведены 5 личностных факторов, надежно появляющихся при факторном анализе данных, получаемых при самых разнообразных методах оценки. Пары прилагательных служат примерами шкал, характеризующих каждый фактор (по: McCrae & Costa, 1987).

Личностные опросники. В большинстве личностных тестов индивида на самом деле не просят непосредственно оценивать себя по личностным параметрам. Вместо этого ему задают ряд вопросов о том, как он реагирует на те или иные ситуации. Его, например, могут попросить указать, насколько он согласен или не согласен с утверждением: «Я часто пробую новую и импортную еду» или: «Мне действительно нравится большинство людей, которых я встречаю». Такие опросники — их называют личностными опросниками — похожи на структурированные интервью тем, что в них каждому человеку задают одни и те же вопросы, а ответы обычно даются в виде, удобном для вычислений, часто с обработкой на компьютере. Каждый пункт личностного опросника составлен так, чтобы являться примером определенной черты личности, а подмножества показателей для близких по содержанию пунктов суммируются для получения оценки по каждому шкалируемому признаку. Например, пункт «Я часто пробую новую и импортную еду» относится к шкале «Открытость опыту», которая входит в один из опросников, разработанных для измерения «большой пятерки»; пункт «Мне действительно нравится большинство людей, которых я встречаю» относится к шкале «Экстравертность».

Пункты большинства личностных опросников вначале составляются согласно теоретическим взглядам разработчика на каждую черту личности, а затем в окончательном опроснике их оставляют или отбрасывают в зависимости от того, коррелируют они или не коррелируют с другими пунктами для той же шкалы. Часто в предварительный вариант опросника, направляемый многим людям, помещают множество пробных пунктов. Затем ответы индивидов подвергают факторному анализу с тем, чтобы определить, какие подмножества пунктов взаимокоррелируют и действительно ли эти подмножества относятся к той шкале, для которой они были первоначально разработаны.

Совершенно иной метод построения тестов, называемый методом привязки к критерию, был использован в разработке наиболее популярного из всех опросников личности — Миннесотского

многопрофильного опросника личности (Minnesota Multiphasic Personality Inventory, MMPI). Первоначально тест MMPI разрабатывался как вариант психиатрического интервью бланкового тина (Hathaway & McKinley, 1943). Он содержит более 550 утверждений, касающихся склонностей, эмоциональных реакций, физических и психических симптомов и переживаний. На каждое утверждение испытуемый отвечает «верно», «неверно» или «не знаю».

Вот 4 типичных пункта:

-  Я никогда не делал чего-то опасного для того, чтобы прийти от этого в волнение.

-  Я редко мечтаю.

-  Мои отец и мать часто заставляли меня подчиняться, даже когда я считал это необоснованным.

-  Временами мои мысли пробегают быстрее, чем я успеваю проговорить их.

Вместо формулирования пунктов на основе теоретических соображений разработчики MMPI дали группам индивидов сотни тестовых пунктов, подобных этим. О каждой группе было известно, что она отличается от нормы по определенному критерию. Например, чтобы разработать шкалу, позволяющую отличать нормальных индивидов от параноидных, одни и те же вопросы были даны двум группам. Психиатрическая группа состояла из индивидов, госпитализированных с диагнозом паранойи; в контрольную группу входили люди, сходные с людьми психиатрической группы по возрасту, полу, социоэкономическому положению и другим важным переменным, но у которых никогда не было диагноза психического расстройства. В окончательный опросник вошли только те вопросы, которые позволили отличить психиатрическую группу от контрольной. Вопросы, которые, казалось бы, по своей сути служат отличию нормальных индивидов от параноидных (например: «Я думаю, что большинство людей солгут, чтобы получить преимущество»), могут таковыми и не быть при включении их в эмпирический тест. На самом деле пациенты с диагнозом паранойи значительно реже отвечают на этот вопрос утвердительно, чем нормальные индивиды. При окончательном тестировании ответы на каждый пункт оцениваются по их соответствию ответам, данным в группах с другим критерием.

Помимо содержательных шкал, в MMPI впервые были включены несколько шкал валидности. Эти шкалы предназначены для того, чтобы определять, честно ли и внимательно ли человек отвечал на утверждения теста. Если показатель индивида по любой из шкал валидности слишком высок, значит, его показатели по содержательным шкалам следует интерпретировать с особой осторожностью или игнорировать вовсе. Эти шкалы оказались полезными, но не вполне успешными при обнаружении невалидных показателей. В табл. 12.5 приведены 3 шкалы валидности и 10 содержательных шкал, показатели по которым обычно учитываются в MMPI.

 
 

Первая тройка — шкалы валидности, помогающие определить, отвечал ли человек на утверждения теста внимательно и честно. Например, шкала Ч (частота) измеряет степень, с которой даются редко встречающиеся или нетипичные ответы. Высокий показатель по этой шкале обычно говорит о том, что индивид был небрежен или путался в ответах. (Однако высокий показатель по Ч часто сопровождает высокий показатель по шкале шизофрении, измеряющей странности мышления.) Остальные «клинические» шкалы первоначально назывались по классам психических заболеваний, но теперь при их интерпретации акцент делается на особенностях личности, а не на диагностических понятиях.

Поскольку выводы из MMPI делались на основе различий между критериальной [Критериальная группа тестируемых отличается от контрольной по некоторому критерию (например, заболеванию шизофренией). — Прим. перев.] и контрольной группами, на самом деле неважно, является ли правдой то, что отвечает испытуемый. Важно то, что он говорит это. Если на утверждение «Моя мать никогда меня не любила» шизофреники отвечают: «верно», а контрольные испытуемые отвечают: «ложно», то их ответы служат признаком различия этих групп, независимо от того, как на самом деле вели себя их матери. В этом преимущество теста, основанного на привязке к критерию, перед тестами, основанными на предположении их создателей, что некоторые ответы указывают на конкретные черты личности. Недостаток его — в действительном отсутствии теоретического понимания связи между ответами на тест и определяемыми им особенностями личности.

Тест MMPI, опубликованный в 1943 году, основан на исследовании, начавшемся в 1939-м. К сегодняшнему дню по MMPI опубликовано более 8000 исследовательских работ, и этот тест переведен более чем на 15 языков. Существует несколько частных фирм, предлагающих компьютерную обработку показателей и интерпретацию этого опросника.

На протяжении лет MMPI критиковался за слабую надежность и валидность некоторых его шкал. Стало также очевидным, что первоначальный опросник начинает устаревать и его пора пересматривать. Но огромное количество данных по оригинальной версии отбивало охоту у большинства исследователей вообще браться за столь устрашающую задачу. Тем не менее это было сделано. Тест MMPI-2 был опубликован в 1989 году, и в нем есть ряд существенных изменений, хотя и сохранены основные черты первоначального варианта, включая большую часть тестовых пунктов оригинала. Новая версия была стандартизована на более обширной и более многообразной выборке, лучше отражающей население Соединенных Штатов (Graham, 1990). Уже ведется трудная работа по оценке сравнимости показателей старого и нового вариантов.

В целом MMPI оказался наиболее ценным средством общего различения нормальных и аномальных групп и может использоваться для оценки общей тяжести тех или иных нарушений личности (Meehl & Dahlstrom, 1960). Однако он не столь успешен в проведении тонких различий между разными формами психопатологии (Kleinmutz, 1982).

Хотя первоначально MMPI разрабатывался для определения людей с серьезными расстройствами личности, он широко использовался и для изучения нормальных групп. Но поскольку MMPI не содержит адекватной выборки личностных качеств, применяемых для описания нормальной личности, был разработан Калифорнийский психологический опросник (CPI: California Psychological Inventory), использующий во многом те же пункты. Шкалы CPI измеряют такие черты личности, как доминирование, общительность, самооценка, ответственность и социализируемость. Чтобы набрать сравниваемые группы для некоторых шкал, учащихся средних школ и колледжей просили указать одноклассников, у которых сильно или слабо выражена та или иная черта личности. Так, в случае шкалы доминирования критериальная группа состояла из учащихся, за которыми их сверстники признавали сильное доминирование (агрессивность, уверенность, самоуверенность), а контрольная группа состояла из учащихся, у которых их сверстники признавали слабое доминирование (застенчивость, недостаток самоуверенности, заторможенность). Пункты теста, обнаружившие статистически значимое различие между критериальной и контрольной группами, включались в шкалу доминирования. CPI все еще остается одним из наиболее валидных опросников личности, пригодных для применения к нормальным группам (Megagree, 1972).

Q-классификация. Есть один особый метод измерения личностных качеств, называемый Q- классификацией (Q-sort; буква Q в названии выбрана произвольно и ничего не означает). В этом методе оценивающий, или сортировщик, составляет описание личности индивида путем сортировки примерно 100 карт по кучкам. Каждая карта содержит утверждение о личности (например: «Имеет широкий круг интересов» или «Он сам себе враг»). Оценивающий сортирует карты на 9 кучек, помещая те карты, которые менее всего относятся к индивиду, в кучку 1 слева, а те, которые характеризуют его лучше всего, — в кучку 9 справа. Другие карты распределяются по промежуточным кучкам, причем те, которые и характерны, и нехарактерны, откладываются в среднюю кучку (кучку 5). Таким образом, каждому утверждению Q присваивается число в диапазоне от 1 до 9, причем большее число означает, что это утверждение более характерно для данного человека. (В некоторых Q-классификациях используется меньше или больше 9 кучек, но принцип тот же.)

На первый взгляд кажется, что здесь нет отличий от процедуры, в которой оценивающий ранжирует набор личностных качеств по 9-балльной шкале. И в самом деле, по желанию исследователя такое ранжирование можно применить. Но есть важное различие. При заполнении оценочных шкал оценивающий неявно сравнивает данного индивида с другими (например, оценка «очень дружественный» означает, что данный индивид является очень дружественным в сравнении с другими индивидами). При проведении же Q-классификации оценивающий явным образом сравнивает каждое качество с другими качествами того же индивида (например, помещение карточки «дружественный» в кучку 9 означает, что по сравнению с другими качествами дружественность выделяется как особенно характерная для данного индивида).

Две Q-классификаци можно сравнить друг с другом количественно, вычислив между ними корреляцию и тем самым оценив, насколько два индивида сходны между собой по общей конфигурации личности. Если две Q-классификации сделаны для одного индивида в разное время, тогда корреляция между ними позволяет оценить повторную надежность Q-классификации или сохранность общего профиля личности данного индивида во времени. Если две Q-классификации являются описаниями одного индивида, сделанными двумя оценщиками, то наличие корреляции между ними показывает межоценочную надежность Q-классификации, то есть то, насколько одинаково эти два оценщика воспринимают данного индивида. (Например, при консультировании по вопросам брака бывает полезно оценить, насколько члены супружеской пары сходятся или расходятся в своих восприятиях друг друга.) Наконец, если одна Q-классификация является описанием некоторого гипотетического типа личности, то корреляция между Q-классификацией для некоторого индивида и гипотетической классификацией позволяет оценить, насколько данный индивид близок к типу гипотетической личности. Например, по просьбе исследователя клинический психолог построил Q-классификацию гипотетической «оптимально приспособленной личности». Тогда корреляцию между Q-классификацией для некоторого человека и этой гипотетической классификацией можно прямо интерпретировать как показатель приспособленности (Block, 1961/1978, 1971).

Оригинальное использования методы Q-сортировки (классификации) обсуждается в рубрике «На переднем крае психологических исследований». Мы рассмотрим другие примеры методов тестирования личности в главе 13, где будем обсуждать теории личности. В оставшейся части данной главы мы вернемся к вопросам интеллекта и исследуем некоторые новые теории, воплощающие новый подход к исследованиям интеллекта.