Главное меню

Реклама

Коэффициент корреляции

Корреляцией называют параллельную вариацию двух величин. Предположим, что разрабатывается тест для предсказания успеваемости в колледже. Если это хороший тест, высокие показатели в нем должны связываться с высокой успеваемостью в колледже, а низкие — с низкой успеваемостью. Коэффициент корреляции позволяет точнее установить степень этой связи.

Корреляция как произведение моментов

Чаще всего коэффициент корреляции определяется методом произведения моментов; получаемый в результате индекс обычно обозначается маленькой буквой г. Вычисленный через произведение моментов коэффициент г варьируется между полной положительной корреляцией (г = +1,00) и полной отрицательной корреляцией (г = -1,00). Отсутствие всякой связи дает г = 0,00.

Корреляция вычисляется через произведение моментов по формуле:

Здесь одну из парных мер называют x-показателем, а другую y-показателем, dx и dy — это отклонения каждого показателя от среднего; N — количество парных величин, а ox и ay — стандартные отклонения x-показателей и y-показателей.

Для определения коэффициента корреляции надо определить сумму произведений (dx) x (dy). Эту сумму вместе с вычисленными стандартными отклонениями для х-показателей и y-показателей можно затем подставить в формулу.

Пример вычисления корреляции через произведение моментов. Предположим, мы собрали данные, показанные в табл. П6. Для каждого испытуемого получено два показателя; первый — оценка на вступительных экзаменах (ее мы произвольно назовем x-показателем), а второй — оценки за первый курс (y-показатель).

На рис. П6 показан точечный график этих данных. Каждая точка отражает x-показатель и y- показатель данного человека; например, верхняя точка справа означает Андрея. Глядя на эти данные, легко обнаружить, что между х- и ^-показателями существует некоторая положительная корреляция. Андрей получил наивысшую оценку на вступительном экзамене и также получил наивысшую отметку за 1-й курс; Дмитрий получил и там, и там самую низкую отметку. В показателях других студентов есть немного нерегулярности, так что мы знаем, что корреляция не полная; следовательно, г меньше 1,00.

Рис. П6. Точечная диаграмма. Каждая точка отражает х- и у-показатели определенного
учащегося.

Мы подсчитаем корреляцию, чтобы проиллюстрировать этот метод, хотя на практике ни один исследователь не станет считать корреляцию для столь малого количества показателей. Подробности приведены в табл. П6. Согласно процедуре, приведенной в табл. П3, мы вычисляем стандартное отклонение х-показателей, а затем стандартное отклонение ^-показателей. Затем мы вычисляем произведение (dx) x (dy) для каждого человека и для 5 случаев в общем. Подставляя полученные числа в уравнение, получаем r = +0.85.

Интерпретация коэффициента корреляции

Корреляцию можно использовать для прогнозирования. Например, если из опыта известно, что определенный вступительный тест коррелирует с отметками первокурсников, можно предсказать отметки на экзаменах за первый курс у тех начинающих студентов, которые этот тест проходили. Если корреляция полная, их отметки можно предсказать безошибочно. Но, как правило, r меньше 1,00 и в прогнозе есть определенные ошибки; чем ближе r к 0, тем больше ошибка прогноза.

Мы не сможем рассмотреть технические проблемы прогнозирования оценок первокурсников, исходя из оценок на вступительном экзамене или других аналогичных прогнозов, но можно рассмотреть смысл разной величины коэффициента корреляции. Очевидно, что если корреляция между х и у равна 0, то знание х не поможет предсказать у. Если вес человека не связан с интеллектом, то знание о весе ничего не дает для предсказания интеллекта. Другое полярное значение — полная корреляция — означало бы 100%-ную эффективность прогноза: зная х, можно было бы абсолютно точно предсказать у. Но что значат промежуточные величины r? Некоторое представление о значении промежуточной величины коэффициента корреляции можно получить из точечных диаграмм на рис. П7.

 

Рис. П7. Точечные диаграммы, иллюстрирующие разную величину корреляции. Каждая точка изображает оценки одного человека в двух экзаменах, х и у. На графике А все случаи падают на диагональ, и корреляция является полной (г = +1,00); если известна оценка человека по х, значит она будет такой же и по у. На графике Б корреляция равна 0; зная оценку человека по х, мы не сможем сказать, будет ли она у него такой же, выше или ниже по у. Например, из четырех человек со одинаковой средней оценкой, равной х (dx = 0), один получает очень высокую отметку по у (dy = +2), один — очень низкую (dy = -2), а два получают среднюю. На графиках В и Г существует диагональная тенденция отметок, так что высокая отметка по х имеет связь с высокой отметкой по у, а низкая отметка по х имеет связь с низкой отметкой по у, но связь эта неполная. Если на осях не будет обычных шкал, это никак не повлияет на интерпретацию. Например, если бы мы координатам х и у присвоили величины от 5 до 10 и затем подсчитали бы г для этих новых величин, коэффициент корреляции получился бы тем же самым.

В предыдущем обсуждении мы не обращали особого внимания на знак коэффициента корреляции, поскольку он не говорит о силе связи. Единственное различие между коэффициентами корреляции +0,70 и -0,70 — это то, что в первом случае увеличение х сопровождается увеличением у: а во втором увеличение х сопровождается уменьшением у.

Коэффициент корреляции — один из наиболее часто применяемых статистических инструментов в психологии, но одновременно это одна из тех процедур, которые чаще всего неверно используются. Те, кто им пользуется, часто упускают из виду, что г не указывает на причинно­следственную связь между х и у. Когда два набора показателей коррелируют, можно предположить, что у них есть некоторый общий причинный фактор, но нельзя считать, что один из них просто вызывает другой.

Корреляция иногда выглядит парадоксально. Например, было обнаружено, что корреляция между временем, затрачиваемым на учебу, и оценками в колледже имеет слегка отрицательную величину (-0,10). Если использовать причинную интерпретацию, то пришлось бы заключить, что лучший способ улучшить отметки — перестать учиться. На самом же деле отрицательная корреляция возникает здесь просто потому, что у некоторых студентов есть преимущество над остальными в получении высоких отметок (возможно потому, что они лучше были подготовлены к колледжу), так что те, кто затрачивает больше времени на учебу, — это часто те, кому высокие отметки даются труднее остальных.

Этот пример служит достаточным предупреждением против причинного понимания коэффициента корреляции. Случается, однако, что две переменных коррелируют и одна из них действительно является причиной другой. Поиск причины — дело логики, и корреляция может направлять экспериментаторов при проверке причинно-следственных отношений.