Приложение - Статистические выводы

Содержание материала

 

Статистические выводы

Теперь, познакомившись со статистикой как способом описания данных, мы готовы обратиться к интерпретации данных — тому, как из них делают выводы.

Группа и выборки

Прежде всего, необходимо различать группу и выборку из этой группы. Бюро переписи Соединенных Штатов пытается описать население в целом путем получения описательного материала по возрасту, семейному положению и т. д. обо всех жителях страны. Слово группа (population) годится для бюро переписи, поскольку оно представляет всех людей, живущих в США.

В статистике слово «группа» не ограничено людьми, животными или предметами. Группой могут быть все величины температур, зарегистрированные термометром в течение последнего десятилетия, все слова английского языка или любой другой определенный запас данных. Часто у нас нет доступа ко всей группе, и тогда мы пытаемся представить ее по выборке, взятой в случайном
(непредвзятом) порядке. Можно задаться каким-либо вопросом о случайно отобранной части людей, как это сделало Бюро переписи в некоторых недавних переписях; можно вывести среднюю температуру, снимая показания термометра в определенное время и не ведя непрерывной записи; можно оценить количество слов в энциклопедии, подсчитав слова на случайно выбранных страницах. Во всех этих примерах делается выборка из группы. Если какие-либо из этих процессов повторить, результаты будут слегка различны вследствие того, что выборка не полностью отражает группу в целом и, следовательно, содержит ошибки выборки. Именно здесь вступают в игру статистические выводы.

Выборку данных из группы собирают, чтобы сделать вывод об этой группе. Можно изучить выборку данных переписи, чтобы узнать, стареет ли население, например, и существует ли тенденция миграции в пригородные зоны. Сходным образом, экспериментальные результаты изучаются, чтобы определить, какое воздействие экспериментальные манипуляции оказали на поведение — повлияла ли громкость на порог восприятия высоты звука, или оказывают ли особенности воспитания существенное влияние на последующую жизнь. Чтобы делать статистические выводы, надо оценить отношения, на которые указывают данные выборки. Такие выводы всегда имеют некоторую степень неопределенности из-за ошибок выборки. Если статистические испытания показывают, что величина эффекта, обнаруженная в данной выборке, достаточно велика (относительно оценки ошибки выборки), то можно быть уверенным, что наблюдаемый в данной выборке эффект существует и у группы в целом.

Таким образом, статистический вывод связан с необходимостью сделать вывод или суждение относительно некоторой характеристики группы, основываясь только на информации, полученной о выборке из этой группы. В качестве знакомства со статистическим выводом мы рассмотрим нормальное распределение и его применение при интерпретации стандартного отклонения.

Нормальное распределение

Когда большое количество данных собирают, представляют в табличном виде и отображают в виде гистограммы или огибающей, они часто образуют колоколообразное симметричное распределение, известное как нормальное распределение. Большинство его элементов располагаются вблизи среднего (верхняя точка колокола), и этот колокол резко спадает у самой большой и у самой малой величины. Такая форма кривой представляет особый интерес, поскольку она возникает и тогда, когда результат процесса основан на множестве случайных событий, все из которых происходят независимо. Демонстрационное устройство, показанное на рис. П4, позволяет увидеть, как из случайных событий складывается нормальное распределение. Случайный фактор — упадет ли стальной шарик влево или вправо каждый раз, когда он попадает в развилку, — приводит к симметричному распределению: больше шариков падают прямо посередине, но время от времени один из них достигает одного из крайних отделений. Это удобная визуализация того, что имеется в виду под случайным распределением, близким к нормальному распределению.

Рис. П4. Устройство для демонстрации нормального распределения случайной величины.
Устройство держат вверх ногами, пока все стальные шарики не скатятся в резервуар. Затем
устройство переворачивают и держат вертикально, пока шарики, пройдя по полю со штырьками, не скатятся в 9 колонок-выемок внизу. Точное количество шариков, попавших в каждую колонку, в разных демонстрациях будет неодинаковым. Однако в среднем высота колонок из шариков будет примерно повторять нормальное распределение, когда самая высокая колонка будет в центре, а высоты остальных колонок будут снижаться в направлении к краям.

Нормальное распределение (рис. П5) — это математическое представление идеализованного распределения, приближенно создаваемого устройством, показанным на рис. П4. Нормальное распределение показывает вероятность того, что элементы в группе с нормальным распределением будут отличаться от среднего на любую заданную величину. В процентах на рис. П5 показана доля площади, лежащей под кривой между указанными величинами шкалы; общая площадь под кривой соответствует группе в целом. Примерно две трети всех случаев (68%) попадают в интервал между плюс и минус одним стандартным отклонением от среднего (±1g); 95% всех случаев — в интервал ±2G; и практически все случаи (99,7%) — в ±3G.

Рис. П5. Нормальное распределение. Кривую нормального распределения можно построить, используя стандартное отклонение и среднее. Площадью под кривой, лежащей левее -3а и правее +3а, можно пренебречь.

Более подробный список площадей под частями кривой нормального распределения приведен в табл. П4.

 

Давайте при помощи табл. П4 проследим, как получаются величины 68% и 95%, показанные на рис. П5. В табл. П4 в третьей колонке находим, что между -1g и средним лежит 0,341 общей площади и между +1о и средним тоже 0,341 общей площади. В сумме эти величины дают 0,682, что на рис. П5 показано как 68%. Сходным образом площадь от -2о до +2о составит 2 х 0,477 = 0,954, показанные как 95%.

Шкалирование данных

Чтобы интерпретировать показатель, часто нужно знать, высокий он или низкий по отношению к другим показателям. Если человеку, сдающему водительский экзамен, требуется 0,500 сек, чтобы нажать на тормоз после сигнала опасности, как определить, быстро это или медленно? Считать ли, что студент сдал курс по физике, если его показатель на экзамене равен 60? Для ответа на такие вопросы надо вывести шкалу, с которой эти показатели можно сравнивать.

Ранжирование данных. Располагая показатели по рангу от высокого к низкому, мы получаем одну из таких шкал. Отдельный показатель интерпретируется по тому, на каком месте он располагается среди группы показателей. Например, курсанты военной академии Вест Пойнт знают, где они находятся в своем классе — возможно, 35-ми или 125-ми в классе из 400.

Стандартный показатель. Стандартное отклонение — удобная единица шкалирования, поскольку мы можем оценить, насколько далеко от среднего располагаются 1о или 2о (табл. П4). Величину произведения, в котором один сомножитель — стандартное отклонение, называют стандартным показателем. Многие шкалы, применяемые в психологических измерениях, основаны на принципе стандартного показателя.

Пример вычисления стандартного показателя. В табл. П1 приведены показатели, полученные 15 студентами на вступительных экзаменах. Не имея дополнительной информации, мы не знаем, являются ли эти показатели репрезентативными для группы всех поступавших. Однако предположим, что средний показатель на этих экзаменах был 75, а стандартное отклонение 10.

Каким же будет стандартный показатель у студента, набравшего на экзаменах 90 баллов? Насколько выше среднего лежит этот показатель, надо выразить в количестве стандартных отклонений:

В этом случае показатель учащегося лежит ниже среднего на 2,2 стандартных отклонения. Таким образом, знак стандартного показателя (+ или -) говорит о том, выше или ниже среднего находится данный показатель, а его величина показывает, насколько далеко от среднего он расположен в единицах стандартных отклонений.

Насколько репрезентативно среднее?

Насколько хорошо среднее выборки отражает среднее всей группы? Если измерять рост у случайной выборки из 100 студентов колледжа, насколько хорошо среднее этой выборки предсказывает истинное среднее группы (то есть средний рост всех студентов колледжа)? Это все вопросы, связанные с выводом о группе на основе данных выборки.

Точность такого вывода зависит от ошибок выборки. Предположим, мы сделали две случайных выборки из одной и той же группы и для каждой из них подсчитали среднее. Какого различия между одним и другим средним можно ожидать в результате случая?

Последующие случайные выборки из той же группы будут давать разные средние, образуя распределение выборки средних вокруг истинного среднего данной группы. Эти выборки средних сами по себе являются величинами, для которых можно подсчитать стандартное отклонение. Это стандартное отклонение называется стандартной ошибкой среднего; оно обозначается sM и вычисляется по следующей формуле:

где о — стандартное отклонение выборки, а N — количество случаев, по которым вычисляется каждое среднее.

Согласно этой формуле, величина стандартной ошибки среднего уменьшается с увеличением величины выборки; поэтому среднее, основанное на более крупной выборке, является более достоверным (оно скорее окажется ближе к истинному среднему всей группы). Этого можно было ожидать и на основе здравого смысла. Стандартная ошибка среднего ясно показывает, насколько неопределенно полученное среднее. Чем больше объем выборки, тем меньше неопределенность среднего.

Значимость различия

Во многих психологических экспериментах данные собираются по двум группам испытуемых; одна группа подвергается специфическим экспериментальным воздействиям, а другая служит контрольной. Вопрос в том, существует ли различие между средними показателями этих групп, и если есть, то выдерживается ли оно для всей группы, из которой были взяты эти две выборки. Проще говоря, отражает ли различие между двумя группами истинное различие или оно возникло вследствие ошибки выборки.

В качестве примера сравним показатели экзамена по чтению у выборки мальчиков- первоклассников с показателями у выборки девочек-первоклассниц. Что касается средних показателей, то они у мальчиков ниже, но здесь есть значительное перекрытие; некоторые мальчики справляются исключительно хорошо, а некоторые девочки — крайне плохо. Поэтому мы не можем принять это различие средних, не проведя тест на статистическую значимость. Только тогда можно будет решить, отражают ли наблюдаемые различия в выборке истинные различия в группе или же они объясняются ошибкой выборки. Если некоторые более одаренные девочки и некоторые более тупые мальчики оказались выбраны по чистой случайности, то различие можно объяснить ошибкой выборки.

В качестве еще одного примера предположим, что мы провели эксперимент по сравнению крепости рукопожатия у мужчин правшей и левшей. В верхней части табл. П5 показаны гипотетические данные такого эксперимента. Выборка из 5 мужчин-правшей в среднем на 8 кг сильнее выборки из 5 мужчин левшей. Что вообще можно вывести из таких данных о мужчинах левшах и правшах? Можно ли утверждать, что правши сильнее? Очевидно, нет, поскольку среднее, полученное у большинства правшей, не отличалось бы от среднего у большинства левшей; один примечательно отличающийся показатель величиной 100 говорит о том, что мы имеем дело с неопределенной ситуацией.

Два примера, показывающих различие между средними. Разница средних одинакова (8 кг) в верхней и нижней части таблицы. Однако, данные нижней части указывают на более надежное различие средних, чем данные в верхней части таблицы.

Теперь предположим, что в результате эксперимента получены результаты, показанные в нижней части той же табл. П5. Мы снова видим то же самое различие средних, равное 8 кг, но теперь эти данные вызывают большее доверие, поскольку показатели у левшей получились систематически ниже, чем у правшей. Статистика позволяет очень точно учесть надежность различий среднего, так чтобы при определении, какое из двух различий более надежно, не зависеть только от интуиции.

Эти примеры показывают, что значимость полученного различия зависит и от его величины, и от варьируемости сравниваемых средних. Зная стандартную ошибку среднего, можно вычислить стандартную ошибку различия между двумя средними оDм. Затем можно оценить полученное различие при помощи критического отношения — отношения полученной разницы средних (DM) к стандартной ошибке различия между средними:


Это отношение позволяет оценить значимость различия между двумя средними. Как простейшее правило, критическое отношение должно быть не менее 2,0, чтобы разница средних считалась значимой. Во всей этой книге выражение о «статистической значимости» разницы средних означает, что критическое отношение у них не меньше такого.

Почему в качестве статистически значимого выбрано критическое отношение, равное 2.0? Просто потому, что такая или большая величина может выпасть случайно только в 5% случаев. Откуда взялись эти 5%? Критическое отношение можно считать стандартным показателем, поскольку это просто разница двух средних, выраженная в числе стандартных ошибок. Обращаясь ко 2-й колонке табл. П4, замечаем, что вероятность того, что стандартное отклонение составляет 2,0 при случайном совпадении, равна 0,023. Поскольку вероятность отклонения в противоположную сторону тоже равна 0,023, общая вероятность составит 0,046. Это означает что когда средние групп одинаковы, критическое отношение может случайно оказаться равным 2,0 (или более) в 46 случаях из 1000, или в 5% случаев.

Элементарное правило, говорящее, что критическое отношение должно быть не менее 2,0, именно таково — это произвольное, но удобное правило, задающее 5%-ный уровень значимости. Следуя этому правилу, вероятность ошибочного решения о том, что разница средних существует, тогда как на самом деле это не так, будет меньше 5%. Не обязательно пользоваться 5%-ным уровнем; в некоторых экспериментах может потребоваться более высокая значимость, в зависимости от того, насколько допустима ошибка заключения.

Пример вычисления критического отношения. Для вычисление критического отношения надо определить стандартную ошибку разницы двух средних по следующей формуле:

В этой формуле оМ1 и оМ2 — стандартные ошибки двух сравниваемых средних.

В качестве иллюстрации предположим, что нам надо сравнить достижения первоклассников — мальчиков и девочек на экзамене по чтению в США. Берется случайная выборка мальчиков и девочек и подвергается тестированию. Предположим, что средний показатель у мальчиков равен 70 при стандартной ошибке среднего 0,40, а средний показатель у девочек — 72 при стандартной ошибке среднего 0,30. На основе этих выборок надо решить, есть ли это реальное различие между успехами мальчиков и девочек в чтении в группе в целом, Данные выборки показывают, что оценки у девочек больше, чем у мальчиков, но можно ли заключить, что мы получили бы то же самое, протестировав всех первоклассников США? Решить это позволяет критическое отношение.

Поскольку критическое отношение значительно выше 2,0, можно утверждать, что наблюдаемое среднее различие статистически значимо на 5%-ном уровне. Поэтому можно заключить, что между мальчиками и девочками существует надежное различие в успехах по чтению. Заметьте,  что критическое отношение может быть положительным и отрицательным, в зависимости от того, какое среднее из какого вычитается; при интерпретации критического отношения учитывается только его величина, но не знак.