Применение χ2-критерия для проверки гипотезы о равенстве двух или нескольких долей. П.2. Критерий согласия Пирсона (c2) а) случай независимых выборок

Критерий применяется в двух случаях:

1) для сопоставления эмпирического распределения признака с теоретическим (равномерным, нормальным или каким-то иным);

2) для сопоставления двух эмпирических распределений одного и того же признака.

Критерий отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух эмпирических распределениях.

Признак может быть измерен по любой шкале, даже номинальной.

Ограничения:

2) теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: f³5. Это означает, что если число разрядов задано заранее и не может быть изменено, то мы можем применять метод c 2 , только накопив определенное минимальное число наблюдений. Так, если количество разрядов (k ) задано заранее, минимальное число наблюдений (n min) определяется по формуле: n min = 5k

3) выбранные разряды должны «вычерпывать» все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях;

4) необходимо вносить поправку на непрерывность при сопоставлении распределений признаков, которые применяют всего 2 значения. При внесении поправки значение c 2 уменьшается;

5) разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может отнесено ни к какому другому разряду.

Вычисление критерия:

1) при сравнении эмпирического с теоретическим равномерным распределением. Для этого лучше воспользоваться таблицей 34.

Таблица 34

Разряды f эj f т (f э j -f т) (f э j -f т) 2 (f э j -f т)/f т

Здесь в 1 столбике даются наименования разрядов,

во 2 столбике даются эмпирические частоты по каждому разряду f э j , где j меняется от 1 до k ,

в 3 столбике теоретическая частота, одинаковая для каждого разряда и вычисленная по формуле f т =n/k,

в 4 столбике находится разность между эмпирической и теоретической частотами по каждому разряду,

в 5 столбике значения 4 столбика возводятся в квадрат по каждому разряду,

в 6 столбике находится отношение значений 5 столбика к теоретической частоте по каждому разряду.

Если c 2 >c 2 0,01 , то эмпирическое распределение отличается от равномерного, если c 2 £c 2 0,05 , то эмпирическое распределение не отличается от равномерного, если c 2 0,05 < c 2 £c 2 0,01, то отличие эмпирического распределения от равномерного значимо на 5% уровне.

Таблица 35

Распределение учащихся по когнитивному стилю «дифференциальность-интегральность» и расчет данных по критерию c 2

Пример. У учащихся подросткового возраста (60 человек 13-14 лет) выявлялся когнитивный стиль «дифференциальность-интегральность» по методике Г.А. Берулава. В каждом стиле выделяются три стратегии: теоретическая, деятельностная, эмоциональная. Распределение учащихся по стилям представлены в таблице 35. Можно ли утверждать, что в данной группе учащихся равномерно представлены все данные стили?

Решение: n=60 >

Сформулируем экспериментальную гипотезу: распределение учащихся по стилям «дифференциальность-интегральность» с тремя стратегиями является равномерным.

к=6, следовательно, f т =60/6=10.

Для n=к-1=6-1=5

c 2 0,05 =11,070 c 2 0,01 =15,089

c 2 >c 2 0,01 , следовательно, экспериментальная гипотеза отвергается.

Ответ: распределение учащихся по стилям «дифференциальность-интегральность» с тремя стратегиями отличается от равномерного.

2) При сравнении двух эмпирических распределений:

Вычисления также произведем с помощью таблицы 36.

Таблица 36

нр f э1 j f э2 j f э1 j +f э2 j f т1 j f т2 j (f э1 j -f т1 j) 2 f т1 j (f э2 j -f т2 j) 2 f т2 j

Здесь в 1 столбце записывается наименование разрядов,

во втором столбце записываются соответствующие частоты первого эмпирического распределения (f э1 j), где j меняется от 1 до к,

в третьем столбце записываются соответствующие частоты второго эмпирического распределения (f э2 j),

в 4 столбце находится сумма эмпирических частот первого и второго распределения по каждому разряду отдельно (f э1 j +f э2 j),

в 7 столбце находится квадрат разности соответственно эмпирической частоты первого распределения с его теоретической частотой по каждому разряду и делится на эту теоретическую частоту ((f э1 j -f т1 j) 2 / f т1 j),

в 8 столбце находится квадрат разности соответственно эмпирической частоты второго распределения с его теоретической частотой по каждому разряду и делится на эту теоретическую частоту ((f э2 j -f т2 j) 2 / f т2 j).

Значение критерия есть сумма всех значений 7 и 8 столбцов, т.е.

.

Если c 2 >c 2 0,01 , то одно эмпирическое распределение отличается от другого, если c 2 £c 2 0,05 , то первое эмпирическое распределение не отличается от второго, если c 2 0,05 < c 2 £c 2 0,01, то отличие двух эмпирических распределений друг от друга значимо на 5% уровне.

Пример . У учащихся подросткового возраста массовой школы (25 человек) и воспитанников детского дома (25 человек) определялись особенности образа «я» по методике «Каким я кажусь себе». В результате выделилось 7 категорий высказываний о себе. Данные представлены в таблице 36. Различается ли распределение количества высказываний о себе по категориям подростков детского дома и массовой школы?

Решение: n 1 =88 (количество высказываний подростков массовой школы о себе), n 2 =111 (количество высказываний подростков детского дома о себе). n 1 , n 2 >30, следовательно, применим критерий c 2 .

Сформулируем экспериментальную гипотезу: распределение высказываний подростков детского дома и массовой школы о себе по различным категориям существенно отличаются.

Вычислим эмпирическое значение критерия в таблице 37.

Таблица 37

Количество высказываний подростков детского дома и массовой школы о себе и расчет критерия c 2

№ катег. выск. f 1 f 2 f 1 +f 2 f т 1 f т 2 (f 1 -f т 1) 2 f т 1 (f 2 -f т 2) 2 f т2
13,27 16,73 0,81 0,53
19,45 24,54 0,33 0,26
8,84 11,15 1,67 1,33
10,17 12,83 8,27 6,55
12,38 15,62 4,69 3,72
15,48 19,52 0,01 0,01
8,4 10,59 5,19 4,1

1) формально-библиографические ролевые сведения; 2) отношения к окружающим людям; 3) отношение к своему возрасту, взрослости, самостоятельности; 4) умения, интересы, способности, интеллект; 5) поведение; 6) качества личности; 7) внешность, отношение к сверстникам противоположного пола.

χ 2 эмп =0,81+0,33+1,67+8,27+4,69+0,01+5,19+0,53+0,26+1,33+6,55+3,72+0,01+4,1=37,47;

Найдем число степень свободы ν=7-1=6.

Для ν=6 χ 2 0,01 =16,812; χ 2 0,05 = 12,592.

χ 2 эмп >

Ответ: Количество высказываний о себе, относящихся к разным категориям, у подростков детского дома отличаются от количества высказываний подростков массовой школы.

Поправка на непрерывность вносится тогда, когда n=1. Формула тогда имеет следующий вид:

.

Пример . У студентов I курса педагогического вуза (факультетов физики и математики, биологии и химии, филологии) выявлялась принадлежность к когнитивному стилю «полезависимость-поленезависимость» по методике «Замаскированные фигуры» Готтшальтда. Результаты исследования представлены в таблице 37. Выявляются ли половые различия в принадлежности к данным стилям?

Решение: n 1 =49 (количество юношей), n 2 =53 (количество девушек), n 1 , n 2 >30, следовательно, применим критерий c 2 .

Сформулируем экспериментальную гипотезу. Юноши и девушки студенты по принадлежности к когнитивному стилю «полезависимость-поленезависимость» различаются.

Найдем эмпирическое значение критерия по таблице 38.

Таблица 38

Распределение девушек и юношей по принадлежности к стилю «полезависимость-поленезависимость» и расчет значения критерия χ 2

к=2, следовательно, n=1.

Для данного n - χ 2 0,01 =6,635; χ 2 0,05 = 3,841.

χ 2 эмп > χ 2 0,01 Þ принимается экспериментальная гипотеза.

Ответ: юноши и девушки по принадлежности к когнитивному стилю «полезависимость-поленезави-симость» различаются.

ОПР. Эмпирическими частотами называются фактически наблюдаемые частоты.

ПРОВЕРКА ГИПОТЕЗЫ О РАСПРЕДЕЛЕНИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ. КРИТЕРИЙ ПИРСОНА

Как отмечалось раньше, предположение о виде распределения может быть выдвинуто исходя из теоретических предпосылок. Однако, как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что теоретический закон распределения подобран неудачно. Для ответа на этот вопрос и служит критерий согласия, т.е.

ОПР. Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Для каждого критерия, т.е. соответствующего распределения, обычно составлены таблицы, по которым находят k кр (см. приложения). После того как критическая точка найдена, по данным выборки вычисляют наблюдаемое значение критерия К набл. Если К набл > k кр, то нулевую гипотезу отвергают, если наоборот, то принимают.

Опишем применение критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности. Критерий Пирсона отвечает на вопрос о том, случайно ил расхождение эмпирических и теоретических частот?

Критерий Пирсона, как и любой критерий не доказывает справедливость гипотезы, а лишь устанавливает, на принятом уровне значимости, ее согласие или несогласие с данными наблюдений.

Итак, пусть по выборке объема п получено эмпирическое распределение. При уровне значимости a требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы принимают случайную величину c 2 = , где - эмпирические частоты; - теоретические частоты.

Данная СВ имеет c 2 – распределение с k - степенями свободы. Число степеней свободы находят по равенству k=m –r -1, m – число частичных интервалов выборки; r – число параметров распределения. Для нормального распределения r=2 (а и s), тогда k=m –3.

Для того чтобы при заданном уровне значимости, проверить нулевую гипотезу: генеральная совокупность распределена нормально, надо:

1.Вычислить выборочную среднюю и выборочное среднее квадратическое отклонение.

2.Вычислить теоретические частоты ,

где п – объем выборки; h – шаг(разность между двумя соседними вариантами); ; значения функции смотрят по приложению.

3. Сравнивают эмпирические и теоретические частоты с помощью критерия Пирсона. Для этого:



а) находят наблюдаемое значение критерия ;

б) по таблице критических точек распределения c 2 , по заданному уровню значимости a и числу степеней свободы k находят критическую точку .

Если < - нет оснований отвергнуть нулевую гипотезу. Если > - нулевую гипотезу отвергают.

Замечание. Малочисленные частоты ( <5) следует объединить; в этом случае и соответствующие им теоретические частоты также надо сложить. Если производилось объединение частот, то при определении числа степеней свободы следует в качестве m принять число групп выборки, оставшихся после объединения частот.

Статистический критерий

Правило, по которому гипотеза Я 0 отвергается или принимается, называется статистическим критерием. В названии критерия, как правило, содержится буква, которой обозначается специально составленная характеристика из п. 2 алгоритма проверки статистической гипотезы (см. п. 4.1), рассчитываемая в критерии. В условиях данного алгоритма критерий назывался бы «в -критерий».

При проверке статистических гипотез возможны два типа ошибок:

  • - ошибка первого рода (можно отвергнуть гипотезу Я 0 , когда она на самом деле верна);
  • - ошибка второго рода (можно принять гипотезу Я 0 , когда она на самом деле не верна).

Вероятность а допустить ошибку первого рода называется уровнем значимости критерия.

Если за р обозначить вероятность допустить ошибку второго рода, то (l - р) - вероятность не допустить ошибку второго рода, которая называется мощностью критерия.

Критерий согласия х 2 Пирсона

Существует несколько типов статистических гипотез:

  • - о законе распределения;
  • - однородности выборок;
  • - численных значениях параметров распределения и т.д.

Мы будем рассматривать гипотезу о законе распределения на примере критерия согласия х 2 Пирсона.

Критерием согласия называют статистический критерий проверки нулевой гипотезы о предполагаемом законе неизвестного распределения.

В основе критерия согласия Пирсона лежит сравнение эмпирических (наблюдаемых) и теоретических частот наблюдений, вычисленных в предположении определенного закона распределения. Гипотеза # 0 здесь формулируется так: по исследуемому признаку генеральная совокупность распределена нормально.

Алгоритм проверки статистической гипотезы # 0 для критерия х 1 Пирсона:

  • 1) выдвигаем гипотезу Я 0 - по исследуемому признаку генеральная совокупность распределена нормально;
  • 2) вычисляем выборочную среднюю и выборочное среднее квадратическое отклонение о в;

3) по имеющейся выборке объема п рассчитываем специально составленную характеристику ,

где: я, - эмпирические частоты, - теоретические частоты,

п - объем выборки,

h - величина интервала (разность между двумя соседними вариантами),

Нормализованные значения наблюдаемого признака,

- табличная функция. Также теоретические частоты

могут быть вычислены с помощью стандартной функции MS Excel НОРМРАСП по формуле ;

4) по выборочному распределению определяем критическое значение специально составленной характеристики xl P

5) при гипотеза # 0 отвергается, при гипотеза # 0 принимается.

Пример. Рассмотрим признак X - величину показателей тестирования осужденных в одной из исправительных колоний по некоторой психологической характеристике, представленный в виде вариационного ряда:

На уровне значимости 0,05 проверить гипотезу о нормальном распределении генеральной совокупности.

1. На основе эмпирического распределения можно выдвинуть гипотезу Н 0 : по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осу-

жденных распределена нормально. Альтернативная гипотеза 1: по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных не распределена нормально.

2. Вычислим числовые выборочные характеристики:

Интервалы

х г щ

х} щ

3. Вычислим специально составленную характеристику j 2 . Для этого в предпоследнем столбце предыдущей таблицы найдем теоретические частоты по формуле , а в последнем столбце

проведем расчет характеристики % 2 . Получаем х 2 = 0,185.

Для наглядности построим полигон эмпирического распределения и нормальную кривую по теоретическим частотам (рис. 6).

Рис. 6.

4. Определим число степеней свободы s : к = 5, т = 2, s = 5-2-1 = 2.

По таблице или с помощью стандартной функции MS Excel «ХИ20БР» для числа степеней свободы 5 = 2 и уровня значимости а = 0,05 найдем критическое значение критерия xl P . =5,99. Для уровня значимости а = 0,01 критическое значение критерия х%. = 9,2.

5. Наблюдаемое значение критерия х =0,185 меньше всех найденных значений Хк Р.-> поэтому гипотеза Я 0 принимается на обоих уровнях значимости. Расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности. Таким образом, по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных распределена нормально.

  • 1. Корячко А.В., Куличенко А.Г. Высшая математика и математические методы в психологии: руководство к практическим занятиям для слушателей психологического факультета. Рязань, 1994.
  • 2. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных: Учеб, пособие. СПб., 2008.
  • 3. Сидоренко Е.В. Методы математической обработки в психологии. СПб., 2010.
  • 4. Сошникова Л.А. и др. Многомерный статистический анализ в экономике: Учеб, пособие для вузов. М., 1999.
  • 5. Суходольский Е.В. Математические методы в психологии. Харьков, 2004.
  • 6. Шмойлова Р.А., Минашкин В.Е., Садовникова Н.А. Практикум по теории статистики: Учеб, пособие. М., 2009.
  • Гмурман В.Е. Теория вероятностей и математическая статистика. С. 465.

Назначения критерия

Критерий χ 2 применяется в двух целях;

1) для сопоставления эмпирического распределения признака с теоре­тическим - равномерным, нормальным или каким-то иным;

2) для сопоставления двух, трех или более эмпирических распределе­ний одного и того же признака 12 .

Описание критерия

Критерий χ 2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.

Преимущество метода состоит в том, что он позволяет сопостав­лять распределения признаков, представленных в любой шкале, начиная от шкалы наименований (см. п. 1.2). В самом простом случае альтерна­тивного распределения "да - нет", "допустил брак - не допустил бра­ка", "решил задачу - не решил задачу" и т. п. мы уже можем приме­нить критерий χ 2 .

Допустим, некий наблюдатель фиксирует количество пешеходов, выбравших правую или левую из двух симметричных дорожек на пути из точки А в точку Б (см. Рис. 4.3).

Допустим, в результате 70 наблюдений установлено, что Э\ чело­век выбрали правую дорожку, и лишь 19 - левую. С помощью критерия χ 2 мы можем определить, отличается ли данное распределение выборов от равномерного распределения, при котором обе дорожки выбирались бы с одинаковой частотой. Это вариант сопоставления полученного эм­ пирического распределения с теоретическим. Такая задача может сто­ять, например, в прикладных психологических исследованиях, связанных с проектированием в архитектуре, системах сообщения и др.

Но представим себе, что наблюдатель решает совершенно другую задачу: он занят проблемами билатерального регулирования. Совпадение полученного распределения с равномерным его интересует гораздо в меньшей степени, чем совпадение или несовпадение его данных с дан­ными других исследователей. Ему известно, что люди с преобладанием правой ноги склонны делать круг против часовой стрелки, а люди с преобладанием левой ноги - круг по ходу часовой стрелки, и что в ис­следовании коллег 13 преобладание левой ноги было обнаружено у 26 человек из 100 обследованных.

С помощью метода χ 2 он может сопоставить два эмпирических распределения: соотношение 51:19 в собственной выборке и соотноше­ние 74:26 в выборке других исследователей.

Это вариант сопоставления двух эмпирических распределений по простейшему альтернативному признаку (конечно, простейшему с математической точки зрения, а отнюдь не психологической).

Аналогичным образом мы можем сопоставлять распределения выборов из трех и более альтернатив. Например, если в выборке из 50 человек 30 выбрали ответ (а), 15 человек - ответ (б) и 5 человек -ответ (в), то мы можем с помощью метода χ 2 проверить, отличается ли это распределение от равномерного распределения или от распределения ответов в другой выборке, где ответ (а) выбрали 10 человек, ответ (б) -25 человек, ответ (в) - 15 человек.

В тех случаях, если признак измеряется количественно, скажем, в баллах, секундах или миллиметрах, нам, быть может, придется объединить все обилие значений признака в несколько разрядов. Например, если время решения задачи варьирует от 10 до 300 секунд, то мы можем ввести 10 или 5 разрядов, в зависимости от объема выборки. На­пример, это будут разряды: 0-50 секунд; 51-100 секунд; 101-150 секунд, и т. д. Затем мы с помощью метода χ 2 будет сопоставлять частоты встречаемости разных разрядов признака, но в остальном принципиаль­ная схема не меняется.

При сопоставлении эмпирического распределения с теоретическим мы определяем степень расхождения между эмпирическими и теорети­ческими частотами.

При сопоставлении двух эмпирических распределений мы опреде­ляем степень расхождения между эмпирическими частотами и теорети­ческими частотами, которые наблюдались бы в случае совпадения двух этих эмпирических распределений. Формулы расчета теоретических час­тот будут специально даны для каждого варианта сопоставлений.

Чем больше расхождение между двумя сопоставляемыми распре­делениями, тем больше эмпирическое значение у}.

Гипотезы

Возможны несколько вариантов гипотез, в зависимости от задач,

которые мы перед собой ставим.

Первый вариант:

Н 0: Полученное эмпирическое распределение признака не отличается от теоретического (например, равномерного) распределения.

Н 1: Полученное эмпирическое распределение признака отличается от теоретического распределения.

Второй вариант:

Н 0: Эмпирическое распределение 1 не отличается от эмпирического распределения 2.

Н 1: Эмпирическое распределение 1 отличается от эмпирического рас­пределения 2.

Третий вариант:

Н 0: Эмпирические распределения 1, 2, 3, ... не различаются между собой.

Н 1: Эмпирические распределения 1, 2, 3, ... различаются между собой.

Критерий χ 2 позволяет проверить все три варианта гипотез.

Графическое представление критерия

Проиллюстрируем пример с выбором правой или левой дорожек на пути из точки А в точку Б. На Рис. 4.4 частота выбора левой до­рожки представлена левым столбиком, а частота выбора правой дорож­ки - правым столбиком гистограммы 14 . На оси ординат отмеряются от­носительные частоты выбора, то есть частоты выбора той или иной до­рожки, отнесенные к общему количеству наблюдений. Для левой дорожки относительная частота, которая называется также частостью, составляет 19/70, то есть 0,27, а для правой дорожки 51/70, то есть 0,73.

Если бы обе дорожки выбирались равновероятно, то половина испытуемых выбрала бы правую дорожку, а половина - левую. Вероят­ность выбора каждой из дорожек составляла бы 0,50.

Мы видим, что отклонения эмпирических частот от этой величи­ны довольно значительны. Возможно, различия между эмпирическим и теоретическим распределением окажутся достоверными.

На Рис. 4.5 фактически представлены две гистограммы, но столбики сгруппированы так, что слева сопоставляются частоты предпочте­ния левой дорожки в выборе нашего наблюдателя (1) и в выборке Т.А. Доброхотовой и Н.Н. Брагиной (2), а справа - частоты предпочтения правой дорожки в этих же двух выборках.

Мы видим, что расхождения между выборками очень незначительны. Критерий χ2, скорей всего, подтвердит совпадение двух распределений.

Ограничения критерия

1.Объем выборки должен быть достаточно большим: п 30. При п <30 критерий χ2 дает весьма приближенные значения. Точность крите­рия повышается при больших п .

2. Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: f > 5. Это означает, что если число разрядов задано зара­нее и не может быть изменено, то мы не можем применять метод χ2, не накопив определенного минимального числа наблюдений. Ес­ли, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяются по 7 дням недели, то нам потребуется 5*7=35 обращений. Таким образом, если количество разрядов (k ) задано заранее, как в данном случае, минимальное число наблюдений (n min ) определяется по формуле: n min =k *5.

3. Выбранные разряды должны "вычерпывать" все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопостав­ляемых распределениях.

4. Необходимо вносить "поправку на непрерывность" при сопоставле­нии распределений признаков, которые принимают всего 2 значения. При внесении поправки значение χ 2 уменьшается (см. Пример с по­ правкой на непрерывность).

5. Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может быть отнесено ни к какому другому разряду.

Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.

Правомерен вопрос о том, что считать числом наблюдений - количество выбо­ров, реакций, действий или количество испытуемых, которые совершают выбор, проявляют реакции или производят действия. Если испытуемый проявляет не­сколько реакций, и все они регистрируются, то количество испытуемых не будет совпадать с количеством реакций. Мы можем просуммировать реакции каждого испытуемого, как, например, это делается в методике Хекхаузена для исследования мотивации достижения или в Тесте фрустрационной толерантности С. Розенцвейга, и сравнивать распределения индивидуальных сумм реакций в нескольких выборках.

В этом случае числом наблюдений будет количество испытуемых. Если же мы подсчитываем частоту реакций определенного типа в целом по выборке, то получа­ем распределение реакций разного типа, и в этом случае количеством наблюдений будет общее количество зарегистрированных реакций, а не количество испытуемых.

С математической точки зрения правило независимости разрядов соблюдается в обоих случаях: одно наблюдение относится к одному и только одному разряду распределения.

Можно представить себе и такой вариант исследования, где мы изучаем рас­пределение выборов одного испытуемого. В когнитивно-бихевиоральной терапии, например, клиенту предлагается всякий раз фиксировать точной время появления нежелательной реакции, например, приступов страха, депрессии, вспышек гнева, самоуничижающих мыслей и т. п. В дальнейшем психотерапевт анализирует полу­ченные данные, выявляя часы, в которые неблагоприятные симптомы проявляются чаще, и помогает клиенту строить индивидуальную программу предупреждения неблагоприятных реакций.

Можно ли с помощью критерия χ2 доказать, что некоторые часы являются в этом индивидуальном распределении более часто встречающимися, а другие - ме­нее часто встречающимися? Все наблюдения - зависимы, так как они относятся к одному и тому же испытуемому; в то же время все разряды - неперекрещивающиеся, так как один и тот же приступ относится к одному и только одному разря­ду (в данном случае - часу дня). По-видимому, применение метода χ2 будет в данном случае некоторым упрощением. Приступы страха, гнева или депрессии могут наступать неоднократно в течение дня, и может оказаться так, что, скажем, ранний утренний, 6-часовой, и поздний вечерний, 12-часовой, приступы обычно появляются вместе, в один и тот же день: в то же время дневной 3-часовой при­ступ появляется не ранее как через сутки после предыдущего приступа и не менее чем за двое суток до следующего и т. п. По-видимому, речь здесь может идти о сложной математической модели или вообще о чем-то таком, чего нельзя "поверить алгеброй". И тем не менее в практических целях может оказаться полезным ис­пользовать критерий для того, чтобы выявить систематическую неравномерность наступления каких-либо значимых событий, выбора, предпочтений и т. п. у одного и того же человека.

Итак, одно и то же наблюдение должно относиться только к одному разряду. Но считать ли наблюдением каждого испытуемого или каждую исследуемую реак­цию испытуемого - вопрос, решение которого зависит от целей исследования (см.. напр., Ганзен В.А., Балин В.Д., 1991, с.10).

Главное же "ограничение" критерия χ 2 - то, что он кажется большинству исследователей пугающе сложным.

Попытаемся преодолеть миф о непостижимой трудности критерия χ 2 . Чтобы оживить изложение, рассмотрим шутливый литературный пример.

Лекция 6. Анализ двух выборок

6.1 Параметрические критерии. 1

6.1.2 Критерий Стьюдента (t -критерий) 2

6.1.3 F - критерий Фишера. 6

6.2 Непараметрические критерии. 7

6.2.1 Критерий знаков (G -критерий) 7

Следующей задачей статистического анализа, решаемой после определения основных (выборочных) характеристик и анализа одной выборки, является совместный анализ нескольких выборок. Важнейшим вопросом, возникающем при анализе двух выборок, является вопрос о наличии различий между выборками. Обычно для этого проводят проверку статистических гипотез о принадлежности обеих выборок одной генеральной совокупности или о равенстве средних.

Если вид распределения или функция распределения выборки нам заданы, то в этом случае задача оценки различий двух групп независимых наблюдений может решаться с использованием параметрических критериев статистики: либо кри­терия Стьюдента (t ), если сравнение выборок ведется по сред­ним значениям (X и У), либо с использованием критерия Фишера (F ), если сравнение выборок ведется по их дисперсиям.

Использование параметрических критериев статистики без предварительной про­верки вида распределения может привести к определенным ошибкам в ходе проверки рабочей гипотезы.

Для преодоления указанных трудностей в практике педагоги­ческих исследований следует использовать непараметрические критерии статистики , такие, как критерий знаков, двухвыборочный критерий Вилкоксона, критерий Ван дер Вардена, критерий Спирмена, выбор которых, хотя и не требует большого числа членов выборки и знаний, вида распределения, но все же зависит от целого ряда условий.

Непараметрические критерии статистики - свободны от допущения о законе распределения выборок и базируются на предположении о независимости наблюдений.

6.1 Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о при­надлежности двух выборок одной совокупности. Эти методы основыва­ются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

6.1.1 Методы проверки выборки на нормальность

Чтобы определить,имеем ли мы дело с нормальным распределением, можно применять следующие методы:

1) в пределах осей можно нарисовать полигон частоты (эмпирическую функцию распределения) и кривую нормального распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой;

2) вычисляется среднее, медиана и мода и на основе этого определяется отклонение от нормального распределения. Если мода, медиана и среднее арифметическое друг от другазначительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.

3) эксцесс кривой распределения должен быть равен 0. Кривыесположительнымэксцессомзначительновертикальнее кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения;

4) послеопределения среднего значения распределения частоты и стандартного oтклонения находят следующие четыре интервала распределения сравнивают их с действительными даннымиряда:

а) - к интервалу должно относиться около 25% частоты совокупности,

б) - к интервалу должно относиться около 50% частоты совокупности,

в) - к интервалу должно относиться около 75% частоты совокупности,

г) - к интервалу должно относиться около 100% частоты совокупности.

6.1.2 Критерий Стьюдента ( t-критерий)

Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух неза­висимых , несвязанных выборок (так называемый двухвыборочный t-критерий ). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой матери­ал для проверки гипотез о средних, используется так называемый парный t-критерий . Выборки при этом называют зависимыми , связанными .

а) случай независимых выборок

Статистика критерия для случая несвязанных, независимых выборок равна:

где , - средние арифметические в эксперименталь­ной и контрольной группах,

Стан­дартная ошибка разности средних арифметических. Находится из формулы:

,(2)

где n 1 и n 2 соответственно величины первой и второй выборки.

Если n 1 =n 2 , то стандартная ошибка разности средних арифметических будет считаться по формуле:

(3)

где n величина выборки.

Подсчет числа степеней свободы осуществля­ется по формуле:

k = n 1 + n 2 – 2.(4)

При численном равенстве выборок k = 2 n - 2.

Далее необходимо срав­нить полученное значение t эмп с теоретическим значением t-рас­пределения Стьюдента (см. приложение к учеб­никам статистики). Если t эмп

Рассмотрим пример использования t -критерия Стьюдента для несвязных и неравных по численности выборок.

Пример 1 . В двух группах учащихся - экспериментальной и контрольной - получены следующие результаты по учеб­ному предмету (тестовые баллы; см. табл. 1).

Таблица 1. Результаты эксперимента

Первая группа (экспериментальная) N 1 =11 человек

Вторая группа (контрольная)

N 2 =9 человек

121413161191315151814

Общее количество членов выборки: n 1 =11, n 2 =9.

Расчет средних арифметических: Х ср =13,636; Y ср =9,444

Стандартное отклонение: s x =2,460; s y =2,186

По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Считаем статистику критерия:

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два (18).

Табличное значение t крит равняется 2,1 при допущении возможности риска сделать ошибочное сужде­ние в пяти случаях из ста (уровень значимости=5 % или 0,05).

Если полученное в эксперименте эмпирическое значение t превы­шает табличное, то есть основания принять альтернативную гипотезу (H 1) о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе эксперимен­тального обучения.

Здесь могут возникнуть такие вопросы :

1. Что если полученное в опыте значение t окажется меньше табличного? Тогда надо принять нулевую гипотезу.

2. Доказано ли преимущество экспериментального метода? Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.

3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами, сделав средней арифметической эксперимен­тальной группы, a - контрольной:

Отсюда следует вывод, что новый метод пока не про­явил себя с хорошей стороны по разным, возможно, при­чинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза (Н 2) о пре­имуществе традиционного метода.

б) случай связанных (парных) выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.

Вычисление значения t осуществляется по формуле:

где - разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;

Sd вычисляется по следующей формуле:

(6)

Число степеней свободы k определяется по формуле k=n -1. Рассмотрим пример использования t -критерия Стьюдента для связных и, очевидно, равных по численности выборок.

Если t эмп

Пример 2 . Изучался уровень ориентации учащихся на художественно-эстети­ческие ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились бе­седы, выставки детских рисунков, были организованы по­сещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос: какова эффективность проведенной работы? С целью проверки эффективности этой работы до начала эксперимента и после давался тест. Из методических со­ображений в таблице 2 приводятся результаты небольшо­го числа испытуемых.

Таблица 2. Результаты эксперимента

Ученики

(n =10 )

Баллы

Вспомогательные расчеты

до начала экспери­мента (Х)

в конце

экспери­мента (У)

d

d 2

Иванов

Новиков

Сидоров

Пирогов

Агапов

Суворов

Рыжиков

Серов

Топоров

Быстров

Среднее

14,8

21,1

Вначале произведем расчет по формуле:

Затем применим формулу (6), получим:

И, наконец, следует применить формулу (5). Получим:

Число степеней свободы: k =10-1=9 и по таблице При­ложения 1 находим t крит =2.262, экспериментальное t=6,678, откуда следует возможность принятия альтерна­тивной гипотезы (H 1) о достоверных различиях средних арифметических, т. е. делается вывод об эффективности экспериментального воздействия.

В терминах статистических гипотез полученный результат будет звучать так: на 5% уров­не гипотеза Н 0 отклоняется и принимается гипотеза Н 1 .

6.1.3 F - критерий Фишера

Критерий Фишера позволяет сравнивать величины выбороч­ных дисперсий двух независимых выборок. Для вычисления F эмп нуж­но найти отношение дисперсий двух выборок, причем так, что­бы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фи­шера такова:

где - дисперсии первой и второй выборки соответственно.

Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значе­ние F эмп всегда будет больше или равно единице.

Чис­ло степеней свободы определяется также просто:

k 1 =n l - 1 для первой выборки (т.е. для той выборки, величина дисперсии которой больше) и k 2 =n 2 - 1 для второй выборки.

В Приложе­нии 1 критические значения критерия Фишера находятся по величинам k 1 (верхняя строчка таблицы) и k 2 (левый столбец таблицы).

Если t эмп >t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 3. В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос - есть ли различия в степени однородности показателей умственного развития между классами.

Решение. Для критерия Фишера необходимо сравнить дис­персии тестовых оценок в обоих классах. Резуль­таты тестирования представлены в таблице:

Таблица 3.

№№ учащихся

Первый класс

Второй класс

Суммы

Среднее

60,6

63,6

Рассчитав дисперсии для переменных X и Y, получаем:

s x 2 =572,83; s y 2 =174,04

Тогда по формуле (8) для расчета по F критерию Фишера находим:

По таблице из Приложения 1 для F критерия при степенях свободы в обоих случаях равных k =10 - 1 = 9 находим F крит =3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иc следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметрические критерии

Сравнивая на глазок (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия.Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.

6.2.1 Критерий знаков ( G-критерий)

Критерий предназначен для срав­нения состояния некоторого свойства у членов двух зави­симых выборок на основе измерений, сделанных по шка­ле не ниже ранговой.

Имеется две серии наблюдений над случайными переменными X и У, полученные при рассмотрении двух зависимых выборок . На их основе составлено N пар вида (х i , у i ), где х i , у i - результаты двукратного измерения одного и того же свойства у одного и того же объекта.

В педагогических исследованиях объектами изуче­ния могут служить учащиеся, учителя, администрация школ. При этом х i , у i могут быть, например, балловы­ми оценками, выставленными учителем за двукратное выполнение одной и той же или различных работ одной и той же группой учащихся до и после применения некоторого педагогическою средства.

Элементы каждой пары х i , у i сравниваются между собой по величине, и паре присваивается знак «+» , ес­ли х i < у i , знак «-» , если х i > у i и «0» , если х i = у i .

Нулевая гипотеза формулируются следующим обра­зом: в состоянии изучаемого свойства нет значимых различий при первичном и вторичном измерениях. Альтернативная гипотеза: законы распределения величин X и У различны, т. е. состояния изучаемого свойства существенно раз­личны в одной и той же совокупности при первичном и вторичном измерениях этого свойства.

Ста­тистика критерия (Т) определяется следую­щим образом:

допустим, что из N пар (х, у,) нашлось несколько пар, в которых значения х i и у i равны. Такие пары обозначаются знаком «0» и при подсчете значения ве­личины Т не учитываются. Предположим, что за вы­четом из числа N числа пар, обозначенных знаком «0», осталось всего n пар. Среди оставшихся n пар подсчита­ем число пар, обозначенных знаком «-», т.е, пары, в которых x i < y i . Значение величины Т и равно чис­лу пар со знаком минус.

Нулевая гипотеза принимается на уровне значимости 0,05, если наблю­даемое значение T < n - t a , где значение n - t a определя­ется из статистических таблиц для критерия знаков Приложения 2.

Пример 4. Учащиеся выполняли контрольную ра­боту, направленную на проверку усвоения некоторого понятия. Пятнадцати учащимся затем предложили электронное пособие, составленное с целью фор­мирования данного понятия у учащихся с низким уров­нем обучаемости. После изучения пособия учащиеся снова выполняли ту же контрольного работу, которая оценивалась по пятибалльной системе.

Результаты двукратного выполнения ра­боты представляют измерения по шкале по­рядка (пятибалльная шкала). В этих условиях возмож­но применение знакового критерия для выявления тенденции изменения состояния знаний учащихся после изучения пособия, так как выполняются все допуще­ния этого критерия.

Результаты двукратного выполнения работы (в бал­лах) 15 учащимися запишем в форме таблицы (см. табл. 1).

Таблица 4.

Учащиеся (№)

Первое выполнение

Второе выполнение

Знак разности отметок

Проверяется гипотеза H 0 : состояние знаний учащих­ся не повысилось после изучения пособия. Альтернативная гипотеза: состояние знаний учащихся повысилось после изучения пособия.

Подсчитаем значение статистики критерия Т равное числу положительных разностей отметок, по­лученных учащимися. Согласно данным табл. 4 Т=10, n=12.

Для определения критических значений статистики критерия n-ta используем табл. Приложения 2. Для уровня значимости а = 0,05 при n =12 значение n-ta=9. Следовательно выполняется неравенство Т> n-ta (10>9). Поэтому в соответствии с правилом принятия решения нулевая гипотеза от­клоняется на уровне значимости 0,05 и принимает­ся альтернативная гипотеза, что позволяет сделать вывод об улучшении знаний учащихся после самостоя­тельного изучения пособия.

Пример 5. Предполагается, что изучение курса математики способствует формированию у учащихся одного из приемов логического мышления (например, приема обобщения) даже в том случае, если его фор­мирование не проводится целенаправленно. Для проверки этого предположения был проведен следующий эксперимент.

Учащимся VII класса было предложено 5 задач, решение которых основано на использовании данного приема мышления. Считалось, что учащийся владеет этим приемом, если он дает верный ответ на 3 и более задачи.

Была разработана следующая шкала измерений: верно решена 1 или 2 задачи - оценка «0»; верно решено 3 задачи - оценка «1»; верно решено 4 зада­чи- оценка «2»; верно решено 5 задач - оценка «3».

Работа проводилась дважды: в конце сентября и конце мая следующего года. Ее писали 35 одних и тех же учащихся, отобранных методом случайного отбора из 7 разных школ. Результаты двукратного выполнения работы запишем в форме таблицы (см. табл. 5).

В соответствии с целями эксперимента формулируем нулевую гипотезу следующим образом: Н 0 - изучение математики не способствует формированию изучаемого приема мышления. Тогда альтернативная гипотеза бу­дет иметь вид: Н 1 - изучение математики способствует овладению этим приемом мышления.

Таблица 5.

Согласно данным табл. 5, значение статистики Т=15 - число разностей со зна­ком «+». Из 35 пар 12 имеют знак «0»; значит, n = 35-12 = 23.

По таблице Приложения 2 для n =23 и уровня значимости 0,025 находим критическое значение стати­стики критерия, равное 16. Следовательно, верно неравенство Т

Поэтому в соответ­ствии с правилом принятия решений приходится сделать вывод о том, что полученные ре­зультаты не дают достаточных оснований для отклоне­ния нулевой гипотезы, т. е. мы не располагаем достаточными основаниями для отклонения утверждения о том, что изучение математики само по себе не способ­ствует овладению выделенным приемом мышления.

6.2.2 Критерий χ2 (хи-квадрат)

Критерий χ 2 (хи-квадрат) приме­няется для сравнения распределений объектов двух совокупностей на основе измерений по шкале наименований в двух независимых выборках.

Предполо­жим, что состояние изучаемого свойства (например, вы­полнение определенного задания) измеряется у каждо­го объекта по шкале наименований, имеющей только две взаимоисключающие категории (например: выпол­нено верно - выполнено неверно). По результатам из­мерения состояния изучаемого свойства у объектов двух выборок составляется четырехклеточная таблица 2X2. (см. табл. 6).

Таблица 6.

В этой таблице О ij - число объектов в i -ой выбор­ке, попавших в j -ую категорию по состоянию изучае­мого свойства; i =1,2 – число выборок; j =1,2 – число категорий;; N - общее число наблюдений, равное О 11 + О 12 + О 21 + О 22 или n 1 + n 2 .

Тогда на основе данных таблицы 2X2 (см. табл. 6) можно проверить ну­левую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в первою (вторую) категорию шкалы измерения проверяемого свойства, например гипотезу о равенстве вероятностей вер­ного выполнения некоторого задания учащимися кон­трольных и экспериментальных классов.

При проверке нулевых гипотез не обязательно, чтобы значения вероятностей р 1 и р 2 были известны, так как гипотезы только устанавливают между ними неко­торые соотношения (равенство, больше или меньше).

Для проверки рассмотренных выше нулевых гипотез по данным таблицы 2X2 (см. табл. 6) подсчитывается значение статистики критерия Т по следующей общей формуле:

(9)

где n 1 , n 2 - объемывыборок, N = n 1 + n 2 - общеечисло наблюдений.

Проводится проверка гипотезы H 0 : p 1 £ p 2 - при альтернативе Н 1: р 1 >р 2 . Пусть a - принятый уровень значимости. Тогда значение статистики Т, полученное на основе экспериментальных данных, сравнивается с критическим значением статистики х 1-2 a , которое опре­деляется по таблице c 2 c одной степенью свободы (см. Приложение 2) с учетом выбранного значения a . Если верно неравенство T < x 1-2 a , то нулевая гипотеза принимается на уровне a .Если данное неравенство не выполняется, то у нас нет достаточных оснований для отклонения нулевой гипотезы.

В связи с тем что замена точного распределения статистики Т распределением c 2 c одной степенью сво­боды дает достаточно хорошее приближение только для больших выборок, применение критерия ограничено не­которыми условиями.

1)сумма объемов двух выборок меньше 20;

2)хотя бы одна из абсолютных частот в таблице 2X2, составленной на основе экспериментальных данных, меньше 5.

Пример 6. Проводился эксперимент, направленный на выявление лучшего из учебников, написанных двумя авторскими коллективами в соответствии с целями обу­чения геометрии и содержанием программы IX класса. Для проведения эксперимента методом случайного отбо­ра были выбраны два района, большинство школ которых относились по расположению к сельским. Уча­щиеся первого района (20 классов) обучались по учеб­нику № 1, учащиеся второго района (15 классов) обуча­лись по учебнику №2.

Рассмотрим методику сравнения ответов учителей экспериментальных школ двух районов па один из вопросов анкеты: «Доступен ли учебник в целом для самостоятельного чтения и помогает ли он усвоить материал, который учитель не объяснял в классе (Ответ:да - нет.)

Отношение учителей к изучаемому свойству учебников измерено по шкале наименований, имеющей две категории: да, нет. Обе выборки учителей случайные и независимые.

Ответы 20 учителей первого района и 15 учителей второго района распределим на две категории и запишем в форме таблицы 2Х2 (табл. 5).

Таблица 7.

Все значения в табл. 7 не меньше 5, поэтому в соответствии с условиями использования критерия c 2 подсчет статистики критерия производится по формуле (9).

По таблице из приложения 2 для одной степени свободы (v = l ) и уровня значимости a =0,05 найдем х 1- a а =Т критич = 3,84. Отсюда верно неравенство Т наблюд <Т критич (1,86<3,84). Согласно правилу принятия ре­шений для критерия c 2 , полученный результат не дает достаточных оснований для отклонения нулевой ги­потезы, т. е. результаты проведенного опроса учителей двух экспериментальных районов не дают достаточных оснований для отклонения предположения об одинаковой доступности учебников 1 и 2 для самостоятельного чтения учащимися.

Применение критерия хи-квадрат возможно и в том случае, когда объекты двух выборок из двух совокупно­стей по состоянию изучаемого свойства распределяют­ся более чем на две категории. Например, учащиеся экспериментальных и контрольных классов распределя­ются на четыре категории в соответствии с отметками (в баллах: 2, 3, 4, 5), полученными учащимися за вы­полнение некоторой контрольной работы.

Результаты измерения состояния изу­чаемого свойства у объектов каждой выборки распре­деляются на С категорий. На основе этих данных со­ставляется таблица 2ХС, в которой два ряда (по числу рассматриваемых совокупностей) и С колонок (по чис­лу различных категорий состояния изучаемого свойства, принятых в исследовании).

Таблица 8.

На основе данных таблицы 8 можно проверить нулевую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в каждую из i ( i = l , 2, ..., С) категорий, т. е. проверить выполнение всех следующих равенств: р 11 = р 21 , p 12 = p 22 , …, p 1 c = p 2 c . Возможна, например, проверка гипо­тезы о равенстве вероятностей получения отметок «5», «4», «3» и «2» за выполнение учащимися контрольных и экспериментальных классов некоторого задания.

Для проверки нулевой гипотезы с помощью критерия c 2 на основе данных таблицы 2ХС подсчитывается значение статисти­ки критерия Т по следующей формуле:

(10)

где п 1 и п 2 - объемы выборок.

Значение Т, полученное на ос­нове экспериментальных данных, сравнивается с критическим значением х 1- a , которое определяется по таб­лице c 2 с k =С-1 степенью свободы с учетом выбранного уровнязначимости a . При выполнении неравенства Т> х 1- a а нулевая гипотеза отклоняется на уровне а и принимается альтернативная гипотеза. Это означает, что распределе­ние объектов на С категорий по состоянию изучаемого свойства различно в двух рассматриваемых совокуп­ностях.

Пример 7 . Рассмотрим методику сравнения результатов пись­менной работы, проверявшей усвоение одного из разде­лов курса учащимися первого и второго районов.

Методом случайного отбора из учащихся первого района, писавших работу, была составлена выборка объ­емом 50 человек, из учащихся второго района - выборка объемом 50 человек. В соответствии со специально разработанными критериями оценки выпол­нения работы каждый ученик мог попасть в одну из че­тырех категорий: плохо, посредственно, хорошо, отлично. Результаты выполнения работы двумя выборками уча­щихся используем для проверки гипотезы о том, что учеб­ник № 1 способствует лучшему усвоению проверяемого раздела курса, т. е. учащиеся первого экспериментального района в средне будут получать более высокие оценки, чем учащиеся второго района.

Результаты выполнения работы учащимися обеих вы­борок запишем в виде таблицы 2X4 (табл. 9 ).

Таблица 9.

В соответствии с условиями использования критерия c 2 подсчет статистики критерия производится по корректированной формуле (10).

В соответствии с условиями применения двустороннего критерия хи-квадрат по таблице из приложения 2 для одной степени свободы (k Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М., «Педагогика», 1977, стр. 54

Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М., «Педагогика», 1977, стр. 57