Если коэффициент корреляции находится. Коэффициент корреляции. Понятие о корреляционном анализе
Коэффициент корреляции – это величина, которая может варьировать в пределах от +1 до –1. В случае полной положительной корреляции этот коэффициент равен плюс 1 (говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной), а при полной отрицательной – минус 1 (свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются).
Пр1.:
График зависимости застенчивости и дипресивности. Как видим, точки (испытуемые) расположены не хаотично, а выстраиваются вокруг одной линии, причём, глядя на эту линию можно сказать, что чем выше у человека выражена застенчивость, тем больше депрессивность, т. е. эти явления взаимосвязаны.
Пр2.: График для Застенчивости и Общительности. Мы видим, что с увеличением застенчивости общительность уменьшается. Их коэффициент корреляции -0,43. Таким образом, коэффициент корреляции больший от 0 до 1 говорит о прямопропорциональной связи (чем больше… тем больше…), а коэффициент от -1 до 0 о обратнопропорциональной (чем больше… тем меньше…)
В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.
Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных. Примерами корреляционной зависимости могут быть зависимости между размерами активов банка и суммой прибыли банка, ростом производительности труда и стажем работы сотрудников.
Используется две системы классификации корреляционных связей по их силе: общая и частная.
Общая классификация корреляционных связей:1) сильная, или тесная при коэффициенте корреляции r>0,70;2) средняя при 0,500,70, а не просто корреляция высокого уровня значимости.В следующей таблице написаны названия коэффициентов корреляции для различных типов шкал.
Дихотомическая шкала (1/0) | Ранговая (порядковая) шкала | ||
Дихотомическая шкала (1/0) | Коэфициент ассоциации Пирсона, коэффициент четырехклеточной сопряженности Пирсона. | Бисериальная корреляция | |
Ранговая (порядковая) шкала | Рангово-бисериальная корреляция. | Ранговый коэффициент корреляции Спирмена или Кендалла. | |
Интервальная и абсолютная шкала | Бисериальная корреляция | Значения интервальной шкалы переводятся в ранги и используется ранговый коэффициент | Коэффициент корреляции Пирсона (коэффициент линейной корреляции) |
При r =0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии параллельны осям координат.
Равенство r =0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелированности переменных), но не вообще об отсутствии корреляционной, а тем более, статистической зависимости.
Иногда вывод об отсутствии корреляции важнее наличия сильной корреляции. Нулевая корреляция двух переменных может свидетельствовать о том, что никакого влияния одной переменной на другую не существует, при условии, что мы доверяем результатам измерений.
В SPSS: 11.3.2 Коэффициенты корреляции
До сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения - большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.
В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена, а для переменных, принадлежащих к интервальной шкале - коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую.
Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav. При этом мы учтем, что дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:
· Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
· Перенесите переменную sex в список строк, а переменную psyche - в список столбцов.
· Щелкните на кнопке Statistics... (Статистика). В диалоге Crosstabs: Statistics установите флажок Correlations (Корреляции). Подтвердите выбор кнопкой Continue.
· В диалоге Crosstabs откажитесь от вывода таблиц, установив флажок Supress tables (Подавлять таблицы). Щелкните на кнопке ОК.
Будут вычислены коэффициенты корреляции Спирмена и Пирсона, а также проведена проверка их значимости:
/ СПСС 10
Задание № 10 Корреляционный анализ
Понятие корреляции
Корреляция или коэффициент корреляции – это статистический показательвероятностной связи между двумя переменными, измеренными по количественным шкалам. В отличие от функциональной связи, при которой каждому значению одной переменной соответствуетстрого определенное значение другой переменной,вероятностная связь характеризуется тем, что каждому значению одной переменной соответствуетмножество значений другой переменной, Примером вероятностной связи является связь между ростом и весом людей. Ясно, что один и тот же рост может быть у людей разного веса и наоборот.
Корреляция представляет собой величину, заключенную в пределах от -1 до + 1, и обозначается буквой r. Причем, если значение находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0, то слабой. Значение корреляции менее 0,2 рассматривается как слабая корреляция, свыше 0,5 – высокая. Если коэффициент корреляции отрицательный, это означает наличие обратной связи: чем выше значение одной переменной, тем ниже значение другой.
В зависимости от принимаемых значений коэффициента rможно выделить различные виды корреляции:
Строгая положительная корреляция определяется значениемr=1. Термин «строгая» означает, что значение одной переменной однозначно определяются значениями другой переменной, а термин «положительная» - что с возрастанием значений одной переменной значения другой переменной также возрастают.
Строгая корреляция является математической абстракцией и практически не встречается в реальных исследованиях.
Положительная корреляция соответствует значениям 0
Отсутствие корреляции определяется значениемr=0. Нулевой коэффициент корреляции говорит о том, что значения переменных никак не связаны между собой.
Отсутствие корреляции H o : 0 r xy =0 формулируется как отражениенулевой гипотезы в корреляционном анализе.
Отрицательная корреляция : -1
Строгая отрицательная корреляция определяется значениемr= -1. Она также, как и строгая положительная корреляция, является абстракцией и не находит выражение в практических исследованиях.
Таблица 1
Виды корреляции и их определения
Метод вычисления коэффициента корреляции зависит от вида шкалы, по которой измерены значения переменной.
Коэффициент корреляции r Пирсона является основным и может использоваться для переменных с номинальной и частично упорядоченными, интервальными шкалами, распределение значений по которым соответствует нормальному (корреляция моментов произведения). Коэффициент корреляции Пирсона дает достаточно точные результаты и в случаях анормальных распределений.
Для распределений, не являющихся нормальными, предпочтительнее пользоваться коэффициентами ранговой корреляции Спирмена и Кендалла. Ранговыми они являются потому, что программа предварительно ранжирует коррелируемые переменные.
Корреляцию rСпирмена программаSPSSвычисляет следующим образом: сначала переменные переводятся в ранги, а затем к рангам применяется формулаrПирсона.
В основе корреляции, предложенной М. Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых. Если у пары испытываемых изменение по Х совпадают по направлению с изменением по Yсовпадает, то это свидетельствует о положительной связи. Если не совпадает – то об отрицательной связи. Данный коэффициент применяется преимущественно психологами, работающими с малыми выборками. Так как социологи работают с большими массивами данных, то перебор пар, выявление разности относительных частот и инверсий всех пар испытуемых в выборке затруднителен. Наиболее распространенным является коэф. Пирсона.
Поскольку коэффициент корреляции rПирсона является основным и может использоваться (с некоторой погрешностью в зависимости от типа шкалы и уровня анормальности в распределении) для всех переменных, измеренных по количественным шкалам, рассмотрим примеры его использования и сравним полученные результаты с результатами измерений по другим коэффициентам корреляции.
Формула вычисления коэффициента r - Пирсона:
r xy = ∑ (Xi-Xср)∙(Yi-Yср) / (N-1)∙σ x ∙σ y ∙
Где: Xi, Yi- Значения двух переменных;
Xср, Yср- средние значения двух переменных;
σ x , σ y – стандартные отклонения,
N- количество наблюдений.
Парные корреляции
Например, мы хотели бы выяснить, как соотносятся ответы между различными видами традиционных ценностей в представлениях студентов об идеальном месте работы (переменные: а9.1, а9.3, а9.5, а9.7), а затем о соотношении либеральных ценностях (а9.2, а9.4. а9.6, а9.8) . Данные переменные измерены по 5 – членным упорядоченным шкалам.
Используем процедуру: «Анализ», «Корреляции»,«Парные». По умолчанию коэф. Пирсона установлен в диалоговом окне. Используем коэф. Пирсона
В окно отбора переносятся тестируемые переменные: а9.1, а9.3, а9.5, а9.7
Путем нажатия ОК получаем расчет:
Корреляции
а9.1.т. Насколько важно иметь достаточно времени для семьи и личной жизни? |
Корреляция Пирсона |
||||
Знч.(2-сторон) |
|||||
а9.3.т. Насколько важно не бояться потерять свою работу? |
Корреляция Пирсона |
||||
Знч.(2-сторон) |
|||||
а9.5.т. Насколько важно иметь такого начальника, который будет советоваться с Вами, принимая то или иное решение? |
Корреляция Пирсона |
||||
Знч.(2-сторон) |
|||||
а9.7.т. Насколько важно работать в слаженном коллективе, ощущать себя его частью? |
Корреляция Пирсона |
||||
Знч.(2-сторон) |
|||||
** Корреляция значима на уровне 0.01 (2-сторон.).
Таблица количественных значений построенной корреляционной матрицы
Частные корреляции:
Для начала построим парную корреляцию между указанными двумя переменными:
Корреляции |
|||
с8. Ощущают близость с теми, кто живет рядом с вами, соседями |
Корреляция Пирсона |
||
Знч.(2-сторон) |
|||
с12. Ощущают близость со своей семьей |
Корреляция Пирсона |
||
Знч.(2-сторон) |
|||
**. Корреляция значима на уровне 0.01 (2-сторон.). |
Затем используем процедуру построения частной корреляции: «Анализ», «Корреляции»,«Частные».
Предположим, что ценность «Важно самостоятельно определять и изменять порядок своей работы» во взаимосвязи с указанными переменными окажется тем решающим фактором, под влияние которого ранее выявленная связь исчезнет, либо окажется малозначимой.
Корреляции |
||||
Исключенные переменные |
с8. Ощущают близость с теми, кто живет рядом с вами, соседями |
с12. Ощущают близость со своей семьей |
||
с16. Ощущают близость с людьми, котрые имеют тот же достаток, что и вы |
с8. Ощущают близость с теми, кто живет рядом с вами, соседями |
Корреляция |
||
Значимость (2-сторон.) |
||||
с12. Ощущают близость со своей семьей |
Корреляция |
|||
Значимость (2-сторон.) |
||||
Как видно из таблицы под влиянием контрольной переменной связь несколько снизилась: с 0, 120 до 0, 102. Однако, это незначительно снижение не позволяет утверждать, что ране выявленная связь является отражением ложной корреляции, т.к. она остается достаточно высокой и позволяет с нулевой погрешностью опровергать нулевую гипотезу.
Коэффициент корреляции
Наиболее точный способ определения тесноты и характера корреляционной связи - нахождение коэффициента корреляции. Коэффициент корреляции есть число определяемое по формуле:
где r ху - коэффициент корреляции;
x i -значения первого признака;
у i -значения второго признака;
Средняя арифметическая значений первого признака
Средняя арифметическая значений второго признака
Для пользования формулой (32) построим таблицу, которая обеспечит необходимую последовательность в подготовке чисел для нахождения числителя и знаменателя коэффициента корреляции.
Как видно из формулы (32), последовательность действий такая: находим средние арифметические обоих признаков х и у, находим разность между значениями признака и его средней (х і - ) и у і - ), затем находим их произведение (х і - ) (у і - ) – суммa пocлeдних дает числитель коэффициента корреляции. Для нахождения его знаменателя следует разности (x i - )и (у і - ) возвести в квадрат, найти их суммы и извлечь корень квадратный из их произведения.
Так для примера 31 нахождение коэффициента корреляции в соответствии с формулой (32) можно представить следующим образом (табл. 50).
Полученное число коэффициента корреляции дает возможность установить наличие, тесноту и характер связи.
1. Если коэффициент корреляции равен нулю, связь между признаками отсутствует.
2. Если коэффициент корреляции равен единице, связь между признаками столь велика, что превращается в функциональную.
3. Абсолютная величина коэффициента корреляции не выходит за пределы интервала от нуля до единицы:
Это дает возможность ориентироваться на тесноту связи: чем величина коэффициента ближе к нулю, тем связь слабее, а чем ближе к единице, тем связь теснее.
4. Знак коэффициента корреляции «плюс» означает прямую корреляцию, знак «минус»-обратную.
Таблица50
х і | у і | (х і - ) | (у і - ) | (х і - )(у і - ) | (х і - )2 | (у і - )2 |
14,00 | 12,10 | -1,70 | -2,30 | +3,91 | 2,89 | 5,29 |
14,20 | 13,80 | -1,50 | -0,60 | +0,90 | 2,25 | 0,36 |
14,90 | 14,20 | -0,80 | -0,20 | +0,16 | 0,64 | 0,04 |
15,40 | 13,00 | -0,30 | -1,40 | +0,42 | 0,09 | 1,96 |
16,00 | 14,60 | +0,30 | +0,20 | +0,06 | 0,09 | 0,04 |
17,20 | 15,90 | +1,50 | +2,25 | 2,25 | ||
18,10 | 17,40 | +2,40 | +2,00 | +4,80 | 5,76 | 4,00 |
109,80 | 101,00 | 12,50 | 13,97 | 13,94 |
Таким образом, вычисленный в примере 31 коэффициент корреляции r xy = +0,9. позволяет сделать такие выводы: существует корреляционная связь между величиной мышечной силы правой и левой кистей у исследуемых школьников (коэффициент r xy =+0,9 отличен от нуля), связь очень тесная (коэффициент r xy =+0,9 близок к единице), корреляция прямая (коэффициент r xy = +0,9 положителен), т. е. с увеличением мышечной силы одной из кистей увеличивается сила другой кисти.
При вычислении коэффициента корреляции и пользовании его свойствами следует учесть, что выводы дают корректные результаты в том случае, когда признаки распределены нормально и когда рассматривается взаимосвязь между большим количеством значений обоих признаков.
В рассмотренном примере 31 анализированы только 7 значений обоих признаков, что, конечно, недостаточно для подобных исследований. Напоминаем здесь еще раз, что примеры, в данной книге вообще и в этой главе в частности, носят характер иллюстрации методов, а не подробного изложения каких-либо научных экспериментов. Вследствие этого рассмотрено небольшое число значений признаков, измерения округлены - все это делается для того, чтобы громоздкими вычислениями не затемнять идею метода.
Особое внимание следует обратить на существо рассматриваемой взаимосвязи. Коэффициент корреляции не может привести к верным результатам исследования, если анализ взаимосвязи между признаками проводится формально. Возвратимся еще раз к примеру 31. Оба рассмотренных признака представляли собой значения мышечной силы правой и левой кистей. Представим себе, что под признаком x i в примере 31 (14,0; 14,2; 14,9... ...18,1) мы понимает длину случайно пойманных рыб в сантиметрах, а под признаком у і (12,1; 13,8; 14,2... ...17,4) -вес приборов в лаборатории в килограммах. Формально воспользовавшись аппаратом вычислений для нахождения коэффициента корреляции и получив в этом случае также r xy =+0>9, мы должны были заключить, что между длиной рыб и весом приборов существует тесная связь прямого характера. Бессмысленность такого вывода очевидна.
Чтобы избежать формального подхода к пользованию коэффициентом корреляции, следует любым другим методом - математическим, логическим, экспериментальным, теоретическим - выявить возможность существования корреляционной связи между признаками, то есть обнаружить органическое единство признаков. Только после этого можно приступать к пользованию корреляционным анализом и устанавливать величину и характер взаимосвязи.
В математической статистике существует еще понятие множественной корреляции - взаимосвязи между тремя и более признаками. В этих случаях пользуются коэффициентом множественной корреляции, состоящим из парных коэффициентов корреляции, описанных выше.
Например, коэффициент корреляции трех признаков-х і , у і , z і - есть:
где R xyz -коэффициент множественной корреляции, выражающий, как признак х i зависит от признаков у і и z i ;
r xy -коэффициент корреляции между признаками x i и y i ;
r xz -коэффициент корреляции между признаками Xi и Zi;
r yz - коэффициент корреляции между признаками y i , z i
Корреляционный анализ это:
Корреляционный анализКорреля́ция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.
Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин). Отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция - корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.
Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса - со сдвигом по времени.
Метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными, называется корреляционным анализом .
Коэффициент корреляции
Коэффицие́нт корреля́ции или парный коэффицие́нт корреля́ции в теории вероятностей и статистике - это показатель характера изменения двух случайных величин. Коэффициент корреляции обозначается латинской буквой R и может принимать значения между -1 и +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи (при коэффициенте корреляции равном единице говорят о функциональной связи), а если ближе к 0, то слабой.
Коэффициент корреляции Пирсона
Для метрических величин применяется коэффициент корреляции Пирсона, точная формула которого была введена Фрэнсисом Гальтоном:
Пусть X ,Y - две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:
,где cov обозначает ковариацию, а D - дисперсию, или, что то же самое,
,где символ обозначает математическое ожидание.
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).
Коэффициент корреляции Кенделла
Используется для измерения взаимной неупорядоченности.
Коэффициент корреляции Спирмена
Свойства коэффициента корреляции
- Неравенство Коши - Буняковского:
Корреляционный анализ
Корреляционный анализ - метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции ) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.
Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют . В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная , если одна переменная растёт, а вторая уменьшается, корреляция отрицательная .
Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = s i n (x ) и B = c o s (x ), то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону s i n 2(x ) + c o s 2(x ) = 1.
Ограничения корреляционного анализа
Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).
- Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
- Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных . Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
- Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.
Область применения
Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Ложная корреляция
Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.
В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.
См. также
- Автокорреляционная функция
- Взаимнокорреляционная функция
- Ковариация
- Коэффициент детерминации
- Регрессионный анализ
Wikimedia Foundation. 2010.
Коэффициент корреляции - это степень связи между двумя переменными. Его расчет дает представление о том, есть ли зависимость между двумя массивами данных. В отличие от регрессии, корреляция не позволяет предсказывать значения величин. Однако расчет коэффициента является важным этапом предварительного статистического анализа. Например, мы установили, что коэффициент корреляции между уровнем прямых иностранных инвестиций и темпом роста ВВП является высоким. Это дает нам представление о том, что для обеспечения благосостояния нужно создать благоприятный климат именно для зарубежных предпринимателей. Не такой уж и очевидный вывод на первый взгляд!
Корреляция и причинность
Пожалуй, нет ни одной сферы статистики, которая бы так прочно вошла в нашу жизнь. Коэффициент корреляции используется во всех областях общественных знаний. Основная его опасность заключается в том, что зачастую его высокими значениями спекулируют для того, чтобы убедить людей и заставить их поверить в какие-то выводы. Однако на самом деле сильная корреляция отнюдь не свидетельствует о причинно-следственной зависимости между величинами.
Коэффициент корреляции: формула Пирсона и Спирмана
Существует несколько основных показателей, которые характеризуют связь между двумя переменными. Исторически первым является коэффициент линейной корреляции Пирсона. Его проходят еще в школе. Он был разработан К. Пирсоном и Дж. Юлом на основе работ Фр. Гальтона. Этот коэффициент позволяет увидеть взаимосвязь между рациональными числами, которые изменяются рационально. Он всегда больше -1 и меньше 1. Отрицательно число свидетельствует об обратно пропорциональной зависимости. Если коэффициент равен нулю, то связи между переменными нет. Равен положительному числу - имеет место прямо пропорциональная зависимость между исследуемыми величинами. Коэффициент ранговой корреляции Спирмана позволяет упростить расчеты за счет построения иерархии значений переменных.
Отношения между переменными
Корреляция помогает найти ответ на два вопроса. Во-первых, является ли связь между переменными положительной или отрицательной. Во-вторых, насколько сильна зависимость. Корреляционный анализ является мощным инструментом, с помощью которого можно получить эту важную информацию. Легко увидеть, что семейные доходы и расходы падают и растут пропорционально. Такая связь считается положительной. Напротив, при росте цены на товар, спрос на него падает. Такую связь называют отрицательной. Значения коэффициента корреляции находятся в пределах между -1 и 1. Нуль означает, что зависимости между исследуемыми величинами нет. Чем ближе полученный показатель к крайним значениям, тем сильнее связь (отрицательная или положительная). Об отсутствии зависимости свидетельствует коэффициент от -0,1 до 0,1. Нужно понимать, что такое значение свидетельствует только об отсутствии линейной связи.
Особенности применения
Использование обоих показателей сопряжено с определенными допущениями. Во-первых, наличие сильной связи, не обуславливает того факта, что одна величина определяет другую. Вполне может существовать третья величина, которая определяет каждую из них. Во-вторых, высокий коэффициент корреляции Пирсона не свидетельствует о причинно-следственной связи между исследуемыми переменными. В-третьих, он показывает исключительно линейную зависимость. Корреляция может использоваться для оценки значимых количественных данных (например, атмосферного давления, температуры воздуха), а не таких категорий, как пол или любимый цвет.
Множественный коэффициент корреляции
Пирсон и Спирман исследовали связь между двумя переменными. Но как действовать в том случае, если их три или даже больше. Здесь на помощь приходит множественный коэффициент корреляции. Например, на валовый национальный продукт влияют не только прямые иностранные инвестиции, но и монетарная и фискальная политика государства, а также уровень экспорта. Темп роста и объем ВВП - это результат взаимодействия целого ряда факторов. Однако нужно понимать, что модель множественной корреляции основывается на целом ряде упрощений и допущений. Во-первых, исключается мультиколлинеарность между величинами. Во-вторых, связь между зависимой и оказывающими на нее влияние переменными считается линейной.
Области использования корреляционно-регрессионного анализа
Данный метод нахождения взаимосвязи между величинами широко применяется в статистике. К нему чаще всего прибегают в трех основных случаях:
- Для тестирования причинно-следственных связей между значениями двух переменных. В результате исследователь надеется обнаружить линейную зависимость и вывести формулу, которая описывает эти отношения между величинами. Единицы их измерения могут быть различными.
- Для проверки наличия связи между величинами. В этом случае никто не определяет, какая переменная является зависимой. Может оказаться, что значение обеих величин обуславливает какой-то другой фактор.
- Для вывода уравнения. В этом случае можно просто подставить в него числа и узнать значения неизвестной переменной.
Человек в поисках причинно-следственной связи
Сознание устроено таким образом, что нам обязательно нужно объяснить события, которые происходят вокруг. Человек всегда ищет связь между картиной мира, в котором он живет, и получаемой информацией. Часто мозг создает порядок из хаоса. Он запросто может увидеть причинно-следственную связь там, где ее нет. Ученым приходится специально учиться преодолевать эту тенденцию. Способность оценивать связи между данными объективно необходима в академической карьере.
Предвзятость средств массовой информации
Рассмотрим, как наличие корреляционной связи может быть неправильно истолковано. Группу британских студентов, отличающихся плохим поведением, опросили относительно того, курят ли их родители. Потом тест опубликовали в газете. Результат показал сильную корреляцию между курением родителей и правонарушениями их детей. Профессор, который проводил это исследование, даже предложил поместить на пачки сигарет предупреждение об этом. Однако существует целый ряд проблем с таким выводом. Во-первых, корреляция не показывает, какая из величин является независимой. Поэтому вполне можно предположить, что пагубная привычка родителей вызвана непослушанием детей. Во-вторых, нельзя с уверенностью сказать, что обе проблемы не появились из-за какого-то третьего фактора. Например, низкого дохода семей. Следует отметить эмоциональный аспект первоначальных выводов профессора, который проводил исследование. Он был ярым противником курения. Поэтому нет ничего удивительного в том, что он интерпретировал результаты своего исследования именно так.
Выводы
Неправильное толкование корреляции как причинно-следственной связи между двумя переменными может стать причиной позорных ошибок в исследованиях. Проблема состоит в том, что оно лежит в самой основе человеческого сознания. Многие маркетинговые трюки построены именно на этой особенности. Понимание различия между причинно-следственной связью и корреляцией позволяет рационально анализировать информацию как в повседневной жизни, так и в профессиональной карьере.
» Статистика
Статистика и обработка данных в психологии
(продолжение)
Корреляционный анализ
При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.
Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.
До сих пор при анализе результатов нашего опыта по изучению действия марихуаны мы сознательно игнорировали такой показатель, как время реакции. Между тем было бы интересно проверить, существует ли связь между эффективностью реакций и их быстротой. Это позволило бы, например, утверждать, что чем человек медлительнее, тем точнее и эффективнее будут его действия и наоборот.
С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве-Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (r s), который применяется к порядковым данным, т.е. является непараметрическим. Однако разберемся сначала в том, что такое коэффициент корреляции.
Коэффициент корреляции
Коэффициент корреляции - это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:
В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю:
В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.
В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции. Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. n- 2). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными. Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных (h =n -2=6) при вычислении r (см. табл. 4 в Приложении) и 7 пар данных (h =n-2= 5) при вычислении r s (табл. 5 в Приложении).
Хотелось бы еще раз подчеркнуть, что сущность этих двух коэффициентов несколько различна. Отрицательный коэффициент r указывает на то, что эффективность чаще всего тем выше, чем время реакции меньше, тогда как при вычислении коэффициента r s требовалось проверить, всегда ли более быстрые испытуемые реагируют более точно, а более медленные - менее точно.
Коэффициент корреляции Браве-Пирсона (r) - этопараметрический показатель, для вычисления которого сравнивают средние и стандартные отклонения результатов двух измерений. При этом используют формулу (у разных авторов она может выглядеть по-разному)
где ΣXY -
сумма произведений
данных из каждой пары;
n-число пар;
X
- средняя для данных переменной X;
Y
-
средняя для данных
переменной Y
S x -
стандартное отклонение для
распределения х;
S y -
стандартное отклонение для распределения у
Коэффициент корреляции рангов Спирмена (r s ) - это непараметрический показатель, с помощью которого пытаются выявить связь между рангами соответственных величин в двух рядах измерений.
Этот коэффициент рассчитывать проще, однако результаты получаются менее точными, чем при использовании r. Это связано с тем, что при вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.
Дело в том, что при использовании коэффициента корреляции рангов Спирмена (r s) проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми (например, будут ли одинаково «ранжироваться» студенты при прохождении ими как психологии, так и математики, или даже при двух разных преподавателях психологии?). Если коэффициент близок к +1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к -1, можно говорить о полной обратной зависимости.
Коэффициент r s вычисляют по формуле
где d - разность между рангами сопряженных значений признаков (независимо от ее знака), а - число пар.
Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент r (в этих случаях бывает необходимо превратить количественные данные в порядковые).
Резюме
Итак, мы рассмотрели различные параметрические и непараметрические статистические методы, используемые в психологии. Наш обзор был весьма поверхностным, и главная задача его заключалась в том, чтобы читатель понял, что статистика не так страшна, как кажется, и требует в основном здравого смысла. Напоминаем, что данные «опыта», с которыми мы здесь имели дело, - вымышленные и не могут служить основанием для каких-либо выводов. Впрочем, подобный эксперимент стоило бы действительно провести. Поскольку для этого опыта была выбрана сугубо классическая методика, такой же статистический анализ можно было бы использовать во множестве различных экспериментов. В любом случае нам кажется, что мы наметили какие-то главные направления, которые могут оказаться полезны тем, кто не знает, с чего начать статистический анализ полученных результатов.
Литература
- Годфруа Ж. Что такое психология. - М., 1992.
- Chatillon G., 1977. Statistique en Sciences humaines, Trois-Rivieres, Ed. SMG.
- Gilbert N.. 1978. Statistiques, Montreal, Ed. HRW.
- Moroney M.J., 1970. Comprendre la statistique, Verviers, Gerard et Cie.
- Siegel S., 1956. Non-parametric Statistic, New York, MacGraw-Hill Book Co.
Приложение Таблицы
Примечания. 1) Для больших выборок или уровня значимости меньше 0,05 следует обратиться к таблицам в пособиях по статистике.
2) Таблицы значений других непараметрических критериев можно найти в специальных руководствах (см. библиографию).
Таблица 1. Значения критерия t Стьюдента | |
h | 0,05 |
1 | 6,31 |
2 | 2,92 |
3 | 2,35 |
4 | 2,13 |
5 | 2,02 |
6 | 1,94 |
7 | 1,90 |
8 | 1,86 |
9 | 1,83 |
10 | 1,81 |
11 | 1,80 |
12 | 1,78 |
13 | 1,77 |
14 | 1,76 |
15 | 1,75 |
16 | 1,75 |
17 | 1,74 |
18 | 1,73 |
19 | 1,73 |
20 | 1,73 |
21 | 1,72 |
22 | 1,72 |
23 | 1,71 |
24 | 1,71 |
25 | 1,71 |
26 | 1,71 |
27 | 1,70 |
28 | 1,70 |
29 | 1,70 |
30 | 1,70 |
40 | 1,68 |
¥ | 1,65 |
Таблица 2. Значения критерия χ 2 | |
h | 0,05 |
1 | 3,84 |
2 | 5,99 |
3 | 7,81 |
4 | 9,49 |
5 | 11,1 |
6 | 12,6 |
7 | 14,1 |
8 | 15,5 |
9 | 16,9 |
10 | 18,3 |
Таблица 3. Достоверные значения Z | |
р | Z |
0,05 | 1,64 |
0,01 | 2,33 |
Таблица 4. Достоверные (критические) значения r | ||
h =(N-2) | р= 0,05 (5%) | |
3 | 0,88 | |
4 | 0,81 | |
5 | 0,75 | |
6 | 0,71 | |
7 | 0,67 | |
8 | 0,63 | |
9 | 0,60 | |
10 | 0,58 | |
11 | 0.55 | |
12 | 0,53 | |
13 | 0,51 | |
14 | 0,50 | |
15 | 0,48 | |
16 | 0,47 | |
17 | 0,46 | |
18 | 0,44 | |
19 | 0,43 | |
20 | 0,42 |
Таблица 5. Достоверные (критические) значения r s | |
h =(N-2) | р = 0,05 |
2 | 1,000 |
3 | 0,900 |
4 | 0,829 |
5 | 0,714 |
6 | 0,643 |
7 | 0,600 |
8 | 0,564 |
10 | 0,506 |
12 | 0,456 |
14 | 0,425 |
16 | 0,399 |
18 | 0,377 |
20 | 0,359 |
22 | 0,343 |
24 | 0,329 |
26 | 0,317 |
28 | 0,306 |
Транскрипт
1 Иткина А.Я. Коэффициенты корреляции и специфика их применения Основное назначение корреляционного анализа выявление связи между двумя или более изучаемыми переменными. Чаще всего анализируется совместное согласованное изменение двух исследуемых показателей, являющихся случайными величинами. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой. По форме корреляционная связь может быть линейной или нелинейной. По направлению положительной или отрицательной. По силе тесной, слабой или отсутствовать. Корреляционный анализ возможен как на основе графического представления исходных данных, так и с помощью вычисления коэффициента корреляции и проверки его статистической значимости. Обычно одно исследование дополняет другое. В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r-пирсона, r-спирмена и τ-кендалла. В зависимости от решаемой задачи и от вида исходных данных стоит отдавать предпочтение одному из этих коэффициентов. Общим для них является то, что все упомянутые коэффициенты применяются для изучения взаимосвязи двух переменных, измеренных на одной и той же выборке. Они меняются в интервале от -1 до +1 и их знак показывает направление связи. Попробуем теперь разобраться в их различиях. Коэффициент корреляции Пирсона (Karl Pearson, английский математик, статистик, биолог и философ) применим, если обе переменные измерены в метрической (интервальной или абсолютной) шкале. Ограничением при использовании коэффициента корреляции Пирсона является отличие распределения хотя бы одной из переменных от нормального. Особенно сильно r- Пирсона реагирует на наличие выбросов. Для представленного на Рис. 1 облака точек r-пирсона равен,98, если учитывать только синие точки и,27, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Поскольку коэффициент r-пирсона есть мера 1
2 Коэффициенты корреляции и специфика их применения линейной связи, он неприменим для анализа нелинейных связей. Равенство r-пирсона означает, что линейная связь между переменными отсутствует r xy Рис. 1. Облако точек 1. Значение выборочного (x x)(y y) (x x) (y y) 2 2 r-пирсона может быть вычислено по формуле:. Равенство r-пирсона 1 говорит о функциональной линейной зависимости между изучаемыми переменными. Важным свойством r- Пирсона является нечувствительность к линейным преобразованиям переменных. значит Пусть kx b, тогда r y n n n n (kx b) kx b k x n b k x b, а n n n (kx b (k x b))(y y) (k(x x))(y y) (kx b (k x b)) (y y) (k (x x)) (y y) k (x x)(y y) k (x x)(y y) k r k (x x) (y y) k (x x) (y y) k положительном k коэффициенты корреляции совпадут, а при отрицательном ry xy, т.е. при r. xy Значимость r-пирсона, т.е. отличие его от, можно проверить с помощью статистики Стьюдента t r n r 2
3 Иткина А.Я. Гипотеза H:, rxy альтернативная H: 1 rxy. Соответственно, если t t n нулевая гипотеза отвергается в пользу альтернативной. Смысл (крит 2 ; 2) тестирования нулевой гипотезы, при условии репрезентативности имеющихся выборок, заключается в проверке предположения о случайности корреляционной связи между переменными, т.е. о независимости случайных величин (если связь линейна). Теория и практика Сложение 1 баррелей нефти и 1 км трубопроводов бессмысленно, но технически возможно (1+1=2). Вычисление коэффициента корреляции Пирсона для порядковых переменных, для переменных, имеющих произвольное распределение и даже для номинативных переменных технически возможно и даже имеет некоторый смысл. Итак, рассчитанный по формуле коэффициент корреляции является выборочной оценкой теоретической корреляции двух случайных величин r xy cov(xy ;) D(x) D(y). Для случайной величины, имеющей двумерное нормальное распределение, выборочный коэффициент корреляции при условии, что теоретический равен, имеет распределение Стьюдента с (n 2) степенями свободы. Именно на этом факте основана проверка гипотезы о равенстве коэффициента корреляции. Расчет коэффициента корреляции Пирсона в случаях нарушения условий его использования это попытка установить факт наличия или отсутствия связи между величинами. К сожалению в этих случаях распределение r-пирсона не известно. Поэтому выводы на основе такого анализа не надежны. Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной по какому-либо признаку совокупности имеющихся данных. Например для выборки 3, 9, 26, -4, 11, 5, ранжированной по возрастанию рангами будут числа от 1 до 7: 3, 5, 7, 1, 6, 2, 4. Трудности в назначении рангов возникают, если среди элементов выборки встречаются совпадающие. Набор одинаковых наблюдений называют связкой, а количество наблюдений в одной связке ее размером. Связанным или средним рангом называется число, равное среднему арифметическому тех рангов, которые были бы у 3
4 Коэффициенты корреляции и специфика их применения чисел в связке, если бы они различались. Например для выборки 6, 15, 12, 6, 1, 15, 9, 15 соответствующие ранги будут 1 1 2, 7, 5, 1 1 2, 4, 7, 3, 7. Коэффициент корреляции Спирмена (Charles Edward Spearman, английский психолог, статистик) применим, если обе переменные измерены в количественной (метрической или порядковой) шкале. Отсутствие ограничений на вид распределения исходных данных (переменных) вызвано тем, что это ранговый коэффициент корреляции. Спирмена n 6 (k t) 1 r 1 3 n n 2 Коэффициент корреляции Спирмена проигрывает r-пирсона только в меньшей чувствительности к связи в случаях несущественного отклонения распределения переменных от нормального. Идея r-спирмена в том, что обе переменные ранжируются (обозначим ранги k и t). И вычисляются разности между рангами для одного и того же наблюдения. Если для всех наблюдений разности близки к, значит рост одной переменной почти всегда сопровождается увеличением другой. По формуле видно, что в этом случае r-спирмена будет близок к 1. Для ручного подсчета удобна формула r-, которую можно использовать при отсутствии связанных рангов или небольшом (<1% наблюдений) их количестве. Ту же самую величину r-спирмена, более того без ограничения на связанные ранги, можно получить применив формулу r-пирсона к ранжированным переменным. Значимость коэффициента корреляции Спирмена проверяется по тем же формулам, что и значимость r-пирсона для n 3. Для выборок небольшого размера лучше пользоваться таблицами критических значений. Коэффициент корреляции Кендалла (Maurce George Kendall, английский статистик) применим, если обе переменные измерены в количественной 4
5 Иткина А.Я. (метрической или порядковой) шкале. Он также как и коэффициент корреляции Спирмена является ранговым. Основная идея, заложенная в τ-кендалла, заключается в изучении направления связи между переменными путем попарных сравнений между собой наблюдений. Ситуацию, при которой изменение Х для двух наблюдений сонаправлено с изменением Y для тех же наблюдений, назовем совпадением. А разнонаправленное изменение назовем инверсией. Например, если ранги по Х - 2, 1, 3, 4, а по Y - 3, 1, 2, 4, то изменение рангов при переходе от 1-го наблюдения ко второму сонаправлено (уменьшение), а при переходе от 1-го к третьему разнонаправлено (по Х рост, а по Y падение). Таких попарных сравнений нужно выполнить N(N 1), что весьма 2 трудоемко. Поэтому для ручного ета τ-кендалла принято упорядочивать наблюдения по одной из переменных, например по Х. τ-кендалла это разность относительных частот совпадений и инверсий для всех наблюдений: P Q, в преобразованном виде N(N 1) / 2 4Q 4P 1 1, N (N 1) N (N 1) где P число совпадений, Q число инверсий, P Q N (N 1) / 2. В Таблица 1 приведен пример подсчета числа совпадений и инверсий. Столбцы с 6 по 9 приведены для лучшего понимания того, что направление сортировки не влияет на величину τ- Кендалла. Сравниваем каждый ранг в столбце 3 со значениями, расположенными ниже его. Поскольку столбец 2 упорядочен по возрастанию, совпадениями будут все случаи, когда наблюдение с меньшим рангом выше по столбцу, чем наблюдение с большим рангом. При заполнении столбца 8 совпадением окажется значение ранга большее (столбец 7), чем у наблюдения ниже по столбцу. Например ранг 4 больше, чем 2, 3 и 1, т.е. всего 3 совпадения. 5
6 Коэффициенты корреляции и специфика их применения Таблица 1. Наблюдения Ранги Совпадения Инверсии Ранги Совпадения Инверсии Х Y P Q Х Y P Q (6 1) / 2 15 Σ = 11 Σ = 4 Σ = 11 Σ = 4 Это означает, что совпадения встречаются почти на 47 процентов чаще, чем инверсии. Другими словами вероятность совпадения, а инверсии Значимость коэффициент корреляции Кендалла проверяется по таблице стандартного нормального распределения, для чего рассчитывается статистика PQ 1 N (N 1) (2N 5) /18 и ее величина сравнивается с табличным значением. Либо находится величина вероятности, соответствующая, и она сравнивается с уровнем значимости. При этом надо помнить, что нулевой гипотезе об отсутствии корреляционной связи соответствует двусторонняя альтернатива о ее наличии. Для представленного выше примера (6 1) (2 6 5) / ,13, табл (,25) 1,96, т.е. на уровне значимости 3 17 /18 28,3 α=,5 не обнаружено корреляционной связи между переменными Х и Y. Или через вероятность p () 2, поскольку альтернатива двусторонняя).,129*2 =,258 >,5, получаем тот же вывод (умножаем на 6
7 Иткина А.Я. Основная идея ранговых коэффициентов корреляции заключается в том, что возможное количество перестановок n чисел-рангов равно n! и любая перестановка равновероятна. Поэтому вероятность случайного совпадения рангов у двух выборок ничтожно мала. При верности H распределение коэффициентов r-спирмена и τ- Кендалла симметрично и концентрируется около нуля. Для небольших выборок имеются таблицы критических значений статистик Спирмена и Кендалла, а при увеличении n их распределение приближается к стандартному нормальному. Если же H неверна, то последовательность рангов k каким-то образом "влияет" на последовательность t. Например, если ранги полностью совпадают, то это означает, что рост одной переменной однозначно связан с ростом другой переменной. Именно поэтому особенностью ранговых коэффициентов является выявление не только линейной связи между переменными, но и любого вида монотонной связи. Для представленного на Рис. 2 облака точек r-спирмена/τ-кендалла равны 1, если учитывать только синие точки и,75/,76, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Возвращаясь к Рис. 1, мы видим, что выброс привел к уменьшению r-пирсона на,98-,27=,71; r-спирмена на,99-,53=,46; τ-кендалла на,95-,64=,31. Т.е. плюсом ранговых коэффициентов корреляции является их меньшая чувствительность к выбросам, чем у r-пирсона Рис. 2. Облако точек 2. Поскольку коэффициенты r-спирмена и τ-кендалла показывают меру монотонной связи, они неприменимы для анализа связей, меняющих свое направление. Равенство r-спирмена или τ-кендалла означает, что монотонная связь между переменными отсутствует. 7
8 Коэффициенты корреляции и специфика их применения Пример 1. Эксперты оценивали риски освоения площади N месторождения М. Риски упорядочены в порядке убывания (от 1 максимального до 8 минимального). Согласованы ли оценки экспертов? Риски Оценки эксперта 1 Оценки эксперта 2 P (совпадения) Таблица 2. Q (инверсии) Геологический Технологический Технический Кредитный Спекулятивный Политический 6 7 Падение спроса 7 7 Природный форс-мажор 8 7 Σ = 2 Σ = Расчет совпадений и инверсий приведен в Таблица 2, вычислим поправочные коэффициенты: K x 3 (31) 3 (31) 3 (3 1) N(N 1) 3; Ky 6; 28; Тогда коэффициент корреляции Кендалла Коэффициент корреляции Спирмена для экспертных оценок равен,923, τ- Кендалла,853. Несмотря на отсутствие инверсий, коэффициенты корреляции меньше 1, поскольку наличие связок уменьшает изменчивость данных и соответственно возможности оценки корреляционной связи. Выше был приведен ет для проверки значимости τ-кендалла, однако статистика только асимптотически имеет нормальное распределение (n 3), а для маленькой выборки (n = 8) корректнее пользоваться таблицей критических точек. H: корреляционная связь отсутствует. При альтернативе: корреляция положительна, критические значения r-спирмена,643; τ-кендалла,571. Т.е. на уровне 5% оба коэффициента положительные. При альтернативе: корреляция 8
9 Иткина А.Я. ненулевая, критические значения r-спирмена,738; τ-кендалла,643. Т.е. на уровне 5% оба коэффициента ненулевые. Проверка гипотез о различии корреляций 1 Рассмотрим два примера, в которых будет проверена гипотеза H о равенстве коэффициентов корреляции в генеральных совокупностях. Пример 2. Изучался вопрос о влиянии антикоррозийного покрытия S на частоту аварий на трубопроводах. В течение полугода на 5 линейных участках трубопровода без покрытия и на 36 участках с покрытием фиксировалось количество аварий и толщина стенки трубы в месте аварии. Корреляция Пирсона для первой выборки составила r1,59, для второй r2,42. Можно ли предположить, что связь между толщиной стенки и количеством аварий исчезает при использовании антикоррозийного покрытия? В данном примере два анализируемых коэффициента корреляции рассчитаны по независимым выборкам. Процедура проверки H для независимых выборок состоит из следующих шагов. 1. Z-преобразование Фишера исходных коэффициентов корреляции (функция ФИШЕР() в Excel): и r ln 2 1 r, для заданных в примере коэффициентов 1 1,59 1 ln,68 2 1,59 1 1,42 ln,42 2. Расчет статистики критерия по формуле:,68, N 3 N ,1. 3. Сравнение с крит. По таблице стандартных нормальных вероятностей находим крит 1,96 для уровня значимости 5% и получаем крит. 1 Методы и идеи этой части заимствованы из учебного пособия: Наследов А.Д. Математические методы психологического исследования. СПб.: Речь, 212. С
10 Коэффициенты корреляции и специфика их применения 4. Вывод: коэффициенты корреляции статистически не отличимы, а следовательно антикоррозийное покрытие не повлияло на связь аварий с толщиной стенки трубы. Пример 3. В Германии изучалась связь между количеством солнечных часов в неделю (x), выработкой электричества с фотоэлементов (y), а также выработкой электричества с ветрогенераторных установок (). Исследование проводилось в светлое время суток. Важно было понять часто ли совпадает увеличение и падение электрогенерации из нескольких ВИЭ, а также изучить степень предсказуемости ветрогенерации, поскольку метеостанции лучше предсказывают солнечные дни, нежели силу ветра. Была собрана информация за 39 недель и вычислены коэффициенты парной корреляции r,71; r,4; r,29. xy x y Процедура проверки гипотезы о совпадении корреляционной связи между зависимыми выборками, какими в данном случае являются количество солнечных часов и электрогенерация из двух разных источников в эти же часы состоит из ета Z-критерия и вывода на основе сравнения с крит. Использование алгоритма тестирования таких гипотез для независимых выборок может привести к ошибкам за счет меньшей мощности такой проверки. Формула для (r r) N xy x (1 rxy) (1 rx) 2 ry (2 ry rxy rx)(1 rxy rx ry). Для имеющихся данных получилось равным 2,13, что больше, чем 1,96. Соответственно мы делаем вывод о том, что на уровне значимости 5% крит гипотезу следует отвергнуть. При этом, если выбрать уровень значимости равный 1%, основания для отвержения гипотезы отсутствовали бы. вывода К сожалению в случае, когда исходные данные не позволяют сделать уверенного оказывается неустойчивым к небольшому изменению исходных данных. При проверке отказалось, что увеличение уменьшению r x всего на четыре сотые приводит к до 1,9. Т.е. только при заметном отклонении от крит можно сделать уверенный вывод о совпадении/несовпадении коэффициентов корреляции в генеральной совокупности данных. 1
11 Иткина А.Я. Частный коэффициент корреляций Поскольку коэффициент корреляции отражает лишь математически наличие/отсутствие связи между переменными, возникает вопрос об истинной и ложной корреляции. Т.е. действительно ли связь между переменными носит осмысленный характер или она вызвана лишь влиянием выбросов или третьей переменной. В первом случае ошибочных выводов по коэффициенту корреляции можно избежать, рассмотрев облако точек для переменных. Второй случай более сложный, поскольку требует догадаться, что могло вызвать ложную корреляцию. Чтобы проиллюстрировать данную проблему рассмотрим данные по связи энергопотребления на душу населения, квт*час на чел./год (х) в нескольких странах с размером территории этих стран, кв. км (у). По выборке из 44 стран был рассчитан коэффициент корреляции Пирсона, который оказался равен,79. На Рис. 3 видно, что облако распадается на отдельные части, что вызывает сомнения в правильности применения коэффициента корреляции. Внимательно изучив список стран, вошедших в выборку, было сделано предположение о необходимости разделить их по ВВП на душу населения, $ США () Рис. 3. Облако точек: по оси х площадь стран; по у энергопотребление. Частный коэффициент корреляции показывает, какова была бы связь между двумя переменными, при условии, что влияние другой (других) переменных исключается. Частные коэффициенты могут быть разных порядков. Порядок коэффициента определяется числом факторов, влияние которых исключается. Здесь мы 11
12 Коэффициенты корреляции и специфика их применения рассматриваем только частный коэффициент корреляции первого порядка. После введения дополнительной переменной получены rx,93 и ry,76. r xy/ rxy rx ry,79,93,76, (1 rx)(1 ry) (1,93)(1,76) Проверим статистическую значимость частного коэффициента корреляции. Число степеней свободы уменьшилось до n 3. t rxy / n3,39. 1r 1, xy/ Поскольку t t (,25;41) 2,2 гипотезу об отсутствии корреляционной крит связи между электропотреблением и площадью территории страны на уровне значимости 5% необходимо отвергнуть. Однако эта связь не столь существенна, как казалось вначале. 12
13 Иткина А.Я. ПРИЛОЖЕНИЕ 1 Таблица критических значений рангового коэффициента корреляции Спирмена 2 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 2 С сайта Йоркского университета (Великобритания) 13
14 Коэффициенты корреляции и специфика их применения ПРИЛОЖЕНИЕ 2 Таблица критических значений рангового коэффициента корреляции Кендалла 3 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 3 С сайта Йоркского университета (Великобритания) 14
ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 2 1. Предположение, проверяемое при помощи научных методов а) научная гипотеза; б) статистическая гипотеза; в) гипотеза исследования; г) задача исследования. 2. Проверяемое
Куда мне отсюда идти? А куда ты хочешь попасть? А мне все равно, только бы попасть куда-нибудь. Тогда все равно куда идти. Куда-нибудь ты обязательно попадешь. Льюис Кэрролл Выбор статистического критерия
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Линейная корреляция Как показано выше, облако точек можно описать двумя линиями регрессии регрессией X на Y и Y на X. Чем меньше угол между этими прямыми, тем сильнее зависимость
3 Методы статистической обработки данных 3. Анализ таблиц сопряженности. Для исследования взаимосвязи пары качественных признаков между собой применяется анализ таблиц сопряженности. Таблица сопряженности
Лекция 0.3. Коэффициент корреляции В эконометрическом исследовании вопрос о наличии или отсутствии зависимости между анализируемыми переменными решается с помощью методов корреляционного анализа. Только
7. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Линейная регрессия Метод наименьших квадратов () Линейная корреляция () () 1 Практическое занятие 7 КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Для решения практических
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ
Эконометрическое моделирование Лабораторная работа Корреляционный анализ Оглавление Понятие корреляционного и регрессионного анализа... 3 Парный корреляционный анализ. Коэффициент корреляции... 4 Задание
Корреляция Материал из Википедии свободной энциклопедии Корреля ция статистическая взаимосвязь двух или нескольких случайных величин (либо величин которые можно с некоторой допустимой степенью точности
Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования «МАТИ» Российский государственный технологический университет им. К.Э. Циолковского
Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург,
Лекция Корреляционный анализ. Описательные статистики. Коэффициент корреляции определяется: xy Корреляционный анализ M mx Y m Коэффициент показывает меру линейной зависимости между x и y, где x и y среднеквадратичные
УДК...0 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИЗМЕРЕНИЙ РЕЖИМНЫХ ПАРАМЕТРОВ В ЗАДАЧЕ УПРАВЛЕНИЯ ЭЛЕКТРИЧЕСКОЙ СИСТЕМЫ Павлюков В.С., Павлюков С.В. Южно-Уральский государственный университет, г. Челябинск, Россия Основные
СТАТИСТИЧЕСКИЙ ВЫВОД 1. Введение в проблему статистического вывода 2. Статистические гипотезы 3. Статистический критерий 4. Статистическая значимость 5. Классификация статистических критериев 6. Содержательная
Методические указания Корреляция Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида М (Y/ x)=f(x). Регрессией X на Y
Лекция 6. Методы измерения тесноты парной корреляционной связи Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены признаки,
Лекция 7. Непараметрические критерии независимости. Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 1 / 31 Cодержание
Методические указания для выполнения лабораторной работы Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы. Методические указания Регрессией Y на X или условным математическим
Проверка статистических гипотез 1 Основные понятия. Нулевая гипотеза (H 0) утверждение о параметре генеральной совокупности (параметрах генеральных совокупностей) или распределении, которое необходимо
Лекция 8. Непараметрические критерии однородности и независимости Буре В.М., Грауэр Л.В. ШАД Санкт-Петербург, 2013 Буре В.М., Грауэр Л.В. (ШАД) Непараметрические критерии... Санкт-Петербург, 2013 1 / 39
7 Корреляционный и регрессионный анализ. Корреляционный анализ статистических данных.. Регрессионный анализ статистических данных. Статистические связи между переменными можно изучать методами дисперсионного,
Лекция 7 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ЦЕЛЬ ЛЕКЦИИ: определить понятие статистических гипотез и правила их проверки; провести проверку гипотез о равенстве средних значений и дисперсий нормально распределенной
Поволжский государственный технологический университет Кафедра РТиМБС Методические указания к выполнению лабораторной работы 4 по дисциплине «Автоматизация обработки экспериментальных данных» Анализ сходства
МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ЗЕМЛЕУСТРОЙСТВЕ Карпиченко Александр Александрович доцент кафедры почвоведения и земельных информационных систем Литература elib.bsu.by Математические методы в землеустройстве [Электронный
11 Тесты по математической статистике Тест 1 P 1 Для любого x имеет место соотношение F x правую часть Заполните Дана выборка (3,1,3,1,4, 5) Составьте вариационный ряд 3 Что оценивают x и выборочная
Лекция 7 ЭКОНОМЕТРИКА 7 Анализ качества эмпирического уравнения множественной линейной регрессии Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа Построенное
МИНОБРНАУКИ РОССИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)
Проверка статистической гипотезы о математическом ожидании нормального распределения при известной дисперсии. Пусть имеется нормально распределенная случайная величина N, определенная на множестве объектов
3.4. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ВЫБОРОЧНЫХ ЗНАЧЕНИЙ ПРОГНОЗНЫХ МОДЕЛЕЙ До сих пор мы рассматривали способы построения прогнозных моделей стационарных процессов, не учитывая одной весьма важной особенности.
Теория вероятностей и медицинская статистика АНАЛИЗ ЗАВИСИМОСТЕЙ Лекция 7 Кафедра медицинской информатики РУДН Содержание лекции 1. Шкалы измерений 2. Обзор статистических методов анализа 3. Корреляционный
Иткина А.Я. Эконометрика на практике Введение. Исследование в любой области знания предполагает получение результатов обычно в виде чисел. Однако просто собрать данные недостаточно. Даже объективно и корректно
Лекция 10. Методы измерения тесноты парной корреляционной связи. Часть 1 Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены
Содержание задачи: Исследовать влияние денежных доходов населения на оборот розничной торговли - Денежные доходы населения (в среднем на душу населения в месяц), руб. y - Оборот розничной торговли, млрд.
Лекция 5 ЭКОНОМЕТРИКА 5 Проверка качества уравнения регрессии Предпосылки метода наименьших квадратов Рассмотрим модель парной линейной регрессии X 5 Пусть на основе выборки из n наблюдений оценивается
МВДубатовская Теория вероятностей и математическая статистика Лекция 4 Регрессионный анализ Функциональная статистическая и корреляционная зависимости Во многих прикладных (в том числе экономических) задачах
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ПСИХОЛОГИИ И СОЦИАЛЬНОЙ РАБОТЫ Факультет прикладной психологии Очно-заочная форма обучения САМОСТОЯТЕЛЬНАЯ РАБОТА По дисциплине: «МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»
Медицинская статистика Специальность «Лечебное дело» Проверка статистических гипотез Критерии согласия Определение статистической гипотезы Статистическая гипотеза - предположение о виде распределения или
Проверка статистических гипотез 1. Статистические гипотезы; 2. Критерии проверки гипотез; 3. Проверка параметрических гипотез; 4. Критерий Пирсона Завершить показ Статистические гипотезы. Статистические
Информационные технологии в физической культуре и спорте Процессы преобразования информации связаны с информационными технологиями. Технология в переводе с греческого - искусство, умение, а это не что
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ СТРОИТЕЛЬНЫЙ
Домашнее задание. Обработка результатов наблюдений двухмерного случайного вектора.1. Содержание и порядок выполнения работы Дана парная выборка (x i ; y i) объема 50 из двумерного нормально распределенного
Тема 4. Анализ матрицы корреляции и его место в регрессионном анализе 4.1. Коэффициент корреляции Коэффициент парной корреляции (Пирсона) показывает меру линейной связи между переменными он принимает значения
Корреляционный и регрессионный анализ. План. 1. Понятие корреляции. Функциональная и корреляционная зависимость. Графики рассеяния. 2. Коэффициент корреляции и его свойства. Коэффициент детерминации. 3.
65 4 ДИСПЕРСИОННЫЙ АНАЛИЗ Дисперсионный анализ разработан для сельскохозяйственных и биологических исследований Р.А. Фишером на основе открытого им закона распределения отношения средних квадратов (дисперсий)
Лукьянова Е.А. Медицинская статистика Специальность «Лечебное дело» 3 Проверка статистических гипотез Критерии согласия Критерий Стьюдента для связанных выборок Критерий Стьюдента для несвязанных выборок
ИЗУЧЕНИЕ СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ РАДИОАКТИВНОГО РАСПАДА Лабораторная работа 8 Цель работы: 1. Подтверждение случайного, статистического характера процессов радиоактивного распада ядер.. Ознакомление
55 3 РЕГРЕССИОННЫЙ АНАЛИЗ 3 Постановка задачи регрессионного анализа Экономические показатели функционирования предприятия (отрасли хозяйства) как правило представляются таблицами статистических данных:
РЕГРЕССИОННЫЙ АНАЛИЗ Пусть у нас есть серии значений двух параметров. Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами.
МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Серьезной проблемой при построении моделей множественной регрессии на основе метода наименьших квадратов (МНК) является мультиколлинеарность Мультиколлинеарность
Федеральное агентство воздушного транспорта Федеральное государственное образовательное учреждение высшего профессионального образования МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ГРАЖДАНСКОЙ АВИАЦИИ
Задача.Имеются следующие данные: Вариант 8 Номер семьи 3 4 5 6 7 8 9 0 Число совместно проживающих членов семьи, 3 3 4 4 4 5 6 7 7 чел. Годовое потребление электроэнергии, тыс. кв.- час 5 8 0 4 6 9 3 8.
Практическая работа Обработка и анализ результатов коллективных решений Цель работы определить коллективную оценку объектов (факторов и пр с точки зрения их воздействия на некоторую цель или показатель
Квантили Выборочная квантиль x p порядка p (0 < p < 1) определяется как элемент вариационного ряда выборки x (1), x () с номером [p]+1, где [a] целая часть числа а В статистической практике используется
ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 1 1. Множество объектов, в отношении которого формулируется исследовательская гипотеза а) случайная выборка; б) генеральная совокупность; в) зависимая выборка; г) независимая
3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 3 Основные понятия статистической проверки гипотезы Статистическая проверка гипотез тесно связана с теорией оценивания параметров распределений В экономике, технике, естествознании,
Лекция 11. Методы измерения тесноты парной корреляционной связи. Часть Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРОМЫШЛЕННЫХ
КУРСОВАЯ РАБОТА
Тема: Корреляционный анализ
Введение
1. Корреляционный анализ
1.1 Понятие корреляционной связи
1.2 Общая классификация корреляционных связей
1.3 Корреляционные поля и цель их построения
1.4 Этапы корреляционного анализа
1.5 Коэффициенты корреляции
1.6 Нормированный коэффициент корреляции Браве-Пирсона
1.7 Коэффициент ранговой корреляции Спирмена
1.8 Основные свойства коэффициентов корреляции
1.9 Проверка значимости коэффициентов корреляции
1.10 Критические значения коэффициента парной корреляции
2. Планирование многофакторного эксперимента
2.1 Условие задачи
2.2 Определение центр плана (основной уровень) и уровня варьирования факторов
2.3 Построение матрицы планирования
2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях
2.5 Коэффициенты уравнения регрессии
2.6 Дисперсия воспроизводимости
2.7 Проверка значимости коэффициентов уравнения регрессии
2.8 Проверка адекватности уравнения регрессии
Заключение
Список литературы
ВВЕДЕНИЕ
Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.
Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.
В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.
Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.
Среди основных методов планирования, применяемых на разных этапах исследования, используют:
Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;
Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;
Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);
Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;
Планирование при изучении динамических процессов и т.д.
Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.
Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.
1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
1.1 Понятие корреляционной связи
Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?
Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.
Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.
Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.
Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.
Корреляционные связи различаютсяпо форме, направлению и степени (силе).
По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.
Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции
По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.
Рисунок 2 – Прямая корреляция
Рисунок 3 – Обратная корреляция
Рисунок 4 – Отсутствие корреляции
Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.
1.2 Общая классификация корреляционных связей
В зависимости от коэффициента корреляции различают следующие корреляционные связи:
Сильная, или тесная при коэффициенте корреляции r>0,70;
Средняя (при 0,50 Умеренная (при 0,30 Слабая (при 0,20 Очень слабая (при r<0,19). 1.3 Корреляционные поля и цель их построения
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д. Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.