Визначте коефіцієнт кореляції

Автор: Morris Wright
Дата Створення: 28 Квітень 2021
Дата Оновлення: 19 Червень 2024
Anonim
Расчет коэффициента корреляции в Excel
Відеоролик: Расчет коэффициента корреляции в Excel

Зміст

Коефіцієнт кореляції, що позначається r або ρ, є мірою лінійної кореляції (співвідношення як за силою, так і за напрямком) між двома змінними. Він коливається в діапазоні від -1 до +1, використовуючи знаки плюс і мінус для представлення позитивної та негативної кореляції. Якщо коефіцієнт кореляції дорівнює рівно -1, то зв’язок між двома змінними абсолютно негативний; якщо коефіцієнт кореляції дорівнює рівно +1, то зв'язок повністю позитивний. Дві змінні можуть мати позитивну, негативну кореляцію або взагалі не мати кореляції. Ви можете обчислити кореляцію вручну, використовуючи деякі безкоштовні розрахунки кореляції, доступні в Інтернеті, або використовуючи статистичні функції хорошого графічного калькулятора.

Крок

Метод 1 з 4: Розрахуйте коефіцієнт кореляції вручну

  1. Спочатку зберіть свої дані. Щоб розпочати обчислення ефективної кореляції, спочатку вивчіть пари даних. Корисно складати їх у таблицю як вертикально, так і горизонтально. Позначте кожен рядок або стовпець x і y.
    • Наприклад, припустимо, у вас є чотири пари даних для X і р. Тоді таблиця може виглядати так:
      • х || р
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  2. Обчисліть середнє значення X. Для обчислення середнього значення вам потрібні всі значення X додати, а потім розділити на кількість значень.
    • Використовуючи приклад вище, зверніть увагу, що у вас є чотири значення для X. Щоб обчислити середнє, ви складаєте всі значення X і розділити його на 4. Розрахунок виглядає так:
    • μX=(1+2+4+5)/4{ displaystyle mu _ {x} = (1 + 2 + 4 + 5) / 4}Знайдіть середнє значення р. У середньому р Щоб знайти його, виконайте ті самі дії, додавши всі значення y разом, а потім розділивши на кількість значень.
      • У наведеному вище прикладі у вас також є чотири значення для р. Додайте всі ці значення разом, а потім розділіть їх на 4. Розрахунки будуть виглядати так:
      • μр=(1+3+5+7)/4{ displaystyle mu _ {y} = (1 + 3 + 5 + 7) / 4}Визначте середньоквадратичне відхилення X. Отримавши свої кошти, ви можете розрахувати стандартне відхилення. Для цього скористайтеся формулою:
        • σX=1n1Σ(XμX)2{ displaystyle sigma _ {x} = { sqrt {{ frac {1} {n-1}} Sigma (x- mu _ {x}) ^ {2}}}}Обчислити середнє квадратичне відхилення р. Використовуючи ті самі основні кроки, знайдіть стандартне відхилення р. Ви будете використовувати ту саму формулу, використовуючи точки даних для y.
          • Зі зразковими даними ваші розрахунки виглядатимуть так:
          • σр=141((14)2+(34)2+(54)2+(74)2){ displaystyle sigma _ {y} = { sqrt {{ frac {1} {4-1}} * ((1-4) ^ {2} + (3-4) ^ {2} + ( 5-4) ^ {2} + (7-4) ^ {2})}}}Перегляньте основну формулу для визначення коефіцієнта кореляції. Формула для розрахунку коефіцієнта кореляції використовує середні значення, стандартні відхилення та кількість пар у наборі даних (представлене n). Сам коефіцієнт кореляції представлений малою літерою r або грецькою буквою ρ (rho). У цій статті ми будемо використовувати формулу, відому як коефіцієнт кореляції Пірсона, як показано нижче:
            • ρ=(1n1)Σ(XμXσX)(рμрσр){ displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } праворуч ліворуч ({ frac {y- mu _ {y}} { sigma _ {y}}} праворуч)}Визначте коефіцієнт кореляції. Тепер у вас є середні значення та стандартні відхилення для ваших змінних, тому ви можете перейти до формули коефіцієнта кореляції. Пам'ятайте, що n представляє кількість значень, які ви маєте. Ви вже опрацювали іншу відповідну інформацію в кроках вище.
              • Використовуючи вибіркові дані, ви можете ввести дані у формулу коефіцієнта кореляції та обчислити їх наступним чином:
              • ρ=(1n1)Σ(XμXσX)(рμрσр){ displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } праворуч ліворуч ({ frac {y- mu _ {y}} { sigma _ {y}}} праворуч)}Інтерпретувати результат. Для цього набору даних коефіцієнт кореляції становить 0,988. Це число говорить про дві речі щодо даних. Подивіться на знак числа та розмір числа.
                • Оскільки коефіцієнт кореляції позитивний, можна сказати, що існує позитивна кореляція між даними х та даними у. Це означає, що якщо значення x збільшуються, ви очікуєте, що значення y також збільшаться.
                • Оскільки коефіцієнт кореляції дуже близький до +1, дані x та дані y дуже тісно пов'язані. Якби ви побудували ці точки на графіку, то побачили б, що вони є дуже хорошим наближенням до прямої.

Метод 2 з 4: Використання онлайн-калькуляторів кореляції

  1. Шукайте в Інтернеті калькулятори кореляції. Вимірювання кореляції є досить стандартним розрахунком для статистиків. Розрахунок може стати дуже нудним для великих наборів даних, якщо зробити це вручну. Тому багато джерел зробили загальні розрахунки кореляції доступними в Інтернеті. Скористайтеся будь-якою пошуковою системою та введіть пошуковий термін «кореляційний калькулятор».
  2. Введіть дані. Уважно прочитайте інструкції на веб-сайті, щоб ви могли правильно ввести дані. Важливо, щоб пари даних були в порядку, інакше ви отримаєте неправильний результат кореляції. Різні веб-сайти використовують різні формати для введення даних.
    • Наприклад, на веб-сайті http://ncalculators.com/statistics/correlation-coefficient-calculator.htm ви знайдете горизонтальну рамку для введення значень x та другу горизонтальну рамку для введення значень y. Ви вводите умови, розділяючи їх лише комами. Таким чином, набір даних x, розрахований раніше в цій статті, слід ввести як 1,2,4,5. Набір даних y введено як 1,3,5,7.
    • На іншому веб-сайті, http://www.alcula.com/calculators/statistics/correlation-coefficient/, ви можете вводити дані горизонтально або вертикально, якщо ви підтримуєте точки даних у порядку.
  3. Обчисліть результати. Ці сайти з розрахунками популярні, оскільки після введення даних вам, як правило, потрібно лише натиснути кнопку «Обчислити» - результат з’явиться автоматично.

Метод 3 з 4: Використання графічного калькулятора

  1. Введіть свої дані. На графічному калькуляторі увімкніть функцію статистики, а потім виберіть команду "Редагувати".
    • Кожен калькулятор має дещо різні команди клавіш. Ця стаття містить конкретні інструкції для Texas Instruments TI-86.
    • Щоб отримати доступ до функції Stat, натисніть [2nd] -Stat (над клавішею "+"), а потім натисніть F2-Edit.
  2. Видаліть усі старі збережені дані. Більшість калькуляторів зберігатимуть статистичні дані, доки вони не будуть очищені. Щоб переконатись, що ви не плутаєте старі дані з новими, спочатку слід стерти всю збережену раніше інформацію.
    • За допомогою клавіш зі стрілками пересувайте курсор, щоб виділити категорію "xStat". Потім натисніть «Очистити» та «Enter». Це повинно очистити всі значення у стовпці xStat.
    • За допомогою клавіш зі стрілками виділіть категорію "yStat". Натисніть "Очистити" та "Ввести", щоб також очистити дані для цього стовпця.
  3. Введіть значення даних. За допомогою клавіш зі стрілками перемістіть курсор у перший пробіл під заголовком xStat. Введіть перше значення даних, а потім натисніть клавішу Enter. Ви повинні побачити пробіл внизу екрана "xStat (1) = __", де ваше значення заповнює порожній простір. Після натискання клавіші Enter дані заповнюють таблицю, курсор переходить до наступного рядка, а рядок внизу екрана повинен читати "xStat (2) = __".
    • Продовжуйте вводити всі значення x.
    • Після введення значень x за допомогою клавіш зі стрілками перейдіть до стовпця yStat та введіть значення y.
    • Після введення всіх даних натисніть Exit, щоб очистити екран і вийти зі меню Stat.
  4. Обчисліть статистику лінійної регресії. Коефіцієнт кореляції - це показник того, наскільки точно дані наближаються до прямої лінії. Графічний калькулятор зі статистичними функціями може дуже швидко обчислити найкращу лінію підгонки та коефіцієнт кореляції.
    • Увійдіть у функцію Stat, а потім натисніть кнопку Calc. На TI-86 це [2] [Stat] [F1].
    • Виберіть Обчислення лінійної регресії. На TI-86 це [F3], позначений як "LinR". Потім графічний дисплей відображатиме рядок "LinR _" з миготливим курсором.
    • Тепер потрібно ввести імена двох змінних, які потрібно обчислити. Це xStat та yStat.
      • На TI-86 виберіть список імен ("Імена"), натиснувши [2nd] [List] [F3].
      • Нижній рядок екрана тепер повинен відображати доступні змінні. Виберіть [xStat] (це, мабуть, кнопка F1 або F2), потім введіть кому і потім [yStat].
      • Натисніть Enter, щоб обчислити дані
  5. Інтерпретувати результати. Коли ви натискаєте Enter, калькулятор негайно обчислює таку інформацію для введених вами даних:
    • р=a+bX{ displaystyle y = a + bx}Зрозуміти поняття кореляції. Кореляція відноситься до статистичної залежності між двома величинами. Коефіцієнт кореляції - це одне число, яке можна розрахувати для двох наборів точок даних. Цифра завжди становить щось від -1 до +1 і вказує на те, наскільки тісно розташовані два набори даних.
      • Наприклад, якщо ви вимірювали зріст та вік дітей приблизно до 12 років, ви могли б очікувати значної позитивної кореляції. У міру дорослішання діти стають вищими.
      • Прикладом негативної кореляції є порівняння часу, який хтось проводить, займаючись гольфом, з результатами гольфу цієї людини. У міру розвитку практики бали повинні падати.
      • Зрештою, ви очікували б незначної кореляції, позитивної чи негативної, між розміром взуття людини, наприклад, та її оцінками на іспитах.
    • Обчисліть середнє значення. Середнє арифметичне або "середнє" набору даних обчислюється додаванням усіх значень даних, а потім діленням на кількість значень у наборі. Щоб визначити коефіцієнт кореляції для ваших даних, вам потрібно обчислити середнє значення кожного набору даних.
      • Середнє значення змінної позначається змінною горизонтальною лінією над нею. Це часто називають "x-bar" або "y-bar" для наборів даних x і y. В іншому випадку середнє значення може позначатися малою грецькою буквою μ (mu). Наприклад, щоб вказати середнє значення точок даних x, ви можете використовувати μX або μ (x).
      • Наприклад, якщо у вас є набір x (1,2,5,6,9,10), середнє значення цих даних обчислюється наступним чином:
        • μX=(1+2+5+6+9+10)/6{ displaystyle mu _ {x} = (1 + 2 + 5 + 6 + 9 + 10) / 6}Знати важливість стандартного відхилення. У статистиці стандартне відхилення вимірює варіацію, показуючи дисперсію чисел від середнього. Група чисел з низьким стандартним відхиленням досить близька одна до одної. Група чисел з високим стандартним відхиленням є більш розсіяною.
          • Як символ стандартне відхилення виражається за допомогою малої букви s або грецької літери σ (сигма). Таким чином, стандартне відхилення даних x записується як sX або σX.
        • Розпізнайте підсумовування. Оператор підсумовування є одним з найпоширеніших операторів математики, і він вказує суму значень. Він представлений грецькою великою літерою, сигмою або ∑.
          • Наприклад, якщо у вас є колекція точок даних x (1,2,5,6,9,10), тоді ∑x означає:
            • 1+2+5+6+9+10 = 33

Поради

  • Коефіцієнт кореляції іноді називають "коефіцієнтом кореляції продукту-моменту Пірсона" на честь Карла Пірсона, його розробника.
  • Взагалі, коефіцієнт кореляції, що перевищує 0,8 (позитивний чи негативний), представляє сильну кореляцію; коефіцієнт кореляції нижче 0,5 (знову позитивний чи негативний) являє собою слабкий коефіцієнт кореляції.

Попередження

  • Кореляція показує, що два набори даних якимось чином пов’язані. Однак будьте обережні, щоб не інтерпретувати це як причинно-наслідковий зв’язок. Наприклад, якщо порівняти розміри взуття людей та їх висоту, ви, ймовірно, знайдете сильну позитивну кореляцію. Більші люди, як правило, мають більші ноги. Однак це не означає, що зростаючий зробить ваші ноги рости, або що великі ноги змусять вас рости високими. Вони просто трапляються разом.