Способи обчислення дисперсії

Автор: Robert Simon
Дата Створення: 21 Червень 2021
Дата Оновлення: 1 Липня 2024
Anonim
Элементы статистики. Дисперсия. Стандартное отклонение
Відеоролик: Элементы статистики. Дисперсия. Стандартное отклонение

Зміст

Дисперсія вимірює розпорошеність набору даних. Це дуже корисно для побудови статистичних моделей: низька дисперсія може свідчити про те, що ви описуєте випадкову помилку або шум замість основного зв'язку у даних. У цій статті wikiHow вчить вас, як розрахувати дисперсію.

Кроки

Метод 1 з 2: Обчисліть дисперсію вибірки

  1. Напишіть ваш зразок набору даних. У більшості випадків статистики мають інформацію лише на вибірці або підгрупі сукупності, яку вони вивчають. Наприклад, замість загального аналізу "вартості всіх автомобілів у Німеччині", статистик може знайти вартість випадкової вибірки у кілька тисяч автомобілів. Статистик може використати цей зразок, щоб отримати хорошу оцінку вартості автомобілів у Німеччині. Однак, швидше за все, він не буде точно відповідати фактичним цифрам.
    • Наприклад: Аналізуючи кількість кексів, що продаються на день у кафе, ви взяли випадкову шестиденну пробу і отримали такі результати: 38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9. Це вибірка, а не сукупність, оскільки у вас немає даних за кожен день, коли магазин працює.
    • Якщо кожен Точки даних у шаблоні, будь ласка, перейдіть до методу нижче.

  2. Запишіть зразок дисперсійної формули. Дисперсія набору даних вказує на ступінь розсіювання точок даних. Чим ближче дисперсія до нуля, тим ближче групуються точки даних. При роботі з вибірками наборів даних використовуйте наступну формулу для обчислення дисперсії:
    • = /(n - 1)
    • - дисперсія. Дисперсія завжди обчислюється в одиницях квадрата.
    • представляє значення у вашому наборі даних.
    • ∑, що означає "сума", говорить вам розрахувати наступні параметри для кожного значення, а потім скласти їх разом.
    • x̅ - середнє значення вибірки.
    • n - кількість точок даних.

  3. Обчисліть середнє значення вибірки. Символ x̅ або "x-горизонталь" використовується для позначення середнього значення вибірки. Обчисліть, як і будь-яке середнє: складіть усі точки даних і розділіть їх на кількість балів.
    • Наприклад: Спочатку складіть свої дані: 17 + 15 + 23 + 7 + 9 + 13 = 84
      Далі поділіть результат на кількість точок даних, в даному випадку шість: 84 ÷ 6 = 14.
      Середнє значення вибірки = x̅ = 14.
    • Ви можете думати про середнє значення як про "центральну точку" даних. Якщо дані зосереджені навколо середнього значення, дисперсія низька. Якщо вони розподілені далеко від середнього, дисперсія велика.

  4. Відніміть середнє значення з кожної точки даних. Зараз саме час підрахувати - x̅, де знаходиться кожна точка у вашому наборі даних. Кожен результат буде вказувати на відхилення від середнього значення кожної відповідної точки або, простіше кажучи, на відстань від нього до середнього.
    • Наприклад:
      - x̅ = 17 - 14 = 3
      - x̅ = 15-14 = 1
      - x̅ = 23 - 14 = 9
      - x̅ = 7 - 14 = -7
      - x̅ = 9 - 14 = -5
      - x̅ = 13-14 = -1
    • Перевірити свої обчислення дуже легко, оскільки результати повинні складатись до нуля. Це пояснюється тим, що середні середні значення - негативні результати (відстань від середнього до малих чисел). позитивні результати (відстань від середнього до більших чисел) повністю усуваються.
  5. Зробіть усі результати результатами. Як зазначалося вище, поточний список відхилень (- x̅) має нульову суму. Це означає, що "середнє відхилення" також завжди буде дорівнювати нулю, і нічого не можна сказати про розподіл даних. Щоб вирішити цю проблему, ми знаходимо квадрат кожного відхилення. Завдяки цьому всі позитивні числа, від’ємні значення і додатні значення більше не скасовують одне одного і не дають сумі нуль.
    • Наприклад:
      (- x̅)
      - x̅)
      9 = 81
      (-7) = 49
      (-5) = 25
      (-1) = 1
    • Тепер у вас є (- x̅) для кожної точки даних у вибірці.
  6. Знайдіть суму квадратних значень. Зараз настав час обчислити весь чисельник формули: ∑. Великий цикло, ∑, вимагає додати наступне значення елемента для кожного значення. Ви розрахували (- x̅) для кожного значення у вибірці, тож усе, що вам потрібно зробити, це просто скласти результати разом.
    • Наприклад: 9 + 1 + 81 + 49 + 25 + 1 = 166.
  7. Ділимо на n - 1, де n - кількість точок даних. Давно, коли обчислювали дисперсію вибірки, статистики ділили лише на n. Цей поділ дасть вам середнє значення квадратичного відхилення, яке точно відповідає дисперсії цієї вибірки. Однак майте на увазі, що вибірка - це лише оцінка більшої сукупності. Якщо взяти іншу випадкову вибірку і зробити той самий розрахунок, ви отримаєте інший результат. Як виявляється, ділення на n -1 замість n дає вам кращу оцінку дисперсії більшої сукупності - про що ви насправді піклуєтесь. Ця корекція настільки поширена, що зараз прийняте визначення дисперсії вибірки.
    • Наприклад: У вибірці є шість точок даних, отже n = 6.
      Дисперсія вибірки = 33,2
  8. Зрозумійте дисперсію та стандартне відхилення. Зверніть увагу, що оскільки формула містить потужності, дисперсія вимірюється в квадраті одиниць вихідних даних. Це візуально бентежить. Натомість часто стандартне відхилення є досить корисним. Але немає сенсу витрачати зусилля, оскільки стандартне відхилення визначається квадратним коренем дисперсії. Ось чому дисперсія вибірки записується в термінах, а стандартне відхилення вибірки -.
    • Наприклад, середньоквадратичне відхилення згаданої вище вибірки = s = √33,2 = 5,76.
    реклама

Метод 2 з 2: Розрахувати дисперсію сукупності

  1. Починаючи з набору основних даних. Термін "популяція" використовується для позначення всіх відповідних спостережень. Наприклад, якщо ви досліджуєте вік мешканців Ханою, загальна чисельність населення включатиме вік усіх людей, які мешкають у Ханої. Зазвичай ви створюєте електронну таблицю для великого набору даних, як цей, але ось менший приклад набору даних:
    • Наприклад: У кімнаті акваріума є рівно шість акваріумів. Ці шість резервуарів містять наступну кількість риби:





  2. Запишіть формулу загальної дисперсії. Оскільки сукупність містить усі необхідні нам дані, ця формула дає нам точну дисперсію сукупності. Щоб відрізнити її від вибіркової дисперсії (яка є лише оцінкою), статистики використовують інші змінні:
    • σ = /n
    • σ = дисперсія вибірки. Це звичайна ковбаса в квадраті. Дисперсія вимірюється в одиницях квадрата.
    • представляє елемент у вашому наборі даних.
    • Елемент у ∑ обчислюється для кожного значення, а потім додається.
    • μ - загальне середнє значення.
    • n - кількість точок даних у сукупності.
  3. Знайдіть середнє значення сукупності. При аналізі сукупності символ μ ("mu") представляє середнє арифметичне. Щоб знайти середнє значення, складіть усі дані, а потім розділіть на кількість балів.
    • Ви можете думати про означає як про "середній", але будьте обережні, оскільки слово має багато математичних визначень.
    • Наприклад: середнє значення = μ = = 10,5
  4. Відніміть середнє значення з кожної точки даних. Точки даних ближче до середнього мають різницю ближчу до нуля. Повторіть проблему віднімання для всіх точок даних, і ви, ймовірно, почнете відчувати розпорошеність даних.
    • Наприклад:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. Квадрат кожен знак. На даний момент деякі результати, отримані на попередньому етапі, будуть негативними, а деякі - позитивними.Якщо візуалізувати дані на ізоморфній лінії, ці два елементи представляють цифри ліворуч та праворуч від середнього значення. Це не дало б користі для обчислення дисперсії, оскільки ці дві групи скасовували б одна одну. Натомість оберіть їх усі, щоб вони були позитивними.
    • Наприклад:
      (- μ) для кожного значення i працює від 1 до 6:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2,25
      (4,5) = 20,25
      (7,5) = 56,25
  6. Знайдіть середнє значення ваших результатів. Тепер у вас є значення для кожної точки даних, пов’язане (не безпосередньо) з віддаленістю цієї точки даних від середнього значення. Усередніть, додавши їх разом і розділивши на кількість значень, які у вас є.
    • Наприклад:
      Загальна дисперсія = 24,25
  7. Контактний рецепт. Якщо ви не впевнені, як це відповідає формулі, викладеній на початку методу, запишіть всю проблему від руки і не скорочуйте:
    • Після знаходження різниці від середнього та квадратури ви отримуєте (- μ), (- μ) і так далі до (- μ), де є остання точка даних. у наборі даних.
    • Щоб знайти середнє значення цих значень, складіть їх і поділіть на n: ((- μ) + (- μ) + ... + (- μ)) / n
    • Після переписування чисельника із сигмовидним позначенням ви отримуєте /n, дисперсія формули.
    реклама

Порада

  • Оскільки дисперсію важко інтерпретувати, це значення часто обчислюється як вихідна точка для знаходження стандартного відхилення.
  • Використання "n-1" замість "n" у знаменнику є методикою, яка називається корекцією Бесселя. Вибірка - це лише оцінка повної сукупності, а середнє значення вибірки має певне упередження, щоб відповідати цій оцінці. Ця корекція усуває вищезазначене упередження. Це стосується того факту, що коли було перераховано n - 1 точок даних, це останній пункт n була константою, оскільки для обчислення середнього значення вибірки (x̅) у формулі дисперсії використовувались лише певні значення.