Розрахуйте викиди

Автор: Charles Brown
Дата Створення: 8 Лютий 2021
Дата Оновлення: 1 Липня 2024
Anonim
ЗБЕРІГАННЯ ПАЛЬНОГО (Стрім) - Перевірки ДПС та ЕкоПодаток
Відеоролик: ЗБЕРІГАННЯ ПАЛЬНОГО (Стрім) - Перевірки ДПС та ЕкоПодаток

Зміст

A вибіжник або вибіжник у статистиці - це точка даних, яка суттєво відрізняється від інших точок даних у вибірці. Часто невідомі вказують статистикам на розбіжності або помилки у вимірах, після чого вони можуть вилучити відхилення від набору даних. Якщо вони насправді вирішать вилучити викиди із набору даних, це може спричинити суттєві зміни у висновках, зроблених в результаті дослідження. Ось чому важливо розрахувати та визначити відхилення, якщо ви хочете правильно інтерпретувати статистичні дані.

Крок

  1. Дізнайтеся, як виявити можливі викиди. Перш ніж ми можемо вирішити, чи видаляти аномальні значення з певного набору даних, ми, звичайно, спочатку повинні визначити можливі відхилення в наборі даних. Загалом, викиди - це точки даних, які суттєво відхиляються від тенденції, яка утворює інші значення в наборі - іншими словами, вони вистрілити інших значень. Зазвичай це легко розпізнати в таблицях і (особливо) на графіках. Якщо візуально відобразити набір даних, відхилення будуть «далеко» від інших значень. Наприклад, якщо більшість точок у наборі даних утворюють пряму лінію, викиди не будуть відповідати цій лінії.
    • Давайте подивимось на набір даних, що показує температуру 12 різних предметів у кімнаті. Якщо температура 11 предметів коливається на декілька градусів, щонайбільше, близько 21 ° C, тоді як один предмет, піч, має температуру 150 ° C, ви можете з першого погляду переконатися, що піч, ймовірно, є вибухом.
  2. Сортувати всі точки даних від найнижчого до найвищого. Першим кроком при розрахунку викидів є пошук медіанного значення (або середнього значення) набору даних. Це завдання стає набагато простішим, якщо значення в наборі розташовані в порядку від найнижчого до найвищого. Тому перед тим, як продовжити, сортуйте значення у наборі даних таким чином.
    • Продовжимо з прикладом вище. Ось наш набір даних, що показує температури в градусах Фаренгейта різних предметів у кімнаті: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Якщо ми відсортуємо значення в наборі від найнижчого до найвищого, це стане новим набором: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Обчисліть медіану набору даних. Медіаною набору даних є точка даних, де половина даних знаходиться над ним, а половина даних - нижче, - це, по суті, «центр» набору даних. Якщо набір даних містить непарну кількість балів, медіану знайти легко - медіаною є точка з такою кількістю точок зверху, як показано нижче. Якщо є парна кількість балів, оскільки немає одного центру, вам потрібно взяти середнє значення двох центральних точок, щоб знайти медіану. При обчисленні випадаючих значень медіану зазвичай називають змінною Q2 - оскільки вона лежить між Q1 і Q3, першим і третім квартилями. Ці змінні ми визначимо пізніше.
    • Нехай вас не плутають набори даних з парною кількістю точок - середнє значення двох середніх точок часто є числом, якого немає в самому наборі даних - це нормально. Однак, якщо дві середні точки однакові, середнім значенням, звичайно, також буде це число - також це Гаразд.
    • У нашому прикладі ми маємо 12 балів. Два середні члени - це пункти 6 та 7 - 70 та 71 відповідно. Отже, медіана нашого набору даних є середнім значенням цих двох точок: ((70 + 71) / 2) =70,5.
  4. Обчисліть перший квартиль. Ця точка, яку ми позначаємо змінною Q1, є точкою даних, нижче якої лежить 25 відсотків (або чверть) спостережень. Іншими словами, це центр усіх точок у вашому наборі даних нижче медіана. Якщо є парне число значень нижче медіани, ви повинні знову взяти середнє значення двох середніх значень, щоб знайти Q1, як ви могли б зробити, щоб самостійно визначити медіану.
    • У нашому прикладі шість балів вище медіани та шість балів нижче неї. Отже, щоб знайти перший квартиль, нам потрібно взяти середнє значення двох середніх балів у нижчих шести балах. Точки 3 і 4 нижньої шістки обидва є 70, тому їх середнє значення ((70 + 70) / 2) =70. Отже, наше значення для Q1 дорівнює 70.
  5. Обчисліть третій квартиль. Ця точка, яку ми позначаємо змінною Q3, є точкою даних, над якою лежить 25 відсотків даних. Знаходження Q3 практично те саме, що пошук Q1, за винятком того, що ми розглядаємо моменти в цьому випадку вище медіана.
    • Продовжуючи приклад вище, ми бачимо, що дві середні точки шести точок над медіаною дорівнюють 71 і 72. Середнє значення цих двох точок дорівнює ((71 + 72) / 2) =71,5. Отже, наше значення для Q3 становить 71,5.
  6. Знайдіть інтерквартильний діапазон. Тепер, коли ми визначили Q1 та Q3, ми повинні розрахувати відстань між цими двома змінними. Ви можете знайти відстань між Q1 і Q3, віднявши Q1 від Q3. Значення, яке ви отримуєте для інтерквартильного діапазону, є вирішальним для визначення меж невідхильних точок у вашому наборі даних.
    • У нашому прикладі значення для Q1 та Q3 становлять 70 та 71,5 відповідно. Щоб знайти інтерквартильний діапазон, ми обчислюємо Q3 - Q1: 71,5 - 70 =1,5.
    • Це працює, навіть якщо Q1, Q3 або обидва числа від’ємні. Наприклад, якби наше значення для Q1 було -70, міжквартильний діапазон був би 71,5 - (-70) = 141,5, що правильно.
  7. Знайдіть "Внутрішні межі" набору даних. Ви можете розпізнати відхилення, визначивши, чи не входять вони в ряд числових обмежень; так звані "внутрішні межі" та "зовнішні межі". Точка, яка виходить за межі внутрішніх меж набору даних, класифікується як одна помірний викид, а точка поза зовнішніми межами класифікується як одна крайній викид. Щоб знайти внутрішні межі набору даних, спочатку помножте інтерквартильний діапазон на 1,5. Додайте результат до Q3 і відніміть його від Q1. Два результати - це внутрішні межі вашого набору даних.
    • У нашому прикладі міжквартильний діапазон становить (71,5 - 70), або 1,5. Помножте це на 1,5, щоб отримати 2,25. Ми додаємо це число до Q3 і віднімаємо його від Q1, щоб знайти внутрішні межі наступним чином:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Тож внутрішні кордони є 67,75 та 73,75.
    • У нашому наборі даних лише температура печі - 300 градусів за Фаренгейтом - виходить за межі цього діапазону. Тож це може бути поміркованим відхиленням. Однак нам ще потрібно визначити, чи є ця температура надзвичайно чужою, тому давайте поки не будемо робити висновків.
  8. Знайдіть "зовнішні межі" набору даних. Ви робите це так само, як і з внутрішніми межами, з тією лише різницею, що помножуєте міжквартильну відстань на 3 замість 1,5. Потім ви додаєте результат до Q3 і віднімаєте від Q1, щоб знайти зовнішні граничні значення.
    • У нашому прикладі ми помножимо міжквартильну відстань на 3, щоб отримати (1,5 * 3) або 4,5. Тепер ми можемо знайти зовнішні межі так само, як внутрішні межі:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Тож зовнішні межі є 65,5 та 76.
    • Точки даних, які лежать поза зовнішніми межами, вважаються крайніми відхиленнями. У нашому прикладі температура печі, 300 градусів за Фаренгейтом, значно перевищує зовнішні межі. Отже, температура духовки така звичайно вкрай незвичний.
  9. Використовуйте якісну оцінку, щоб визначити, чи варто вам «викидати» викиди. За допомогою вищезазначеного методу ви можете визначити, чи є певні пункти незначними, крайніми або взагалі відсутніми. Але не помиліться - визнання точки як сторонніх робить її просто однією кандидат буде видалено з набору даних, а не негайно видалено точку повинен перетворитися. причина чому відмінник відрізняється від решти пунктів у наборі, вирішальне значення при визначенні того, чи слід видаляти випадок. Як правило, викиди, спричинені деякою помилкою - наприклад, помилкою у вимірах, записах або в експериментальній конструкції - видаляються. На відміну від них, зазвичай стають викиди, які не спричинені помилками і які розкривають нову, непередбачувану інформацію чи тенденції ні видалено.
    • Іншим критерієм, який слід врахувати, є те, чи впливають відхилення на середнє значення набору даних таким чином, що воно є перекошеним чи оманливим. Це особливо важливо, якщо ви плануєте робити висновки із середнього значення набору даних.
    • Давайте судити про наш приклад. Так як найвищий Навряд чи температура печі досягла 300 ° F через якусь непередбачену силу природи, у нашому прикладі ми можемо зробити висновок із майже 100% впевненістю, що піч була випадково включена, що спричинило аномально високі показники температури. Крім того, якщо ми не видалимо викид, середнє значення нашого набору даних виходить на (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, тоді як середнє без випадок виходить до (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Оскільки викид був спричинений людською помилкою, і оскільки неправильно стверджувати, що середня температура в приміщенні була близько 32 ° C, ми повинні вибрати, щоб використовувати наш викид. видалити.
  10. Зрозумійте важливість (іноді) збереження викидів. Хоча деякі викиди слід видалити з набору даних, оскільки вони є результатом помилок або тому, що вони спотворюють результати в оманливий спосіб, інші викиди слід зберігати. Наприклад, якщо вибірок був правильно отриманий (і, отже, не результат помилки), та / або якщо випадок пропонує нове уявлення про явище, що підлягає вимірюванню, його не слід негайно видаляти. Наукові експерименти є особливо чутливими ситуаціями, коли йдеться про боротьбу з випадаючими людьми - помилково видалення сторонніх місць може означати викидання важливої ​​інформації про нову тенденцію чи відкриття.
    • Наприклад, уявіть, що ми розробляємо новий препарат, щоб зробити рибу у рибному господарстві більшою. Давайте використаємо наш старий набір даних ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), з тією різницею, що кожна точка тепер представляє масу риби (у грамах ) після лікування іншим експериментальним препаратом від народження. Іншими словами, перший препарат давав одній рибі масу 71 грам, другий давав іншій рибі масу 70 грамів тощо. У цій ситуації 300 досі величезний викид, але ми не повинні видаляти його зараз. Тому що, якщо ми припустимо, що відхилення не є результатом помилки, це представляє великий успіх у нашому експерименті. Препарат, який дав 300-грамову рибу, працював краще, ніж будь-який інший препарат, отже, це все більшість важлива точка даних у нашому наборі, а не мінімум важливий пункт даних.

Поради

  • Якщо ви виявите викиди, спробуйте пояснити їх, перш ніж вилучати з набору даних; вони можуть вказувати на помилки вимірювання або відхилення у розподілі.

Потреби

  • Калькулятор