Автор:
Charles Brown
Дата Створення:
8 Лютий 2021
Дата Оновлення:
1 Липня 2024
Зміст
A вибіжник або вибіжник у статистиці - це точка даних, яка суттєво відрізняється від інших точок даних у вибірці. Часто невідомі вказують статистикам на розбіжності або помилки у вимірах, після чого вони можуть вилучити відхилення від набору даних. Якщо вони насправді вирішать вилучити викиди із набору даних, це може спричинити суттєві зміни у висновках, зроблених в результаті дослідження. Ось чому важливо розрахувати та визначити відхилення, якщо ви хочете правильно інтерпретувати статистичні дані.
Крок
- Дізнайтеся, як виявити можливі викиди. Перш ніж ми можемо вирішити, чи видаляти аномальні значення з певного набору даних, ми, звичайно, спочатку повинні визначити можливі відхилення в наборі даних. Загалом, викиди - це точки даних, які суттєво відхиляються від тенденції, яка утворює інші значення в наборі - іншими словами, вони вистрілити інших значень. Зазвичай це легко розпізнати в таблицях і (особливо) на графіках. Якщо візуально відобразити набір даних, відхилення будуть «далеко» від інших значень. Наприклад, якщо більшість точок у наборі даних утворюють пряму лінію, викиди не будуть відповідати цій лінії.
- Давайте подивимось на набір даних, що показує температуру 12 різних предметів у кімнаті. Якщо температура 11 предметів коливається на декілька градусів, щонайбільше, близько 21 ° C, тоді як один предмет, піч, має температуру 150 ° C, ви можете з першого погляду переконатися, що піч, ймовірно, є вибухом.
- Сортувати всі точки даних від найнижчого до найвищого. Першим кроком при розрахунку викидів є пошук медіанного значення (або середнього значення) набору даних. Це завдання стає набагато простішим, якщо значення в наборі розташовані в порядку від найнижчого до найвищого. Тому перед тим, як продовжити, сортуйте значення у наборі даних таким чином.
- Продовжимо з прикладом вище. Ось наш набір даних, що показує температури в градусах Фаренгейта різних предметів у кімнаті: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Якщо ми відсортуємо значення в наборі від найнижчого до найвищого, це стане новим набором: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
- Обчисліть медіану набору даних. Медіаною набору даних є точка даних, де половина даних знаходиться над ним, а половина даних - нижче, - це, по суті, «центр» набору даних. Якщо набір даних містить непарну кількість балів, медіану знайти легко - медіаною є точка з такою кількістю точок зверху, як показано нижче. Якщо є парна кількість балів, оскільки немає одного центру, вам потрібно взяти середнє значення двох центральних точок, щоб знайти медіану. При обчисленні випадаючих значень медіану зазвичай називають змінною Q2 - оскільки вона лежить між Q1 і Q3, першим і третім квартилями. Ці змінні ми визначимо пізніше.
- Нехай вас не плутають набори даних з парною кількістю точок - середнє значення двох середніх точок часто є числом, якого немає в самому наборі даних - це нормально. Однак, якщо дві середні точки однакові, середнім значенням, звичайно, також буде це число - також це Гаразд.
- У нашому прикладі ми маємо 12 балів. Два середні члени - це пункти 6 та 7 - 70 та 71 відповідно. Отже, медіана нашого набору даних є середнім значенням цих двох точок: ((70 + 71) / 2) =70,5.
- Обчисліть перший квартиль. Ця точка, яку ми позначаємо змінною Q1, є точкою даних, нижче якої лежить 25 відсотків (або чверть) спостережень. Іншими словами, це центр усіх точок у вашому наборі даних нижче медіана. Якщо є парне число значень нижче медіани, ви повинні знову взяти середнє значення двох середніх значень, щоб знайти Q1, як ви могли б зробити, щоб самостійно визначити медіану.
- У нашому прикладі шість балів вище медіани та шість балів нижче неї. Отже, щоб знайти перший квартиль, нам потрібно взяти середнє значення двох середніх балів у нижчих шести балах. Точки 3 і 4 нижньої шістки обидва є 70, тому їх середнє значення ((70 + 70) / 2) =70. Отже, наше значення для Q1 дорівнює 70.
- Обчисліть третій квартиль. Ця точка, яку ми позначаємо змінною Q3, є точкою даних, над якою лежить 25 відсотків даних. Знаходження Q3 практично те саме, що пошук Q1, за винятком того, що ми розглядаємо моменти в цьому випадку вище медіана.
- Продовжуючи приклад вище, ми бачимо, що дві середні точки шести точок над медіаною дорівнюють 71 і 72. Середнє значення цих двох точок дорівнює ((71 + 72) / 2) =71,5. Отже, наше значення для Q3 становить 71,5.
- Знайдіть інтерквартильний діапазон. Тепер, коли ми визначили Q1 та Q3, ми повинні розрахувати відстань між цими двома змінними. Ви можете знайти відстань між Q1 і Q3, віднявши Q1 від Q3. Значення, яке ви отримуєте для інтерквартильного діапазону, є вирішальним для визначення меж невідхильних точок у вашому наборі даних.
- У нашому прикладі значення для Q1 та Q3 становлять 70 та 71,5 відповідно. Щоб знайти інтерквартильний діапазон, ми обчислюємо Q3 - Q1: 71,5 - 70 =1,5.
- Це працює, навіть якщо Q1, Q3 або обидва числа від’ємні. Наприклад, якби наше значення для Q1 було -70, міжквартильний діапазон був би 71,5 - (-70) = 141,5, що правильно.
- Знайдіть "Внутрішні межі" набору даних. Ви можете розпізнати відхилення, визначивши, чи не входять вони в ряд числових обмежень; так звані "внутрішні межі" та "зовнішні межі". Точка, яка виходить за межі внутрішніх меж набору даних, класифікується як одна помірний викид, а точка поза зовнішніми межами класифікується як одна крайній викид. Щоб знайти внутрішні межі набору даних, спочатку помножте інтерквартильний діапазон на 1,5. Додайте результат до Q3 і відніміть його від Q1. Два результати - це внутрішні межі вашого набору даних.
- У нашому прикладі міжквартильний діапазон становить (71,5 - 70), або 1,5. Помножте це на 1,5, щоб отримати 2,25. Ми додаємо це число до Q3 і віднімаємо його від Q1, щоб знайти внутрішні межі наступним чином:
- 71,5 + 2,25=73,75
- 70 - 2,25=67,75
- Тож внутрішні кордони є 67,75 та 73,75.
- У нашому наборі даних лише температура печі - 300 градусів за Фаренгейтом - виходить за межі цього діапазону. Тож це може бути поміркованим відхиленням. Однак нам ще потрібно визначити, чи є ця температура надзвичайно чужою, тому давайте поки не будемо робити висновків.
- У нашому прикладі міжквартильний діапазон становить (71,5 - 70), або 1,5. Помножте це на 1,5, щоб отримати 2,25. Ми додаємо це число до Q3 і віднімаємо його від Q1, щоб знайти внутрішні межі наступним чином:
- Знайдіть "зовнішні межі" набору даних. Ви робите це так само, як і з внутрішніми межами, з тією лише різницею, що помножуєте міжквартильну відстань на 3 замість 1,5. Потім ви додаєте результат до Q3 і віднімаєте від Q1, щоб знайти зовнішні граничні значення.
- У нашому прикладі ми помножимо міжквартильну відстань на 3, щоб отримати (1,5 * 3) або 4,5. Тепер ми можемо знайти зовнішні межі так само, як внутрішні межі:
- 71,5 + 4,5=76
- 70 - 4,5=65,5
- Тож зовнішні межі є 65,5 та 76.
- Точки даних, які лежать поза зовнішніми межами, вважаються крайніми відхиленнями. У нашому прикладі температура печі, 300 градусів за Фаренгейтом, значно перевищує зовнішні межі. Отже, температура духовки така звичайно вкрай незвичний.
- У нашому прикладі ми помножимо міжквартильну відстань на 3, щоб отримати (1,5 * 3) або 4,5. Тепер ми можемо знайти зовнішні межі так само, як внутрішні межі:
- Використовуйте якісну оцінку, щоб визначити, чи варто вам «викидати» викиди. За допомогою вищезазначеного методу ви можете визначити, чи є певні пункти незначними, крайніми або взагалі відсутніми. Але не помиліться - визнання точки як сторонніх робить її просто однією кандидат буде видалено з набору даних, а не негайно видалено точку повинен перетворитися. причина чому відмінник відрізняється від решти пунктів у наборі, вирішальне значення при визначенні того, чи слід видаляти випадок. Як правило, викиди, спричинені деякою помилкою - наприклад, помилкою у вимірах, записах або в експериментальній конструкції - видаляються. На відміну від них, зазвичай стають викиди, які не спричинені помилками і які розкривають нову, непередбачувану інформацію чи тенденції ні видалено.
- Іншим критерієм, який слід врахувати, є те, чи впливають відхилення на середнє значення набору даних таким чином, що воно є перекошеним чи оманливим. Це особливо важливо, якщо ви плануєте робити висновки із середнього значення набору даних.
- Давайте судити про наш приклад. Так як найвищий Навряд чи температура печі досягла 300 ° F через якусь непередбачену силу природи, у нашому прикладі ми можемо зробити висновок із майже 100% впевненістю, що піч була випадково включена, що спричинило аномально високі показники температури. Крім того, якщо ми не видалимо викид, середнє значення нашого набору даних виходить на (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, тоді як середнє без випадок виходить до (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
- Оскільки викид був спричинений людською помилкою, і оскільки неправильно стверджувати, що середня температура в приміщенні була близько 32 ° C, ми повинні вибрати, щоб використовувати наш викид. видалити.
- Зрозумійте важливість (іноді) збереження викидів. Хоча деякі викиди слід видалити з набору даних, оскільки вони є результатом помилок або тому, що вони спотворюють результати в оманливий спосіб, інші викиди слід зберігати. Наприклад, якщо вибірок був правильно отриманий (і, отже, не результат помилки), та / або якщо випадок пропонує нове уявлення про явище, що підлягає вимірюванню, його не слід негайно видаляти. Наукові експерименти є особливо чутливими ситуаціями, коли йдеться про боротьбу з випадаючими людьми - помилково видалення сторонніх місць може означати викидання важливої інформації про нову тенденцію чи відкриття.
- Наприклад, уявіть, що ми розробляємо новий препарат, щоб зробити рибу у рибному господарстві більшою. Давайте використаємо наш старий набір даних ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), з тією різницею, що кожна точка тепер представляє масу риби (у грамах ) після лікування іншим експериментальним препаратом від народження. Іншими словами, перший препарат давав одній рибі масу 71 грам, другий давав іншій рибі масу 70 грамів тощо. У цій ситуації 300 досі величезний викид, але ми не повинні видаляти його зараз. Тому що, якщо ми припустимо, що відхилення не є результатом помилки, це представляє великий успіх у нашому експерименті. Препарат, який дав 300-грамову рибу, працював краще, ніж будь-який інший препарат, отже, це все більшість важлива точка даних у нашому наборі, а не мінімум важливий пункт даних.
Поради
- Якщо ви виявите викиди, спробуйте пояснити їх, перш ніж вилучати з набору даних; вони можуть вказувати на помилки вимірювання або відхилення у розподілі.
Потреби
- Калькулятор