Ця стаття є сирим перекладом з англійської мови. Можливо, вона створена за допомогою машинного перекладу або перекладачем, який недостатньо володіє обома мовами. |
Було запропоновано приєднати статтю Медіана (хемометрика) до цієї статті або розділу, але, можливо, це варто додатково обговорити. Пропозиція з грудня 2023. |
Медіа́на (англ. median) — в статистиці це величина ознаки, що розташована посередині ранжованого ряду вибірки, тобто — це величина, що розташована в середині ряду величин, розташованих у зростальному або спадному порядку; в теорії ймовірності — характеристика розподілення випадкової величини.
Медіана ділить ряд значень ознаки на дві рівні частини, по обидві частини від неї розміщується однакова кількість одиниць сукупності. Медіана є квантилем порядку 1/2. Позначається як або .
Медіаною функції розподілу називається таке число , що:
тобто, ймовірність того, що випадкова величина матиме значення більше або менше за медіану однакова і дорівнює 1/2.
Якщо функція розподілу строго монотонна, то медіана визначається однозначно, в протилежному випадку, розв'язком рівняння є відрізок . З точки зору теорії ймовірностей, значення з цього відрізку можна не розглядати. Таким чином, неоднозначність цього рівняння неістотна. Аби уникнути пов'язаних з цієї неоднозначностей проблем, медіаною можна вважати найменший корінь рівняння: .
З геометричної точки зору, вертикальна пряма , що проходить через точку з абсцисою ділить площу фігури під кривою функції розподілу на дві рівні частини.
Медіану скінченної множини чисел можна знайти впорядкувавши їх в порядку зростання, від найменшого числа до найбільшого.
Якщо кількість чисел непарна, обирається те що знаходиться по середині. Наприклад, нехай існує такий набір чисел
Цей список містить сім чисел. Медіаною є четверте із них, що є числом 6.
Якщо кількість спостережень парна, тоді не існує єдиного значення по середині; тоді медіану зазвичай визначають як середнє значення між двома числами по середині. Наприклад, для наступного набору
медіана є середнім значенням для двох чисел по середині: вона дорівнюватиме (4 + 5)/2, тобто 4.5 або .
Для знаходження позиції середнього числа в вибірці із n послідовно впорядкованих чисел використовується формула (n + 1) ÷ 2. Ця формула повертає або позицію середнього числа (для непарної кількості значень) або знаходиться по середині між двома точками. Наприклад, при кількості в 14 значень, формула поверне 7.5, тоді медіану необхідно розраховувати як середнє значення між сьомим і восьмим значенням. Таким чином медіану можна представити наступною формулою:
Тип | Опис | Приклад | Результат |
---|---|---|---|
Середнє арифметичне | Сума всіх значень вибірки, поділена на їхню кількість: | (1+2+2+3+4+7+9) / 7 | 4 |
Медіана | Середнє значення, що відокремлює більшу половину і меншу половину вибірки | 1, 2, 2, 3, 4, 7, 9 | 3 |
Мода | Значення, що зустрічається у вибірці найчастіше | 1, 2, 2, 3, 4, 7, 9 | 2 |
Найчастіше медіану застосовують для скошених (не симетричних) розподілів, де вона дозволяє підсумувати різницю від арифметичного середнього. Розглянемо мультимножину { 1, 2, 2, 2, 3, 14 }. В даному випадку медіана дорівнює 2, (так само як і мода), і її можна розглядати як більш придатний індикатор центральної тенденції (що менш чутливий до зміщення при наявності виключно великого значення серед даних), ніж арифметичне середнє, що дорівнює 4.
Медіана — дуже популярна міра підсумкової статистики, оскільки її просто зрозуміти і легко розрахувати, а також вона більш стійка до можливих наявних викидів у вибірці, порівняно із середнім значенням. Часто зустрічається твердження про емпіричний зв'язок між відносним знаходженням середнього значення і медіани для скошених розподілів, що насправді не є істинним у загальному випадку. Однак, існує багато залежностей між абсолютною різницею між ними.
Поняття медіани походить з книги Едварда Райта про навігацію («Помилки в навігації» 1599 року), в розділі з приводу визначення розташування за допомогою компаса. Він зрозумів, що імовірніше всього, це значення може бути правильним в серіях спостережень.
У 1757 році Роджер Джосеф Бошкович розвивав регресивний метод, заснований на нормі L1 і на медіані. У 1774 році Лаплас запропонував використати медіану як стандартний оцінювач значення пізнішого pdf. Специфічні критерії мали мінімізувати очікувану величину помилки; , де α* — оцінка, і α — справжня цінність.
Критерій Лапласа був загалом знехтуваний протягом 150 років на користь найменшого методу квадратів Гауса і Легенгре, який мінімізує значення , щоб отримати середину. Поширення як типового означення, так і типової медіани були визначені Лапласом на початку 1800 року. Антуан Августин Курно в 1843 році був першим, хто використав термін «медіана», як значення, яке ділить розподіл імовірності на дві рівні частини.
Густав Теодор Фішнер використовував медіану (Centralwerth) в соціологічних і психологічних явищах.
Густав Фішнер популяризував медіану у формальному аналізі даних, хоча це вперше зробив Лаплас. Франциск Гальтон вжив англійський термін «медіана» в 1881 році, раніше використовуючи «середина найбільшого значення» (1869 рік) і як «середина» в 1880 році.
Медіаною називають варіанту, що ділить варіаційний ряд на дві частини з рівною кількістю варіант. Якщо кількість варіант непарна (), то , у випадку парної кількості варіант (), медіана дорівнює:
Наприклад, для ряду 2 3 5 6 7 медіана дорівнює 5; для ряду 2 3 5 6 7 9 медіана дорівнює (5 + 6)/2 = 5.5.
Для будь-якого розподілу імовірностей в множині дійсних чисел R із кумулятивною функцією розподілу F, не залежно від того чи є це будь-яким з неперервних розподілів імовірності, зокрема абсолютно неперервний розподіл (що має функцію густини імовірності), або дискретний розподіл імовірностей, медіаною за визначенням є будь-яке дійсне число m яке задовольняє наступним нерівностям:
або, еквівалентні нерівності
в яких використовується інтеграл Лебега-Стілтьєса. Для будь-якого абсолютно неперервного розподілу імовірностей із функцією густини імовірностей ƒ, медіана задовольняє умовам:
Будь-який розподіл імовірностей в множині R має принаймні одну медіану, але в окремих випадках може існувати більше ніж одна медіана. Зокрема, якщо розподіл імовірностей дорівнює нулю в інтервалі , а кумулятивна функція розподілу в точці a приймає значення 1/2, будь-яке значення між a і b також буде медіаною.
Медіани певних типів розподілів можна легко розрахувати за допомогою їх параметрів; крім того, цей розрахунок існує навіть для деяких розподілів, яким бракує можливості добре визначити середнє, наприклад для розподілу Коші:
Середня абсолютна похибка дійсної змінної c відносно випадкової величини X визначається як:
За умови, що розподіл імовірностей величини X є таким, що вищенаведене сподівання існує, тоді m є медіаною величини X тоді і тільки тоді, коли m мінімізує середню абсолютну похибку відносно X. Зокрема, m є вибірковою медіаною, тоді і лише тоді, коли m мінімізує арифметичне середнє абсолютне відхилення.
У більш загальному випадку, медіана визначається як мінімум наступного виразу
Це визначення медіани на основі оптимізації є корисним у статистичному аналізі даних, наприклад, у кластеризації k-медіан.
Для випадку із одномодальним розподілом можна показати що медіана і середнє знаходяться не далі ніж на величину (3/5)1/2 ≈ 0.7746 стандартних відхилень одне від одного. У символьній формі це виглядає так:
де |·| це абсолютне значення.
Аналогічне відношення існує для медіани і моди: вони знаходяться в межах 31/2 ≈ 1.732 стандартних відхилень одна від одної:
Якщо розподіл має скінченну дисперсію, тоді відстань між медіаною і середнім обмежена величиною одного стандартного відхилення.
Ця межа була доведена, за допомогою подвійного використання нерівності Єнсена, як наведено далі. Маємо
Перша і третя нерівність були отримані з нерівності Єнсена, що застосована до функції із абсолютним значенням і квадратичної функції, кожна з яких є опуклою. Друга нерівність отримана з факту, що медіана мінімізує функцію абсолютного відхилення
Також доведення можна отримати із нерівності Кантеллі. Цей результат можна узагальнити аби отримати мультиваріативний варіант нерівності, наступним чином:
де m є просторовою медіаною, яка мінімізує функцію Просторова медіана є унікальною коли два або більшу кількість вимірів вибірки. В аналогічному доведенні використовують односторонню нерівність Чебишова; вона з'являється у нерівності параметрів розташування і масштабу розподілу.
Гаус зауважив, що будь-який об'єктивний оцінювач мінімізує ризик (очікувану втрату) відносно функції помилкової втрати. На думку Лапласа, медіана, як об'єктивний оцінювач мінімізує ризик відносно функції втрати абсолютного відхилення. Інші функції втрати застосовують в статистичній теорії, особливо при перевірці статистичної надійності. Теорію об'єктивного оцінювача, започаткував Джордж Браун в 1947 році.
Оцінка одного розмірного параметра θ, буде об'єктивним оцінювачем для медіани, якщо, для сталої θ, медіана поширення оцінки знаходиться в значенні θ , тобто, відхилення трапляються не так часто.
Подальші властивості медіани, як об'єктивного оцінювача були досліджені. Зокрема, медіана, як об'єктивний оцінювач існує у випадках, де неможливо максимуму імовірності. Медіани, як об'єктивні оцінювачі інваріантні під один-до-одного, перетвореннями.
В іншому мовному розділі є повніша стаття Median(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської.
|
Це незавершена стаття з математики. Ви можете допомогти проєкту, виправивши або дописавши її. |
|