Kompromis między obciążeniem a wariancją

W dzisiejszym świecie Kompromis między obciążeniem a wariancją stał się tematem coraz większego zainteresowania dużej liczby osób. Niezależnie od tego, czy ze względu na swój wpływ na społeczeństwo, znaczenie w historii, wpływ na kulturę popularną czy znaczenie w nauce, Kompromis między obciążeniem a wariancją przykuł uwagę szerokiego spektrum populacji. W tym artykule zbadamy różne aspekty związane z Kompromis między obciążeniem a wariancją, od jego początków po dzisiejszą ewolucję, aby zapewnić pełną i wzbogacającą wizję tego tematu. Poprzez analizę, dane i odpowiednie zeznania ma na celu rzucić światło na Kompromis między obciążeniem a wariancją i jego znaczenie w różnych kontekstach, dając czytelnikom głębszą i bardziej wnikliwą perspektywę na tę kwestię.

Wykres przedstawiający liniowe komponenty błędu modelu, oraz ich sumę, w zależności od złożoności modelu. Złożony model jest z konstrukcji funkcji błędu mało obciążony, ale ma dużą wariancję – i vice versa.
Błąd modelu dekomponuje się na jego obciążenie i wariancję, oraz błąd nieredukowalny. Minimalizacja błędu modelu wiąże się z wyważeniem kompromisu pomiędzy komponentem obciążenia i wariancji.
Wykres przedstawiający błąd modelu, w zależności od jego złożoności, w próbie treningowej, i nowych danych.
Wraz ze wzrostem liczby stopni swobody modelu (na osi X), jego dopasowanie w próbie która służy do pierwszej estymacji polepsza się (niebieska linia), ale dopasowanie do nowych danych z całej populacji zmniejsza się tylko do pewnego momentu, aby odtąd wzrastać (czerwona linia). Jest to zjawisko nadmiernego dopasowania do próby treningowej i ilustracja kompromisu między obciążeniem a wariancją.

Kompromis między obciążeniem a wariancją (in. przetarg, dylemat, ang. bias-variance tradeoff) – problem leżący u podstaw modelowania w statystyce i uczeniu maszynowym, który polega na sprzeczności między redukcją obciążenia i wariancji estymatorów statystycznych. Do wysokiego błędu modelu poza próbą treningową może prowadzić zarówno jego nadmierne uproszczenie (wysokie obciążenie), jak i nadmiernie szczegółowa wrażliwość (wysoka wariancja). Choć obciążenie jest z zasady niepożądane, niepożądana jest także wariancja estymatora. Estymator o najmniejszym obciążeniu nie musi być w praktyce najlepszym narzędziem wobec badanego problemu, co obrazuje np. paradoks Steina.

Opis tego problemu oferuje matematyczną formalizację takich zjawisk jak nadmierne dopasowanie, które motywują stosowanie przeciwdziałających mu narzędzi takich jak statystyki odpornościowe, regularyzacja, metody zespołowe czy bagging. Występuje we wszystkich postaciach uczenia nadzorowanego; przywołano go także do wyjaśnienia efektywności heurystyk poznawczych stosowanych przez ludzi.

Choć przykłady tego zjawiska były znane już wcześniej, jego konceptualizację jako „kompromis” wprowadzili do nauki S. Geman, E. Bienenstock i R. Doursat w 1992 r., w publikacji dotyczącej błędu uczenia sieci neuronowych.

Dekompozycja błędu na obciążenie i wariancję modelu

Funkcja oczekiwanego błędu średniokwadratowego estymatora poddaje się matematycznej dekompozycji na sumę trzech komponentów: obciążenia i wariancji modelu, oraz błędu nieredukowalnego –, tj. wariancji charakteryzującej pomiary, a nie model statystyczny.

Przy notacji, w której prawdziwa funkcja jej obserwacja z błędem losowym oraz estymator

gdzie obciążenie estymatora to:

a jego wariancja:

Złożoność modelu

Obciążenie i wariancja modelu są funkcją jego złożoności, której zgeneralizowaną miarą może być efektywna liczba parametrów (in. efektywna liczba stopni swobody) Dla modelu liniowego w którym to macierz o wymiarach N × N, efektywna liczba parametrów jest zdefiniowana jako ślad tej macierzy, W mierze tej regresja z regularyzacją ma mniejszą efektywną liczbę parametrów (efektywną liczbę stopni swobody) niż zwykła regresja. Model o wysokiej efektywnej liczbie parametrów cechuje się większą wariancją i niższym obciążeniem – i vice versa. Miara ten pozwala zoptymalizować złożoność modelu np. przy pomocy kryterium informacyjnego Akaike (AIC) lub bayesowskiego kryterium informacyjnego Schwarza (BIC).

Wyprowadzenie dla błędu średniokwadratowego w modelu liniowym

Z definicji, dla dowolnej zmiennej losowej

Po prostym przekształceniu:

Ponieważ jest deterministyczne.

Stąd, ponieważ i wynika

Ponadto, ponieważ

Jako że oraz są niezależne, możemy napisać:

Zastosowanie

Kompromis między obciążeniem a wariancją przedstawia konceptualizację podstawowego problemu statystyki i uczenia maszynowego jakim jest wybór modelu o optymalnej efektywności. Techniki pozwalające poradzić sobie z kompromisem to m.in. regularyzacja, sprawdzian krzyżowy, optymalizacja kryteriów informacyjnych takich jak AIC czy BIC, oraz bagging (bootstrap) i metody zespołowe.

Przypisy

  1. a b c 7. Model Assessment and Selection, Trevor Hastie, Robert Tibshirani, Jerome Friedman, The elements of statistical learning: data mining, inference, and prediction, Second edition, New York, ISBN 978-0-387-84857-0, OCLC 300478243 .
  2. Gerd Gigerenzer, Henry Brighton, Homo Heuristicus: Why Biased Minds Make Better Inferences, „Topics in Cognitive Science”, 1 (1), 2009, s. 107–143, DOI10.1111/j.1756-8765.2008.01006.x (ang.).
  3. S. Geman, E. Bienenstock, R. Doursat, Neural Networks and the Bias/Variance Dilemma, „Neural Computation”, 4 (1), 1992, s. 1–58, DOI10.1162/neco.1992.4.1.1, ISSN 0899-7667 .