Kompromis między obciążeniem a wariancją

Kompromis między obciążeniem a wariancją (in. przetarg, dylemat, ang. bias-variance tradeoff) – problem leżący u podstaw modelowania w statystyce i uczeniu maszynowym, który polega na sprzeczności między redukcją obciążenia i wariancji estymatorów statystycznych. Do wysokiego błędu modelu poza próbą treningową może prowadzić zarówno jego nadmierne uproszczenie (wysokie obciążenie), jak i nadmiernie szczegółowa wrażliwość (wysoka wariancja). Choć obciążenie jest z zasady niepożądane, niepożądana jest także wariancja estymatora. Estymator o najmniejszym obciążeniu nie musi być w praktyce najlepszym narzędziem wobec badanego problemu, co obrazuje np. paradoks Steina.

Opis tego problemu oferuje matematyczną formalizację takich zjawisk jak nadmierne dopasowanie, które motywują stosowanie przeciwdziałających mu narzędzi takich jak statystyki odpornościowe, regularyzacja, metody zespołowe czy bagging. Występuje we wszystkich postaciach uczenia nadzorowanego; przywołano go także do wyjaśnienia efektywności heurystyk poznawczych stosowanych przez ludzi.

Choć przykłady tego zjawiska były znane już wcześniej, jego konceptualizację jako „kompromis” wprowadzili do nauki S. Geman, E. Bienenstock i R. Doursat w 1992 r., w publikacji dotyczącej błędu uczenia sieci neuronowych.

Dekompozycja błędu na obciążenie i wariancję modelu

Funkcja oczekiwanego błędu średniokwadratowego estymatora poddaje się matematycznej dekompozycji na sumę trzech komponentów: obciążenia i wariancji modelu, oraz błędu nieredukowalnego –, tj. wariancji charakteryzującej pomiary, a nie model statystyczny.

Przy notacji, w której prawdziwa funkcja $f=f(x),$ jej obserwacja $y=f(x)+\epsilon ,$ z błędem losowym $\epsilon =0+\sigma ^{2},$ oraz estymator ${\hat {f}}={\hat {f}}(x){:}$

\operatorname {E} {\Big }={\Big (}\operatorname {Bias} {\big }{\Big )}^{2}+\operatorname {Var} {\big }+\sigma ^{2},

gdzie obciążenie estymatora to:

\operatorname {Bias} {\big }=\operatorname {E} {\big }-f(x),

a jego wariancja:

\operatorname {Var} {\big }=\operatorname {E} -\operatorname {E} ^{2}.

Złożoność modelu

Obciążenie i wariancja modelu są funkcją jego złożoności, której zgeneralizowaną miarą może być efektywna liczba parametrów (in. efektywna liczba stopni swobody) $d.$ Dla modelu liniowego ${\hat {y}}=Sy,$ w którym $S$ to macierz o wymiarach N × N, efektywna liczba parametrów jest zdefiniowana jako ślad tej macierzy, $d=tr(S).$ W mierze tej regresja z regularyzacją ma mniejszą efektywną liczbę parametrów (efektywną liczbę stopni swobody) niż zwykła regresja. Model o wysokiej efektywnej liczbie parametrów cechuje się większą wariancją i niższym obciążeniem – i vice versa. Miara ten pozwala zoptymalizować złożoność modelu np. przy pomocy kryterium informacyjnego Akaike (AIC) lub bayesowskiego kryterium informacyjnego Schwarza (BIC).

Wyprowadzenie dla błędu średniokwadratowego w modelu liniowym

Z definicji, dla dowolnej zmiennej losowej $X{:}$

\operatorname {Var} =\operatorname {E} -{\Big (}\operatorname {E} {\Big )}^{2}.

Po prostym przekształceniu:

\operatorname {E} =\operatorname {Var} +{\Big (}\operatorname {E} {\Big )}^{2}.

Ponieważ $f$ jest deterministyczne.

\operatorname {E} =f.

Stąd, ponieważ $y=f+\varepsilon$ i $\operatorname {E} =0,$ wynika $\operatorname {E} =\operatorname {E} =\operatorname {E} =f.$

Ponadto, ponieważ $\operatorname {Var} =\sigma ^{2},$

\operatorname {Var} =\operatorname {E} )^{2}]=\operatorname {E} =\operatorname {E} =\operatorname {E} =\operatorname {Var} +{\Big (}\operatorname {E} {\Big )}^{2}=\sigma ^{2}.

Jako że $\varepsilon$ oraz ${\hat {f}}$ są niezależne, możemy napisać:

{\begin{aligned}\operatorname {E} {\big }&=\operatorname {E} {\big }\\&=\operatorname {E} {\big -\operatorname {E} )^{2}{\big ]}\\&=\operatorname {E} {\big )^{2}{\big ]}+\operatorname {E} +\operatorname {E} {\big -{\hat {f}})^{2}{\big ]}+2\operatorname {E} {\big )\varepsilon {\big ]}+2\operatorname {E} {\big -{\hat {f}}){\big ]}+2\operatorname {E} {\big -{\hat {f}})(f-\operatorname {E} ){\big ]}\\&=(f-\operatorname {E} )^{2}+\operatorname {E} +\operatorname {E} {\big -{\hat {f}})^{2}{\big ]}+2(f-\operatorname {E} )\operatorname {E} +2\operatorname {E} \operatorname {E} {\big -{\hat {f}}{\big ]}+2\operatorname {E} {\big -{\hat {f}}{\big ]}(f-\operatorname {E} )\\&=(f-\operatorname {E} )^{2}+\operatorname {E} +\operatorname {E} {\big -{\hat {f}})^{2}{\big ]}\\&=(f-\operatorname {E} )^{2}+\operatorname {Var} +\operatorname {Var} {\big }\\&=\operatorname {Bias} ^{2}+\operatorname {Var} +\operatorname {Var} {\big }\\&=\operatorname {Bias} ^{2}+\sigma ^{2}+\operatorname {Var} {\big }.\end{aligned}}

Zastosowanie

Kompromis między obciążeniem a wariancją przedstawia konceptualizację podstawowego problemu statystyki i uczenia maszynowego jakim jest wybór modelu o optymalnej efektywności. Techniki pozwalające poradzić sobie z kompromisem to m.in. regularyzacja, sprawdzian krzyżowy, optymalizacja kryteriów informacyjnych takich jak AIC czy BIC, oraz bagging (bootstrap) i metody zespołowe.

Przypisy

↑ ^a ^b ^c 7. Model Assessment and Selection, TrevorT. Hastie TrevorT., RobertR. Tibshirani RobertR., JeromeJ. Friedman JeromeJ., The elements of statistical learning: data mining, inference, and prediction, Second edition, New York, ISBN 978-0-387-84857-0, OCLC 300478243 .
↑ GerdG. Gigerenzer GerdG., HenryH. Brighton HenryH., Homo Heuristicus: Why Biased Minds Make Better Inferences, „Topics in Cognitive Science”, 1 (1), 2009, s. 107–143, DOI: 10.1111/j.1756-8765.2008.01006.x (ang.).
↑ S.S. Geman S.S., E.E. Bienenstock E.E., R.R. Doursat R.R., Neural Networks and the Bias/Variance Dilemma, „Neural Computation”, 4 (1), 1992, s. 1–58, DOI: 10.1162/neco.1992.4.1.1, ISSN 0899-7667 .

[:0-1] 7. Model Assessment and Selection, TrevorT. Hastie TrevorT., RobertR. Tibshirani RobertR., JeromeJ. Friedman JeromeJ., The elements of statistical learning: data mining, inference, and prediction, Second edition, New York, ISBN 978-0-387-84857-0, OCLC 300478243 .

[2] GerdG. Gigerenzer GerdG., HenryH. Brighton HenryH., Homo Heuristicus: Why Biased Minds Make Better Inferences, „Topics in Cognitive Science”, 1 (1), 2009, s. 107–143, DOI: 10.1111/j.1756-8765.2008.01006.x (ang.).

[3] S.S. Geman S.S., E.E. Bienenstock E.E., R.R. Doursat R.R., Neural Networks and the Bias/Variance Dilemma, „Neural Computation”, 4 (1), 1992, s. 1–58, DOI: 10.1162/neco.1992.4.1.1, ISSN 0899-7667 .

Kompromis między obciążeniem a wariancją

Dekompozycja błędu na obciążenie i wariancję modelu

Złożoność modelu

Wyprowadzenie dla błędu średniokwadratowego w modelu liniowym

Zastosowanie

Przypisy

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot