Różnica między stronniczością uczenia maszynowego a wariancją

3797
701
Spirydion Kruk

Żyjemy w świecie, w którym algorytmy są wszędzie, a wielu z nas używa ich, może nawet nieświadomych, że zaangażowany jest algorytm. Aby rozwiązać problem na komputerze, potrzebujemy algorytmu. Uczenie maszynowe zależy od szeregu algorytmów do przekształcania zestawów danych w modele. Stronniczość i wariancja to dwa podstawowe koncepcje uczenia maszynowego. Ważne jest, aby zrozumieć te dwa, jeśli chodzi o dokładność w dowolnym algorytmie uczenia maszynowego.

Co to jest uprzedzenie?

Błąd przewidywania dowolnego algorytmu uczenia maszynowego można podzielić na trzy części - błąd błędu, błąd wariancji i błąd nieredukowalny. Stronniczość jest zjawiskiem występującym w modelu uczenia maszynowego z powodu nieprawidłowych założeń w procesie uczenia maszynowego. Stronniczość jest jak błąd systematyczny, który występuje, gdy algorytm wytwarza wyniki, które są systematycznie stronnicze z powodu pewnych niepoprawnych założeń w procesie uczenia maszynowego. Są to założenia przyjęte przez model, aby funkcja docelowa jest łatwiejsza do nauczenia.

Wysokie odchylenie oznacza błąd w szkoleniu, a także testowanie danych jest większe. Zawsze zaleca się, aby algorytm był niski, aby uniknąć problemu niedoceniania. Załóżmy, że wybrałeś model, który nie może wyprowadzić nawet niezbędnych wzorców z zestawu danych - nazywa się to dopełnieniem. Mówiąc najprościej, odchylenie występuje w sytuacji, w której użyłeś algorytmu i nie pasuje do prawidłowego.

Co to jest wariancja?

Wariancja to zmiana dokładności prognozowania uczenia maszynowego między danymi szkoleniowymi a danymi testowymi. Jeśli zmienność zestawu danych wprowadza zmianę wydajności modelu, nazywa się to błędem wariancji. Jest to kwota, którą zmieni się oszacowanie funkcji docelowej, jeśli zastosowano różne dane szkoleniowe. Funkcja docelowa jest przyjmowana na podstawie danych szkoleniowych przez algorytm uczenia maszynowego, więc oczekiwana jest pewna wariancja algorytmu.

Wariancja zależy od jednego zestawu treningowego i określa niespójność różnych prognoz przy użyciu różnych zestawów treningowych. Niska wariancja sugeruje niewielkie zmiany w oszacowaniu funkcji docelowej wraz ze zmianami w zestawie danych szkoleniowych, podczas gdy wysoka wariancja sugeruje duże zmiany w oszacowaniu funkcji docelowej ze zmianami w zestawie danych szkoleniowych. Na algorytmy uczenia maszynowego o wysokiej wariancji silnie wpływają specyfika danych treningowych.

Różnica między stronniczością a wariancją

Oznaczający

- Stronniczość jest zjawiskiem, które występuje w modelu uczenia maszynowego, w którym użyłeś algorytmu i nie pasuje prawidłowo. Oznacza to, że zastosowana tutaj funkcja ma niewielkie znaczenie dla scenariusza i nie jest w stanie wyodrębnić prawidłowych wzorów. Z drugiej strony wariancja określa ilość zmienności, którą zmieni się oszacowanie funkcji docelowej, jeśli zastosowano różne dane szkoleniowe. Mówi o tym, jak bardzo losowa zmienna odbiega od oczekiwanej wartości.

Scenariusz

- Stronniczość to różnica między przewidywanymi wartościami a wartościami rzeczywistymi. Niskie uprzedzenie sugeruje mniej założeń dotyczących postaci funkcji docelowej, podczas gdy wysokie uprzedzenie sugeruje więcej założeń dotyczących formy funkcji docelowej. Instancja, w której model nie jest w stanie znaleźć wzorców w zestawie szkoleniowym, nazywa. Wariancja ma na celu uwzględnienie fluktuacji danych. Model działa dobrze w testowaniu danych i zyskuje wysoką dokładność, ale nie działa na nowych i niewidocznych danych.

Błąd uczenia maszynowego vs. Wariancja: wykres porównawczy

Stronniczość	Zmienność
Stronniczość jest zjawiskiem występującym w modelu uczenia maszynowego, w którym używany jest algorytm i nie pasuje prawidłowo.	Wariancja określa zmienność, że oszacowanie funkcji docelowej zmieni się, jeśli zastosowano różne dane szkoleniowe.
Stronniczość odnosi się do różnicy między przewidywanymi wartościami a wartościami rzeczywistymi.	Wariancja mówi o tym, jak bardzo losowa zmienna odbiega od jej oczekiwanej wartości.
Model nie może znaleźć wzorców w zestawie danych szkoleniowych i zawodzi zarówno dla danych widocznych, jak i niewidocznych.	Model znajduje większość wzorców w zestawie danych, a nawet uczy się z niepotrzebnych danych lub szumu.

Streszczenie

Niezależnie od tego, jaki masz model, powinien to być idealna równowaga między stronniczością a wariancją. Celem każdego nadzorowanego algorytmu uczenia maszynowego jest osiągnięcie niskiego błędu i niskiej wariancji. Jednak ten scenariusz nie jest możliwy, ponieważ oba są odwrotnie ze sobą połączone i praktycznie niemożliwe jest posiadanie modelu uczenia maszynowego o niskim odchyleniu i niskiej wariancji. W przeciwieństwie do stronniczości, wariancja ma miejsce, gdy model uwzględnia fluktuacje danych, a nawet szum. Jeśli spróbujesz zmienić algorytm w celu lepszego dopasowania do danego zestawu danych, może on przejść do niskich odchyleń, ale zwiększy wariancję.

Co to jest uprzedzenie i wariancja z przykładem?

Błąd uczenia maszynowego jest zjawiskiem, które występuje, gdy używany jest algorytm i nie pasuje prawidłowo. Niektóre przykłady stronniczości obejmują stronniczość potwierdzenia, stronniczość stabilności i stronniczość dostępności. Algorytmy ML o niskiej wariancji obejmują regresję liniową, regresję logistyczną i liniową analizę dyskryminacyjną.

Jakie są 3 rodzaje stronniczości uczenia maszynowego?

Trzy rodzaje stronniczości to stronniczość informacyjna, stronniczość wyboru i mylące.

Jak uczenie maszynowe może zmniejszyć uprzedzenie i wariancję?

Niemożliwe jest posiadanie modelu uczenia maszynowego o niskim odchyleniu i niskiej wariancji. Aby zminimalizować odchylenie w uczeniu maszynowym, możesz wybrać prawidłowy model uczenia się lub użyć odpowiedniego zestawu danych szkoleniowych.

Jakie są cztery rodzaje uprzedzeń w uczeniu maszynowym?

Cztery rodzaje stronniczości obejmują odchylenie wyboru, wartości odstające, stronniczość pomiaru, odchylenie wycofania i więcej.