Obserwacje odstające a problem odporności
DOI:
https://doi.org/10.18778/0208-6018.337.07Słowa kluczowe:
obserwacje odstające, odporność, nieparametryczne metody regresjiAbstrakt
Artykuł poświęcony jest zagadnieniu odporności metod regresji na obserwacje odstające występujące w zbiorze danych. W pierwszej części przedstawiono wybrane metody identyfikacji obserwacji nietypowych. Następnie badano odporność trzech nieparametrycznych metod regresji: PPR, POLYMARS i RANDOM FORESTS. Analiz dokonano za pomocą procedur symulacyjnych na zbiorach danych, w których wykryto obserwacje odstające. Mimo dosyć powszechnych przekonań o odporności regresji nieparametrycznej okazało się, że modele zbudowane na całych zbiorach danych mają istotnie mniejsze zdolności predykcyjne niż modele uzyskane na zbiorach, z których usunięto obserwacje nietypowe.
Pobrania
Bibliografia
Agresti A., Finlay B. (2009), Statistical Methods for the Social Sciences, 4th ed., Pearson, New Jersey.
Batóg J. (2016), Identyfikacja obserwacji odstających w analizie skupień, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 26. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 426, pp. 13–21.
Breiman L. (2001), Random Forests, “Machine Learning”, no. 45, pp. 5–32.
Breunig M.M., Kriegel H.‑P., Ng R.T., Sander J. (2000), LOF: Identifying Density‑Based Outliers, Proceedings of the 29th ACM SIDMOD International Conference on Management of Data (SIGMOD 2000), Dallas.
Cook R.D. (1977), Detection of Influential Observations in Linear Regression, “Technometrics”, no. 19(1), pp. 15–18.
Filzmoser P., Maronna R.A., Werner M. (2008), Outlier Identification in High Dimensions, “Computational Statistics & Data Analysis”, no. 52, pp. 1694–1711.
Friedman J., Stuetzle W. (1981), Projection Pursuit Regression, “Journal of the American Statistical Association”, no. 76, pp. 817–823.
Ganczarek‑Gamrot A. (2016), Obserwacje odstające na rynku energii elektrycznej, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 288, pp. 7–20.
Hawkins D. (1980), Identification of Outliers, Chapman and Hall, London.
Healy M.J.R. (1968), Multivariate Normal Plotting, “Applied Statistics”, no. 17, pp. 157–161.
Kooperberg C., Bose S., Stone C. (1997), Polychotomous Regression, “Journal of the American Statistical Association”, no. 92, pp. 117–127.
Kosiorowski D. (2007), O odpornej analizie regresji w ekonomii na przykładzie koncepcji głębi regresyjnej, “Przegląd Statystyczny”, vol. 54, pp. 109–121.
Kosiorowski D. (2012), Statystyczne funkcje głębi w odpornej analizie ekonomicznej, Wydawnictwo UEK w Krakowie, Kraków.
Majewska J. (2015), Identification of Multivariate Outliers – Problems and Challenges of Visualization Methods, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 247, pp. 69–83.
Meyer D., Leisch F., Hornik K. (2003), The Support Vector Machine under Test, “Neurocomputing”, vol. 1–2, no. 55, pp. 169–186.
Rousseeuw P., Leroy A. (2003), Robust Regression and Outlier Detection, John Wiley & Sons Inc., New York.
Trzęsiok J. (2011), Przegląd metod regularyzacji w zagadnieniach regresji nieparametrycznej, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 18. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 176, pp. 330–339.
Trzęsiok M. (2014), Wybrane metody identyfikacji obserwacji oddalonych, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 22. Klasyfikacja i analiza danych – teoria i zastosowania, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 327, pp. 157–166.
Trzpiot G. (ed.) (2013), Wybrane elementy statystyki odpornej, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice.
Tukey J.W. (1977), Exploratory Data Analysis, Addison‑Wesley, Boston.
Walesiak M., Gatnar E. (2009), Statystyczna analiza danych z wykorzystaniem programu R, Wydawnictwo Naukowe PWN, Warszawa.
Pobrania
Pliki dodatkowe
- Chart 1. The dendrogram for Ward’s method and the visualization of multidimensional scaling for the crime set / Rys. 1. Dendrogram dla metody Warda oraz wizualizacja skalowania wielowymiarowego dla zbioru crime (Angielski)
- Chart 2. The dendrogram for Ward’s method and the visualization of multidimensional scaling for the hbk set / Rys. 2. Dendrogram dla metody Warda oraz wizualizacja skalowania wielowymiarowego dla zbioru hbk (Angielski)
- Chart 3. The dendrogram for Ward’s method and the visualization of multidimensional scaling for the flats set / Rys. 3. Dendrogram dla metody Warda oraz wizualizacja skalowania wielowymiarowego dla zbioru flats (Angielski)





