Outliers vs Robustness in Nonparametric Methods of Regression

Authors

  • Joanna Trzęsiok University of Economics in Katowice, Faculty of Finance and Insurance, Department of Economic and Financial Analysis

DOI:

https://doi.org/10.18778/0208-6018.337.07

Keywords:

outliers, robustness, nonparametric regression methods

Abstract

The article addresses the question of how robust methods of regression are against outliers in a given data set. In the first part, we presented the selected methods used to detect outliers. Then, we tested the robustness of three nonparametric methods of regression: PPR, POLYMARS, and RANDOM FORESTS. The analysis was conducted applying simulation procedures to the data sets where outliers were detected. Contrary to a relatively common conviction about the robustness of nonparametric regression, the study revealed that the models built on the basis of complete data sets represent a significantly lower predictive capability than models based on the sets from which outliers were discarded.

Downloads

Download data is not yet available.

References

Agresti A., Finlay B. (2009), Statistical Methods for the Social Sciences, 4th ed., Pearson, New Jersey.

Batóg J. (2016), Identyfikacja obserwacji odstających w analizie skupień, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 26. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 426, pp. 13–21.

Breiman L. (2001), Random Forests, “Machine Learning”, no. 45, pp. 5–32.

Breunig M.M., Kriegel H.‑P., Ng R.T., Sander J. (2000), LOF: Identifying Density‑Based Outliers, Proceedings of the 29th ACM SIDMOD International Conference on Management of Data (SIGMOD 2000), Dallas.

Cook R.D. (1977), Detection of Influential Observations in Linear Regression, “Technometrics”, no. 19(1), pp. 15–18.

Filzmoser P., Maronna R.A., Werner M. (2008), Outlier Identification in High Dimensions, “Computational Statistics & Data Analysis”, no. 52, pp. 1694–1711.

Friedman J., Stuetzle W. (1981), Projection Pursuit Regression, “Journal of the American Statistical Association”, no. 76, pp. 817–823.

Ganczarek‑Gamrot A. (2016), Obserwacje odstające na rynku energii elektrycznej, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 288, pp. 7–20.

Hawkins D. (1980), Identification of Outliers, Chapman and Hall, London.

Healy M.J.R. (1968), Multivariate Normal Plotting, “Applied Statistics”, no. 17, pp. 157–161.

Kooperberg C., Bose S., Stone C. (1997), Polychotomous Regression, “Journal of the American Statistical Association”, no. 92, pp. 117–127.

Kosiorowski D. (2007), O odpornej analizie regresji w ekonomii na przykładzie koncepcji głębi regresyjnej, “Przegląd Statystyczny”, vol. 54, pp. 109–121.

Kosiorowski D. (2012), Statystyczne funkcje głębi w odpornej analizie ekonomicznej, Wydawnictwo UEK w Krakowie, Kraków.

Majewska J. (2015), Identification of Multivariate Outliers – Problems and Challenges of Visualization Methods, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 247, pp. 69–83.

Meyer D., Leisch F., Hornik K. (2003), The Support Vector Machine under Test, “Neurocomputing”, vol. 1–2, no. 55, pp. 169–186.

Rousseeuw P., Leroy A. (2003), Robust Regression and Outlier Detection, John Wiley & Sons Inc., New York.

Trzęsiok J. (2011), Przegląd metod regularyzacji w zagadnieniach regresji nieparametrycznej, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 18. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 176, pp. 330–339.

Trzęsiok M. (2014), Wybrane metody identyfikacji obserwacji oddalonych, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 22. Klasyfikacja i analiza danych – teoria i zastosowania, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 327, pp. 157–166.

Trzpiot G. (ed.) (2013), Wybrane elementy statystyki odpornej, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice.

Tukey J.W. (1977), Exploratory Data Analysis, Addison‑Wesley, Boston.

Walesiak M., Gatnar E. (2009), Statystyczna analiza danych z wykorzystaniem programu R, Wydawnictwo Naukowe PWN, Warszawa.

Downloads

Published

2018-09-20

Issue

Section

Articles

How to Cite

Trzęsiok, Joanna. 2018. “Outliers Vs Robustness in Nonparametric Methods of Regression”. Acta Universitatis Lodziensis. Folia Oeconomica 4 (337): 99-109. https://doi.org/10.18778/0208-6018.337.07.