Outliers vs Robustness in Nonparametric Methods of Regression

Authors

  • Joanna Trzęsiok University of Economics in Katowice, Faculty of Finance and Insurance, Department of Economic and Financial Analysis

DOI:

https://doi.org/10.18778/0208-6018.337.07

Keywords:

outliers, robustness, nonparametric regression methods

Abstract

The article addresses the question of how robust methods of regression are against outliers in a given data set. In the first part, we presented the selected methods used to detect outliers. Then, we tested the robustness of three nonparametric methods of regression: PPR, POLYMARS, and RANDOM FORESTS. The analysis was conducted applying simulation procedures to the data sets where outliers were detected. Contrary to a relatively common conviction about the robustness of nonparametric regression, the study revealed that the models built on the basis of complete data sets represent a significantly lower predictive capability than models based on the sets from which outliers were discarded.

Downloads

Download data is not yet available.

References

Agresti A., Finlay B. (2009), Statistical Methods for the Social Sciences, 4th ed., Pearson, New Jersey.
Google Scholar

Batóg J. (2016), Identyfikacja obserwacji odstających w analizie skupień, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 26. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 426, pp. 13–21.
Google Scholar

Breiman L. (2001), Random Forests, “Machine Learning”, no. 45, pp. 5–32.
Google Scholar

Breunig M.M., Kriegel H.‑P., Ng R.T., Sander J. (2000), LOF: Identifying Density‑Based Outliers, Proceedings of the 29th ACM SIDMOD International Conference on Management of Data (SIGMOD 2000), Dallas.
Google Scholar

Cook R.D. (1977), Detection of Influential Observations in Linear Regression, “Technometrics”, no. 19(1), pp. 15–18.
Google Scholar

Filzmoser P., Maronna R.A., Werner M. (2008), Outlier Identification in High Dimensions, “Computational Statistics & Data Analysis”, no. 52, pp. 1694–1711.
Google Scholar

Friedman J., Stuetzle W. (1981), Projection Pursuit Regression, “Journal of the American Statistical Association”, no. 76, pp. 817–823.
Google Scholar

Ganczarek‑Gamrot A. (2016), Obserwacje odstające na rynku energii elektrycznej, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 288, pp. 7–20.
Google Scholar

Hawkins D. (1980), Identification of Outliers, Chapman and Hall, London.
Google Scholar

Healy M.J.R. (1968), Multivariate Normal Plotting, “Applied Statistics”, no. 17, pp. 157–161.
Google Scholar

Kooperberg C., Bose S., Stone C. (1997), Polychotomous Regression, “Journal of the American Statistical Association”, no. 92, pp. 117–127.
Google Scholar

Kosiorowski D. (2007), O odpornej analizie regresji w ekonomii na przykładzie koncepcji głębi regresyjnej, “Przegląd Statystyczny”, vol. 54, pp. 109–121.
Google Scholar

Kosiorowski D. (2012), Statystyczne funkcje głębi w odpornej analizie ekonomicznej, Wydawnictwo UEK w Krakowie, Kraków.
Google Scholar

Majewska J. (2015), Identification of Multivariate Outliers – Problems and Challenges of Visualization Methods, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 247, pp. 69–83.
Google Scholar

Meyer D., Leisch F., Hornik K. (2003), The Support Vector Machine under Test, “Neurocomputing”, vol. 1–2, no. 55, pp. 169–186.
Google Scholar

Rousseeuw P., Leroy A. (2003), Robust Regression and Outlier Detection, John Wiley & Sons Inc., New York.
Google Scholar

Trzęsiok J. (2011), Przegląd metod regularyzacji w zagadnieniach regresji nieparametrycznej, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 18. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 176, pp. 330–339.
Google Scholar

Trzęsiok M. (2014), Wybrane metody identyfikacji obserwacji oddalonych, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 22. Klasyfikacja i analiza danych – teoria i zastosowania, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 327, pp. 157–166.
Google Scholar

Trzpiot G. (ed.) (2013), Wybrane elementy statystyki odpornej, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice.
Google Scholar

Tukey J.W. (1977), Exploratory Data Analysis, Addison‑Wesley, Boston.
Google Scholar

Walesiak M., Gatnar E. (2009), Statystyczna analiza danych z wykorzystaniem programu R, Wydawnictwo Naukowe PWN, Warszawa.
Google Scholar

Downloads

Published

2018-09-20

How to Cite

Trzęsiok, J. (2018). Outliers vs Robustness in Nonparametric Methods of Regression. Acta Universitatis Lodziensis. Folia Oeconomica, 4(337), 99–109. https://doi.org/10.18778/0208-6018.337.07

Issue

Section

Articles