Reducción de la dimensionalidad para optimizar la clasificación de datos funcionales

Huanca Ochoa, Shirley Y.

Publication

Reducción de la dimensionalidad para optimizar la clasificación de datos funcionales

Huanca Ochoa, Shirley Y.

Abstract

Nowdays throw due to the continuous advance of technology, statisticians have been facing the need to develop new methods to extract meaningful information quickly and efficiently in large data sets, such as functional data. This type of data corresponds to a random observation over an interval. This data are treated theoretically using the definitions and properties of curves; as well as computationally through data mining techniques treating them as high-dimensional vectors. It is in this sense that the application of some methods of feature selection will be advisable prior to any analysis of such data. In this technique a representation of finite size for each curve is used, thus overcoming the problem of high dimensionality. In this work we compare three feature selection procedures with a commonly used reduction dimensionality method for functional data. Results will be presented using two real datasets. This is done in order to compare the effectiveness to minimize the error rate of misclassification in the datasets. The results obtained in this thesis show that the dimensionality reduction using B-Splines yields a better performance that feature selection.
Con el paso del tiempo y con el continuo avance de la tecnología, los estadísticos se han enfrentado a la necesidad de desarrollar nuevos métodos para extraer información significativa de forma rápida y eficiente en grandes conjuntos de datos, tal como son los datos funcionales. Este tipo de datos corresponden a una observación aleatoria en un intervalo; y por tanto son tratados teóricamente utilizando las definiciones y propiedades de curvas; así como computacionalmente a través de técnicas de minería de datos, considerándolos como vectores de alta dimensión. Es en este sentido que, la aplicación de algunos de los métodos de selección de variables será recomendable antes de cualquier análisis sobre estos datos. En esta técnica una representación de tamaño finito es usada para cada curva, superando así el problema de la alta dimensionalidad. En este trabajo se comparan tres procedimientos de selección de variables con un método comúnmente usado de reducción de dimensionalidad para datos funcionales. Los resultados se presentarán utilizando dos conjuntos de datos reales. Esto se hace con el fin de comparar la efectividad para reducir la tasa de error de mala clasificación en los conjuntos de datos. Los resultados obtenidos en esta tesis, muestran que la reducción de la dimensionalidad usando B-Splines tiene un mejor rendimiento que la selección de variables.