=================================== Búsqueda y selección de predictores =================================== Como mencionamos, la seleccion la selección (o subselección de predictores) es una de las técnicas disponibles para intentar reducir la dimensionalidad de los datos y aparece como una alternativa a probar todas las combinaciones posibles de predictores. En general tenemos 2 métodos: Wrapping -------- El método tiene acceso al modelo de clasificación/regresión y usa las predicciones del modelo para seleccionar o eliminar iterativamente un conjunto de predictores. El proceso de selección es una parte integral del modelo. Esto quiere decir que **se entrenan tantos modelos como subsets se prueban**. Para `n` predictores, evalúa `n(n − 1)/2` modelos. .. figure:: ../_images/prep_wrapping.png :alt: Búsqueda y selección de predictores: Wrapping :align: center :width: 300 Búsqueda y selección de predictores: Wrapping Este método requiere de un algoritmos de búsqueda, el cual puede ser alguno de los siguientes: :RFE (recursive feature elimination): Se comienza con todos los predictores y luego se va eliminando el predictor con menor peso en el modelo. Estos métodos sólo funcionan con modelos donde tengamos coeficientes disponibles, como ser las regresiones y las SVM. :Forward Sequential Selection: Se comienza con un conjnuto aleatorio de predictores. Luego, aleatoriamente se agrega un nuevo predictor y se calcula la performance. Si mejora, el predictor se queda, si no mejora, se descarta. :Backward Elimination: Se comienza con un todo el conjunto de predictores posibles. Luego, aleatoriamente se elimina un predictor y se calcula la performance. Si la performance mejora, el predictor se elimina. Si no se queda. :Genetic Algoritm: se basa en un proceso de selección natural biológico. Embedded -------- Este método descansa en la capacidad del modelo de disponer de una metodología interna para "categorizar" o "rankear" a los predictores que utiliza. Aquí, se construye un modelo de clasificación utilizando un conjunto de entrenamiento y la performance del modelo se estima usando un conjunto de evaluación. El modelo que se creó proporciona el valor de “ranking” o relevancia para cada predictor y por lo tanto se eliminan aquellos predictores que no tiene tanta relevancia. .. figure:: ../_images/prep_embedded.png :alt: Búsqueda y selección de predictores: Embedded :align: center :width: 300 Búsqueda y selección de predictores: Embedded Los modelos basados en árboles ofrecen esta funcionalidad, sin embargo no es una técnica que se pueda aplicar a cualquier tipo de modelo. A pesar de esto, existen métodos genéricos para calcular la importancia de un predictor en un determinado modelo. Por ejemplo *Permutation Feature Importance*. Sin embargo, estos métodos son aproximaciones y tiene que ver más con técnicas de interpretación de modelos más que de identificación de relevancia para el modelo.