bosque aleatorio

¿Alguna vez has soñado con adentrarte en un bosque mágico donde los árboles cobran vida y te guían por caminos desconocidos? Pues ese sueño ahora se puede hacer realidad gracias a Bosque Aleatorio, una fascinante experiencia virtual que te transportará a un mundo lleno de misterio y fantasía. ¡Prepárate para descubrir un lugar único donde la naturaleza y la imaginación se entrelazan de una forma cautivadora!

Una combinación de árboles de decisión que se pueden modelar para predicción y análisis de comportamiento.

Más de 1,8 millones de profesionales utilizan CFI para aprender contabilidad, análisis financiero, modelado y más. Comience con una cuenta gratuita para explorar más de 20 cursos siempre gratuitos y cientos de plantillas financieras y hojas de trucos.

¿Qué es el bosque aleatorio?

Random Forest es una técnica para modelar predicciones y análisis de comportamiento y se basa en árboles de decisión. Contiene muchos árboles de decisión que representan una instancia única de clasificación de los datos ingresados ​​en el árbol aleatorio. En la técnica del bosque aleatorio, las instancias se consideran individualmente, eligiendo la instancia con la mayoría de votos como predicción seleccionada.

bosque aleatorio
Fig. 1: Técnica de bosque aleatorio (fuente)

Cada árbol de las clasificaciones toma información de muestras del conjunto de datos original. Luego, las características se seleccionan aleatoriamente para usarse en cada nodo a medida que crece el árbol. Cada árbol del bosque sólo debe podarse al final del ejercicio, cuando finalmente se cumpla el pronóstico. De esta manera, la estructura aleatoria permite que todos los clasificadores con correlaciones débiles creen un clasificador fuerte.

Resumen

  • Random Forest es una combinación de árboles de decisión que se pueden modelar para predicción y análisis de comportamiento.
  • El árbol de decisión en un bosque no se puede podar para el muestreo y, por lo tanto, para la selección predictiva.
  • La técnica del bosque aleatorio puede manejar grandes cantidades de datos porque puede trabajar con miles de variables.

Predicciones de modelado

El método de bosque aleatorio permite construir modelos predictivos utilizando árboles de regresión de bosque aleatorio, que normalmente no se podan para proporcionar predicciones significativas. El método de muestreo bootstrap se utiliza para los árboles de regresión que no deben podarse. Los nodos óptimos se seleccionan del número total de nodos en el árbol para formar la característica de partición óptima.

La técnica de muestreo aleatorio utilizada para seleccionar la característica de partición óptima reduce la correlación y, por tanto, la varianza de los árboles de regresión. Mejora la capacidad de predicción de varios árboles en el bosque. El muestreo mediante bootstrap también aumenta la independencia entre árboles individuales.

Significado variable

Las variables (características) son importantes para el bosque aleatorio porque es difícil interpretar los modelos, especialmente desde una perspectiva biológica. El enfoque ingenuo muestra la importancia de las variables asignando importancia a una variable en función de la frecuencia de su inclusión en la muestra en todos los árboles. Esto es fácil de lograr, pero supone un desafío porque las implicaciones para la reducción de costos y la mejora de la precisión son redundantes.

La significación de la permutación es una medida que rastrea la precisión de la predicción cuando las variables se permutan aleatoriamente a partir de muestras listas para usar. El enfoque de la importancia de la permutación funciona mejor que el enfoque ingenuo, pero tiende a ser más costoso.

Dado que el bosque aleatorio no es capaz de interpretar las predicciones lo suficientemente bien desde una perspectiva biológica, la técnica se basa en enfoques ingenuos de impureza media reducida y significado de permutación para brindarles interpretabilidad directa de los desafíos. Los tres enfoques respaldan las variables predictoras de categorías múltiples.

Sin embargo, en el caso de variables predictivas continuas con un número similar de categorías, tanto el enfoque de importancia de la permutación como el de disminución media de impureza no tienen sesgo. La selección de variables a menudo implica sesgos. Para evitar esto se debe realizar un submuestreo sin reemplazo y cuando se utiliza inferencia condicional se debe utilizar la técnica de bosque aleatorio.

Bosques extraños al azar

Los bosques aleatorios sesgados se caracterizan por utilizar divisiones de decisiones sesgadas en los nodos en lugar de divisiones de decisiones tradicionales. Los bosques en pendiente muestran una gran superioridad al exhibir las siguientes características.

En primer lugar, pueden separar distribuciones en los ejes de coordenadas utilizando una única división multivariada, que incluiría las divisiones profundas alineadas con los ejes que tradicionalmente se requieren. En segundo lugar, permiten un menor sesgo en los árboles de decisión para las restricciones presentadas. Las divisiones tradicionales alineadas con ejes requerirían dos niveles más de anidamiento al separar clases similares, mientras que las divisiones oblicuas hacen que su uso sea más fácil y eficiente.

Clasificador de bosque aleatorio

El clasificador de bosque aleatorio es una colección de árboles de predicción. Cada árbol se basa en vectores aleatorios que se muestrean de forma independiente, con una distribución similar a todos los demás árboles del bosque aleatorio.

Originalmente desarrollado para el aprendizaje automático, el clasificador se ha vuelto cada vez más popular en la comunidad de teledetección, donde se utiliza debido a su alta precisión para clasificar imágenes de forma remota. También se logra la velocidad requerida y una parametrización eficiente. El clasificador de bosque aleatorio realiza un muestreo aleatorio donde se selecciona la predicción con la puntuación más alta de todos los árboles.

La individualidad de los árboles es importante durante todo el proceso. La individualidad de cada árbol está garantizada por las siguientes características. Primero, cada árbol de entrenamiento en la muestra utiliza subconjuntos aleatorios de las muestras de entrenamiento iniciales. En segundo lugar, la división óptima se selecciona de las características seleccionadas aleatoriamente de los nodos del árbol no podados. Tercero: Todo árbol crece indefinidamente y bajo ninguna circunstancia debe ser podado.

Ventajas de los bosques aleatorios

Los bosques aleatorios representan estimaciones de la importancia de las variables, p. B. redes neuronales. También proporcionan un método superior para trabajar con datos faltantes. Los valores faltantes se reemplazan con la variable que aparece con más frecuencia en un nodo en particular. De todos los métodos de clasificación disponibles, los bosques aleatorios ofrecen la mayor precisión.

La técnica del bosque aleatorio también puede manejar grandes cantidades de datos con numerosas variables, que se cuentan por miles. Puede equilibrar registros automáticamente cuando una clase aparece con menos frecuencia que otras clases en los datos. El método también procesa variables rápidamente, lo que lo hace adecuado para tareas complicadas.

Más recursos

Gracias por leer la guía de Finanzas sobre Random Forest. Para continuar aprendiendo y desarrollando su base de conocimientos, explore los siguientes recursos CFI relevantes adicionales:

Error 403 The request cannot be completed because you have exceeded your quota. : quotaExceeded

Deja un comentario

¡Contenido premium bloqueado!

Desbloquear Contenido
close-link