clase03a.utf8

background-image: url(img/portada-flacso.png)
background-size: cover
class: animated slideInRight fadeOutLeft, middle

# Machine Learning en Aplicaciones Espaciales

### Clase 3a. Ensembles. Boosting

---

## Boosting

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[

### En boosting tenemos una creación secuencial de modelos, y se trata de reducir el sesgo del estimador combinando estos modelos. El foco se va a poner en los modelos que tienen una performance pobre.

### ¿Por qué?

### Porque vamos a ponderar esos errores para no cometerlos a futuro.

]

---

## Comparación con bagging

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[

Recordemos que en bagging vamos a construir modelos de manera independiente, y luego hacer un promedio de esas predicciones. La combinación de modelos suele ser mas potente que un algoritmo que el estimador base por separado.

]

---

# Flavours de boosting

* **Adaboost**: es el primer algoritmo de Boosting y como **algoritmo base utiliza "decision stumps"**, o árboles de decisión simples que constan de un nodo y dos raíces. Solo opera mediante iteraciones y ponderaciones.

* **Gradient Boosting**: es una generalización de boosting para funciones de pérdida diferenciables. Es  un procedimiento preciso y efectivo que se puede usar para regresión y clasificación.

* **XGBoost**: a diferencia del anterior incluye tratamiento nativo de nulls, y además, soporta paralelización. Esto significa que paraleliza la construcción de cada árbol, guardandolos en bloques de memoria pre-ordenados y los reutiliza. Se paraleliza el split-finding.

---

## AdaBoost

## =

## Adaptive Boosting

---

## Adaboost

**Boosting para clasificación**

---

## Adaboost

**Boosting para regresión**

---

## Veamos como sucede esto

## Paso a paso

---

### Vamos a crear árboles de decisión a partir de estos datos

---

#### Vamos a asignar un peso a cada muestra

**Ese peso (weight) es 1/n, en este caso, 1/8**

---

## Decision stumps

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[

Un **decision stump** es un árbol de decisión de 1 nodo raíz y 2 nodos hijos. Es un árbol de decisión muy simple. En el caso de tener una variable continua, en el nodo raíz tenemos un threshold, como en este caso.

]

## 1er árbol de decisión

Primera variable: dolor de pecho

---

## 1er árbol de decisión

Segunda rama del árbol

---

## 2do árbol de decisión

Operamos con la segunda variable

---

## 3er árbol de decisión

Operamos con la tercer variable
<img src="img/ada6.png" width="100%" style="display: block; margin: auto;" />

---

## Tenemos 3 árboles de decisión

## ¿Cuál va a ser el primer árbol a considerar?

---

## Calculemos el índice de Gini para nuestros árboles

---

## Veamos las importancias que debemos asignar

---

## ¿Cómo interpretar este gráfico?

---

## Primer árbol de decisión

---

## Vamos a recalcular los weights

---

## Cuando hay un error

---

## Cuando hay un acierto

---

## Tenemos los nuevos weights

---

## Normalizamos los weights

---

## ¿Cómo van a influir

## estos nuevos weights?

---

---

## Si tuviese un mayor weight,

## esa muestra va a repetirse varias veces

## en el nuevo dataset

---

## Retomando...

---

## Adaboost (pasos)

1. Asignamos los pesos (1/n) a cada muestra.

2. Creamos decision stumps para cada variable del dataset.

3. Calculammos el índice de Gini.

4. Según el error se calcula el Amount of Say.

5. Recalculamos los pesos.

6. Se repite el proceso.

7. Se suman todas las predicciones de todos los decision stumps.

---

## Finalmente...

---

## Algoritmo de Adaboost

---

## Gradient Boosting Machines

---

## Gradient Boosting

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[
* Al igual que AdaBoost es un algoritmo secuencial, y tiene en cuenta el error de los antiguos predictores.

]

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[

* A diferencia de AdaBoost:
1. utilizamos árboles de decisión, pero no necesariamente, decision stumps.

2. No computamos los pesos en cada iteración, sino que se optimiza una función de pérdida diferenciable (loss function), por ejemplo, MSE para regresión.

3. Para un ejemplo de regresión, el nodo raíz, va a ser la media (average) de esa variable que intentamos predecir.

]

---

## Veamos paso a paso

---

## Vamos a predecir el *peso* a partir de estas variables

**Estamos ante un caso de regresión**
<img src="img/gbm1.png" width="90%" style="display: block; margin: auto;" />

---

## Calculamos la media de esa variable

---

**A esa media le restamos el valor original de la variable**

Decimos pseudo-residuales porque los residuales son un concepto de regresión lineal.

---

## Primer árbol de decisión

Uso los residuales en vez del valor verdadero

---

**Los valores que estan en la misma rama, los promediamos**

---

**Si a la media aritmética de todas las muestras, le sumo el valor del residual, vemos q coincide con el valor verdadero**

---

## Vamos a introducir el concepto de

## tasa de aprendizaje

---

## Tasa de aprendizaje

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[

**Importante: definir una tasa de aprendizaje óptima, ya que si ese valor es muy grande: el algoritmo no converge, pero si es muy pequeño: vamos a necesitar muchos pasos o épocas para la convergencia**

]

---

**Agregamos la tasa de aprendizaje a nuestro modelo**

En este caso, definimos, una tasa de aprendizaje igual a 0.1.

---

## Recordemos

**En el contexto de una regresión lineal, siempre intentamos disminuir los residuales ya que eso implica disminuir el error en la predicción**

---

## Finalmente...

**Los residuales han disminuido**
<img src="img/gbm8.png" width="100%" style="display: block; margin: auto;" />

---

**Graficamente se ve así**

---

## Learning rate y número de árboles

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[

**Cuanto más pequeño sea el learning rate del algoritmo, más árboles (n_estimators) vamos a necesitar para lograr resultados óptimos**

]

---

## Algoritmo Gradient Boosting

*Está definido para clasificación*
<img src="img/gradient-boosting-algo.png" width="100%" style="display: block; margin: auto;" />

---

## XGBoost

## =

## eXtreme Gradient Boosting

---

## XGBoost

.bg-near-white.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt2[

* Presentado originalmente por T.Chen & C.Guestrin (2016). XGBoost: A Scalable Tree Boosting System

* Implementación escalable de GBM.

* Árboles de decisión basados en CART.

* Regularización para penalizar la complejidad de los árboles.

* Derivadas de segundo orden para optimizar la función objetivo.

* Opciones para hacer sampling de columnas y filas (similar a Random Forest).

]

---

## XGBoost

**¿Qué nos ofrece XGBoost a diferencia de GBM?**

.footnote[*https://towardsdatascience.com/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d*]

---

## Optimizaciones que implementa XGBoost

## https://www.youtube.com/watch?v=oRrKeUCEbq8&t=112s

---

## XGBoost

## Paso a paso

---

**Supongamos que nos interesa predecir la efectividad de una droga a partir de la dosis aplicada**

---

### Vamos a calcular la predicción por default

---

### Calculamos los residuales para cada predicción

---

## Similarity Score

---

### Fijamos en cero la regularización

---

---

---

---

---

---

## Este árbol lo creamos con un threshold < 15

## Pero ese thresold podemos modificarlo

---

## Threshold < 22.5

---

---

## Threshold < 30

---

## Recien tenemos el nodo raíz de nuestro árbol

---

## Rama con Dosage < 22.5

---

## Rama con Dosage < 30

---

## ¿Cómo actua el gamma?

---

---

## Resumen

---
### De árboles de decisión a XGBoost

.footnote[Fuente: *https://towardsdatascience.com/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d*]

---

## Tunning XGBoost en R

---

# Manos en R 🙌

---

## Bibliografía

* Sebastian Raschka. 
https://www.youtube.com/watch?v=zblsrxc7XpM

* Stochastic Gradient Boosting (paper) https://statweb.stanford.edu/~jhf/ftp/stobst.pdf

* XGBoost: A Scalable Tree Boosting System (paper) https://arxiv.org/pdf/1603.02754.pdf

* Videos de StatQuest

* AdaBoost: https://www.youtube.com/watch?v=LsK-xG1cLYA

* Gradient Boosting (Parte 1): https://www.youtube.com/watch?v=3CC4N4z3GJc&t=260s

* XGBoost (Parte 1): https://www.youtube.com/watch?v=OtD8wVaFm6E&t=954s

---