17  Fundamentos De Riesgo Crediticio Y ML

Base conceptual que el capítulo CRPTO original daba por conocida: PD, calibración, métricas y modelos tabulares.

Este capítulo es un dossier curado desde secciones previas del libro original que CRPTO reutilizaba implícitamente. Los bloques de código se conservan como referencia estática para evitar que el render del libro dependa de ejecuciones exploratorias no necesarias.

17.1 Fuente curada: book/chapters/02-glossary/02a-credit-risk-fundamentals.qmd

17.2 Fundamentos de Riesgo Crediticio

17.2.1 Probabilidad de Default (PD)

La Probabilidad de Default (PD) es la probabilidad estimada de que un deudor no cumpla con sus obligaciones de pago dentro de un horizonte de tiempo definido. En el marco de Basilea y IFRS9, la PD es el primer componente del cálculo de pérdida esperada.

NotaPD a 12 meses vs PD de por vida
  • PD a 12 meses (PD₁₂): Probabilidad de default dentro de los próximos 12 meses. Se usa para préstamos en Stage 1 bajo IFRS9.
  • PD de por vida (PD_lifetime): Probabilidad de default durante toda la vida restante del préstamo. Se usa para préstamos en Stage 2. Se estima típicamente con modelos de supervivencia (Cox PH, Random Survival Forest).

En este proyecto, el modelo PD se entrena como un clasificador binario (default/no-default) sobre datos de Lending Club resueltos. La salida es una probabilidad continua en [0, 1] que se calibra para reflejar frecuencias reales de default.

17.2.2 Loss Given Default (LGD)

La Pérdida dado el Default (LGD) mide la fracción del saldo expuesto que no se recupera cuando un préstamo entra en default. Se calcula como:

\[ \text{LGD} = 1 - \text{Tasa de Recuperación} = 1 - \frac{\text{Monto Recuperado}}{\text{Exposición al Default}} \]

Valores típicos de LGD varían entre 20% y 80% según el tipo de producto, la presencia de colateral y la efectividad de los procesos de cobranza. En Lending Club, los préstamos son no garantizados, lo que resulta en LGD relativamente altas.

17.2.3 Exposure at Default (EAD)

La Exposición al Default (EAD) es el monto total que el prestamista tiene en riesgo en el momento del default. Para préstamos a plazo fijo (como Lending Club), la EAD es el saldo pendiente del principal más intereses acumulados. Para líneas de crédito revolventes, la EAD incluye estimaciones de utilización futura (Credit Conversion Factor, CCF).

17.2.4 Expected Credit Loss (ECL)

La Pérdida Crediticia Esperada (ECL) es el producto de los tres componentes anteriores, descontado al valor presente:

\[ \text{ECL} = \text{PD} \times \text{LGD} \times \text{EAD} \times \text{Factor de Descuento} \]

Este es el cálculo central de IFRS9 y determina las provisiones que un banco debe reservar para cubrir pérdidas anticipadas.

17.2.5 IFRS9 y el Modelo de Tres Stages

IFRS9 (International Financial Reporting Standard 9) es la norma contable internacional que rige la clasificación y medición de instrumentos financieros. Su modelo de deterioro se basa en tres stages:

Modelo de deterioro de tres stages de IFRS9
Stage Condición PD Utilizada Provisión
Stage 1 Sin deterioro significativo PD a 12 meses ECL a 12 meses
Stage 2 Incremento significativo de riesgo (SICR) PD de por vida ECL de por vida
Stage 3 Default confirmado (≥90 DPD) PD ≈ 1.0 ECL total

17.2.6 Incremento Significativo de Riesgo Crediticio (SICR)

El SICR (Significant Increase in Credit Risk) es el trigger que mueve un préstamo de Stage 1 a Stage 2. IFRS9 no prescribe un método único para detectarlo — cada institución define sus propios criterios. Criterios comunes incluyen:

  • Incremento absoluto o relativo de PD respecto a la originación
  • Días de mora (30+ DPD como backstop)
  • Downgrade de calificación interna
TipInnovación del proyecto

En este proyecto proponemos usar el ancho del intervalo conformal como señal adicional de SICR. Un intervalo más ancho indica mayor incertidumbre sobre la PD, lo que puede señalar deterioro antes de que se refleje en el punto estimado. Esta es una contribución original — no existen papers previos que usen el ancho conformal como trigger SICR.

17.2.7 Basilea III y Capital Regulatorio

El marco de Basilea III establece requerimientos mínimos de capital que los bancos deben mantener para absorber pérdidas inesperadas. Los tres pilares relevantes son:

  1. Pilar 1 — Capital mínimo: Fórmulas regulatorias basadas en PD, LGD y EAD para calcular activos ponderados por riesgo (RWA).
  2. Pilar 2 — Supervisión: Evaluaciones internas de adecuación de capital (ICAAP), incluyendo tests de estrés.
  3. Pilar 3 — Transparencia: Divulgación pública de métricas de riesgo y modelos utilizados.

17.2.8 Grados de Riesgo (Credit Grades)

En Lending Club, los préstamos se clasifican en grados de A (menor riesgo) a G (mayor riesgo), basados en la evaluación crediticia del solicitante al momento de la originación. Estos grados determinan la tasa de interés y se utilizan en este proyecto como variable de partición Mondrian para predicción conformal condicional.

Grados de riesgo de Lending Club (valores aproximados del dataset)
Grado Tasa de Default Típica Tasa de Interés Típica
A ~5–8% ~6–8%
B ~10–14% ~10–12%
C ~15–20% ~13–16%
D ~20–28% ~17–21%
E ~28–35% ~22–26%
F ~35–45% ~26–30%
G ~45–55% ~30–31%

17.3 Fuente curada: book/chapters/02-glossary/02b-ml-statistics-foundations.qmd

17.4 Fundamentos de ML y Estadística

17.4.1 Métricas de Discriminación

Las métricas de discriminación evalúan qué tan bien un modelo separa defaults de no-defaults.

AUC-ROC (Area Under the Receiver Operating Characteristic Curve): Mide la probabilidad de que el modelo asigne un score más alto a un default positivo seleccionado al azar que a un negativo seleccionado al azar. Rango: 0.5 (aleatorio) a 1.0 (perfecto). En credit scoring, AUC > 0.70 se considera aceptable para producción.

Gini: Transformación lineal del AUC: \(\text{Gini} = 2 \times \text{AUC} - 1\). Rango: 0 (aleatorio) a 1 (perfecto). Es la métrica más utilizada en la industria bancaria europea.

KS (Kolmogorov-Smirnov): Máxima distancia vertical entre las distribuciones acumuladas de los scores de defaults y no-defaults. Indica el punto de máxima separación entre las dos poblaciones.

PR-AUC (Area Under the Precision-Recall Curve): Especialmente relevante para datasets desbalanceados. En Lending Club, con ~20% de default rate, PR-AUC complementa al AUC-ROC capturando el rendimiento sobre la clase minoritaria (o mayoritaria en riesgo).

En credit scoring, estas métricas de discriminación tienen umbrales prácticos que conviene conocer. Un AUC de 0.70 se considera el mínimo aceptable para un modelo de producción en retail banking; por debajo de eso, el modelo no separa suficientemente bien a los buenos y malos prestatarios para justificar decisiones automatizadas. Un AUC de 0.75-0.80 es típico para modelos bien calibrados con datos ricos (incluidos datos de buró), y valores por encima de 0.85 suelen indicar leakage o variables no disponibles en producción. El Gini amplifica las diferencias: un modelo con AUC 0.70 tiene Gini 0.40, mientras que uno con AUC 0.75 tiene Gini 0.50 — una ganancia de 5 puntos de AUC se traduce en 10 puntos de Gini, lo que facilita la comunicación con comités de riesgo acostumbrados a la escala Gini. Pero ni AUC ni Gini dicen nada sobre calibración: un modelo que ordena perfectamente puede asignar PD=0.50 a un grupo donde solo el 5% defaultea, lo cual destruye cualquier cálculo de provisiones.

17.4.2 Métricas de Calibración

La calibración mide si las probabilidades predichas reflejan las frecuencias reales de default. Un modelo puede tener excelente discriminación (AUC alto) pero mala calibración.

Brier Score: Error cuadrático medio entre las probabilidades predichas y los outcomes binarios:

\[ \text{Brier} = \frac{1}{n} \sum_{i=1}^{n} (\hat{p}_i - y_i)^2 \]

Rango: 0 (perfecto) a 1 (peor caso). Para un dataset con 20% default rate, un modelo naive que predice 0.20 para todos obtiene Brier ≈ 0.16.

ECE (Expected Calibration Error): Promedio ponderado de la diferencia absoluta entre la confianza predicha y la precisión observada, calculada por bins:

\[ \text{ECE} = \sum_{b=1}^{B} \frac{|B_b|}{n} \left| \text{acc}(B_b) - \text{conf}(B_b) \right| \]

Un ECE < 0.01 indica calibración excelente. Nuestro modelo calibrado con Venn-Abers logra ECE = 0.006.

D² Brier: Análogo al R² para el Brier Score, mide la mejora relativa del modelo sobre un predictor naive (frecuencia marginal).

17.4.3 Gradient Boosting y CatBoost

Gradient Boosting es un ensemble de árboles de decisión entrenados secuencialmente, donde cada árbol corrige los errores del anterior. La predicción final es la suma ponderada de todas las predicciones individuales.

CatBoost (Categorical Boosting) es una implementación de gradient boosting desarrollada por Yandex con tres ventajas clave para credit scoring:

  1. Manejo nativo de categorías: No requiere one-hot encoding ni WOE manual para variables categóricas — aplica target encoding con regularización ordered boosting.
  2. Manejo nativo de valores faltantes: Trata NaN como un valor informativo, asignándolo a la rama óptima de cada split.
  3. Ordered boosting: Reduce el overfitting al usar subconjuntos de datos históricos para calcular los target statistics de cada observación.
Nota¿Por qué CatBoost y no XGBoost o LightGBM?

En credit scoring con datos tabulares, CatBoost ofrece: (1) mejor calibración out-of-the-box gracias al ordered boosting, (2) manejo transparente de categorías sin preprocesamiento manual, y (3) menor sensibilidad a hiperparámetros. Estudios comparativos recientes en credit scoring (Ayari et al., 2026; Lessmann et al., 2015) confirman que los tres frameworks logran AUC comparable, pero CatBoost simplifica el pipeline de features y reduce el riesgo de data leakage por target encoding incorrecto.

17.4.4 Optimización de Hiperparámetros (HPO)

Optuna es un framework de optimización de hiperparámetros basado en Tree-structured Parzen Estimator (TPE). A diferencia de grid search o random search, TPE modela la distribución de hiperparámetros condicional a su rendimiento y muestrea nuevos candidatos de las regiones más prometedoras.

En este proyecto, Optuna ejecuta 320 trials para el espacio de CatBoost, optimizando profundidad, learning rate, regularización L2, bagging temperature y otros hiperparámetros. La métrica objetivo es AUC validado sobre el split temporal de validación.

17.4.5 Calibración de Probabilidades

Un modelo de clasificación produce scores que no necesariamente son probabilidades bien calibradas. Los métodos de calibración post-hoc transforman los scores en probabilidades:

  • Platt Scaling: Ajusta una regresión logística sobre los scores del modelo para producir probabilidades calibradas. Supone una relación sigmoide entre score y probabilidad.
  • Isotonic Regression: Ajuste no paramétrico monótono. Más flexible que Platt pero propenso a overfitting con pocas muestras.
  • Venn-Abers: Produce intervalos de probabilidad con garantías de validez multiprobabilística. Es el método más conservador y el seleccionado en este proyecto por su robustez temporal.

17.4.6 Weight of Evidence (WOE) e Information Value (IV)

WOE (Weight of Evidence) transforma variables categóricas o numéricas binneadas en una escala que refleja su poder predictivo:

\[ \text{WOE}_i = \ln \left( \frac{\% \text{ no-defaults en bin } i}{\% \text{ defaults en bin } i} \right) \]

IV (Information Value) mide el poder predictivo total de una variable:

\[ \text{IV} = \sum_{i=1}^{k} (\% \text{ no-defaults}_i - \% \text{ defaults}_i) \times \text{WOE}_i \]

Interpretación del Information Value
IV Poder predictivo
< 0.02 No útil
0.02 – 0.10 Débil
0.10 – 0.30 Medio
0.30 – 0.50 Fuerte
> 0.50 Sospechosamente fuerte (posible leakage)