4  Metodología

El experimento se construye sobre el pipeline canónico vigente del proyecto: la base predictiva sigue anclada al champion monotónico confirmado canonical-monotonic-confirmatory-adsfcr-2026-03-30-1129, mientras que la policy oficial del CRPTO queda promovida desde el cierre bound-aware como paper-thesis-final-economic-2026-04-06. La metodología reutiliza artefactos productivos del proyecto para evitar una bifurcación artificial entre “demo académica” y sistema real, pero añade una capa final paper-facing donde el champion de portafolio se unifica con el economic champion, dejando al punto theorem-tight como comparador documentado y no como policy oficial.

4.0.1 Datos y split

La evaluación usa el universo OOT del proyecto sobre Lending Club, con partición temporal fija y trazabilidad a data/processed/pipeline_summary.json y data/processed/model_comparison.json.

Tabla 4.1: Base predictiva del experimento
Componente Valor
Modelo base CatBoost calibrado
Método de calibración Venn-Abers (MAPIE 1.3 nativo, ver Sección 4.0.1.2)
AUC OOT 0.7124
HPO refinamiento local sobre challenger monotónico

Top features y rol de WOE/OptBinning

El champion CatBoost del paper utiliza 42 features con cuatro restricciones monotónicas (installment:+1, annual_inc:-1, dti:+1, loan_to_income:+1). El top-5 de features por importancia global, leído del pipeline canónico, es:

NotaPor qué WOE+OptBinning estabiliza inputs para conformal Mondrian

CatBoost soporta features categóricas nativamente, así que el champion usa los valores crudos sin pre-binning. Sin embargo, el pipeline pre-conformal del proyecto computa WOE/IV mediante OptBinning para tres propósitos auditables:

  1. Diagnóstico monotónico. Los IV scores y los binarios de WOE permiten verificar que cada feature monotónica del champion respeta la dirección regulatoria (mayor dti → mayor PD, etc.) sin ambigüedad de modelo.
  2. Estabilidad por grupo conformal. Los grupos Mondrian del winner (score_decile_mondrian) se construyen sobre el score calibrado, no sobre features crudas. Pero la calibración Venn-Abers del score depende de que la transformación PD → score sea monotónica y bien comportada, y eso se verifica con los binarios WOE: si las celdas de WOE son monótonas y los IV están dentro del rango estable, la calibración inductiva es bien-definida.
  3. Interpretabilidad regulatoria. Para el comité de riesgo y el reporte MRM (Sección 13.1), los WOE bins de cada feature top dan una explicación (rango → riesgo) que un revisor puede inspeccionar directamente, mientras que la importancia CatBoost cruda es opaca.

Las tablas WOE/IV detalladas viven en notebooks/02_feature_engineering.ipynb y los chapters 05a-05c del libro principal.

Calibración Venn-Abers: por qué se eligió frente a Platt, Isotonic y Beta

El proyecto evalúa cuatro candidatos de calibración (Platt, Isotonic, Venn-Abers, Beta) con una política de selección multi-métrica temporal sobre el calibration fold (ver data/processed/model_comparison.json::calibration_selection_report). El winner promovido es Venn-Abers y la elección no es arbitraria — responde a tres criterios que importan específicamente para CRPTO:

  1. Compatibilidad con la garantía conformal. Venn-Abers produce intervalos calibrados con validez finita inductiva: para cada predicción, devuelve un par \((p_0, p_1)\) tal que la probabilidad verdadera está sandwich-bounded entre ambos. Esa propiedad finita-sample es estructuralmente compatible con la garantía conformal del intervalo aguas abajo (no requiere supuestos distribucionales adicionales). Platt e Isotonic dan estimaciones puntuales sin esa garantía finita.
  2. Estabilidad en folds temporales. La política de selección evalúa cada candidato en 4 folds expansivos (47K → 190K muestras de fit, 47K de eval) y reporta:
    • mean_brier, mean_log_loss, mean_ece (calidad probabilística agregada),
    • auc_drop por fold (compromiso de discriminación),
    • degradation_rate y brier_variance (estabilidad). Venn-Abers tiene la menor mean_log_loss de los tres factibles (0.4887) y la varianza de Brier más baja, lo que lo hace el candidato más estable bajo refit incremental.
  3. Drop de AUC negligible. Venn-Abers introduce un mean_auc_drop de 0.000164 (∼0.02%), muy por debajo del auc_drop_limit de 0.0015. Esto significa que la calibración no sacrifica discriminación útil para ganar fidelidad probabilística. Platt no introduce drop (es transformación monotónica), pero su Brier mean (0.15959) es muy similar al de Venn-Abers (0.15957) — la diferencia decisiva es la garantía finita.
TipLectura editorial

Venn-Abers no gana porque sea “el más sofisticado”. Gana porque, para una capa conformal aguas abajo, la calibración ideal es la que no contradice la garantía finita y al mismo tiempo produce ECE en el rango clínico aceptable. Las otras tres alternativas son válidas como métodos de calibración estándar, pero introducen una asimetría conceptual con la capa siguiente: el conformal hereda intercambiabilidad finita; Venn-Abers también; Platt/Isotonic/Beta heredan supuestos paramétricos o asintóticos que la garantía conformal no necesita.

El ECE final del champion (0.0064) es 10× mejor que el del modelo sin calibrar (~0.07 estimado), confirmando que el resultado operacional no es accidental — la calibración sí mejora la fidelidad probabilística por bin, no sólo el rechazo formal de tests con \(n\) grande (ver tbl-crpto-calibration-tests).

La secuencia de promoción importa metodológicamente. El proyecto no saltó directo de un score PD a una policy robusta final. La historia real fue:

  1. búsqueda monotónica y promoción confirmatoria: impuso coherencia económica estructural al score, alineó el comportamiento local con priors regulatorios y dejó una auditoría monotónica formal en PASS, sin disrupciones ni violaciones sobre las features restringidas;
  2. refinamiento local / HPO sobre el carril monotónico: no produjo una ganancia dramática en AUC, pero sí consolidó la elección de CatBoost monotónico + Venn-Abers como stack probabilístico correcto para downstream;
  3. reapertura conformal: reemplazó una capa de incertidumbre demasiado conservadora por un conformal winner más eficiente y promotable;
  4. portfolio bound-aware: convirtió la pregunta de “cobertura suficiente” en la pregunta correcta para el paper: qué policy alinea mejor el teorema con el funded set real.

Este orden es importante para la defensa de tesis y para la lectura regulatoria. La mejora principal del pipeline no es una pequeña subida de discriminación, sino una cadena más fuerte de coherencia económica -> fidelidad probabilística -> incertidumbre usable -> decisión defendible.

4.0.2 Jerarquía de artefactos canónicos

Para evitar mezclar resultados de familias experimentales incompatibles, este capítulo usa una jerarquía explícita de fuentes:

  • policy y región robusta del CRPTO: models/final_project_promotion.json, models/champion_portfolio_policy.json, data/processed/final_project_summary.parquet y el bound eval data/processed/portfolio_bound_aware/rank1_alpha01_bound_aware_276k_full_2026-04-05-1734/portfolio_bound_aware_bound_eval.parquet;
  • winner conformal: models/final_project_promotion.json, campo conformal_upstream.winner_metrics;
  • PD operativo vigente: data/processed/pipeline_summary.json y reports/dvc/metrics_summary.json;
  • histórico: reports/run_comparisons/*, reports/mlruns/* y models/search_pd/*, siempre comparados solo dentro de su familia compatible.

Las tablas de reports/crpto/tables/* se regeneran con scripts/export_crpto_tables.py desde esta jerarquía. Si se vuelven a ejecutar runs antiguos, la regla editorial se mantiene: cualquier tabla paper-facing debe heredar primero de models/final_project_promotion.json.

4.0.3 Capa P1 de evidencia journal

La versión del libro conserva más detalle que el futuro manuscrito porque aquí queremos que cada claim tenga una ruta de auditoría. La capa P1 no cambia el champion y no reabre la búsqueda; endurece el cierre actual con evidencia adicional alrededor de la policy congelada.

Tabla 4.2: Mapa metodológico de evidencia CRPTO para el CRPTO
Evidencia P1 Artefacto Qué responde Cómo leerla
Progresión post-selección crpto_tableA3_nested_holdout.csv ¿El 276K final coincide con la cadena 5K -> 25K -> full OOT? confirma que el economic champion no salió de una tabla aislada
Holdout temporal estricto crpto_tableA9_strict_temporal_holdout.csv ¿La policy congelada sobrevive a slices temporales sin solapamiento? confirma robustez temporal sin afirmar selección prospectiva completa
Funded-set loan export crpto_tableA7_funded_set_loans.csv ¿Qué préstamos exactos financia el champion? permite inspección loan-level y composición real del riesgo
Composición funded set crpto_tableA8_funded_set_composition.csv ¿Algún periodo/grade domina el retorno? resume concentración, default ponderado y contribución a V
Selector decision-aware crpto_tableA5_decision_aware_selector.csv ¿El conformal winner sigue siendo razonable al mirar decisión? rank 1 gana por gate conjunto, no solo por cobertura global
Exact eval finalists crpto_tableA10_conformal_finalist_exact_bound_eval.csv ¿Ranks 2/3 fueron evaluados con bound exacto? pasan portfolio exacto, pero fallan cobertura mínima de grupo
Shift sintético crpto_tableA6_synthetic_shift.csv ¿La cobertura aguanta reponderaciones OOT? primer stress de covariate shift
Shift endurecido crpto_tableA11_enhanced_synthetic_shift.csv ¿La cobertura aguanta flips adversariales de defaults? stress más duro, todavía no external validation
Tightening condicional docs/research/crpto_conditional_tightening_appendix_2026-05-04.md ¿Cuándo se pueden usar Hoeffding/Bernstein? solo bajo independencia adicional; Markov sigue siendo principal

El punto práctico es que las tablas A7–A11 convierten preguntas de reviewer en artefactos. Si alguien pregunta por post-selección, composición del funded set, ranks conformales alternativos o sensibilidad ante shift, el libro ya tiene una respuesta reproducible. El paper final probablemente no incluya todas estas tablas en el cuerpo principal, pero sí puede moverlas a appendix o usar sus resultados para fortalecer la narrativa.

4.0.4 Estado decision-aware del diseño actual

El pipeline actual ya es decision-aware en la capa de portafolio, pero todavia no en toda la cadena conformal. Esta distincion evita sobreprometer y, al mismo tiempo, deja claro donde esta la contribucion real:

Tabla 4.3: Estado decision-aware por capa del pipeline CRPTO
Capa Estado actual Lectura correcta
PD base seleccionada por calidad predictiva, calibracion y gobernanza monotónica upstream regulatorio y probabilistico
Conformal winner seleccionado por cobertura, ancho, cobertura minima de grupo y Winkler uncertainty set eficiente, todavia no entrenado por perdida economica
Bound-aware portfolio seleccionado por retorno dentro de una region que pasa alpha01 exactamente capa decision-aware del paper
Paper/journal futuro seleccionar o entrenar el score conformal por retorno robusto, V, gamma_cp y violacion extension CROMS / end-to-end conformal risk

Esta separacion es importante porque CROMS (Bao et al., 2025), conformal calibration end-to-end (Yeh, Christianson, Wu, et al., 2025) y conformal risk training (Yeh, Christianson, Wierman, et al., 2025) sugieren una version mas integrada del mismo programa. El presente paper no necesita esa extension para sostener su claim actual: la contribucion demostrada es que una capa conformal ya calibrada puede alimentar una policy robusta exacta, auditable y economicamente promotable. La version journal puede cerrar el ciclo completo haciendo que la seleccion conformal sea tambien decision-aware.

4.0.5 Construcción del conjunto de incertidumbre

El diseño del conjunto de incertidumbre es deliberado: no basta con demostrar que los intervalos conformales “cubren”; es necesario mostrar que cubren mejor que las alternativas en las dimensiones que importan para decisión. Por eso el experimento incluye tres capas de comparación con roles distintos:

  • Mondrian conformal como método candidato principal — produce intervalos con garantía por grupo (grade), lo cual es necesario para que la policy robusta no subsidie segmentos de alto riesgo con el excedente de cobertura de los de bajo riesgo;
  • Bootstrap y BMA como baselines de incertidumbre alternativos — representan las opciones que un equipo de riesgo usaría en ausencia de conformal prediction. El bootstrap es la práctica más extendida en la industria; BMA es la alternativa bayesiana más sofisticada. Si Mondrian no domina a ambos, la propuesta pierde justificación práctica;
  • Sweep de \(\alpha\) para trazar la frontera cobertura-ancho-retorno — esto convierte un hiperparámetro estadístico (\(\alpha\)) en una palanca explícita de política económica: el gestor de portafolio elige cuánta protección quiere y el sweep le muestra exactamente cuánto retorno cuesta cada nivel de confianza. En la terminología del marco de decisión secuencial de Powell (2026), este barrido constituye policy search sobre los parámetros \(\theta = (\alpha, \gamma, \tau)\) de una política CFA (véase Sección 3.0.6): evaluamos cada configuración contra el sample path OOT para identificar la política de mayor contribución ajustada por riesgo.

Los artefactos clave son uncertainty_baselines_comparison.parquet, bma_comparison.parquet y alpha_sweep_pareto_both.parquet.

El punto metodológico nuevo es que la reapertura conformal no se evalúa en abstracto. El winner final rank1_score_decile_raw_bins5_mgs100 se promueve precisamente porque deja una prima conformal útil menor, y eso abre la puerta al carril portfolio_bound_aware donde la composición del funded set pasa a ser el determinante final de si el bound exacto cierra o no en \(\alpha = 0.01\).

Dicho de forma más directa: el cuello de botella del punto alpha = 0.01 dejó de ser “buscar intervalos todavía más prudentes” y pasó a ser qué funded set exacto induce la policy. Ese aprendizaje es metodológicamente central porque reubica la mejora donde corresponde: menos tuning conformal ciego y más diseño conjunto entre incertidumbre y decisión.

4.0.6 Política económica evaluada

La política promovida para el cierre final paper/thesis se lee ahora desde el artefacto consolidado models/final_project_promotion.json, no desde la policy económica vieja del champion monotónico:

Esta policy sí es el champion oficial del CRPTO: es el mejor retorno realizado dentro de la región exacta que pasa alpha01 en el cierre 276k, con risk_tolerance = 0.175, policy_mode = blended_uncertainty, gamma = 0.45 y uncertainty_aversion = 0.10. El punto theorem-tight queda como comparador interno para mostrar cuánto se puede reducir weighted_miscoverage_V y gamma_cp sacrificando retorno; no reemplaza al economic champion promovido. El balanced comparator cumple un rol similar: documenta el trade-off dentro de la región robusta, pero la policy oficial es bound_aware_276k_economic_champion.

La lectura económica también cambia. El champion monotónico promovido previamente seguía siendo muy útil como base regulatoria y operativa, pero no estaba alineado con el cierre exacto del bound. El carril bound-aware mueve la pregunta desde “qué policy maximiza retorno robusto en el canónico” hacia “qué policy convierte el teorema en una afirmación empírica realmente defendible sobre el funded set completo”.

4.0.7 Métricas

Las cuatro familias de métricas están diseñadas para responder a las tres preguntas de investigación del paper de forma verificable. No basta con reportar AUC (calidad predictiva) ni cobertura (incertidumbre) por separado: el argumento CRPTO solo se sostiene si la cadena completa — predicción → incertidumbre → decisión → sensibilidad — se evalúa de forma integrada.

  1. Calidad predictiva y calibración de la PD base — verifica que la predicción es confiable antes de entrar al layer conformal. Un modelo mal calibrado produciría intervalos innecesariamente anchos (RQ1);
  2. Cobertura, ancho y cobertura mínima por grupo del intervalo — evalúa la calidad del conjunto de incertidumbre per se. La cobertura mínima por grupo es especialmente crítica porque sin ella, un promedio global cómodo podría esconder fallas en los segmentos de mayor riesgo (RQ2);
  3. Retorno y número de préstamos financiados bajo policy robusta — mide la consecuencia económica de usar incertidumbre en la decisión. Si la policy robusta no financia ningún préstamo, la incertidumbre es informativa pero no accionable (RQ1);
  4. Sensibilidad de decisión al barrido de \(\alpha\) — cuantifica el trade-off entre confianza estadística y flexibilidad económica. Esta frontera es el output más útil para un gestor de portafolio porque convierte \(\alpha\) en una palanca de política directamente interpretable (RQ3).
  5. Métricas exactas del boundweighted_miscoverage_V, gamma_cp, violation y all_bounds_hold en ${0.01, 0.03, 0.05, 0.10}`. Estas métricas ordenan la región robusta y permiten documentar el trade-off entre retorno máximo dentro de la región y tightness adicional del comparador theorem-tight.

4.0.8 Reproducibilidad

La versión del paper en el libro se apoya en artefactos ya generados y en figuras archivadas bajo reports/crpto/figures/. Esto permite separar claramente entre:

  • evidencia ya ejecutada y congelada;
  • extensiones teóricas o experimentales reservadas para la versión journal.

El cierre final añade una segunda capa de reproducibilidad editorial:

  • models/final_project_promotion.json
  • data/processed/final_project_summary.parquet

Estos artefactos consolidan la progresión completa:

canónico monotónico -> conformal-only -> 5k -> 25k -> 276k economic

y evitan que el libro dependa de números pegados a mano desde múltiples runs.