6 Metodología

El experimento se construye sobre el pipeline canónico vigente del proyecto: la base predictiva sigue anclada al champion monotónico confirmado canonical-monotonic-confirmatory-adsfcr-2026-03-30-1129, mientras que la policy oficial del CRPTO queda promovida desde el rebaseline IJDS ijds-rebaseline-2026-06-07. La metodología reutiliza artefactos productivos del proyecto para evitar una bifurcación artificial entre “demo académica” y sistema real, pero añade una capa final paper-facing donde el champion de portafolio se unifica con el economic champion, dejando al punto theorem-tight como comparador documentado y no como policy oficial.

6.0.1 Datos y split

La evaluación usa el universo OOT del proyecto sobre Lending Club, con partición temporal fija y trazabilidad a data/processed/pipeline_summary.json y data/processed/model_comparison.json.

Tabla 6.1: Base predictiva del experimento

Componente	Valor
Modelo base	CatBoost calibrado
Método de calibración	Venn-Abers (MAPIE 1.3 nativo, ver Sección 6.0.1.2)
AUC OOT	0.7139
HPO	Refinamiento local sobre challenger monotónico

Top features y rol de WOE/OptBinning

El champion CatBoost del paper utiliza 42 features con cuatro restricciones monotónicas (installment:+1, annual_inc:-1, dti:+1, loan_to_income:+1). El top-5 de features por importancia global, leído del pipeline canónico, es:

Por qué WOE+OptBinning estabiliza inputs para conformal Mondrian

CatBoost soporta features categóricas nativamente, así que el champion usa los valores crudos sin pre-binning. Sin embargo, el pipeline pre-conformal del proyecto sí computa WOE/IV mediante OptBinning para tres propósitos auditables:

Diagnóstico monotónico. Los IV scores y los binarios de WOE permiten verificar que cada feature monotónica del champion respeta la dirección regulatoria (mayor dti → mayor PD, etc.) sin ambigüedad de modelo.
Estabilidad por grupo conformal. Los grupos Mondrian del winner (score_decile_mondrian) se construyen sobre el score calibrado, no sobre features crudas. Pero la calibración Venn-Abers del score depende de que la transformación PD → score sea monotónica y bien comportada, y eso se verifica con los binarios WOE: si las celdas de WOE son monótonas y los IV están dentro del rango estable, la calibración inductiva es bien-definida.
Interpretabilidad regulatoria. Para el comité de riesgo y el reporte MRM (Sección 16.1), los WOE bins de cada feature top dan una explicación (rango → riesgo) que un revisor puede inspeccionar directamente, mientras que la importancia CatBoost cruda es opaca.

Las tablas WOE/IV detalladas viven en notebooks/02_feature_engineering.ipynb y los chapters 05a-05c del libro principal.

Calibración Venn-Abers: por qué se eligió frente a Platt, Isotonic y Beta

El proyecto evalúa cuatro candidatos de calibración (Platt, Isotonic, Venn-Abers, Beta) con una política de selección multi-métrica temporal sobre el calibration fold (ver data/processed/model_comparison.json::calibration_selection_report). El winner promovido es Venn-Abers y la elección no es arbitraria — responde a tres criterios que importan específicamente para CRPTO:

Compatibilidad con la garantía conformal. El benchmark clásico de calibración de clasificadores (Niculescu-Mizil & Caruana, 2005) estableció que los modelos de boosting sobre árboles —como el CatBoost del champion— producen probabilidades sesgadas que se benefician más de la calibración de la familia isotónica que del escalado paramétrico de Platt; Venn-Abers es la versión multiprobabilidad de esa familia con garantía finita. Para cada predicción devuelve un par $(p_0, p_1)$ tal que la probabilidad verdadera está sandwich-bounded entre ambos. Esa propiedad finita-sample es estructuralmente compatible con la garantía conformal del intervalo aguas abajo (no requiere supuestos distribucionales adicionales). Platt e Isotonic dan estimaciones puntuales sin esa garantía finita.
Estabilidad en folds temporales. La política de selección evalúa cada candidato en 4 folds expansivos (47K → 190K muestras de fit, 47K de eval) y reporta:
- mean_brier, mean_log_loss, mean_ece (calidad probabilística agregada),
- auc_drop por fold (compromiso de discriminación),
- degradation_rate y brier_variance (estabilidad). Venn-Abers tiene la menor mean_log_loss de los tres factibles (0.4887) y la varianza de Brier más baja, lo que lo hace el candidato más estable bajo refit incremental.
Drop de AUC negligible. Venn-Abers introduce un mean_auc_drop de 0.000164 (∼0.02%), muy por debajo del auc_drop_limit de 0.0015. Esto significa que la calibración no sacrifica discriminación útil para ganar fidelidad probabilística. Platt no introduce drop (es transformación monotónica), pero su Brier mean (0.15959) es muy similar al de Venn-Abers (0.15957) — la diferencia decisiva es la garantía finita.

Lectura editorial

Venn-Abers no gana porque sea “el más sofisticado”. Gana porque, para una capa conformal aguas abajo, la calibración ideal es la que no contradice la garantía finita y al mismo tiempo produce ECE en el rango clínico aceptable. Las otras tres alternativas son válidas como métodos de calibración estándar, pero introducen una asimetría conceptual con la capa siguiente: el conformal hereda intercambiabilidad finita; Venn-Abers también; Platt/Isotonic/Beta heredan supuestos paramétricos o asintóticos que la garantía conformal no necesita.

El ECE final del champion (0.0070) es unas 10× mejor que el del modelo sin calibrar (~0.07 estimado), confirmando que el resultado operacional no es accidental — la calibración sí mejora la fidelidad probabilística por bin, no sólo el rechazo formal de tests con $n$ grande (ver tbl-crpto-calibration-tests).

La secuencia de promoción importa metodológicamente. El proyecto no saltó directo de un score PD a una policy robusta final. La historia real fue:

búsqueda monotónica y promoción confirmatoria: impuso coherencia económica estructural al score, alineó el comportamiento local con priors regulatorios y dejó una auditoría monotónica formal en PASS, sin disrupciones ni violaciones sobre las features restringidas;
refinamiento local / HPO sobre el carril monotónico: no produjo una ganancia dramática en AUC, pero sí consolidó la elección de CatBoost monotónico + Venn-Abers como stack probabilístico correcto para downstream;
reapertura conformal: reemplazó una capa de incertidumbre demasiado conservadora por un conformal winner más eficiente y promotable;
portfolio bound-aware: convirtió la pregunta de “cobertura suficiente” en la pregunta correcta para el paper: qué policy alinea mejor el teorema con el funded set real.

Este orden es importante para la defensa de tesis y para la lectura regulatoria. La mejora principal del pipeline no es una pequeña subida de discriminación, sino una cadena más fuerte de coherencia económica -> fidelidad probabilística -> incertidumbre usable -> decisión defendible.

6.0.2 Jerarquía de artefactos canónicos

Para evitar mezclar resultados de familias experimentales incompatibles, este capítulo usa una jerarquía explícita de fuentes:

policy y región robusta del CRPTO: models/final_project_promotion.json, models/champion_portfolio_policy.json, data/processed/final_project_summary.parquet y el bound eval data/processed/portfolio_bound_aware/rank1_alpha01_bound_aware_276k_full_2026-04-05-1734/portfolio_bound_aware_bound_eval.parquet;
winner conformal: models/final_project_promotion.json, campo conformal_upstream.winner_metrics;
PD operativo vigente: data/processed/pipeline_summary.json y reports/dvc/metrics_summary.json;
histórico: reports/run_comparisons/*, reports/mlruns/* y models/search_pd/*, siempre comparados solo dentro de su familia compatible.

Las tablas de reports/crpto/tables/* se regeneran con scripts/export_crpto_tables.py desde esta jerarquía. Si se vuelven a ejecutar runs antiguos, la regla editorial se mantiene: cualquier tabla paper-facing debe heredar primero de models/final_project_promotion.json.

6.0.3 Capa P1 de evidencia journal

La versión del libro conserva más detalle que el futuro manuscrito porque aquí queremos que cada claim tenga una ruta de auditoría. La capa P1 no cambia el champion y no reabre la búsqueda; endurece el cierre actual con evidencia adicional alrededor de la policy congelada.

Tabla 6.2: Mapa metodológico de evidencia CRPTO para el CRPTO

Evidencia P1	Artefacto	Qué responde	Cómo leerla
Progresión post-selección	`crpto_tableA3_nested_holdout.csv`	¿El 276K final coincide con la cadena 5K -> 25K -> full OOT?	Confirma que el economic champion no salió de una tabla aislada
Holdout temporal estricto	`crpto_tableA9_strict_temporal_holdout.csv`	¿La policy congelada sobrevive a slices temporales sin solapamiento?	Confirma robustez temporal sin afirmar selección prospectiva completa
Funded-set loan export	`crpto_tableA7_funded_set_loans.csv`	¿Qué préstamos exactos financia el champion?	Permite inspección loan-level y composición real del riesgo
Composición funded set	`crpto_tableA8_funded_set_composition.csv`	¿Algún periodo/grade domina el retorno?	Resume concentración, default ponderado y contribución a `V`
Selector decision-aware	`crpto_tableA5_decision_aware_selector.csv`	¿El conformal winner sigue siendo razonable al mirar decisión?	Rank 1 gana por gate conjunto, no solo por cobertura global
Exact eval finalists	`crpto_tableA10_conformal_finalist_exact_bound_eval.csv`	¿Ranks 2/3 fueron evaluados con bound exacto?	Pasan portfolio exacto, pero fallan cobertura mínima de grupo
Shift sintético	`crpto_tableA6_synthetic_shift.csv`	¿La cobertura aguanta reponderaciones OOT?	Primer stress de covariate shift
Shift endurecido	`crpto_tableA11_enhanced_synthetic_shift.csv`	¿La cobertura aguanta flips adversariales de defaults?	Stress más duro; ahora complementado por A25–A34 como réplica externa
Tightening condicional	`docs/research/crpto_conditional_tightening_appendix_2026-05-04.md`	¿Cuándo se pueden usar Hoeffding/Bernstein?	Solo bajo independencia adicional; Markov sigue siendo principal
Réplica multidataset	`crpto_tableA25_external_replication_gate.csv`–`crpto_tableA27_freddie_horizon_sensitivity.csv`	¿El método sigue funcionando fuera de Lending Club?	Prosper/Freddie como evidencia económica externa; Home Credit archivado por no tener contrato inversión-retorno

El punto práctico es que las tablas A7–A11 convierten preguntas de reviewer en artefactos. Si alguien pregunta por post-selección, composición del funded set, ranks conformales alternativos o sensibilidad ante shift, el libro ya tiene una respuesta reproducible. El paper final probablemente no incluya todas estas tablas en el cuerpo principal, pero sí puede moverlas a appendix o usar sus resultados para fortalecer la narrativa.

6.0.4 Estado decision-aware del diseño actual

El pipeline actual ya es decision-aware en la capa de portafolio, pero todavía no en toda la cadena conformal. Esta distinción evita sobreprometer y, al mismo tiempo, deja claro donde está la contribución real:

Tabla 6.3: Estado decision-aware por capa del pipeline CRPTO

Capa	Estado actual	Lectura correcta
PD base	Seleccionada por calidad predictiva, calibración y gobernanza monotónica	Upstream regulatorio y probabilístico
Conformal winner	Seleccionado por cobertura, ancho, cobertura mínima de grupo y Winkler	Uncertainty set eficiente, todavía no entrenado por pérdida económica
Bound-aware portfolio	Seleccionado por retorno dentro de una región que pasa `alpha01` exactamente	Capa decision-aware del paper
Paper/journal futuro	Seleccionar o entrenar el score conformal por retorno robusto, `V`, `gamma_cp` y violación	Extensión CROMS / end-to-end conformal risk

Esta separación es importante porque CROMS (Bao et al., 2025), conformal calibration end-to-end (Yeh, Christianson, Wu, et al., 2025) y conformal risk training (Yeh, Christianson, Wierman, et al., 2025) sugieren una versión más integrada del mismo programa. El presente paper no necesita esa extensión para sostener su claim actual: la contribución demostrada es que una capa conformal ya calibrada puede alimentar una policy robusta exacta, auditable y económicamente promotable. La versión journal puede cerrar el ciclo completo haciendo que la selección conformal sea también decision-aware.

6.0.5 Construcción del conjunto de incertidumbre

El diseño del conjunto de incertidumbre es deliberado: no basta con demostrar que los intervalos conformales “cubren”; es necesario mostrar que cubren mejor que las alternativas en las dimensiones que importan para decisión. Por eso el experimento incluye tres capas de comparación con roles distintos:

Mondrian conformal como método candidato principal — produce intervalos con garantía por grupo (grade), lo cual es necesario para que la policy robusta no subsidie segmentos de alto riesgo con el excedente de cobertura de los de bajo riesgo;
Bootstrap y BMA como baselines de incertidumbre alternativos — representan las opciones que un equipo de riesgo usaría en ausencia de conformal prediction. El bootstrap es la práctica más extendida en la industria; BMA es la alternativa bayesiana más sofisticada. Si Mondrian no domina a ambos, la propuesta pierde justificación práctica;
Sweep de $\alpha$ para trazar la frontera cobertura-ancho-retorno — esto convierte un hiperparámetro estadístico ($\alpha$) en una palanca explícita de política económica: el gestor de portafolio elige cuánta protección quiere y el sweep le muestra exactamente cuánto retorno cuesta cada nivel de confianza. En la terminología del marco de decisión secuencial de Powell (2026), este barrido constituye policy search sobre los parámetros $\theta = (\alpha, \gamma, \tau)$ de una política CFA (véase Sección 5.0.6): evaluamos cada configuración contra el sample path OOT para identificar la política de mayor contribución ajustada por riesgo.

Los artefactos clave son uncertainty_baselines_comparison.parquet, bma_comparison.parquet y alpha_sweep_pareto_both.parquet.

El punto metodológico nuevo es que la reapertura conformal no se evalúa en abstracto. El winner final rank1_score_decile_raw_bins5_mgs100 se promueve precisamente porque deja una prima conformal útil menor, y eso abre la puerta al carril portfolio_bound_aware donde la composición del funded set pasa a ser el determinante final de si el bound exacto cierra o no en $\alpha = 0.01$.

Dicho de forma más directa: el cuello de botella del punto alpha = 0.01 dejó de ser “buscar intervalos todavía más prudentes” y pasó a ser qué funded set exacto induce la policy. Ese aprendizaje es metodológicamente central porque reubica la mejora donde corresponde: menos tuning conformal ciego y más diseño conjunto entre incertidumbre y decisión.

6.0.6 Política económica evaluada

La política promovida para el cierre final paper/thesis se lee ahora desde el artefacto consolidado models/final_project_promotion.json, no desde la policy económica vieja del champion monotónico:

Esta policy sí es el champion oficial del CRPTO: es el mejor retorno realizado dentro de la región exacta que pasa alpha01 en el cierre 276k, con risk_tolerance = 0.175, policy_mode = blended_uncertainty, gamma = 0.45 y uncertainty_aversion = 0.10. El punto theorem-tight queda como comparador interno para mostrar cuánto se puede reducir weighted_miscoverage_V y gamma_cp sacrificando retorno; no reemplaza al economic champion promovido. El balanced comparator cumple un rol similar: documenta el trade-off dentro de la región robusta, pero la policy oficial es bound_aware_276k_economic_champion.

La lectura económica también cambia. El champion monotónico promovido previamente seguía siendo muy útil como base regulatoria y operativa, pero no estaba alineado con el cierre exacto del bound. El carril bound-aware mueve la pregunta desde “qué policy maximiza retorno robusto en el canónico” hacia “qué policy convierte el teorema en una afirmación empírica realmente defendible sobre el funded set completo”.

6.0.7 Métricas

Las cuatro familias de métricas están diseñadas para responder a las tres preguntas de investigación del paper de forma verificable. No basta con reportar AUC (calidad predictiva) ni cobertura (incertidumbre) por separado: el argumento CRPTO solo se sostiene si la cadena completa — predicción → incertidumbre → decisión → sensibilidad — se evalúa de forma integrada.

Calidad predictiva y calibración de la PD base — verifica que la predicción es confiable antes de entrar al layer conformal. Un modelo mal calibrado produciría intervalos innecesariamente anchos (RQ1);
Cobertura, ancho y cobertura mínima por grupo del intervalo — evalúa la calidad del conjunto de incertidumbre per se. La cobertura mínima por grupo es especialmente crítica porque sin ella, un promedio global cómodo podría esconder fallas en los segmentos de mayor riesgo (RQ2);
Retorno y número de préstamos financiados bajo policy robusta — mide la consecuencia económica de usar incertidumbre en la decisión. Si la policy robusta no financia ningún préstamo, la incertidumbre es informativa pero no accionable (RQ1);
Sensibilidad de decisión al barrido de $\alpha$ — cuantifica el trade-off entre confianza estadística y flexibilidad económica. Esta frontera es el output más útil para un gestor de portafolio porque convierte $\alpha$ en una palanca de política directamente interpretable (RQ3).
Métricas exactas del bound — weighted_miscoverage_V, gamma_cp, violation y all_bounds_hold en ${0.01, 0.03, 0.05, 0.10}`. Estas métricas ordenan la región robusta y permiten documentar el trade-off entre retorno máximo dentro de la región y tightness adicional del comparador theorem-tight.

6.0.8 Reproducibilidad

La versión del paper en el libro se apoya en artefactos ya generados y en figuras archivadas bajo reports/crpto/figures/. Esto permite separar claramente entre:

evidencia ya ejecutada y congelada;
extensiones teóricas o experimentales reservadas para la versión journal.

El cierre final añade una segunda capa de reproducibilidad editorial:

models/final_project_promotion.json
data/processed/final_project_summary.parquet

Estos artefactos consolidan la progresión completa:

canónico monotónico -> conformal-only -> 5k -> 25k -> 276k economic

y evitan que el libro dependa de números pegados a mano desde múltiples runs.