10 Blueprint del Manuscrito

10.1.1 Venue objetivo

El venue está decidido: el manuscrito se escribe para INFORMS Journal on Data Science (IJDS), cuyo encaje es directo — data science reproducible al servicio de una decisión de crédito — y queda versionado en configs/crpto_publication_targets.yaml y desarrollado en docs/research/crpto_publication_strategy_2026-05-12.md. Lo que IJDS pide ya existe en el proyecto: pipeline reproducible (DVC/DagsHub/MLflow, companion Quarto, cadena PD -> CP -> LP), tablas y figuras regenerables, y una contribución de decisión auditable. El cuerpo activo ya vive en paper/CRPTO_ijds.qmd; el trabajo editorial restante es mantenerlo quirurgico, anonimo y sincronizado con el online supplement.

El borrador vigente se escribe entonces como paper IJDS: cuerpo anonimo, compacto, con evidencia principal suficiente para el revisor y appendix online separado para robustez extendida. Si una revisión interna concluyera que la historia lee más como OR aplicada que como data science, European Journal of Operational Research (EJOR) queda como único pivote de respaldo, sin cambiar champion ni artefactos.

Los esqueletos activos son paper/CRPTO_ijds.qmd y paper/supplement_ijds.qmd. El archivo paper/CRPTO.qmd queda como entrada generica, no como formato final.

10.1.2 Abstract operativo

Un abstract posible, todavía largo para paper, sería:

We study credit portfolio selection when default probabilities are calibrated but decisión uncertainty remains material. We propose Conformal Robust Predict-then-Optimize (CRPTO), a post-hoc auditable framework that maps Mondrian conformal prediction intervals into robust portfolio constraints. On a 276,869-loan out-of-time Lending Club evaluation, the selected pool93 body point earns $184.8K on a $1M budget while passing the declared eight-level alpha grid (V=0.035350, Gamma_CP=0.162616, Gamma_res=0.073584, exact Markov threshold 0.345084, zero realized risk-tolerance excess). The consolidated finite policy-grid frontier contains 50,010 deduplicated semantic policies, with 27,508 all-alpha above-floor policies, showing that the result is not a single-point artifact. The contribution is not higher AUC, but a reproducible bridge from calibrated probabilistic learning to auditable robust credit decisions.

Este abstract ya contiene la diferencia central: el valor está en la decisión robusta verificable, no en otro leaderboard predictivo.

10.1.3 Claims numerados del paper

Tabla 10.1: Claims numerados para transformar el libro en manuscrito.

Claim	Formulación para paper	Estatus	Evidencia primaria
C1	La base PD calibrada es suficientemente estable para alimentar incertidumbre conformal.	Empírico	AUC `0.7139`, Brier `0.1544`, ECE `0.0070`, tests de calibración
C2	La capa conformal Mondrian produce cobertura útil y trazable para decisión.	Empírico-conformal	Coverage 90 `92.97%`, min group coverage `91.90%`, Winkler `1.111`
C3	El intervalo conformal se puede mapear a un conjunto de incertidumbre usado por un LP robusto.	Metodológico	Definiciones `u_i(alpha)`, `Gamma_CP`, policy modes
C4	El bound controla no-cobertura ponderada del funded set bajo supuestos distribution-free.	Teórico	`thm-conformal-feasibility`, Markov, `V <= sqrt(alpha)`
C5	La policy oficial es el punto pool93 body/default, no el endpoint de máximo retorno.	Empírico-editorial	A35/A40, retorno `$184.8K`, umbral Markov `0.345084`, `alpha_grid_pass=8/8`
C6	La frontera finita A35 muestra que el resultado no es un punto aislado.	Empírico	50,010 políticas semánticas; 27,508 all-alpha above-floor policies
C7	La evidencia CRPTO y journal-package muestra robustez adicional sin cambiar la dirección del paper.	Robustez	A3–A36, Figuras 12–25

La secuencia C1–C7 también evita una tentacion peligrosa: contar la historia como si el champion apareciera por magia al final. El paper debe mostrar que el sistema aprendio a mover el cuello de botella desde predicción, hacia incertidumbre, hacia composición del funded set.

10.1.4 Estructura del manuscrito

Tabla 10.2: Skeleton recomendado del paper.

Sección	Papel en el manuscrito	Material fuente
1. Introduction	Gap, pregunta, contribuciones C1–C7	14a, 14f, esta página
2. Related work	CP/CRC/RCPS, RO, Predict-then-Calibrate, DFL/SPO+	14a, 14f, referencias [1]–[17]
3. Method	PD calibrada -> CP Mondrian -> uncertainty set -> LP robusto	14b, 14c
4. Theory	`Gamma_CP`, `V`, Markov, tightening condicional como appendix	14b, appendix condicional
5. Experimental design	Lending Club OOT, artifacts, compatible leaderboards	14c, docs de sincronizacion
6. Results	Champion, región robusta, comparadores, SPO+ y alpha frontier	14d
7. Robustness	nested/temporal holdout, funded set, shift, tail risk, re-opt de cola, multi-distribución/online y réplica externa	14d, 14h, A3–A36
8. Discussion	Limitaciones, governance, future work sin overclaim	14e
Appendix	Pruebas, tablas A3–A36, reproducibility checklist	14b, 14h

10.1.5 Page-budget ledger

IJDS limita el manuscrito inicial a 25 páginas. El ledger fija páginas objetivo por sección y la regla de compresión. Cualquier subsection que no sobreviva esta tabla se mueve al online supplement o a la tesis.

Tabla 10.3: Page-budget ledger del cuerpo IJDS (suma objetivo 25 páginas).

Sección	Páginas objetivo	Regla de compresión
1. Introduction	2.0	Gap, pregunta, contribuciones y preview del resultado.
2. Related Work	3.0	Solo vecinos necesarios: CP/CRC, RO, PtO/DFL, credit governance.
3. Method	5.0	Definiciones, pipeline, LP robusto y notación reutilizable.
4. Theory	3.0	`Gamma_CP`, `V`, bound principal; pruebas largas al supplement.
5. Experimental Design	2.5	Dataset, split OOT, leakage controls y artifacts.
6. Results	5.0	Champion, región robusta, ablation y comparadores.
7. Robustness	1.5	Compacta; el grueso A3–A36 vive en el supplement.
8. Discussion	2.0	Implicaciones, límites, MRM/fairness proxy y futuro.
Buffer editorial	1.0	Títulos, figuras, transiciones y ajustes finales.

10.1.6 Figuras y tablas finales

El libro puede guardar más material que el paper. Para el manuscrito, la selección sugerida es:

Tabla 10.4: Selección de figuras y tablas para el manuscrito.

Elemento	Ubicación probable	Razon	Artefacto
Figura 1: pipeline CRPTO	Cuerpo	Explica el aporte en una sola vista IJDS	`crpto_fig1_journal_pipeline.png`
Figura bound: pila de claim	Teoría	Separa endpoint conformal, identidad determinística, supuesto ponderado y certificado exacto	`crpto_fig20_bound_claim_layers.png`
Figura 2: alpha -> `Gamma_CP` -> funded set	teoría/método	Une parámetro conformal y decisión	`crpto_fig13_alpha_gamma_funded_set.png`
Tablas A35/A40	Resultados	Muestran la frontera finita y el baseline point-PD emparejado	`crpto_tableA35_pool93_ijds_frontier.csv`, `crpto_tableA40_pool93_point_baseline.csv`
Tabla 1: métricas core	Resultados	Fija PD, CP y portfolio sin mezclar familias	`crpto_table0_key_metrics.csv`
Tabla 2: champion y comparadores	Resultados	Economic vs theorem-tight vs balanced	`crpto_table1_champion_policy.csv` y A13
Tabla 3: robustez P1	Apéndice corto	Post-selección, temporal, selector, shift	A3–A11
Tabla 4: robustness journal	Appendix largo	Tail risk, bootstrap, dependencia, LGD/caps, regret-auditability, re-opt de cola, multi-distribución, online y réplica externa	A12–A34

El paper no necesita mostrar todas las tablas en el cuerpo. El cuerpo debe proteger tres mensajes: la metodología, el punto pool93 promovido y la frontera finita A35 y la baseline A40. El appendix puede cargar la evidencia de stress y trazabilidad.

10.1.7 Paquetes del online supplement (A–F)

El online supplement absorbe todo lo que fortalece el paper sin romper el límite de 25 páginas. Se organiza en seis paquetes; paper/supplement_ijds.qmd es la fuente de escritura y el detalle por tabla está en 07-apendice-robustez.qmd y 14-release.qmd.

Tabla 10.5: Paquetes A–F del online supplement IJDS.

Paquete	Contenido	Fuente en el libro
A. Proof details	Teorema Markov y tightening Hoeffding/Bernstein como condicional.	Cap. 02 (`thm-conformal-feasibility`); apéndice condicional.
B. Conformal ablation	Ranks 1–3, `grade` vs `score_decile_mondrian`, coverage por grupo.	Cap. 08 (ablación Mondrian); A10.
C. Robustness A3–A36	Nested/temporal holdouts, synthetic shift, tail diagnostics, bootstrap, dependency, tail-constrained challenger, multi-distribución, online ACI, réplica externa y precio de robustez cross-dataset.	Cap. 07 (apéndice journal) y Capítulo 9.
D. Funded set	Composición periodo × grade y loan-level export resumido.	Cap. 12 (funded set); A7–A8.
E. Fairness/MRM	Proxy audit, controles SR 11-7 y source-governance caveats.	Cap. 10 (fair lending); cap. 11 (MRM).
F. Reproducibility	Claim -> artifact -> script -> test, paths DVC/MLflow y data/code disclosure.	Cap. 13 (trazabilidad); cap. 14 (release).

10.1.8 Mapa claim -> artifact -> test -> paper location

Tabla 10.6: Mapa compacto para escribir y auditar el paper.

Claim	Artifact canónico	Test/guardrail	Donde va
C1	`reports/dvc/metrics_summary.json`, `data/processed/pipeline_summary.json`	Doc guardrails de baseline operacional	Resultados, Tabla 1
C2	`conformal_upstream.winner_metrics`, `alpha_sweep_pareto_mondrian.parquet`	Tests de CRPTO y guardrails conformales	método/resultados
C3	`scripts/run_portfolio_bound_aware_search.py`, `champion_portfolio_policy.json`	Consistency tests de champion	Método
C4	`scripts/validate_alpha_gamma_bound.py`, bound eval `276k`	`test_crpto_champion_artifacts_agree`	Teoría y appendix
C5	`models/final_project_promotion.json`	`test_crpto_champion_artifacts_agree`	Resultados
C6	`portfolio_bound_aware_shortlist.parquet`, A18	Journal package guardrail	resultados/appendix
C7	A3–A36, status P1, journal package y multidataset	P1 evidence + journal package + external replication tests	Robustness

10.1.9 Notacion única

Tabla 10.7: Notacion canónica para evitar drift entre 14b, 14c y 14d.

Simbolo	Significado	Donde se usa	Regla editorial
`Y_i`	Default observado o target acotado evaluado	Bound, exact eval	No llamarlo PD latente sin supuesto adicional
`p_hat_i`	PD puntual calibrada	PD, CP, LP	Viene de CatBoost + Venn-Abers
`u_i(alpha)`	Cota superior conformal	Uncertainty set	Entrada prudente del optimizador
`x_i`	Decisión o fraccion de asignación	LP	Puede ser continua en el solver operativo
`a_i`	Monto del préstamo	Presupuesto	Normaliza exposición
`w_i`	Peso de portafolio financiado	Bound	`w_i = x_i a_i / sum_j x_j a_j`
`tau`	Techo de riesgo ponderado	LP robusto	Se reporta como `risk_tolerance`
`Gamma_CP`	Prima conformal ponderada	teoría/resultados	No mezclar con `gamma` del solver
`gamma`	Parámetro de policy del robust LP	Search de portafolio	Se reporta junto con `risk_tolerance`
`V`	No-cobertura ponderada del funded set	Exact eval	Cantidad principal del bound empírico

La distinción más delicada es Gamma_CP vs gamma. Gamma_CP es una métrica inducida por los intervalos y pesos del funded set; gamma es un parámetro de la policy robusta. En el texto final deben aparecer juntos solo cuando se explique como una policy con cierto gamma genera cierto Gamma_CP.

10.1.10 Related work compacto con referencias numeradas

El related work del paper puede comprimirse en cinco bloques:

Conformal prediction y risk control. La validez finita de CP viene de Vovk et al. [1], de la exposición moderna de Angelopoulos y Bates [2] y de la monografia de fundamentos [18]. RCPS, LTT y CRC amplian el lenguaje hacia control de riesgos definidos por el usuario [3]–[5], con la extensión a pérdidas no monotonas [24]. Los límites de la inferencia condicional [20], la cobertura por grupos [21] y la versión localizada [22] explican por qué solo prometemos cobertura marginal/Mondrian, y la robustez al ruido de etiquetas [23] sostiene los stress de flips.
Robust optimization y conformal RO. Bertsimas y Sim dan el lenguaje del precio de la robustez [6]. Johnstone y Cox [7], la versión contextual [8] y la optimización-satisficing conformal [27] muestran como pasar de sets conformales a decisiones robustas con cobertura calibrada.
Predict-then-calibrate y DFL. Predict-then-Calibrate es el vecino más cercano por su separación post-hoc entre predicción, calibración y LP [9]. SPO+ y Online DFL son comparadores decision-focused que optimizan regret, pero no entregan el mismo tipo de cobertura auditable [15], [16]; la raiz task-based [28] y los regret robustos [29] completan esa familia.
Frontera reciente y medidas de cola. CROMS, end-to-end conformal calibration, conformal risk training, MDCP y online CP vía universal portfolios apuntan a la versión siguiente del proyecto [10]–[14], junto al equilibrio de gradiente online [30]. La re-optimización con cota de cola se apoya en CVaR [25] y OCE [26]. Sirven para reforzar actualidad, no para cambiar el champion actual.
Crédito, fairness y datos. El contexto del caso de uso se ancla en el desempeno y equidad de los scores [31], el rol de datos alternativos en LendingClub [32], el proxy BISG [33] y el marco de fairness de FinRegLab [34].

La lista numerada completa está en docs/research/crpto_editorial_claims_references.qmd. En el paper final, estos números se reemplazan por citas BibTeX normales; en el libro se mantienen porque ayudan a escribir el related work como argumento y no como inventario.

10.1.11 Contribuciones redactadas para introducción

Una versión fuerte y honesta de las contribuciones sería:

Proponemos CRPTO, un framework post-hoc que conecta PD calibrada, intervalos conformales Mondrian y optimización robusta de portafolio.
Derivamos un bound distribution-free sobre no-cobertura ponderada del funded set y separamos explícitamente el tightening condicional de la garantía principal.
Mostramos que el enfoque produce una policy pool93 promovida con retorno $184.8K, V=0.035350, Gamma_CP=0.162616, Gamma_res=0.073584, umbral Markov 0.345084, exceso realizado cero y pass 8/8.
Documentamos una frontera finita consolidada con 50,010 políticas semánticas y 27,508 all-alpha above-floor policies, por lo que el resultado no depende de un único punto elegido después de ver los datos.
Entregamos trazabilidad reproducible desde artefactos DVC/MLflow/DagsHub hasta tablas de paper, funded set loan-level y guardrails documentales.

Lo que no decimos: que CRPTO domina SPO+ en regret, que Markov es una cota apretada en todos los regímenes o que A6/A11 equivalen por sí solos a validación externa. A25–A34 cubren réplica estática, no despliegue prospectivo. Esa cautela es una fortaleza, no una debilidad.

10.1.12 Checklist de aceptacion del borrador

Antes de convertir esto en paper .tex o .qmd independiente, el borrador debe pasar este checklist:

El champion oficial es siempre bound_aware_276k_economic_champion.
El retorno oficial sale de final_project_promotion.json, no de tablas diagnosticas repriced.
theorem-tight aparece como comparador, nunca como champion.
Y_i se define como target observado/acotado; PD latente queda como lectura adicional bajo supuesto.
Las familias de métricas no se mezclan en un solo leaderboard.
Las tablas A12–A34 se presentan como robustness/journal package, no como una nueva búsqueda de champion.
El related work incluye CP/CRC/RCPS, RO, Predict-then-Calibrate, DFL, CROMS, MDCP, online CP y conformal risk training.
El appendix contiene los comandos exactos para regenerar tablas, renderizar Quarto y correr guardrails.

10.1 Blueprint Journal-Ready