3 Marco Teórico

El marco teórico del paper combina tres tradiciones que normalmente se estudian por separado: predicción probabilística calibrada, incertidumbre distribution-free y optimización robusta.

3.0.1 De probabilidad puntual a banda de riesgo

La primera pieza es el intervalo conformal por observación:

\[ \widehat{C}_{1-\alpha}(x,g)=\left[\max\{0,\widehat{p}(x)-q_{1-\alpha,g}\},\min\{1,\widehat{p}(x)+q_{1-\alpha,g}\}\right] \]

donde g representa la partición Mondrian. El objeto importante no es solo la cobertura marginal, sino la posibilidad de traducir la cota superior del intervalo en una versión prudente del riesgo.

3.0.2 Del intervalo al conjunto de incertidumbre

Para portafolio, la lectura operativa es inmediata:

\[ u_i(\alpha)=\sup \widehat{C}_{1-\alpha}(x_i,g_i) \]

Ese \(u_i\) funciona como probabilidad de default en peor caso admisible bajo el nivel conformal elegido. En lugar de construir un conjunto elipsoidal o bootstrap exógeno, el conjunto nace de la propia capa predictiva.

3.0.3 Optimización robusta

El portafolio robusto puede expresarse, de forma esquemática, como:

\[ \max_{z \in \{0,1\}^n}\sum_i z_i\,r_i \quad\text{s.a.}\quad \sum_i z_i a_i \le B,\; \sum_i z_i u_i(\alpha)a_i \le \tau B \]

La restricción de pérdida esperada usa la frontera superior inducida por el intervalo. Así, la robustez deja de ser un parámetro abstracto y pasa a estar anclada a un objeto con garantía empírica de cobertura.

3.0.4 Formalización del vínculo \(\alpha \leftrightarrow \Gamma\)

La intuición del pipeline es directa: a menor \(\alpha\) (mayor confianza), los intervalos se ensanchan, \(u_i\) sube y la restricción robusta se endurece. Pero una intuición no es un teorema. Esta sección formaliza esa correspondencia y establece garantías probabilísticas sobre la no cobertura ponderada del funded set. Cuando el texto habla de PD verdadera debe leerse como una interpretación latente adicional, no como una magnitud observada directamente en los artefactos.

Antes de entrar al detalle, conviene ubicar el resultado frente a la literatura más cercana. (Bates et al., 2021) y (Angelopoulos et al., 2025) muestran cómo calibrar predictores para controlar riesgo distribution-free; (Angelopoulos et al., 2024) demuestra que la predicción conformal puede controlar la esperanza de cualquier pérdida monotónica acotada. Nuestro Teorema 1 hereda ese espíritu, pero lo instancia en una dirección distinta: la pérdida no es un error genérico de predicción, sino la no cobertura ponderada por funded set que aparece al mapear intervalos conformales a una restricción lineal de PD de portafolio.

Tabla 3.1: Ubicación del bound del proyecto frente a trabajos cercanos

Trabajo	Objeto garantizado	Vinculo con decisión	Diferencia con este paper
(Bertsimas & Sim, 2004)	Factibilidad robusta dado un presupuesto \(\Gamma\) elegido	robust optimization clásica	aquí \(\Gamma_{\text{CP}}\) no se elige: se hereda de la capa conformal
(Johnstone & Cox, 2021)	Conjuntos de incertidumbre conformales con validez finita	puente CP \(\rightarrow\) RO	no aterriza una restricción de PD ponderada ni funded-set exacto en crédito
(Angelopoulos et al., 2025; Bates et al., 2021)	control distribution-free de una pérdida/riesgo genérico	calibración post-hoc de riesgo	no se especializa a una restricción lineal de portafolio
(Angelopoulos et al., 2024)	cota en esperanza para pérdidas monotónicas	conformal risk control general	nuestro Teorema 1 es una instanciación portfolio-aware con funded-set ponderado
(Sun et al., 2024)	cobertura del vector de costos vía calibración por cuantiles	box/elipsoidal sets para LP contextual genérico	nuestro bound opera sobre la restricción ponderada del portafolio, no solo sobre membresía en el set; además aporta cobertura Mondrian grupo-condicional
Este paper (CRPTO)	factibilidad conformal del portafolio via `V`, `\Gamma_{\text{CP}}` y `violation`	score calibrado \(\rightarrow\) intervalo \(\rightarrow\) funded set robusto	aporta la instanciación en crédito minorista y el cierre exacto sobre una región robusta completa

Alcance exacto del bound

El artefacto scripts/validate_alpha_gamma_bound.py evalúa no cobertura ponderada usando el target observado y_true/default_flag contra la cota superior conformal. Por tanto, la garantía distribution-free del teorema controla un target acotado \(Y_i \in [0,1]\) y una asignación fijada antes de observar \(Y_i\). Interpretar \(Y_i\) como PD latente requiere el supuesto adicional de que \(u_i\) es una cota válida de esa PD latente. El cierre exacto 276k valida empíricamente la policy promovida tras la búsqueda; no convierte esa validación post-selección en una garantía conformal más fuerte.

Presupuesto conformal de robustez

Definición 3.1 (Presupuesto conformal de robustez) Sea \(x^*\) la asignación óptima del LP robusto con pesos normalizados \(w_i = x_i^* a_i / \sum_j x_j^* a_j\) y cotas superiores conformales \(u_i \equiv u_i(\alpha)\). El presupuesto conformal de robustez es:

\[ \Gamma_{\text{CP}}(\alpha) = \sum_{i} w_i \cdot \bigl(u_i - \widehat{p}_i\bigr) = \sum_{i} w_i \cdot q_{1-\alpha,\,g_i} \tag{3.1}\]

donde \(q_{1-\alpha,g_i}\) es el cuantil conformal de scores de no conformidad en el grupo Mondrian \(g_i\).

\(\Gamma_{\text{CP}}\) mide la prima promedio ponderada de PD que el portafolio paga por protegerse contra la incertidumbre. Es el análogo conformal del presupuesto \(\Gamma\) de Bertsimas y Sim (2004), pero con una diferencia fundamental: su tamaño no se elige por convención o calibración experta, sino que se hereda directamente de la garantía de cobertura del intervalo conformal.

Proposición 1: Monotonicidad

Proposición 3.1 (Monotonicidad del presupuesto conformal) \(\Gamma_{\text{CP}}(\alpha)\) es monótonamente no creciente en \(\alpha\). A menor \(\alpha\) (mayor confianza conformal), el presupuesto de robustez aumenta.

Demostración. El cuantil \(q_{1-\alpha,g}\) es la función cuantil evaluada en el nivel \(1-\alpha\) de la distribución empírica de scores de no conformidad del grupo \(g\). La función cuantil es no decreciente, por lo que \(q_{1-\alpha,g}\) es no decreciente en \((1-\alpha)\), equivalentemente no creciente en \(\alpha\). Dado que \(\Gamma_{\text{CP}} = \sum_i w_i \cdot q_{1-\alpha,g_i}\) es una suma ponderada con pesos no negativos fijos, hereda la monotonicidad. \(\square\)

La consecuencia práctica es inmediata: si un gestor decide endurecer la protección de 90% a 95%, el presupuesto de robustez crece de forma predecible — y con él, el costo económico de la protección.

Proposición 2: Embedding en Bertsimas-Sim

Proposición 3.2 (Embedding del conjunto conformal en Bertsimas-Sim) El conjunto de incertidumbre box conformal \(\mathcal{U}_{\text{CP}}(\alpha) = \{p : p_i \leq u_i(\alpha)\;\forall i\}\) se embebe en el conjunto de Bertsimas-Sim con presupuesto \(\Gamma_{\text{BS}} = n\) y desviaciones \(\hat{\delta}_i = q_{1-\alpha,g_i}\). Sin embargo, la garantía conformal implica que el número esperado de desviaciones simultáneamente activas es como máximo \(n\alpha\), induciendo un presupuesto efectivo \(\Gamma_{\text{eff}} = n\alpha \ll n\).

Demostración. En el marco de Bertsimas-Sim, el conjunto de incertidumbre es \(\mathcal{U}_{\text{BS}} = \{\tilde{a} : |\tilde{a}_i - \hat{a}_i| \leq \hat{\delta}_i,\;\sum_i |\tilde{a}_i - \hat{a}_i|/\hat{\delta}_i \leq \Gamma\}\). Con \(\Gamma = n\), la restricción de presupuesto se vuelve no activa (todos los coeficientes pueden desviarse al máximo simultáneamente), recuperando el conjunto box. Para la cota de presupuesto efectivo: sea \(Z_i = \mathbf{1}\{Y_i > u_i\}\) el indicador de no cobertura del target acotado. Por la garantía conformal marginal, \(\mathbb{E}[Z_i] \leq \alpha\) para cada \(i\). Por linealidad de la esperanza, \(\mathbb{E}[\sum_i Z_i] \leq n\alpha\). \(\square\)

Para el cierre final del proyecto, la interpretación correcta ya no es la de un único portafolio congelado de 299 préstamos, sino la de una región robusta evaluada sobre el OOT completo de 276,869 préstamos. La intuición de presupuesto efectivo sigue siendo válida, pero ahora debe leerse así: el conjunto conformal induce un presupuesto de desviación esperada que luego es filtrado por la composición del funded set. El hallazgo empírico importante es que una policy bien elegida puede reducir ese presupuesto efectivo de forma sustancial aun manteniendo retorno alto.

Teorema 1: Garantía conformal de factibilidad

Teorema 3.1 (Garantía conformal de factibilidad del portafolio) Sea \(Y_i \in [0,1]\) el target de riesgo cubierto por el intervalo conformal; en los artefactos del proyecto, \(Y_i\) corresponde al default observado usado como proxy ex post. Sea \(x^*\) una asignación fijada antes de observar \(Y_i\), con pesos normalizados \(w_i = x_i^* a_i / \sum_j x_j^* a_j\), y cotas conformales \(u_i \equiv u_i(\alpha)\) tales que \(\sum_i w_i u_i \leq \tau\). Bajo intercambiabilidad entre calibración y test, y tratando la asignación como fija respecto a los labels evaluados:

(a) La violación esperada de la restricción está acotada por \(\alpha\):

\[ \mathbb{E}\!\left[\max\!\left(0,\;\sum_i w_i\, Y_i - \tau\right)\right] \leq \alpha \tag{3.2}\]

(b) Para cualquier \(t > 0\), la probabilidad de violación está acotada:

\[ \mathbb{P}\!\left(\sum_i w_i\, Y_i > \tau + t\right) \leq \frac{\alpha}{t} \tag{3.3}\]

(c) Evaluando en \(t = \sqrt{\alpha}\) (tasa óptima de Markov):

\[ \mathbb{P}\!\left(\sum_i w_i\, Y_i > \tau + \sqrt{\alpha}\right) \leq \sqrt{\alpha} \tag{3.4}\]

Demostración. La estructura de la prueba es la misma que el control distribution-free de pérdidas monotónicas acotadas en (Angelopoulos et al., 2024) y RCPS en (Bates et al., 2021), pero instanciada sobre una pérdida específica al portafolio: la no-cobertura ponderada por funded set. Esa especialización es lo que hace que la garantía conformal del intervalo se herede de forma directa hacia la factibilidad del LP robusto. La prueba descansa en descomponer el target de riesgo ponderado usando indicadores de cobertura.

Paso 1 (Descomposición). Sea \(Z_i = \mathbf{1}\{Y_i > u_i\}\). Para los préstamos cubiertos (\(Z_i = 0\)), \(Y_i \leq u_i\). Para los no cubiertos (\(Z_i = 1\)), \(Y_i \leq 1\) (cota trivial ya que \(Y_i \in [0,1]\)), de modo que \(Y_i - u_i \leq 1\). Entonces:

\[ \sum_i w_i\, Y_i = \sum_i w_i\, Y_i\,(1-Z_i) + \sum_i w_i\, Y_i\, Z_i \leq \sum_i w_i\, u_i + \sum_i w_i\, Z_i \leq \tau + V \]

donde \(V = \sum_i w_i Z_i\) es la no cobertura ponderada.

Paso 2 (Cota de la esperanza). Por la garantía conformal marginal, \(\mathbb{E}[Z_i] \leq \alpha\) para cada \(i\). Por linealidad y dado que \(\sum_i w_i = 1\):

\[ \mathbb{E}[V] = \sum_i w_i\, \mathbb{E}[Z_i] \leq \sum_i w_i \cdot \alpha = \alpha \]

Paso 3 (Resultados). La parte (a) sigue de \(\mathbb{E}[\max(0, \sum w_i Y_i - \tau)] \leq \mathbb{E}[V] \leq \alpha\). La parte (b) aplica la desigualdad de Markov a \(V\): \(\mathbb{P}(V > t) \leq \mathbb{E}[V]/t \leq \alpha/t\). La parte (c) sustituye \(t = \sqrt{\alpha}\). \(\square\)

Validación empírica del vínculo \(\alpha \leftrightarrow \Gamma\)

La Figura 3.1 muestra la validación empírica del vínculo teórico en 8 niveles de \(\alpha\). A medida que \(\alpha\) decrece (mayor confianza), \(\Gamma_{\text{CP}}\) crece monótonamente — confirmando la prp-monotonicity — y la cobertura empírica se mantiene por encima del target nominal en todos los niveles. Sin embargo, la lección final del proyecto es que esa validación, por sí sola, todavía no basta para la afirmación más exigente del paper: hace falta además que el portfolio promovido convierta ese presupuesto conformal en un funded set exacto y defendible.

Figura 3.1: Validación del vínculo \(\alpha \leftrightarrow \Gamma_{\text{CP}}\) sobre el champion económico evaluado en 276K préstamos OOT (\(\tau = 0.175\), \(\gamma = 0.45\)). **Panel A**: presupuesto conformal \(\Gamma_{\text{CP}}(\alpha)\) — monótonamente decreciente en \(\alpha\), confirmando la `prp-monotonicity`. **Panel B**: tasa de violación empírica del constraint de PD ponderado vs. cota teórica \(\alpha/\sqrt{\alpha}\) — la violación es cero en todos los niveles. **Panel C**: miscoverage ponderada \(V\) vs. cota \(\sqrt{\alpha}\) del `thm-conformal-feasibility`(c) — todos los niveles satisfacen \(V \leq \sqrt{\alpha}\).

Qué valida el refresh exacto y qué valida el cierre 276k

Conviene separar dos piezas empíricas que cumplen roles distintos:

el refresh exacto 5k mostró que el canónico y el conformal-only seguían fallando el punto más exigente (alpha = 0.01), y permitió aislar la palanca correcta: el problema residual estaba en la composición del funded set, no en “más conservadurismo conformal ciego”;
el cierre 276k full OOT mostró algo más fuerte: una vez rediseñada la policy, aparece una región robusta completa donde todas las políticas evaluadas pasan exactamente alpha = 0.01.

En otras palabras: el refresh exacto diagnosticó el cuello de botella; la mini-grid 276k lo resolvió.

Qué parte del bound importa de verdad en este proyecto

La cota \(\alpha/t\) del thm-conformal-feasibility es teóricamente correcta, pero para varios valores de \(t\) resulta demasiado floja para ser la señal operativa principal. En la práctica, el cierre final del proyecto se ordena mejor con:

weighted_miscoverage_V,
gamma_cp,
violation,
all_bounds_hold,
y, sobre todo, con la composición exacta del funded set.

La contribución empírica fuerte del proyecto no es “la tabla Markov luce apretada”; es que el teorema terminó organizando la búsqueda de una policy exacta, trazable y defendible.

Interpretación práctica

El thm-conformal-feasibility traduce la garantía estadística del intervalo conformal en una garantía operativa sobre el portafolio. La tabla siguiente recuerda la escala teórica general:

Tabla 3.2: Garantías del Teorema 1 para diferentes niveles conformales

Nivel conformal \(\alpha\)	Violación esperada	\(\mathbb{P}(\text{PD pond.} > \tau + 0.05)\)	\(\mathbb{P}(\text{PD pond.} > \tau + \sqrt{\alpha})\)
0.20	\(\leq 0.20\)	\(\leq 1.00\)	\(\leq 0.447\)
0.10	\(\leq 0.10\)	\(\leq 1.00\)	\(\leq 0.316\)
0.05	\(\leq 0.05\)	\(\leq 1.00\)	\(\leq 0.224\)
0.01	\(\leq 0.01\)	\(\leq 0.20\)	\(\leq 0.100\)

En lenguaje de comité de riesgos: con \(\alpha = 0.10\), el target de riesgo ponderado del portafolio excede el techo \(\tau\) por más de \(\sqrt{0.10} \approx 0.316\) con probabilidad menor al 31.6%. Para \(\alpha = 0.01\), la misma violación se reduce a probabilidad menor al 10%. La cota es conservadora (basada en Markov, sin supuestos distribucionales), lo cual es consistente con el espíritu distribution-free del enfoque conformal. Pero la lectura editorial correcta del proyecto es todavía más concreta: cuando la cota \(\alpha/t\) se vuelve vacua para \(t\) pequeños, la señal útil pasa a ser cómo se comportan V, gamma_cp y violation sobre el funded set realmente promovido.

La novedad empírica del cierre final es esta: el canónico monotónico y el conformal-only todavía no cerraban el punto alpha = 0.01, mientras que el carril portfolio_bound_aware sobre el conformal winner sí lo hace, y además no con un único punto aislado sino con una región completa de políticas exactas.

Lemma 1: tightening condicional bajo independencia adicional

Lema 3.1 (Tightening condicional del bound de factibilidad) Manteniendo los supuestos del thm-conformal-feasibility, sea \(Z_i=\mathbf{1}\{Y_i>u_i\}\) y \(V=\sum_i w_i Z_i\). Condicional en el conjunto de calibración y en una asignación \(x^*\) fijada antes de observar los labels evaluados, suponga además que los \(Z_i\) son independientes y que \(\mathbb{E}[Z_i\mid\mathcal{F}_{cal}]\leq \alpha_i\). Defina \(\mu_w=\sum_i w_i\alpha_i\), \(\sigma_w^2=\sum_i w_i^2\alpha_i(1-\alpha_i)\) y \(w_{\max}=\max_i w_i\). Entonces, para cualquier \(s>0\):

\[ \mathbb{P}\!\left(V \geq \mu_w+s \mid \mathcal{F}_{cal}\right) \leq \exp\!\left(-\frac{2s^2}{\sum_i w_i^2}\right) \tag{3.5}\]

y, con Bernstein,

\[ \mathbb{P}\!\left(V \geq \mu_w+s \mid \mathcal{F}_{cal}\right) \leq \exp\!\left( -\frac{s^2}{2\left(\sigma_w^2+w_{\max}s/3\right)} \right). \tag{3.6}\]

Por la descomposición del thm-conformal-feasibility, esto implica una cota condicional análoga para \(\mathbb{P}(\sum_i w_iY_i>\tau+\mu_w+s\mid\mathcal{F}_{cal})\).

Demostración. Condicional en \(\mathcal{F}_{cal}\) y en \(x^*\), las variables \(w_iZ_i\) son independientes y están acotadas en \([0,w_i]\). La primera desigualdad aplica Hoeffding a la suma ponderada \(V\) y usa \(\mathbb{E}[V\mid\mathcal{F}_{cal}]\leq\mu_w\). La segunda aplica Bernstein con varianza condicional acotada por \(\sigma_w^2\) y rango máximo \(w_{\max}\). La transferencia a la violación del portafolio sigue de \(\sum_i w_iY_i\leq\tau+V\) cuando \(\sum_i w_iu_i\leq\tau\). \(\square\)

Lectura correcta del tightening

El Lemma 1 no reemplaza el thm-conformal-feasibility. Markov sigue siendo la garantía distribution-free principal porque solo requiere control de \(\mathbb{E}[V]\). Hoeffding/Bernstein son útiles para una versión journal más fuerte, pero dependen de independencia condicional de los indicadores de no cobertura, supuesto que split conformal no garantiza estrictamente porque todos los préstamos comparten la misma muestra de calibración.

El apéndice de dependencia docs/research/crpto_conditional_tightening_appendix_2026-05-04.md fija la regla editorial para no sobreprometer este resultado: Markov es el claim principal, mientras Hoeffding/Bernstein quedan como tightening condicional bajo independencia adicional o bajo una futura prueba de concentración con dependencia controlada.

Corolario 1: Precio de la robustez

Corolario 3.1 El precio de la robustez \(\text{PoR}(\alpha) = (Z^* - Z^*_{\text{rob}})/Z^*\) satisface, aproximadamente:

\[ \text{PoR}(\alpha) \lesssim \frac{\Gamma_{\text{CP}}(\alpha) \cdot \overline{LGD}}{\bar{r}} \tag{3.7}\]

donde \(\bar{r}\) es el retorno neto promedio por unidad de exposición. A menor \(\alpha\), \(\Gamma_{\text{CP}}\) crece y el precio aumenta.

Este corolario formaliza la observación empírica del proyecto: el price of robustness no es un accidente numérico, sino una consecuencia directa del presupuesto conformal \(\Gamma_{\text{CP}}\) evaluado en el funded set efectivo. La versión final del proyecto muestra además que ese precio puede reducirse al mismo tiempo que mejora la tightness del bound si el funded set se rediseña correctamente.

Corolario 2: Refinamiento Mondrian

Corolario 3.2 Bajo predicción conformal Mondrian con grupos \(\{g_1, \dots, g_G\}\), la cota del thm-conformal-feasibility se refina a:

\[ \mathbb{E}[V] \leq \sum_{g=1}^{G} \left(\sum_{i \in g} w_i\right) \cdot \alpha_g \tag{3.8}\]

donde \(\alpha_g \leq \alpha\) para cada grupo con \(n_g \geq n_{\min}\) (tamaño mínimo de calibración).

El refinamiento Mondrian tiene una lectura directa: los grupos con mayor soporte muestral de calibración (grades A, B, C con miles de observaciones) logran cobertura más ajustada que el target nominal, reduciendo \(\alpha_g\) por debajo de \(\alpha\). Esto significa que el presupuesto de robustez se distribuye de forma no uniforme: los segmentos bien representados contribuyen menos al costo de robustez, mientras que los segmentos con menor soporte consumen una fracción mayor del presupuesto. En el cierre final del proyecto esta idea reaparece de forma más fuerte: la región robusta completa del 276k muestra que, una vez corregida la composición del funded set, el refinamiento Mondrian ya no solo mejora cobertura por grupo, sino que también vuelve exacta la capa portfolio-aware del teorema.

3.0.5 Relación con decision-focused learning

El marco CRPTO dialoga directamente con SPO+ y la literatura de decision-focused learning. La diferencia central es filosófica y tiene consecuencias prácticas medibles:

SPO+ entrena end-to-end para minimizar regret de decisión. En este proyecto, logra una reducción de regret del 49.1% sobre el two-stage clásico (5 seeds, 1,000 observaciones pareadas, Wilcoxon \(p < 10^{-164}\)). Su fortaleza es la eficiencia decisional.
CRPTO protege la decisión a partir de una cuantificación explícita de incertidumbre con garantías distribution-free. Su fortaleza es la auditabilidad: score monotónico, calibración Venn-Abers, cobertura verificable, estabilidad por grupo, y trazabilidad completa para reguladores (SR 11-7).

El trade-off es concreto: CRPTO paga un precio de auditabilidad en regret (su policy worst-case es más conservadora que la de SPO+), pero a cambio obtiene garantías formales que SPO+ no puede ofrecer — un auditor puede verificar la cobertura empírica del conjunto de incertidumbre, pero no puede verificar si el regret de SPO+ se mantendrá estable bajo cambio de régimen.

Los enfoques no son incompatibles. De hecho, una agenda de integración natural sería incorporar la pérdida SPO+ como objetivo de entrenamiento del modelo base mientras se mantiene el wrapper conformal para la capa de decisión. El paper los presenta como comparadores complementarios que iluminan diferentes dimensiones del problema.

3.0.6 Posicionamiento en el marco universal de Powell (SDAM)

El pipeline CRPTO puede clasificarse rigurosamente dentro del Universal Modeling Framework para problemas de decisión secuencial propuesto por Powell (2026). Powell organiza cualquier problema de decisión bajo incertidumbre en cinco elementos canónicos: estado (\(S_t\)), decisión (\(x_t\)), información exógena (\(W_{t+1}\)), función de transición (\(S^M\)) y función objetivo (\(C(S_t, x_t)\)). Sobre esa base, clasifica toda política de decisión en cuatro meta-clases universales: Policy Function Approximations (PFA), Cost Function Approximations (CFA), Value Function Approximations (VFA) y Direct Lookahead Approximations (DLA).

Mapeo de los cinco elementos

La Tabla 3.3 presenta el mapeo entre los elementos SDAM y su instanciación concreta en nuestro pipeline.

Tabla 3.3: Mapeo entre los elementos del Universal Modeling Framework (Powell, 2026) y el pipeline CRPTO

Elemento SDAM	Notación	Instanciación en el proyecto
Estado \(S_t\)	\(S_0 = (X_{\text{feat}}, B, \tau, [\hat{p}_i, \ell_i, u_i])\)	Covariables de los préstamos OOT, presupuesto \(B\), límite de PD \(\tau\), intervalos conformales Mondrian
Decisión \(x_t\)	\(x_0 \in [0,1]^n\)	Vector de asignación: fracción de cada préstamo a financiar
Información exógena \(W_{t+1}\)	\(W_1 = (y_{\text{true},1}, \dots, y_{\text{true},n})\)	Defaults reales observados en el período OOT (2018–2020)
Función de transición \(S^M\)	\(S_1 = S^M(S_0, x_0, W_1)\)	Cálculo del P&L realizado del portafolio dados los defaults observados
Métrica de contribución \(C(S_t, x_t)\)	\(\sum_i x_i [r_i - p_i^{\text{eff}} \cdot \text{LGD}]\)	Retorno neto menos pérdida esperada ajustada por incertidumbre

Clasificación como política CFA

La distinción más importante del framework SDAM para nuestro caso es la clasificación de la política. Powell define una CFA como una política que resuelve un problema de optimización que es una simplificación del problema original, con parámetros introducidos para mejorar el desempeño bajo incertidumbre. Nuestro LP robusto es exactamente eso:

El problema original (intratable) sería un programa estocástico que enumera todas las \(2^n\) realizaciones posibles de default y optimiza en esperanza sobre ellas — una instancia de DLA en la taxonomía de Powell.
Nuestra simplificación CFA reemplaza esa distribución completa por la cota superior conformal \(u_i(\alpha)\), resolviendo un LP determinista cuya restricción de pérdida incorpora la incertidumbre de forma paramétrica.
Los parámetros de política \(\theta = (\alpha, \gamma, \tau)\) — nivel conformal, aversión a incertidumbre, y tolerancia de riesgo — no existen en el problema estocástico original; son artefactos de la aproximación CFA que permiten controlar el trade-off retorno-robustez.

El barrido sobre \(\alpha \in \{0.01, \dots, 0.20\}\) con evaluación en el dataset OOT constituye policy search en la terminología de Powell: simulamos la política \(X^\pi(S_0|\theta)\) sobre el sample path histórico \(\omega\) (defaults 2018–2020) para encontrar la combinación de parámetros que maximiza el retorno ajustado por riesgo.

Diferenciación respecto a las otras clases de política

La clasificación CFA es deliberada y distingue nuestro enfoque de las alternativas:

No es PFA (regla analítica simple): no usamos un umbral fijo tipo “rechazar si PD > 0.15”. La decisión emerge de resolver un LP completo con restricciones de presupuesto, concentración y PD.
No es VFA (función de valor aproximada): no estimamos el valor futuro de un estado de portafolio para guiar la decisión actual, como haría un enfoque de approximate dynamic programming.
No es DLA (programación estocástica): no optimizamos sobre escenarios simulados del futuro mediante Monte Carlo o programación multi-etapa. En particular, la distinción con DLA es operativamente crucial: una DLA requeriría generar miles de escenarios de default, resolver un programa estocástico masivo y actualizar iterativamente — un costo computacional que además dificulta la auditabilidad del proceso decisional.

La ventaja de la CFA es triple: es determinista (un LP resuelto una vez con HiGHS en milisegundos), auditable (el regulador puede inspeccionar la restricción \(\sum w_i u_i(\alpha) \leq \tau\) directamente) y matemáticamente fundamentada (la garantía de cobertura conformal del thm-conformal-feasibility se hereda a la restricción de forma verificable).

Sobre la naturaleza uniperiodo

La formulación actual es estrictamente uniperiodo (\(T = 1\)): se toma una decisión de asignación y se observa un único vector de defaults. Esto es el caso más simple del framework SDAM, donde la función de transición \(S^M\) es trivial (calcula P&L) y no hay secuencia de decisiones adaptativas. La riqueza secuencial del framework — actualización de creencias \(B_t\), evolución de recursos \(R_t\), encadenamiento de decisiones — queda latente y se activa en la extensión a producción (véase Sección 6.0.8).

Interpretación de \(\alpha\) como parámetro de sintonización de política

A diferencia de los parámetros de penalización en optimización robusta clásica — que se calibran por convención o juicio experto — el nivel conformal \(\alpha\) tiene una semántica estadística directa: controla la probabilidad de no cobertura del intervalo predictivo. Esto significa que el parameter tuning de la CFA no es heurístico sino que está anclado a una garantía distribution-free sobre la información exógena \(W_{t+1}\). En el lenguaje de Powell, \(\alpha\) es un tunable parameter cuyo efecto sobre la contribución \(C(S_t, x_t)\) puede cuantificarse formalmente a través del thm-conformal-feasibility y el cor-por.

3.0.7 Hipótesis defendible

La hipótesis que el resto del paper pone a prueba es concreta:

En crédito minorista real, un conjunto de incertidumbre conformal puede ofrecer mejor equilibrio entre garantía y accionabilidad que baselines clásicos más anchos o menos estables por grupo.