Regresión Logística: Cómo Decidir si Aprobar o Rechazar un Crédito con Datos?
Una técnica de análisis de datos que utiliza las matemáticas para encontrar las relaciones entre dos factores de datos.
📌 Este artículo es la segunda parte de nuestra serie de analítica para negocios. Si aún no leíste el artículo sobre Regresión Lineal, te recomendamos empezar por ahí. Aquí aprenderás a predecir decisiones de SÍ o NO usando datos reales de créditos.
En el artículo anterior aprendiste a predecir números: cuánto venderás, cuántos días de atraso tendrá un cliente. Pero en los negocios muchas decisiones no son números son categorías: aprobado o rechazado, pagará o no pagará, comprará o no comprará. Para eso existe la Regresión Logística. Y es una de las herramientas más usadas en el sector financiero del mundo.
En este artículo te explicamos qué es, cómo calcularlo paso a paso y cómo leerlo para tomar mejores decisiones.
¿En Qué se Diferencia de la Regresión Lineal?
Mostramos en la siguiente tabla la diferencia de ambas regresiones:
| Característica | Regresión Lineal | Regresión Logística |
|---|---|---|
| ¿Qué predice? | Un número (ventas, días de mora) | Una categoría (aprobado / rechazado) |
| ¿Qué devuelve? | Un valor continuo: 1,500 / 3,200 / … | Una probabilidad entre 0 y 1 |
| Ejemplo de uso | ¿Cuánto venderé si gasto $300? | ¿Este cliente pagará su crédito? |
| Forma de la curva | Línea recta | Curva en S (sigmoide) |
La regresión logística no dice directamente ‘aprobado’ o ‘rechazado’. Dice: ‘este cliente tiene un 82% de probabilidad de pagar’. Tú defines el umbral de decisión (por ejemplo, aprobar si la probabilidad es mayor a 70%).
La Curva Sigmoide: el Corazón del Modelo
A diferencia de la regresión lineal que traza una línea recta, la regresión logística usa una curva en forma de S llamada sigmoide. Esta curva convierte cualquier número en una probabilidad entre 0% y 100%.
Modelo de Regresión Logística
Dónde:
- P(y = 1 | X): Probabilidad de que ocurra la clase positiva dado el vector de características X.
- e: Base del logaritmo natural (aproximadamente 2.718).
- β0: Intersección (intercept) del modelo.
- β1…βn: Coeficientes o pesos de cada característica X1…Xn.
No te preocupes por memorizar la fórmula Python la calcula automáticamente. Lo importante es entender qué hace: toma los datos de un cliente y devuelve una probabilidad.
¿Qué Variables Usar para Evaluar un Crédito?
Aquí está tu ventaja: tu experiencia como oficial de créditos te dice qué variables realmente importan. Un modelo típico incluye:
| Variable | Tipo | Por qué importa |
|---|---|---|
| Ingresos mensuales ($) | Numérica | Mayor ingreso = mayor capacidad de pago |
| % de ingresos comprometidos | Numérica | Endeudamiento alto = mayor riesgo |
| Historial de pagos (0-100) | Numérica | Comportamiento pasado predice el futuro |
| Meses en el trabajo actual | Numérica | Estabilidad laboral reduce el riesgo |
| Número de créditos activos | Numérica | Más créditos = más carga financiera |
| Zona geográfica | Categórica | Algunos sectores tienen mayor riesgo sistémico |
Para entrenar el modelo necesitas datos históricos etiquetados: registros de clientes anteriores con el resultado real (pagó / no pagó). Con 200 registros o más ya puedes construir un modelo útil. .
