Regresión Logística: Cómo Decidir si Aprobar o Rechazar un Crédito con Datos | Blog
Ciencia de Datos

Regresión Logística: Cómo Decidir si Aprobar o Rechazar un Crédito con Datos?

Una técnica de análisis de datos que utiliza las matemáticas para encontrar las relaciones entre dos factores de datos.

Lectura: 6 minutos Categoría: Ciencia de Datos

📌 Este artículo es la segunda parte de nuestra serie de analítica para negocios. Si aún no leíste el artículo sobre Regresión Lineal, te recomendamos empezar por ahí. Aquí aprenderás a predecir decisiones de SÍ o NO usando datos reales de créditos.

En el artículo anterior aprendiste a predecir números: cuánto venderás, cuántos días de atraso tendrá un cliente. Pero en los negocios muchas decisiones no son números son categorías: aprobado o rechazado, pagará o no pagará, comprará o no comprará. Para eso existe la Regresión Logística. Y es una de las herramientas más usadas en el sector financiero del mundo.

En este artículo te explicamos qué es, cómo calcularlo paso a paso y cómo leerlo para tomar mejores decisiones.

¿En Qué se Diferencia de la Regresión Lineal?

Mostramos en la siguiente tabla la diferencia de ambas regresiones:

Característica Regresión Lineal Regresión Logística
¿Qué predice? Un número (ventas, días de mora) Una categoría (aprobado / rechazado)
¿Qué devuelve? Un valor continuo: 1,500 / 3,200 / … Una probabilidad entre 0 y 1
Ejemplo de uso ¿Cuánto venderé si gasto $300? ¿Este cliente pagará su crédito?
Forma de la curva Línea recta Curva en S (sigmoide)
💡 IDEA CLAVE

La regresión logística no dice directamente ‘aprobado’ o ‘rechazado’. Dice: ‘este cliente tiene un 82% de probabilidad de pagar’. Tú defines el umbral de decisión (por ejemplo, aprobar si la probabilidad es mayor a 70%).

La Curva Sigmoide: el Corazón del Modelo

A diferencia de la regresión lineal que traza una línea recta, la regresión logística usa una curva en forma de S llamada sigmoide. Esta curva convierte cualquier número en una probabilidad entre 0% y 100%.

Modelo de Regresión Logística

P(y = 1 | X) =
1 1 + e-(β0 + β1X1 + β2X2 + … + βnXn)

Dónde:

  • P(y = 1 | X): Probabilidad de que ocurra la clase positiva dado el vector de características X.
  • e: Base del logaritmo natural (aproximadamente 2.718).
  • β0: Intersección (intercept) del modelo.
  • β1…βn: Coeficientes o pesos de cada característica X1…Xn.

No te preocupes por memorizar la fórmula Python la calcula automáticamente. Lo importante es entender qué hace: toma los datos de un cliente y devuelve una probabilidad.

¿Qué Variables Usar para Evaluar un Crédito?

Aquí está tu ventaja: tu experiencia como oficial de créditos te dice qué variables realmente importan. Un modelo típico incluye:

Variable Tipo Por qué importa
Ingresos mensuales ($) Numérica Mayor ingreso = mayor capacidad de pago
% de ingresos comprometidos Numérica Endeudamiento alto = mayor riesgo
Historial de pagos (0-100) Numérica Comportamiento pasado predice el futuro
Meses en el trabajo actual Numérica Estabilidad laboral reduce el riesgo
Número de créditos activos Numérica Más créditos = más carga financiera
Zona geográfica Categórica Algunos sectores tienen mayor riesgo sistémico
⚠️ NOTA IMPORTANTE

Para entrenar el modelo necesitas datos históricos etiquetados: registros de clientes anteriores con el resultado real (pagó / no pagó). Con 200 registros o más ya puedes construir un modelo útil. .

¡Comparte con tu Amigos!

Scroll al inicio