Please use this identifier to cite or link to this item:
http://bibdigital.epn.edu.ec/handle/15000/25673
Title: | Modelos estadísticos para la estimación de la capacidad de pago de personas naturales con cuota estimada con información en el sistema de registro de datos crediticios : modelo para la estimación de la capacidad de pago en una población bancarizada. |
Authors: | Toaquiza Cuyo, Jaime Raúl |
Director: | Huaraca Shagñay, Diego Paúl |
Keywords: | MATEMÁTICAS - MODELOS ESTADÍSTICOS CRÉDITOS - POBLACIÓN ESTIMACIÓN DE INGRESOS CAPACIDAD DE ENDUDAMIENTO DATOS CREDITICIOS |
Issue Date: | Aug-2023 |
Publisher: | Quito : EPN, 2023. |
Citation: | Toaquiza Cuyo, J.R. (2023). Modelos estadísticos para la estimación de la capacidad de pago de personas naturales con cuota estimada con información en el sistema de registro de datos crediticios : modelo para la estimación de la capacidad de pago en una población bancarizada. 179 páginas. Quito : EPN. |
Abstract: | The objective of this project is to estimate the payment capacity of banked individuals who at the time of the estimation have an estimated quota using parametric and non-parametric statistical methodologies or models (Multiple Linear Regression, Random Forest, Gradient Boosting Machine and XGBoost) with information in the credit data registry system. The training of the models was preceded by a rigorous exploration and treatment of the database consisting of 950821 records and 1172 variables; in order to capture the behavior and characteristic pattern of the population, it was found to be appropriate to divide it into three study groups and for each group the four methodologies or models indicated were formulated; The first group consists of those individuals who have an estimated quota (amount of amortization in USD of credit) less than or equal to 107 USD, the second group with those whose estimated quota is greater than 107 and less than 435 USD and the third group with those with more than 435 USD in estimated quota. To improve the predictive power of the models in the tails of the distributions (subjects with very low or very high incomes), the resampling or balancing technique was used, which effectively obtained better results compared to the base models (without resampling). Among all the models implemented, the Gradient Boosting Machine Model was chosen as the best model for its level of prediction and computational performance in the three sub-populations. The choice of variables was made using the Kolmogorov Smirnov (KS) methodology for quantitative variables and the Value of Information (VI) for categorical variables; 18 variables were selected for the first group or sub-population (which in this work will be synonymous), 35 for the second and 28 for the third. The results obtained were acceptable, given that the predictive power for the three groups or sub populations was over 70% correct, however for group 1 and 2 the results were not as expected in the tails of the distribution, better predictions were expected, however, for group 3 a high prediction rate was achieved; This predictive power of the models was validated with a new database consisting of 84877 individuals and 1177 variables; the income predictions for group 1 and 2 were not as expected (as expected); however, for group 3 a very good level of prediction was obtained, especially for subjects with very high incomes. |
Description: | Este proyecto tiene como objetivo estimar la capacidad de pago de personas naturales bancarizadas que al momento de la estimación cuentan con cuota estimada mediante metodologías o modelos estadísticos paramétricos y no paramétricos (Regresión Lineal Múltiple, Random Forest, Gradient Boosting Machine y XGBoost) con información en el sistema de registro de datos crediticios. El entrenamiento de los modelos estuvo precedido de una rigurosa exploración y tratamiento de base de datos que consta de 950821 registros y 1172 variables; para capturar el comportamiento y patrón característico de la población se vio que es adecuado dividir en tres grupos de estudio y para cada grupo se formuló las cuatro metodologías o modelos indicados; el primer grupo consta de aquellos individuos que tienen un cuota estimada (monto de amortización en USD de crédito) menor o igual a 107 USD, el segundo grupo con aquellos cuya cuota estimada es mayor a 107 y menor igual a 435 USD y el tercer grupo con aquellos con más de 435 USD en cuota estimada. Para mejorar el poder predictivo de los modelos en las colas de las distribuciones (sujetos con ingresos muy bajos o muy altos) se empleó la técnica del remuestreo o balanceo con el que efectivamente se obtuvo mejores resultados en comparación a los modelos base (sin remuestreo). De entre todos los modelos implementados, se eligió al Modelo Gradient Boosting Machine como el mejor modelo por su nivel de predicción y rendimiento computacional en las tres sub poblaciones. La elección de las variables se realizó usando la metodología de Kolmogorov Smirnov (KS) para variables cuantitativas y el Valor de Información (VI) para variables categóricas; para el primer grupo o sub población (que en este trabajo serán sinónimos) se seleccionó 18, para el segundo 35 y para el tercero 28 variables. Los resultados obtenidos fueron aceptables, dado que el poder predictivo para los tres grupos o sub poblaciones estuvo sobre el 70% de acierto, sin embargo para el grupo 1 y 2 los resultados no fueron los esperados en las colas de la distribución, se esperaba mejores predicciones, sin embargo, para el grupo 3 se logró una alta tasa de predicción; este poder predictivo de los modelos se validó con una nueva base de datos que consta de 84877 individuos y 1177 variables; las predicciones de ingresos para el grupo 1 y 2 no fueron los esperados (como se preveía); sin embargo, para el grupo 3 se obtuvo un muy buen nivel de predicción en especial para sujetos con ingresos muy altos. |
URI: | http://bibdigital.epn.edu.ec/handle/15000/25673 |
Type: | Trabajo de Integración Curricular |
Appears in Collections: | TIC - Ingeniería Matemática Aplicada |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
CD 14323.pdf | 1,72 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.