Publication:
Estudio comparativo entre INLA y MCMC en modelos lineales generalizados mixtos
Estudio comparativo entre INLA y MCMC en modelos lineales generalizados mixtos
Authors
Angarita-Valderrama, Andrea Katherine
Embargoed Until
Advisor
Santana-Morant, Dámaris
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2019-12-09
Abstract
In this work a comparative study is carried out between Integrated Nested
Laplace Approximation (INLA) and Markov Chain Monte Carlo (MCMC) for estimation in Generalized Linear Mixed Models (GLMMs) for count data and binary data. The comparison is made through a simulation studies and the analysis of two real data sets. Both methods are used to obtain an approximation of the posterior
distributions that arise from the Bayesian inference. INLA uses Laplace approximations to approximate the posterior distributions while the MCMC generates samples from the posterior distributions using Gibbs Sampling.
INLA is motivated by the computational challenges of MCMC, in particular Gibbs sampling, when working with large data sets. Besides the high computational demand of MCMC, some practitioners may find the definition of Bayesian models in
programs such as JAGS a difficult task to accomplish. INLA offers some computational advantages over MCMC without sacrificing efficiency. Although the commands to fit the models with INLA are not straightforward for a non-expert user, the syntax resembles well-known R packages, and therefore, it could be better assimilated by practitioners. One of disadvantages of INLA is that is restricted to
Latent Gaussian Models (LGMs).
In the simulation studies, several factors were considered such as the sample size, the number of repeated measures and the precision of the random effect. The comparison of the two methods is done using the following performance measures: BIAS, the Mean Square Error (MSE) and Normalized Root Mean Square Error (NRMSE), and a measure of the time that it takes for the methods to produce estimates.
The simulation studies suggest that in general INLA does not differ in terms of BIAS, MSE and NRMSE when compared to MCMC, but INLA is computationally more fast for any sample size, repeated measures and accuracy considered. In some
scenarios, INLA does the estimation in a few seconds whereas the MCMC may takes hours to complete that task. The main reason for the good performance of INLA relies on the accuracy of the nested approximations.
Finally, the two Bayesian methods for making inference are compared with the maximum likelihood using two real data sets to study the factors that influence the response variable. One data set corresponds to the first cycle of Mathematical Olympiads of Puerto Rico 2016 - 2017. The other data set comprises data for births in Puerto Rico in 2011. Estimates from the three methods led to similar conclusions
in both data sets, but INLA is faster computationally than MCMC.
En este trabajo se realiza un estudio comparativo entre Integrated Nested Laplace Approximation (INLA) y Markov Chain Monte Carlo (MCMC) para la estimación en Modelos Lineales Generalizados Mixtos (GLMMs, por sus siglas en inglés) para datos de conteo y datos binarios. La comparación es realizada mediante estudios de simulación y el análisis de dos conjuntos de datos reales. Ambos métodos se utilizan para obtener una aproximación de las distribuciones posteriores que surgen de la inferencia Bayesiana. INLA utiliza aproximaciones de Laplace para aproximar distribuciones posteriores mientras MCMC genera muestras de las distribuciones posteriores usando muestreo de Gibbs. INLA está motivado por los desafíos computacionales de MCMC, en particular el muestreo de Gibbs, cuando se trabaja con conjuntos grandes de datos. Además de la alta demanda computacional de MCMC, algunos profesionales pueden encontrar la formulación de modelos Bayesianos en programas como JAGS una tarea difícil de lograr. INLA ofrece algunas ventajas computacionales sobre MCMC sin sacrificar eficiencia. Aunque los comandos para ajustar los modelos con INLA no son sencillos para un usuario no experto, la sintaxis se asemeja a paquetes bien conocidos de R y, por lo tanto, los profesionales podrían asimilarla mejor. Una de las desventajas de INLA es que está restringida a los Modelos Gaussianos Latentes (LGMs). En los estudios de simulación se consideraron varios factores, como el tamaño de la muestra, el número de medidas repetidas y la precisión del efecto aleatorio. La comparación de los dos métodos se realiza utilizando las siguientes medidas de rendimiento: sesgo, el Error Cuadrático Medio (ECM) y la Raíz Normalizada del Error Cuadrático Medio (NRECM), y una medida del tiempo que tardan los métodos en producir las estimaciones. Las simulaciones mostraron que en general INLA no presenta diferencias en términos de sesgo, ECM y NRECM en comparación con MCMC, pero INLA es computacionalmente más rápido para cualquier tamaño de muestra, medidas repetidas y precisión considerada. En algunos escenarios, INLA realiza la estimación en unos pocos segundos, mientras que MCMC puede tardar horas en completar esa tarea. La razón principal del buen desempeño de INLA se basa en la precisión de las aproximaciones anidadas. Finalmente, los dos métodos Bayesianos para hacer inferencia se compararon con el de máxima verosimilitud usando dos conjuntos de datos reales para estudiar los factores que influyen en la variable respuesta. Un conjunto de datos corresponde al primer ciclo de Olimpiadas Matemáticas de Puerto Rico 2016 - 2017. El otro conjunto de datos comprende los datos de nacimientos en Puerto Rico en 2011. Las estimaciones de los tres métodos llevaron a conclusiones similares en ambos conjuntos de datos, pero INLA es más rápido computacionalmente que MCMC.
En este trabajo se realiza un estudio comparativo entre Integrated Nested Laplace Approximation (INLA) y Markov Chain Monte Carlo (MCMC) para la estimación en Modelos Lineales Generalizados Mixtos (GLMMs, por sus siglas en inglés) para datos de conteo y datos binarios. La comparación es realizada mediante estudios de simulación y el análisis de dos conjuntos de datos reales. Ambos métodos se utilizan para obtener una aproximación de las distribuciones posteriores que surgen de la inferencia Bayesiana. INLA utiliza aproximaciones de Laplace para aproximar distribuciones posteriores mientras MCMC genera muestras de las distribuciones posteriores usando muestreo de Gibbs. INLA está motivado por los desafíos computacionales de MCMC, en particular el muestreo de Gibbs, cuando se trabaja con conjuntos grandes de datos. Además de la alta demanda computacional de MCMC, algunos profesionales pueden encontrar la formulación de modelos Bayesianos en programas como JAGS una tarea difícil de lograr. INLA ofrece algunas ventajas computacionales sobre MCMC sin sacrificar eficiencia. Aunque los comandos para ajustar los modelos con INLA no son sencillos para un usuario no experto, la sintaxis se asemeja a paquetes bien conocidos de R y, por lo tanto, los profesionales podrían asimilarla mejor. Una de las desventajas de INLA es que está restringida a los Modelos Gaussianos Latentes (LGMs). En los estudios de simulación se consideraron varios factores, como el tamaño de la muestra, el número de medidas repetidas y la precisión del efecto aleatorio. La comparación de los dos métodos se realiza utilizando las siguientes medidas de rendimiento: sesgo, el Error Cuadrático Medio (ECM) y la Raíz Normalizada del Error Cuadrático Medio (NRECM), y una medida del tiempo que tardan los métodos en producir las estimaciones. Las simulaciones mostraron que en general INLA no presenta diferencias en términos de sesgo, ECM y NRECM en comparación con MCMC, pero INLA es computacionalmente más rápido para cualquier tamaño de muestra, medidas repetidas y precisión considerada. En algunos escenarios, INLA realiza la estimación en unos pocos segundos, mientras que MCMC puede tardar horas en completar esa tarea. La razón principal del buen desempeño de INLA se basa en la precisión de las aproximaciones anidadas. Finalmente, los dos métodos Bayesianos para hacer inferencia se compararon con el de máxima verosimilitud usando dos conjuntos de datos reales para estudiar los factores que influyen en la variable respuesta. Un conjunto de datos corresponde al primer ciclo de Olimpiadas Matemáticas de Puerto Rico 2016 - 2017. El otro conjunto de datos comprende los datos de nacimientos en Puerto Rico en 2011. Las estimaciones de los tres métodos llevaron a conclusiones similares en ambos conjuntos de datos, pero INLA es más rápido computacionalmente que MCMC.
Keywords
MCMC,
GLMM,
INLA,
Regresión Binaria,
Regresión Poisson
GLMM,
INLA,
Regresión Binaria,
Regresión Poisson
Usage Rights
All Rights Reserved / restricted to Campus
Persistent URL
Cite
Angarita-Valderrama, A. K. (2019). Estudio comparativo entre INLA y MCMC en modelos lineales generalizados mixtos [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/2557