Publication:
An assessment of copula-based regression models for bivariate count data

dc.contributor.advisor Torres Saavedra, Pedro A.
dc.contributor.author Calderón Cartagena, Hilda Inés
dc.contributor.college College of Arts and Sciences - Sciences en_US
dc.contributor.committee Santana Morant, Dámaris
dc.contributor.committee Macchiavelli, Raúl E.
dc.contributor.department Department of Mathematics en_US
dc.contributor.representative Ferrer Alameda, Mercedes S.
dc.date.accessioned 2019-04-15T13:45:15Z
dc.date.available 2019-04-15T13:45:15Z
dc.date.issued 2018
dc.description.abstract It is known that analyzing correlated bivariate count data as independent in a regression context can lead to inefficient coefficients estimates. However, the number of parametric bivariate distributions that can be found in the literature to model bivariate counts are limited and not flexible enough to account for general correla- tion structures and different marginal distributions. Copula-based regression models provide a more flexible way of generating joint distributions for bivariate data by admitting different marginal distributions and various dependence structures. The purpose of this work was to evaluate the performance of copula-based regression models for bivariate counts under different scenarios, and to apply this approach to bivariate crash data in Puerto Rico highways. Scenarios with low, medium and high degrees of dependence were considered, as well as different sample sizes. In particular, the application of copulas when one of the marginal means was small was examined. Overall, if appropriate copulas are fitted, copula-based regression models provide more efficient estimators for the regression parameters when com- pared to modeling the counts independently, even when the data exhibits a degree of association as low as a Kendall’s τ = 0.3, though we recommend a sample size of N = 300 or higher to assure an unbiased estimation of the copula parameter. The gain in efficiency increases with the degree of association. Also, traditional penalized likelihood-based criteria, such as AIC and BIC, seem to have a fairly good performance in selecting the best model among a set of candidate copula models. As a last note, interpretation of the copula parameter about the dependence structure is possible but should be made carefully since the range of its transformation to a dependence measure is narrower than [−1, 1]. en_US
dc.description.abstract Es conocido que analizar datos de conteo bivariados correlacionados de manera independiente en un problema de regresión puede llevar a estimaciones de los coeficientes ineficientes. Sin embargo, las distribuciones bivariadas parámetricas que aparecen en la literatura para modelar conteos correlacionados tienen limitaciones y no son lo suficientemente flexibles como para admitir estructuras de correlación generales y distribuciones marginales diferentes. Los modelos basados en cópulas proveen una forma más flexible de generar distribuciones conjuntas para datos bi- variados al admitir distribuciones marginales diferentes y varias estructuras de dependencia. El propósito de este trabajo fue hacer una evaluación del desempeño de los modelos de regresión basados en cópulas para datos de conteos bivariados bajo diferentes escenarios, y aplicar este método a datos de conteos de accidentes fatales y no fatales en autopistas de Puerto Rico. Escenarios con un bajo, moderado y alto grado de dependencia fueron considerados, así como diferentes tamaños de muestra. En particular, se examinó la aplicación de cópulas cuando una las medias marginales es pequeña. En general, si se ajustan cópulas apropiadas, los modelos de regresión basados en cópulas proveen estimadores más eficientes para los coeficientes en comparación a ajustar modelos independientes a cada conteo, aún cuando los datos exhiben bajos grados de dependencia, Overall, if appropriate copulas are fitted, copula-based regression models provide more efficient estimators for the re- gression parameters when compared to modeling the counts independently, even when the data exhibits a degree of association as low as a Kendall’s τ = 0.3, aunque recomendamos un tamaño de muestra de N = 300 o superior para asegurar una estimación insesgada del parámetro de cópula. La ganancia en eficiencia aumenta con el grado de correlación. Además, los criterios tradicionales basados en verosimilitud, como AIC y BIC, parecen tener un buen desempeño en seleccionar el mejor modelo entre un conjunto de modelos de cópulas. Cabe señalar, finalmente, que la interpretación del parámetro de cópula sobre la estructura de dependencia es posible pero debe hacerse considerando que el intervalo de su transformación a una medida de dependencia es más estrecho que [−1, 1]. en_US
dc.description.graduationSemester Summer (3rd Semester) en_US
dc.description.graduationYear 2018 en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/1955
dc.language.iso English en_US
dc.rights.holder (c) 2018 Hilda Inés Calderón Cartagena en_US
dc.rights.license All rights reserved en_US
dc.subject Correlated bivariate count en_US
dc.title An assessment of copula-based regression models for bivariate count data en_US
dc.type Thesis en_US
dspace.entity.type Publication
thesis.degree.discipline Statistics en_US
thesis.degree.level M.S. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
MATE_CalderonCartagenaHI_2018.pdf
Size:
6.33 MB
Format:
Adobe Portable Document Format
Description: