Publication:
Analysis of Puerto Rico crime data (2012-2016) using small area estimation

No Thumbnail Available
Authors
Galán Rivera, Jean
Embargoed Until
Advisor
Macchiavelli, Raúl E.
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2022-12-13
Abstract
According to The United Nations Office on Drugs and Crime reported that in 2012, Puerto Rico was ranked as the top territory in the United States with highest murder rate. There exists some methods that estimate crime count means and crime concentrations. However, past studies indicate that a certain number of crimes are not reported to the police due to many complicated situations. If the data are not abundant enough, the methods mentioned earlier will have less reliable conclusions due for detailed areas due to small sample sizes. Therefore, it is more reasonable to study the data using small area estimation, which allows modeling using additional auxiliary information like census records or geographic information, in order to obtain more accurate estimates. One of the most common models for small areas is the Nested Error Regression Model, which is typically used when the information on the response variable is available at a unit level. This model can be utilized for simple nested models and can be extended to the case of the generalized linear mixed model. However, when studying count data, it is common to see that it's distribution follows either a Poisson or a negative binomial distribution. Furthermore, generalized linear mixed models for count data typically utilizes log-linear models. It is very usual to find that the expected count is proportional to an exposure variable and for these cases it is recommended to model the rate in order to estimate the expected count through the expected rate. It is important to consider the most complete information possible in order to get more accurate estimates. The main objective of this research is to use Puerto Rico's crime data between 2012 and 2016 in order to study and understand Generalized Linear Mixed Models for counts having random effects in small areas. Preliminary results showed that the counts of crime of the data set have an overall mean of 25.92 crimes every 8 hours. Furthermore, analysis results showed that the crime counts followed negative binomial distribution. A multiple comparisons were made and found that in summary: (1) the mean crime count is higher for property crimes compared to personal crimes, (2) the mean personal crime count was higher at nights and the mean property crime count was higher at afternoons, and (3) the mean crime count was lower during the autumns.

Según la Oficina de las Naciones Unidas contra la Droga y el Delito informó en 2012, que Puerto Rico se clasificó como el principal territorio de los Estados Unidos con la tasa de homicidios más alta. Existen algunos métodos que estiman los promedios de recuento de delitos y las concentraciones de delitos. Sin embargo, estudios anteriores indican que una cierta cantidad de delitos no se denuncian a la policía debido a muchas situaciones complicadas. Si los datos no son lo suficientemente abundantes, los métodos mencionados anteriormente tendrán conclusiones menos confiables en las áreas detalladas debido a los tamaños de muestra pequeños. Por lo tanto, es más razonable estudiar los datos usando estimación de área pequeña, lo que permite modelar usando información auxiliar adicional como registros de censos o información geográfica, para obtener estimaciones más precisas. Uno de los modelos más comunes para áreas pequeñas es el modelo de regresión de error anidado, que se usa normalmente cuando la información sobre la variable de respuesta está disponible a nivel de unidad. Este modelo se puede utilizar para modelos anidados simples y se puede extender al caso del modelo mixto lineal generalizado. Sin embargo, al estudiar datos de recuento, es común ver que su distribución sigue una distribución de Poisson o binomial negativa. Además, los modelos mixtos lineales generalizados para datos de conteo suelen utilizar modelos logarítmicos lineales. Es muy común encontrar que el conteo esperado es proporcional a una variable de exposición y para estos casos se recomienda modelar la tasa para estimar el conteo esperado a través de la tasa esperada. El objetivo principal de esta investigación es utilizar los datos de criminalidad de Puerto Rico entre 2012 y 2016 para estudiar y comprender modelos mixtos lineales generalizados para conteos que tienen efectos aleatorios en áreas pequeñas. Los resultados preliminares mostraron que los recuentos de delitos del conjunto de datos tienen una media general de 25.92 delitos cada 8 horas. En adición, los resultados del análisis mostraron que los recuentos de delitos siguieron una distribución binomial negativa. Se realizaron comparaciones múltiples y se encontró que, en resumen: (1) el recuento promedio de delitos contra la propiedad es mayor en comparación con los delitos personales, (2) el recuento promedio de delitos contra la propiedad fue mayor durante las noches y el recuento promedio de delitos contra la propiedad fue mayor en tardes, y (3) el recuento medio de delitos fue menor durante los otonos.
Keywords
Small area estimation,
Statistics,
Crime in Puerto Rico,
Generalized linear mixed model,
Modeling counts
Usage Rights
Except where otherwise noted, this item’s license is described as Attribution-NoDerivatives 4.0 International
Cite
Galán Rivera, J. (2022). Analysis of Puerto Rico crime data (2012-2016) using small area estimation [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/2992