Publication:
Analysis of Puerto Rico crime data (2012-2016) using small area estimation

dc.contributor.advisor Macchiavelli, Raúl E.
dc.contributor.author Galán Rivera, Jean
dc.contributor.college College of Arts and Sciences - Sciences en_US
dc.contributor.committee Torres Saavedra, Pedro A.
dc.contributor.committee Santana Morant, Dámaris
dc.contributor.department Department of Mathematics en_US
dc.contributor.representative Sánchez Quintero, Dilsom A.
dc.date.accessioned 2022-12-19T20:14:08Z
dc.date.available 2022-12-19T20:14:08Z
dc.date.issued 2022-12-13
dc.description.abstract According to The United Nations Office on Drugs and Crime reported that in 2012, Puerto Rico was ranked as the top territory in the United States with highest murder rate. There exists some methods that estimate crime count means and crime concentrations. However, past studies indicate that a certain number of crimes are not reported to the police due to many complicated situations. If the data are not abundant enough, the methods mentioned earlier will have less reliable conclusions due for detailed areas due to small sample sizes. Therefore, it is more reasonable to study the data using small area estimation, which allows modeling using additional auxiliary information like census records or geographic information, in order to obtain more accurate estimates. One of the most common models for small areas is the Nested Error Regression Model, which is typically used when the information on the response variable is available at a unit level. This model can be utilized for simple nested models and can be extended to the case of the generalized linear mixed model. However, when studying count data, it is common to see that it's distribution follows either a Poisson or a negative binomial distribution. Furthermore, generalized linear mixed models for count data typically utilizes log-linear models. It is very usual to find that the expected count is proportional to an exposure variable and for these cases it is recommended to model the rate in order to estimate the expected count through the expected rate. It is important to consider the most complete information possible in order to get more accurate estimates. The main objective of this research is to use Puerto Rico's crime data between 2012 and 2016 in order to study and understand Generalized Linear Mixed Models for counts having random effects in small areas. Preliminary results showed that the counts of crime of the data set have an overall mean of 25.92 crimes every 8 hours. Furthermore, analysis results showed that the crime counts followed negative binomial distribution. A multiple comparisons were made and found that in summary: (1) the mean crime count is higher for property crimes compared to personal crimes, (2) the mean personal crime count was higher at nights and the mean property crime count was higher at afternoons, and (3) the mean crime count was lower during the autumns. en_US
dc.description.abstract Según la Oficina de las Naciones Unidas contra la Droga y el Delito informó en 2012, que Puerto Rico se clasificó como el principal territorio de los Estados Unidos con la tasa de homicidios más alta. Existen algunos métodos que estiman los promedios de recuento de delitos y las concentraciones de delitos. Sin embargo, estudios anteriores indican que una cierta cantidad de delitos no se denuncian a la policía debido a muchas situaciones complicadas. Si los datos no son lo suficientemente abundantes, los métodos mencionados anteriormente tendrán conclusiones menos confiables en las áreas detalladas debido a los tamaños de muestra pequeños. Por lo tanto, es más razonable estudiar los datos usando estimación de área pequeña, lo que permite modelar usando información auxiliar adicional como registros de censos o información geográfica, para obtener estimaciones más precisas. Uno de los modelos más comunes para áreas pequeñas es el modelo de regresión de error anidado, que se usa normalmente cuando la información sobre la variable de respuesta está disponible a nivel de unidad. Este modelo se puede utilizar para modelos anidados simples y se puede extender al caso del modelo mixto lineal generalizado. Sin embargo, al estudiar datos de recuento, es común ver que su distribución sigue una distribución de Poisson o binomial negativa. Además, los modelos mixtos lineales generalizados para datos de conteo suelen utilizar modelos logarítmicos lineales. Es muy común encontrar que el conteo esperado es proporcional a una variable de exposición y para estos casos se recomienda modelar la tasa para estimar el conteo esperado a través de la tasa esperada. El objetivo principal de esta investigación es utilizar los datos de criminalidad de Puerto Rico entre 2012 y 2016 para estudiar y comprender modelos mixtos lineales generalizados para conteos que tienen efectos aleatorios en áreas pequeñas. Los resultados preliminares mostraron que los recuentos de delitos del conjunto de datos tienen una media general de 25.92 delitos cada 8 horas. En adición, los resultados del análisis mostraron que los recuentos de delitos siguieron una distribución binomial negativa. Se realizaron comparaciones múltiples y se encontró que, en resumen: (1) el recuento promedio de delitos contra la propiedad es mayor en comparación con los delitos personales, (2) el recuento promedio de delitos contra la propiedad fue mayor durante las noches y el recuento promedio de delitos contra la propiedad fue mayor en tardes, y (3) el recuento medio de delitos fue menor durante los otonos. en_US
dc.description.graduationSemester Fall en_US
dc.description.graduationYear 2022 en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/2992
dc.language.iso en en_US
dc.rights Attribution-NoDerivatives 4.0 International *
dc.rights.holder (c) 2022 Jean Carlo Galán Rivera en_US
dc.rights.uri http://creativecommons.org/licenses/by-nd/4.0/ *
dc.subject Small area estimation en_US
dc.subject Statistics en_US
dc.subject Crime in Puerto Rico en_US
dc.subject Generalized linear mixed model en_US
dc.subject Modeling counts en_US
dc.subject.lcsh Measurement uncertainty (Statistics)
dc.subject.lcsh Log-linear models
dc.subject.lcsh Binomial distribution
dc.subject.lcsh Regression analysis - Mathematical models
dc.title Analysis of Puerto Rico crime data (2012-2016) using small area estimation en_US
dc.title.alternative Análisis de datos de crimen en Puerto Rico (2012-2016) usando estimación de áreas pequeñas en_US
dc.type Thesis en_US
dspace.entity.type Publication
thesis.degree.discipline Mathematical Statistics en_US
thesis.degree.level M.S. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
MATE_GalanRiveraJC_2022.pdf
Size:
2.84 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.26 KB
Format:
Item-specific license agreed upon to submission
Description: