## Publication: Un estudio de diferentes pruebas para el problema general de dos muestras

##### Authors
Gómez-Herazo, Cristian J.
Rolke, Wolfgang A.
##### College
College of Arts and Sciences - Sciences
##### Department
Department of Mathematics
M.S.
2018-05
##### Abstract
In its most general form the two-sample problem is concerned with the question whether two independent samples come from the same probability distribution. There are a wide variety of methods to test this hypothesis. We will study some of the most well known: the Permutation, Wilcoxon, Wald-Wolfowitz Runs, Kolmogorov Smirnov, Anderson-Darling and Chi-Square test. We also develop an extension to the Q-Q plot by adding a confidence band to test specifically whether the two samples come from a uniform distribution. These methods are based on the statistics of order, rank, and empirical distribution function. We will compare the different tests, studying their power for different distributions, varying parameters and using different sample sizes. The power of each test will be calculated by simulation, for which we created an interactive online web application (shinyapps) programmed in R, which is available at: https://server-cristian.shinyapps.io/two sample problem/. The results show that there is no uniformly best test for the general problem of two samples. This is because the powers are affected to a large extent by the definition of the alternate distributions, we can however give some guidelines to use the tests more appropriate in a number of standard cases.

En su forma más general, el problema de las dos muestras se refiere a si dos muestras independientes provienen de la misma distribución de probabilidad. Existe una gran variedad de métodos para probar esta hipótesis. Estudiaremos algunos de los más conocidos: Permutación, Wilcoxon, Rachas de Wald-Wolfowitz, Kolmogorov Smirnov, Anderson-Darling y Chi-Cuadrado. También desarrollamos una extensión del grafico Cuantil-Cuantil agregando una banda de confianza para probar específicamente si las dos muestras provienen de una distribución uniforme. Estos métodos se basan en las estadísticas de orden, rango y función de distribución empírica. Compararemos las diferentes pruebas, estudiaremos su potencia para diferentes distribuciones, variando parámetros y utilizando diferentes tamaños de muestra. El poder de cada prueba se calculará mediante simulación, para lo cual creamos una aplicación web interactiva en línea (shinyapps) programada en R, disponible en: https://server-cristian.shinyapps.io/two_sample_problem/. Los resultados muestran que no existe una prueba uniformemente más poderosa para el problema general de dos muestras. Esto se debe a que los poderes se ven afectados en gran medida por la definición de las distribuciones alternativas, sin embargo, podemos dar algunas pautas para usar las pruebas más apropiadas en una serie de casos estándares.
##### Keywords
Sampling (Statistics),