Recuerdo que cuando era pequeño en las estadísticas que aparecían en televisión solía aparecer en una esquina de la pantalla el margen de error del estudio realizado y el número de personas que participaron en el mismo, como se puede ver en esta imagen
A mí siempre me parecía poca gente en comparación con el margen de error que nos indicaban. ¿Solamente con 400 personas obtenemos un margen de error del 5%?
Y en realidad parece poco, pero eso no significa que no sea suficiente. La pregunta es: ¿estaba yo en lo cierto? ¿Es poco, y por tanto nos estaban engañando, o en realidad basta con esa cantidad de individuos para asegurarnos ese margen de error?
En esencia, lo que querríamos tener es una manera de calcular el número necesario de personas que necesitamos para que los resultados de nuestro estudio tengan un error máximo fijado desde el principio (sí, en estos casos se fija el error máximo admisible al principio del estudio). Supongamos que partimos de una población inicial de la cual conocemos el número de individuos que la componen (podría ser la población de una cierta zona de España) y queremos estimar qué proporción de individuos de entre todos los de dicha población cumple cierta característica (por ejemplo, qué proporción de habitantes de dicha zona tiene un smartphone). Esta estimación se suele realizar calculando un intervalo de confianza, que es un intervalo en el cual se confía que estará el valor de la proporción de individuos que estamos buscando.
¿Qué significa eso de que se confía? Pues que no se puede asegurar con total seguridad que la proporción buscada pertenezca al intervalo, sino que se tiene una cierta confianza en que sea así. ¿Cuánta confianza? Pues la que se fije de antemano. El valor que mide esta confianza se denomina nivel de confianza y se suele denotar como , aunque se suele dar en tanto por cierto,
% (a
se le denomina nivel de significación). Por ejemplo, para un nivel de confianza del 95% (valor que se usa muy frecuentemente) todo esto significa que al calcular un intervalo de confianza para la proporción que queremos estimar confiamos al 95% en que el valor de dicha proporción pertenecerá al intervalo.
Recapitulando vemos que para calcular el tamaño de muestra en este tipo de estudios tenemos que conocer el tamaño de la población y fijar de antemano el nivel de confianza y el error máximo que admitimos. Llamando al tamaño de la población, el tamaño de muestra,
, que necesitamos con un nivel de confianza
y un error
se puede calcular con la siguiente fórmula:
siendo un valor de la distribución normal que se obtiene de una tabla y
la proporción de individuos de la población que poseen la característica que se está estudiando. Como ese dato es desconocido, se suele usar
valor que maximiza el producto
.
Lo que parece claro es que cuanto mayor sea el tamaño de la población mayor tendrá que ser el tamaño de la muestra. La cuestión que nos ocupa es saber de qué forma crece el tamaño de muestra en función del tamaño de la población si tenemos fijado de antemano el nivel de confianza y el margen de error. Vamos a realizar algunos cálculos para intentar hacernos una idea del asunto. Fijamos un nivel de confianza del 95% (con el cual y, por tanto, se sabe que
) y un error del 5% (con lo que
):
- Para una población de 100 personas, tenemos que el tamaño de muestra necesario en este caso será:
Es decir, con 100 personas deberíamos tomar una muestra de 80 individuos, casi la población entera.
- Veamos qué ocurre con 1000 personas:
Evidentemente el valor aumenta, 278 en esta ocasión, pero ya no está tan cerca del tamaño total de la población como ocurría antes.
- Para 10000 personas:
Sigue aumentando, pero como podéis ver ya aumenta mucho más despacio. Hemos aumentado bastante el tamaño de la población, de 1000 a 10000, pero el tamaño de muestra no llega a aumentar ni en 100 individuos.
- Y veamos qué ocurre para 100000:
Aquí se ve mucho mejor. Pasando de una población de 10000 individuos a una de 100000 la muestra aumenta en 13 individuos.
De todo esto se deduce que para poblaciones pequeñas el tamaño de la muestra que debemos tomar es bastante grande en comparación con dicha población (en ocasiones casi la población completa), pero para poblaciones de gran tamaño (todos los habitantes de España, por ejemplo) basta con una muestra no demasiado grande para obtener unos resultados estadísticamente fiables. O sea, que eso de que necesitamos muchos individuos en una muestra para que los resultados sean buenos no es del todo cierto.
¿Cuál sería en nuestro caso el tamaño máximo de una muestra? Pues el que corresponda a una población con una gran cantidad de elementos. Podemos obtenerlo tomando la expresión del tamaño de muestra como una función cuya variable es y calcular el límite de esa función cuando
tiende a infinito:
Es decir, que para poblaciones muy muy grandes necesitaremos tomar una muestra de 385 personas para obtener buenos resultados para el nivel de confianza y el error fijados de antemano (95% y 5% respectivamente). Os dejo también la gráfica de esta función (eje X: tamaño de la población; eje Y: tamaño de la muestra) hasta :
Como se puede intuir a partir de la misma, la función tiene una asíntota horizontal a la altura del valor del límite calculado antes.
Una última, pero muy importante, cuestión. Imaginemos que tenemos una población de 10000 personas, por lo que deberíamos tomar una muestra de 370 individuos. ¿Nos vale cualquier muestra que tenga con ese número de personas? Rotundamente no. Para que el proceso funcione la muestra debe ser representativa de la población, y si no es así todo esto no sirve de nada. Para ello, la muestra debe elegirse de manera aleatoria. De otra forma no tendremos asegurado que sea representativa de la población, por lo que el estudio no valdrá para nada.
A ver si toma nota más de uno cuando saca conclusiones de toda una población a partir de los resultados de ciertas encuestas en las que la muestra que genera dichos resultados no está elegida de manera aleatoria y, por tanto, es cualquier cosa menos representativa de dicha población.
Fuentes:
- La certeza absoluta y otras ficciones, libro de Pere Grima.
- Tamaño de la muestra en la Wikipedia en español.
Esta es mi segunda aportación a la Edición 4.12 del Carnaval de Matemáticas, que organiza High Ability Dimension.
¿Te ha gustado la entrada? Puedes invitarme a un café, Gauss te lo agradecerá 😉
Información Bitacoras.com…
Valora en Bitacoras.com: Recuerdo que cuando era pequeño en las estadísticas que aparecían en televisión solía aparecer en una esquina de la pantalla el margen de error del estudio realizado y el número de personas que participaron en el mismo,……
para leerlo despacio
Muy buen post.
Lo que me pareció más interesante fue cuando tomaste límite en N y ver que el n necesario es siempre menor a 400 sin importar el tamaño N de la población.
Saludos.
Muy buena entrada. Yo incidiría más en que todos estos cálculos sólo son válidos si la propiedad que se quiere estimar sigue una distribución normal (ahora mismo en la entrada se dice que uno de los parámetros de la ec. viene de una normal, que no lo deja tan claro).
Pero el siguiente calculo sería que probabilidad hay de que una muestra aleatoria cumpla con el requisito de «muestra representativa», que el autor lo presupone, pero yo no creo que sea así. Me imagino que tambien influirá el nº de opciones: no puede ser igual de representativas 400 personas si la respuesta es un «sí o no» que la repuesta sea «valora del 1 al 10» o «elige entre estos 5».
La formula basica de estadistica de muestreo es
Error^2 = Sesgo^2 + errorl^2
Y el
errorl= Coeficiente_de_variacion/ sqrt(n)
n= tamano muestral
Asi de simple. Y el sesgo es independiente de n.
[…] […]
Juan Antonio:
Por el llamado teorema central del límite, no es necesario que lo que se desea estimar siga una distribución normal.
Saludos.
Juanjo
oreste# El sesgo y la variaciones tienen significado matemático cuando se puede conocer el dato real (por ejemplo para calibrar un aparato). Pero si no se conoce el dato real, el sesgo depende del total de población a estudiar. En el caso del post la estadística era la «Calidad de educación». La única manera de comprobar el sesgo y variaciones es preguntando al 100%. Por lo que a mayor población mayor incertidumbre. Además que cuanto mayor sea la magnitud de los factores que influyen en la respuesta mayor es la posibilidad de sesgo, en el caso del post el método… Lee más »
Concuerdo en que debe ser aleatoria la selección de esas 400 personas (que se muestran en la gráfica) ya que en cuestiones políticas es donde es más sensible, ya que si no lo haces el proceso tomando todo el país te puede ir por zonas concentradas por un partido político y eso favorece a uno y desfavorece a los demás.
– Las estadísticas periodísticas están por lo general sesgadas, ya que no saben matemáticas, y lo hacen mal sin querer o queriendo. – Las estadísticas de los matemáticos, son dificiles de implantar, pero son la base en la que se sostiene la mejor manera de realizar un estudio estadístico. – Las estadísticas privadas (digamos, enfocadas para promocionar un artículo propio por encima de la competencia) tienen el máximo sesgo posible que resulte creíble. – Las estadísticas de los políticos a veces dan en conjunto mas del 100% (sin palabras) Para hacerlo bien, hay que usar una M.A.S. (muestra aleatoria simple),… Lee más »
Muy buen artículo. La opinión de casi 400 individuos, bien elegidos al azar, puede determinar la tendencia de millones de personas. Para lograr muestras aletorias, qué artículos recomieda el autor?
Pienso que el hecho de introducir los límites de la normal en la fórmula ha podido confundir a muchos lectores. El tamaño muestral sugerido como suficiente será solo en aquellas investigaciones donde se pretenda estudiar si la población posee o no cierta característica, pero no sirve cuando se trata de estudiar otras características (por ejemplo la media de altura de la población española probablemente necesitaría mayor tamaño muestral). En general para determinar sobre el papel el margen de error de la estimación necesitamos la varianza de la característica en la población, que es lo que en artículo queda p(1-p), que… Lee más »
Estoy 100% de acuerdo con Rigao, hoy en día en la prensa solo vemos «promedios» o como diríamos estimadores de esperanzas matemáticas, sin embargo, eso NO BASTA. Sería bueno empezar a ver en las noticias, los grados de libertad del error típico, error alfa de significancia y pruebas de hipótesis usadas. En el fondo así la gente entendería que estamos utilizando el error por continuidad muchas veces en una respuesta binaria para aproximar un binomio a la función normal. Sería bueno que la prensa se adentrara de a poco en esos conceptos para poder enseñar a la gente que la… Lee más »
No estoy de acuerdo con la fórmula, a mi juicio contiene un pequeño error.
No va en paréntesis (N-1) en realidad va simplemente N.
No cambia un ápice los resultados y las ideas.
[…] fenómeno lo explican de forma muy didáctica en Gaussianos.com, un interesante blog dedicado a las matemáticas. Supongamos que queremos hacer una encuesta para […]
[…] fenômeno é explicado de forma didática no website: Gaussianos.com, um blog interessante dedicado à matemática. Suponhamos que queremos fazer uma pesquisa para […]
Pero si la proporción esperada se conoce por antecedentes y esta deja de ser 50 los resultados varían y se puede obtener una muestra menor cuando esta se acerca a proporciones elevadas (mayores a 90% p.e.)
Hola! Muy buen articulo! Particularmente el análisis del límite. Me gustaría preguntarte de dónde sale la primer fórmula de n en el artículo.
buenas tardes
tengo una duda, de una población de 100 individuos, obtuve un tamaño de muestra de 80, pero solo hemos podido recolectar 61 datos ya que la muestra es no probabilistica y no tenemos acceso directo a ellos, como defiendo mi 95% de confiabilidad?