Recuerdo que cuando era pequeño en las estadísticas que aparecían en televisión solía aparecer en una esquina de la pantalla el margen de error del estudio realizado y el número de personas que participaron en el mismo, como se puede ver en esta imagen

(Imagen tomada de aquí)

A mí siempre me parecía poca gente en comparación con el margen de error que nos indicaban. ¿Solamente con 400 personas obtenemos un margen de error del 5%?

Y en realidad parece poco, pero eso no significa que no sea suficiente. La pregunta es: ¿estaba yo en lo cierto? ¿Es poco, y por tanto nos estaban engañando, o en realidad basta con esa cantidad de individuos para asegurarnos ese margen de error?

En esencia, lo que querríamos tener es una manera de calcular el número necesario de personas que necesitamos para que los resultados de nuestro estudio tengan un error máximo fijado desde el principio (sí, en estos casos se fija el error máximo admisible al principio del estudio). Supongamos que partimos de una población inicial de la cual conocemos el número de individuos que la componen (podría ser la población de una cierta zona de España) y queremos estimar qué proporción de individuos de entre todos los de dicha población cumple cierta característica (por ejemplo, qué proporción de habitantes de dicha zona tiene un smartphone). Esta estimación se suele realizar calculando un intervalo de confianza, que es un intervalo en el cual se confía que estará el valor de la proporción de individuos que estamos buscando.

¿Qué significa eso de que se confía? Pues que no se puede asegurar con total seguridad que la proporción buscada pertenezca al intervalo, sino que se tiene una cierta confianza en que sea así. ¿Cuánta confianza? Pues la que se fije de antemano. El valor que mide esta confianza se denomina nivel de confianza y se suele denotar como 1-\alpha, aunque se suele dar en tanto por cierto, (1-\alpha)% (a \alpha se le denomina nivel de significación). Por ejemplo, para un nivel de confianza del 95% (valor que se usa muy frecuentemente) todo esto significa que al calcular un intervalo de confianza para la proporción que queremos estimar confiamos al 95% en que el valor de dicha proporción pertenecerá al intervalo.

Recapitulando vemos que para calcular el tamaño de muestra en este tipo de estudios tenemos que conocer el tamaño de la población y fijar de antemano el nivel de confianza y el error máximo que admitimos. Llamando N al tamaño de la población, el tamaño de muestra, n, que necesitamos con un nivel de confianza 1-\alpha y un error e se puede calcular con la siguiente fórmula:

n=\cfrac{N \cdot z^2_{\frac{\alpha}{2}} \cdot p \cdot (1-p)}{e^2 \cdot (N-1) + z^2_{\frac{\alpha}{2}} \cdot p \cdot (1-p)}

siendo z^2_{\frac{\alpha}{2}} un valor de la distribución normal que se obtiene de una tabla y p la proporción de individuos de la población que poseen la característica que se está estudiando. Como ese dato es desconocido, se suele usar p=0.5 valor que maximiza el producto p(1-p).

Lo que parece claro es que cuanto mayor sea el tamaño de la población mayor tendrá que ser el tamaño de la muestra. La cuestión que nos ocupa es saber de qué forma crece el tamaño de muestra en función del tamaño de la población si tenemos fijado de antemano el nivel de confianza y el margen de error. Vamos a realizar algunos cálculos para intentar hacernos una idea del asunto. Fijamos un nivel de confianza del 95% (con el cual \alpha=0.05 y, por tanto, se sabe que z_{\frac{\alpha}{2}}=z_{0.05}=1.96) y un error del 5% (con lo que e=0.05):

  • Para una población de 100 personas, tenemos que el tamaño de muestra necesario en este caso será:

    n=\cfrac{100 \cdot (1.96)^2 \cdot 0.5 \cdot 0.5}{0.0025 \cdot 99+(1.96)^2 \cdot 0.5 \cdot 0.5} \approx 79.5

    Es decir, con 100 personas deberíamos tomar una muestra de 80 individuos, casi la población entera.

  • Veamos qué ocurre con 1000 personas:

    n=\cfrac{1000 \cdot (1.96)^2 \cdot 0.5 \cdot 0.5}{0.0025 \cdot 999+(1.96)^2 \cdot 0.5 \cdot 0.5} \approx 277.7

    Evidentemente el valor aumenta, 278 en esta ocasión, pero ya no está tan cerca del tamaño total de la población como ocurría antes.

  • Para 10000 personas:

    n=\cfrac{10000 \cdot (1.96)^2 \cdot 0.5 \cdot 0.5}{0.0025 \cdot 9999+(1.96)^2 \cdot 0.5 \cdot 0.5} \approx 369.99

    Sigue aumentando, pero como podéis ver ya aumenta mucho más despacio. Hemos aumentado bastante el tamaño de la población, de 1000 a 10000, pero el tamaño de muestra no llega a aumentar ni en 100 individuos.

  • Y veamos qué ocurre para 100000:

    n=\cfrac{100000 \cdot (1.96)^2 \cdot 0.5 \cdot 0.5}{0.0025 \cdot 99999+(1.96)^2 \cdot 0.5 \cdot 0.5} \approx 382.7

    Aquí se ve mucho mejor. Pasando de una población de 10000 individuos a una de 100000 la muestra aumenta en 13 individuos.

De todo esto se deduce que para poblaciones pequeñas el tamaño de la muestra que debemos tomar es bastante grande en comparación con dicha población (en ocasiones casi la población completa), pero para poblaciones de gran tamaño (todos los habitantes de España, por ejemplo) basta con una muestra no demasiado grande para obtener unos resultados estadísticamente fiables. O sea, que eso de que necesitamos muchos individuos en una muestra para que los resultados sean buenos no es del todo cierto.

¿Cuál sería en nuestro caso el tamaño máximo de una muestra? Pues el que corresponda a una población con una gran cantidad de elementos. Podemos obtenerlo tomando la expresión del tamaño de muestra como una función cuya variable es N y calcular el límite de esa función cuando N tiende a infinito:

\displaystyle{\lim_{N \to \infty} \cfrac{N \cdot (1.96)^2 \cdot 0.5 \cdot 0.5}{0.0025 \cdot (N-1)+(1.96)^2 \cdot 0.5 \cdot 0.5}=384.16 \ldots}

Es decir, que para poblaciones muy muy grandes necesitaremos tomar una muestra de 385 personas para obtener buenos resultados para el nivel de confianza y el error fijados de antemano (95% y 5% respectivamente). Os dejo también la gráfica de esta función (eje X: tamaño de la población; eje Y: tamaño de la muestra) hasta N=10^9:

Como se puede intuir a partir de la misma, la función tiene una asíntota horizontal a la altura del valor del límite calculado antes.

Una última, pero muy importante, cuestión. Imaginemos que tenemos una población de 10000 personas, por lo que deberíamos tomar una muestra de 370 individuos. ¿Nos vale cualquier muestra que tenga con ese número de personas? Rotundamente no. Para que el proceso funcione la muestra debe ser representativa de la población, y si no es así todo esto no sirve de nada. Para ello, la muestra debe elegirse de manera aleatoria. De otra forma no tendremos asegurado que sea representativa de la población, por lo que el estudio no valdrá para nada.

A ver si toma nota más de uno cuando saca conclusiones de toda una población a partir de los resultados de ciertas encuestas en las que la muestra que genera dichos resultados no está elegida de manera aleatoria y, por tanto, es cualquier cosa menos representativa de dicha población.


Fuentes:

  • La certeza absoluta y otras ficciones, libro de Pere Grima.
  • Tamaño de la muestra en la Wikipedia en español.

Esta es mi segunda aportación a la Edición 4.12 del Carnaval de Matemáticas, que organiza High Ability Dimension.

Print Friendly, PDF & Email