Teorema del límite central (estadística)

El teorema del límite central establece que, en general y dado un conjunto de muestras aleatorias independientes e idénticamente distribuidas con una función de distribución arbitraria, si se calcula la media a partir de un subconjunto de muestras, entonces la función de distribución de dichas medias tiende a una función de distribución gaussiana cuando $N\rightarrow \infty$. Además, las medias de las dos distribuciones serán las mismas y la desviación estándar de la distribución gaussiana es igual al error estándar. 

Las variables aleatorias son independientes e idénticamente distribuidas (i.i.d.) si cada una de ellas tiene la misma distribución de probabilidad y todas son mutuamente independientes (la probabilidad de cada uno no depende de que el otro suceso ocurra o no, es decir, los dos sucesos no están relacionados). 

Por ejemplo, si se tienen 10000 muestras dadas por una distribución uniforme y se calcula la media muchas veces con 100 diferentes muestras de ese conjunto, entonces la distribución de esas muestras tiende a una distribución gaussiana. El siguiente código de MATLAB ilustra la aplicación del teorema:

N = 1000000; x = rand(1,N); % Número de datos suficientemente grande
% Medias muestrales a partir de la muestra inicial:
n = 100; % Número de elementos en cada suma
m = 10000; % Número de medias a calcular
y = zeros(1,m); 
for i=1:m
    ind = randi([1 N],1,n); % Índices aleatorios para la selección de una submuestra
    S = 0;
    for k=1:n
        S = S + x(ind(k));
    end
    y(i) = S/n; % Cálculo de la media
end
% Error estándar = Desviación estándar de la media
mx = mean(x); estdx = std(x)/sqrt(n); % Error estándar
my = mean(y); stdy = std(y); % Desviación estándar
subplot(1,2,1), h1 = histogram(x); title({'Distribución uniforme';['Error estándar = ' num2str(estdx)]})
xlabel('Valores'), ylabel('Número de casos'), line([mx mx],[0 max(h1.Values)],'Color','red','LineWidth',2)
line([mx-estdx mx-estdx],[0 max(h1.Values)],'Color','black','LineWidth',1,'LineStyle','--')
line([mx+estdx mx+estdx],[0 max(h1.Values)],'Color','black','LineWidth',1,'LineStyle','--')
subplot(1,2,2), h2 = histogram(y); title({'Distribución de las medias';['Desviación estándar = ' num2str(stdy)]})
xlabel('Valores'), ylabel('Número de casos'), line([my my],[0 max(h2.Values)],'Color','red','LineWidth',2)
line([my-stdy my-stdy],[0 max(h2.Values)],'Color','black','LineWidth',1,'LineStyle','--')
line([my+stdy my+stdy],[0 max(h2.Values)],'Color','black','LineWidth',1,'LineStyle','--')

El resultado se muestra en la figura de arriba.


No hay comentarios:

Publicar un comentario

Agradecemos los comentarios que ayuden a darle mejor forma a esta entrada del blog.