ANEXO VI


La probabilidad esta implícita en la población, así si una población es infinita, la probabilidad de ser incluidos en una muestra tiende a 0, mientras que si es finita la probabilidad es mayor a 0 y por lo tanto es posible determinar una muestra. Ahora bien, la "posibilidad" de integrar una muestra, "es igual a 1 para todos"

D. R. De Cinti

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA

Brindaremos una guía práctica a modo de aproximación, para la determinación del tamaño necesario de la/s muestra/s.

Enumeraremos un conjunto de supuestos que junto al tipo, número y escalas de variables, seguridad o confianza, riesgo o error alfa y beta, diferencia delta, error epsilon, tamaño, media y desvío de la población, número de muestras, potencia, etc., orienten en la elección de un tamaño de muestra adecuado.

Todo asesor metodológico, estadístico, estadígrafo o similar, a menudo se enfrenta a una terrible pregunta: ¿Cuántos elementos necesito?. Esta pregunta, no siempre tuvo respuestas adecuadas, máxime cuando lo "calculado", lo "disponible" y lo "factible", rara vez van de la mano.

Normalmente, lo calculado arroja cifras que o bien no están disponibles, o bien la factibilidad en tiempo, recursos humanos, materiales, etc., nos fallan.

La conclusión es que gran número, por no decir la mayoría, de las investigaciones se realizan con un tamaño de muestra inferior al necesario.

Daremos por cumplidos otros requisitos vinculados al muestreo tales como la representatividad, la equiprobabilidad y la validez (1, Págs. 71-78).

Existen alternativas a estas situaciones, considerando la de mayor validez, aquella que provoca la "variación en la contrastación".

El objetivo queda así planteado como la elaboración de una guía práctica para determinar el tamaño de una/s muestra/s y proponer soluciones desde el punto de vista de la variación en la contrastación. (Vea Capitulo 5)

CONDICIONES INICIALES Y NOTACIÓN

(Nota: Se ha utilizado una notación que los procesadores puedan interpretar)

1) Tipo de Variable: Cualitativa Cuasi-cuantitativa y Cuantitativa

2) Escalas: Nominal, Ordinal, Intervalar o Proporción.

3) Seguridad o Confianza: (1-A) (1-Alfa)

4) Riesgo o Error de tipo I: A

5) Riesgo o Error de tipo II: ß (Beta)

6) Tamaño de la Población: N

7) Tamaño de la Muestra: n

8) Desvío de la Población: ðx (Sigma) (parámetro)
   
(ð²x= Variancia)
   
D= Desvío Estimado

9) Desvío de la Muestra: Sx (estadístico)        
    (S²x = Variancia)
   
Sx = D

10) Media de la Población: µ (parámetro)
   
M= Media Estimada

11) Media de la Muestra: X (estadística). X = M

12) 8,9,10,11, para proporciones: ðp, ð²p, Dp, Sp, S²p, Xp, Mp, µp

13) Número de Muestras: q

14) Potencia del Test: (1-ß)

15) Número de Variables: Vq

16) Error Esperable u Observable de Diferencia del Estadístico Versus el Parámetro, para una Muestra Versus la Población: € (Epsilon)= X-µ

17) Diferencia Esperable u Observable entre dos medias estadísticas (medias muestrales) = D

18) p.q = 0.25. Ya que es el mayor producto entre dos probabilidades o proporciones. Si y sólo si existe en el numerador. Implica mínima información o mayor incertidumbre.

Denominador: Viceversa. 0,5 x 0,5 = 0,25

0,2 x 0,8 = 0,16

0,1 x 0,9 = 0,09

19) n1+n2+,...+nq = q.n o n, si y sólo si una vez determinado el tamaño se efectúa n/q para q muestras

20) S1 = S2 => 2.S. O S si promedio de S.

Sólo sí numerador. Entonces el mayor S esperado u observado. Denominador: Viceversa.

Su utilización implica gran riesgo si no existen datos previos.

En el límite, S1 = S2 = ..... = Sk => q.S o S si promedio de S.

21) Toda Z y t = 2 para el 5% y 3 para el 1%, siempre a dos colas

Toda correlación deseada es igual a 1 

22) ~ : Igual aproximadamente

=> : Entonces

| | : Módulo

E : Sumatoria

--> : Sí

<--> : Sí y sólo sí

<= : Menor o igual

>= : Mayor o igual

¥ : Raíz Cuadrada

¶ : Probabilidad

Nota : En el texto, estas condiciones se indican por C.

TAMAÑOS DE MUESTRAS

Una muestra respecto de la Población

Variables Cualitativas y Cuasi-cuantitativa. Escala Nominal y Ordinal.
Esquemas de probabilidad constante, es decir sin memoria.

Ii) Una formulación básica es determinar la probabilidad

¶ { | p - Mp | >= Z ðp | } <= A ; | p-Xp | = €

por Bernoulli y Tschebycheff.

Donde Z es el valor de la variable tipificada para determinada confianza.

Z ~ 2 para 95 % y 2 colas

Z ~ 3 para 99 % y 2 colas

El uso de dos colas maximiza el tamaño necesario, o dicho de otro modo, el tamaño arrojado garantiza una muestra adecuada

Si conocemos el tamaño de la población N y por medio de una serie de operaciones, tenemos:

n = n0 / [1+{(n0 - 1)/n}], donde n0 = (Z² p.q) / €²

Por C18, n0 = (Z /2.€)²

Ej.1) Si A = 0,05 => 1-A = 0,95 => 95% => Z ~ 2

N = 100; p.q = 0,25. € = 0,05 (sólo el 5% de error)

n0 = 4. 0,25 / 0.05² = 400

n = 400 / {1 + (400 -1)/100}

n ~ 80

Ej.2) Si se tiene mayor información: 

digamos la proporción del fenómeno es p = 80 % => n0 = 256 y 

n ~ 72

Ej.3) Si aceptamos mayor error € = 0,10 => n0 = 100 y

n ~ 50

Ej.4) Si ambos casos, => n0 = 64 y n _ 40

Ej.5) por Bernoulli y Tschebycheff:

                                      1
¶ { | p-Mp | <= € } >= 1 -----
   
                                           

1 - (1/K²) = Confianza (1-A) => 1/K² = Error (A)

y € = K . ¥{p.q/n} = K ðp

=> K = € / ¥{(p.q)/n} => Confianza = 1 - {1/(4n€²)}

(por C18)

1 - 0.95 = 1/(4n€²) => n = 1/(4A€²) con N desconocido

Ej. 5.1) Si A=0,05 y €=0,10

n = 5 / €² = 500

n = 500

Ej.5.2) Si A=0,01 y €=0,10

n = 25 / €² = 2500

n = 2500

Iii) Otra fórmula de solución es por la variable tipificada

Para variables dicotómicas usando la Binomial

Z = (X - µ) / ðx

Conociendo el tamaño de la población N y para proporciones se puede reemplazar usando:

X = n, µ = N.p donde N = Total

ðx = ¥{ N.p.q }

Ej.6) Si N = 100 y p = 0,5 y A = 0,05 => Z ~ 2

n = Z . ¥{ N.p.q } + N . p 

n = 60

Fórmulas simplificadas

por C18 y C21,

para Confianza del 95%

n = ¥ N + N . p

para Confianza del 99%

n = 1.5 . ¥ N + N . p

Iiii) Si tenemos alguna medida de la Desviación de la Población (ðp) o una estimación (Dp) y desconociendo el tamaño de la población, tenemos:

n = (Z Dp / €)² con N desconocido, donde € = X - µ

Ej.7: Si Dp = 0.10, € = 0.01 y Z ~ 2 para 1-A = 0.95

n = (2 . 0.10 / 0.01)² 

n = 400

Ej.8) Si Dp = 0.07 

n = 196

Ej.9) Si Dp = 0.03 

n = 36

Iiv) Si tomamos un valor de Error de Tipo II (ß) y usando tablas, determinamos un valor de Z tal que en la fórmula de Iiii) nos aseguramos un n para ese ß,A. Se denominan Curvas Operativas Características para un Test de la Normal a determinado valor de significación Alfa (2, págs. 131-132)

Ej.10) Para ß = 0.20 y A < 0.05

entonces Z ~ 2.8, del Ej.7)

n = (2.8 0.10 / 0.01)²

n = 784

Iv) Existen abacos (3, 4) para €²(CHI Cuadrado), "t" (t de Student, y Z (Normal), a 1 y 2 colas con ß, A, y L(Lambda), siendo

L = | € | / ðp 

Ivi) Si el tamaño de la población N es desconocido y el desvío ðp también, tenemos:

Z = (p - Mp) / ¥(Mp Mq/n) de donde n = (Z / 2 €)² y € = p - µp

por C18 y C21, n = 1/€²

Ej.11) Estos son los ejercicios 1,2,3 y 4 de Ii) pues el cálculo arroja n0. Revise en esa sección. Vera que como N y ðp son desconocidos, el tamaño solicitado es directamente n0.

Ivii) Existen esquemas hipergeométricos donde la probabilidad de un evento está condicionada a los sucesos anteriores. Esquemas con memoria. (5)

se utiliza igual que Bernoulli pero con n0 = (Z ðx/d)² 

- En errores de Tipo II (ß)

Z= (µp+[½n]-A) / ¥(µp.µq/n) 

Variables Cuantitativas Continuas y Discretas. Escala Proporción e Intervalar.

En estas resoluciones cabe aclarar que las aplicaciones de Tschebycheff tienen validez. Remitirse a los ejemplos donde se ha aplicado para proporciones. Veamos...

Iviii) Tschebicheff

K coeficiente de seguridad

1-A = Confianza

W = Porción de la variación del desvío admitida

1-A = 1 - 1/K²

K ðµ = W ðx y ðµ = ðx / ¥n

Entonces n = (K/0.25)²

¶ Estimador < W ¶x} = (1-A)

¶ {Estimador < 25% ðx} = 0.95

Ej.12)

S1 1-ð = 0.95, entonces K ~ 4.5

y W = 0.25, entonces n = (4.5/0.25)²

n = 320

Si en cambio lo que no queremos es tener una variación sobre la media de la muestra respecto de la de la población, usaremos el teorema central del limite

¶ {|X-µ| <= € } >= 1-A

Ej.12.1)

= 1.5

Z ± 2

Como X-µ = K ðµ, entonces €=K ðµ y como ðµ = ðx/¥n

n = (2 ðx / 1.5)²

El mismo problema de inicio, se resuelve por el TCL de la siguiente manera:

¶ {Z <= 0.25 ðx/ðµ} >= 0.95 = ¶ {Z<2}>0.95

entonces

Ej.13) n = (2/0.25)² 

n = 64

Iix)Otra forma puede ser la de la ley de los grandes números en sus dos variantes:

¶ { |X-µ| <= € } > 1 - A

donde K ðx = €, entonces

n = (K ðx / €)²

n = (ð²x / A €²)

Ej.14) Si Sx = 10, € = 1, A = 0.05, para K = raíz² (1+A )~ 4.5

(4.5 . 10 / 1)² 

n ~ 20000

Ix) Para curvas características de operación, errores de tipo I y II, determinamos el tamaño de la muestra con

n= µ1 + Z (Sx/¥n) para determinado ß

pero si µ2, entonces µ1 + (Z.Sx/¥n) = µ2

entonces n(Z.ðx/µ2-µ1)²

Si µ2-µ1 = €, entonces n = (Z.Sx/€)²

se verá que este ejercido es igual al de Iiii)

Para este tipo de variables

Ixi)En la t de Student

t = (X-µ)/Sx/¥n-1 (2,6)

Si X - µ = €

entonces

n - 1 = [(t . Sx)/ €]²

de donde n = (t.Sx/€)² + 1

Ej.16) Si Sx = 10 y € = 1

entonces tenemos

n = (2.10)² + 1  

n = 401

Ej.16.1) Si Sx = 5, 

n = 100

Ej.16.2) Si Sx = 10 y € = 5, 

n = 16

Ej.16.3) Si Sx = 5 y € = 10, 

n = 1

Como se vera, cuanto mayor sea la diferencia € esperada y menor el desvío estimado, tanto menor sera el numero de elementos necesario en la muestra.

-Poder de eficiencia = 1 - ß

Saque ß de Ejercicio Ivii

II)Para comparación de muestras entre si

Variables Cuantitativas Continuas y Discretas

IIi)de t de Student tenemos

t = (X1-X2)/ ¥[Sx1²/n1] + [Sx2²/n2]

Por C19 y C20 tenemos

t = D / ¥2 [S²x/n]

luego obtenemos:

n = 2 (t.Sx / D)²

Ej.17) Si Sx ~ 10, D ~ 5 y t ~ 2

entonces

n = 2 (4 + 100) / 25 = 38

entonces debemos tener dos grupos de

n = 19 cada uno.

Variables Cualitativas o Cuasi-cuantitativa

IIii)Coeficiente de rangos de Spearman

ro ó rs = 1 - (6 Ed²)/n².n-n n(n-1)

de donde n².n-n = (6 E d²)/1-rs n²-n = 6 Ed²/1-rs

si queremos una buena correlación

1-rs=tiende a 0, digamos 0.1

entonces n².n-n = 60 E d² n²-n = 60 E d²

Para muestras grandes,

se puede deducir de t = rs ¥(n-2/1-rs²)

que (t/rs)² (1-rs²) + 2 = n

Se vera que esta ecuación es la transformación de r en Fisher.

IIiii) En la Z de proporciones,

Z = (p1 - p2) /¥{[p1q1/n1] + [p2q2/n2]}

por C17, C18, C19 y C20, obtenemos

Z = D ¥2n, entonces, n = 1/2 (Z/D)²

Ej.18) Si La diferencia esperable es del 10% (0.10)

para 95% con Z ~ 2, tenemos:

n = 4/0.01 1/2 = 200, es decir dos muestras de 100 c/una

-Correlación lineal de Spearman

si r = (Ex.y) / n . Sx.Sy

por C18, C19, etc.

n = Ex.y / r. ð²x

-Error Std de Estimación Predictiva Sy = ðy ¥(1-r²)

de donde surge n = E(y-Xy)² ¥(1-r²)

-Coeficiente de Alienación K = ¥(1-r²)

-Indice de eficiencia predictiva 

IEP = 100 (1 - ¥[1-r²] = 100 (1 - K)

-Coeficiente de Determinación r²

-Coeficiente de No Determinación K²

-Error Std del coeficiente de Correlación

ðr = (1- r²) / ¥(n-1)

de aquí se deduce n = [(1-r²)/ðr] -1

-Transformación r en Fisher

t = r ¥(n-2) / ¥(1-r²)

de aquí surge

n = (t/r)² (1-r²) + 2

- æ² CHI Cuadrado

æ²= E (O-E)² / E = n [(A.B) - (B.C)]² / [(A+B).(C+D).(A+C).(B+D)

-FI para doble entrada de asociación. Varia de 1 a -1

ø = [(A.D) - (B.C)] / ¥[(A+C) (B+D) (A+B) (C+D)]

Recuerde que æ²= n ø²

Para proporciones ø = [(1x2) - (3x4)] / ¥(1+2 x 3+4 x 1+3 x 2+4)

donde ø Max = ¥(1+2/3+4 x 1+3/2+4)

-V de Cramer Varia entre 0 y 1

V = ¥(æ²/N. Min (h-1;c-1)

de donde

n = (æ²/¥)²/Min (h-1;c-1)

de donde si quiero una asociación perfecta, V² = 1 (1)²

entonces: n = (æ²/Min(h-1;c-1)

Ej.xxx) Para una tabla de 2x2

entonces h-1 y c-1 = 1

de donde

n es directamente = æ²

-Coeficiente de contingencia C de Pearson. Varia de 0 a 1.

C = ¥(æ²/æ²+n), de donde n = (æ²/C²) - æ² 

-Coeficiente de Yule. Varia de 1 a -1

Q = (A.D - B.C) / (A.D + B.C)

-Coeficiente de correlación por rangos de Kendall. Varia de -1a+1

T = (k-j)/[1/2 n(n-1)] 

donde k = aciertos y j = errores

entonces T = Sx / [1/2 n(n-1)]

y n(n-1) = 2. Sx / T

si quiero asociación perfecta, entonces

T = 1 y n(n-1) = 2 Sx

Para muestras mayores de 10 casos,

Z = T / ¥[2(2n+5)/9n(n-1)]

Por C21 Z ~ 2 y T = 1, entonces

¥[2(2n+5)/9n(n-1)] = 0.5

-Correlación parcial por rangos de Kendall

Txy.z = ¥æ²/n, => n = ¥æ²/rxy.z

si quiero correlación perfecta

rxy.z = 1 => n = ¥æ²

-Concordancia de Kendall. Varia de 0 a 1

S = E(Rj - ETj/n)²

Smax = K² (n².n-n)/12

W = S/Smax

donde Rj = Suma de los puntajes de cada sujeto

Tj = Suma de Rj

K = Jueces

N = Sujetos

La significación de W si n> que 7 es

æ² = K (n-1) W

de donde (æ²/KW) + 1 = n

-Correlación biseral rpbi rb

t = rb ¥(n-2/1-rb²)

t = rb 1/¥n 

De donde n = rb² / t²

-Para una correlación si ro = 0,m 

entonces la distribución es normal con Er = 0

ð²r = 1-r²/n-2 y t = r/ ¥ðr

si ro # 0, entonces es sesgada y

Zr = 1/2 ln 1+r/1-r 

con æzr = 1/2 ln 1+ro/1-ro y ð²zr = 1/n-3

K = Z (1-æ/2) = t (n-1) ; 1 - æ/2

-ANOVA

1 nominal y otra intervalar, a veces 2 o mas nominales y otra intervalar.

F de Snedecor = S1²/S2² para n1 y n2, pero si S1=S2, entonces

F=1, habrá que buscar n1 y n2 tal que F=1, donde solo se puede

para n1>24 en nominales y n2>120 en intervalares,

también F= (æ²/n1) / (æ²/n2)

Si K = 2, entonces ¥F = t

 

Bibliografía

1 El Tamaño Adecuado de una Muestra. Revista del Hospital de Clínicas. 3 (1). 1987

2 Estadística Aplicada. Nuria Cortada de Cohan, J.M.Carro Eudeba 1972.

3 Statistics Manual. Crow, Davis & Maxfield. Drower Pub, NY 1960

4 Handbook of Social Psichology. Lindzey. Vol I, Cap VIII, Addison Westley Pub. 1954.

5 Estadística I. Guía de Clases Teóricas. Natalio Morini. Facultad de Agronomía. UBA. Setiembre de 1982.

6 Estadística Spieguel. Mc Graw Hill. Serie Schaum.

7 El Muestreo Estadistico aplicado a la Auditoría. Fouler Newton. Ed. Macchi 1972. Bs As.