Tamaño de Muestra II

En el artículo anterior definimos cómo se calcula el tamaño de una muestra. En el ejemplo que hicimos, vimos que para los datos del problema sobre los ingresos de diputados, eligiendo un 95% como nivel de confianza se necesitaba recabar datos de 385 personas.

Pero, ¿qué sucede si queremos más precisión aún, y aumentamos el nivel de confianza? Supongamos que deseamos conocer el tamaño de la muestra, pero aumentamos el nivel de confianza al 99%. En ese caso tenemos:

z=2.58

s=1000

E=100

Sustituyendo en la ecuación tenemos:

n=(z∙sE)2=n=(2.58∙1000100)2=665.64≈666

Note que en este caso, el tamaño de la muestra se duplica casi al haber cambiado el nivel de confianza. Ya que el aumento del nivel de confianza implica más tiempo para realizar el estudio y más recursos invertidos, debe seleccionarse con cuidado el nivel de confianza. Frecuentemente, un nivel del 95% es suficiente, a menos que sea imperativo un nivel mucho mayor de precisión, en cuyo caso debe usarse el nivel de confianza del 99%.

Regresión correlación lineal

 

Cuando se manejan grupos de datos, es importante conocer si hay una tendencia en ellos. Es decir, si siguen un comportamiento que sea predecible. Esto es especialmente importante cuando se desea proyectar algún valor. Si conocemos cómo se relacionan los datos, estaremos en capacidad de poder ajustarlos a algún modelo matemático para poder predecir qué sucederá en el futuro.

Explicando un poco más en detalle lo enunciado anteriormente, partiremos del hecho de que estamos tratando de encontrar la relación entre dos tipos de datos: uno llamado independiente (o variable independiente) que es la variable de la cual partiremos es nuestro punto de partida.

Por otro lado, tenemos la variable dependiente, que es la que trataremos de predecir a partir de la variable independiente. Para entenderlo mejor, podríamos explicarlo de la siguiente manera:

Si tuviéramos un grupo de niños y a cada uno le preguntáramos la edad, y seguidamente midiéramos su estatura, encontraríamos que la edad  y la altura están relacionadas. Es decir, para una determinada edad, hay una altura correspondiente. De esa manera, si encontráramos de qué tipo es la relación que hay entre estas dos variables, únicamente con conocer la edad de un niño podríamos predecir la estatura que debería tener. En este caso, la edad es la variable independiente y la estatura la variable dependiente.

Lo importante es, determinar de qué tipo es la relación que hay entre las dos variables que tengamos. Muchas variables se relacionan de manera lineal, es decir, se ajustan a un modelo simple en el cual la relación de los datos puede representarse por una línea recta, como en la siguiente figura:

 

Figura 1. Ejemplo de regresión linealhttp://i.stack.imgur.com/JaebF.png

En este caso, note que los datos (y es la variable dependiente, x la variable independiente) aparecen como puntos dispersos, al verlos intuitivamente vemos que siguen una tendencia (representada por la línea central).  Note que la línea representa el comportamiento general de los datos. Es decir, esta serie de datos podría representarse muy bien por medio de una línea recta.

En la vida real,  los grupos de datos nunca tienen un ajuste perfecto a una línea u otro modelo matemático. Esto es especialmente cierto cuando se trabaja con grupos grandes de datos, ya que al aumentar el tamaño del grupo de datos, aumenta la dispersión de los mismos.

Para la correlación lineal, existe un número llamado Coeficiente de correlación,  abreviado como r, el cual da una idea de si los datos del grupo tienen una aproximación lineal. Este valor va desde  -1 hasta +1. En ambos extremos si es -1 o +1, se dice que la correlación es perfecta. Siendo -1 correlación negativa perfecta y +1 correlación positiva perfecta.

El programa Microsoft Excel, incluye herramientas computacionales para determinar el coeficiente de correlación en una serie de datos.

Ejemplo

Se desea determinar la correlación entre los años de un vehículo y su precio de venta:

No.

Edad del vehículo

Precio (en miles de dólares)

1

9

8.1

2

7

6

3

11

3.6

4

12

4

5

8

5

6

7

10

7

8

7.6

8

11

8

9

10

8

10

12

6

11

6

8.6

12

6

8

 

En el programa Excel en la Opción Insertar Gráfica de dispersión, elegimos las columnas. Algo importante es que debemos saber quién es la variable independiente y quién la dependiente. La edad de los vehículos es algo independiente, y el precio de venta está en función de ello, por lo que el precio es la variable dependiente. La gráfica quedaría de la siguiente manera:

Ahora lo que debemos hacer es dar click derecho sobre los datos de la gráfica y elegir “añadir línea de tendencia” y elegir “incluir valor R2”, así el programa incluirá el valor de R cuadrado.

Al hacer esto tenemos:

Ya que el coeficiente es R, la raíz cuadrada del valor que presenta la gráfica es lo que nos interesa, por lo que R=0.544, por lo que la correlación es baja. Observe que el programa trata de hacer el mejor ajuste, pero la serie de datos es muy dispersa.

Tamaño de Muestra

La cuestión fundamental cuando se diseña un estudio estadístico  es cómo determinar el tamaño  de la muestra, pues si esta se elige demasiado grande, se invertirá mucho tiempo y recursos en realizar la muestra y si es muy pequeña, es muy posible que no sea representativa respecto de la información que se desea de la población.

En primer término, debe elegirse un intervalo de confianza, que puede definirse de manera sencilla como qué tan cercanos son los resultados que se obtengan en la muestra, respecto de la población. Dicho en otras palabras, cuando realizamos un estudio, o hacemos el análisis de una muestra, para inferir los resultados y relacionarlos con una población, es posible que los datos que la muestra arroje sean cercanos o no al comportamiento de la población.

Los intervalos de confianza más utilizados son del 95 y 99%. Es decir, si elegimos un intervalo de confianza del 95%, tenemos un 95% de probabilidad de que los resultados de la muestra reflejen el comportamiento de la población. Igual caso sería para un 99% de intervalo de confianza. En cualquier análisis muestral que hagamos, suponemos siempre que el evento sobre el cual haremos el análisis sigue una distribución normal. Esto significa que es un tipo de evento donde la mayoría de datos se agrupan más densamente en las proximidades centrales, y tienden a disminuir hacia los extremos.

Dicho de otra forma, la mayor parte de las probabilidades se concentran en un intervalo central, según podemos apreciar en la Figura 1.

Este tipo de distribución es válida para una gran variedad de situaciones, y es especialmente útil cuando se trabaja con cantidades grandes de datos. Por ello es apropiado utilizarla cuando se realizan determinaciones de muestras. http://cienciasempresariales.info/wp-content/uploads/2010/11/d_normal_2.png

Figura 1. Distribución Normal

 

Además del intervalo de confianza, hay que recordar que en cualquier medición conlleva un error. El error no es necesariamente malo; para fines de estadística diremos que el error para determinar una muestra viene dado por la diferencia entre la media de la población (µ) y la media de la muestra (X). Mientras más error se tolere en el análisis, menor será la muestra, y viceversa.

Otro aspecto importante también es la desviación estándar de la población. Esta se relaciona con la varianza y ambas representan la dispersión de los datos. En una población mientras más grande sea la desviación estándar, mayor dispersión hay de datos y por ende, se necesita una muestra más grande para que sea representativa respecto de la población.

La desviación estándar poblacional se calcula mediante:

σ=(X-μ)N [Ecuación 1]

Donde X es cada uno de los valores de la población, µ es la media de la población y N el número de observaciones.

Así, para poder encontrar el tamaño adecuado de la muestra, se emplea la relación:

n=(z∙sE)2 [Ecuación 2]

Donde n es el tamaño de la muestra, z es el valor estándar normal del intervalo de confianza que se desee, s es la desviación estándar de la muestra, y E el error máximo permisible.

El valor z está asociado a la distribución normal que mencionamos con anterioridad. Para un 95% de confianza, z vale 1.96 y para un 99%, 2.58. Determinar con rigor la procedencia de este número requeriría un análisis detallado de cálculo, sin embargo el resultado final serán esos dos valores.

Ejemplo 1

En una ciudad, un funcionario público desea determinar el ingreso promedio de los diputados nacionales. Desea hacerlo con un 95% de confianza, y sabe que la desviación estándar de este dato es de 1000 pesos, según fuentes gubernamentales. Adicionalmente, el error para estimar la media es de 100 pesos.

Solución

En este caso, tenemos que E=100 pesos, y que s=1000 pesos. Sabemos que para el 95%, z=1.96, al sustituir entonces en la Ecuación 2 tenemos:

n=(z∙sE)2=n=(1.96∙1000100)2=384.16≈385

Este resultado indica que debe buscarse la información sobre los ingresos de trescientos ochenta y cinco diputados. Note que se redondeó la cifra al siguiente dígito entero, ya que el número de personas debe ser un  número entero.

APLICACIÓN DEL MUESTREO ALEATORIO SIMPLE

El muestreo aleatorio simple es la forma más sencilla del muestreo denominado “probabilístico”, debido a que cada sujeto de la población tiene la misma probabilidad de ser incluida en la muestra.

En el muestreo aleatorio simple, el método más utilizado para seleccionar una muestra aleatoria es mediante el uso de una tabla de números aleatorios. Esta es una serie de números generados mediante un proceso aleatorio, donde cada dígito de un número tiene la misma probabilidad de ser elegido, lo que elimina el sesgo o error en el proceso.

Ejemplo

Suponga que en una universidad, el total de empleados es de 845 personas. Se requiere una muestra de 52 personas. ¿A quiénes elegiría?

Solución

Una forma de elegir quienes integrarán la muestra sería escribir el nombre de cada uno en un papel e introducir todos los papeles en un recipiente y tomar 52 papeles consecutivamente.

Una forma más apropiada es utilizar la tabla de números aleatorios. Al final de este artículo se presenta la Tabla 2, correspondiente a una tabla de números aleatorios del NIST (National Institute of Standards and Technology).

Note que la tabla está formada por números de 5 dígitos, y en el problema el total de personas es 845. Entonces, lo que debe hacerse en primera instancia es hacer una lista de todas las personas, donde cada una tendrá un número asignado, como en el siguiente caso:

TABLA 1. CORRELATIVO DE EMPLEADOS

Número Correlativo

Nombre

001

Álvarez, Saúl

002

Armand, Regina

003

Búcaro, Sergio

004

Budd, Lucas

005

Chávez, Marina

 

Una vez completada la lista, se procede a elegir una columna o fila cualquiera de la lista de números aleatorios. Supongamos que el estudio se llevara a cabo el cuatro de febrero. En ese caso, podemos elegir la cuarta columna (de izquierda a derecha), e iniciar con el primer dato que aparece, para luego seguir en orden correlativo:

Según la primera columna los primeros números serían:

 

37674

58678

37649

66583

51414

Sin embargo, note que son números de cinco dígitos y nuestro análisis sólo tendrá un máximo de 845 personas. Entonces, truncamos en el tercer dígito cada número para hacer la lista:

37674

58678

37649

66583

51414

Así, los integrantes de la muestra serían los empleados 376, 586, 665, 514.

Note que aunque el valor 376 se repitió para dos empleados, no es útil utilizar a la misma persona dos veces, por lo que procedemos al siguiente número.

TABLA 2. NÚMEROS ALEATORIOS

Fuente: National Institute of Standards and Technology [en red] http://www.nist.gov/pml/wmd/pubs/upload/AppenB-HB133-05-Z.pdf

MUESTREO ALEATORIO SIMPLE

Cuando se desea obtener información a partir de una población, debe tomarse una muestra, de la cual podremos inferir los datos que nos interesan de la población. Podríamos preguntarnos, ¿cómo saber qué individuos o elementos de la población elegir?, o ¿cómo determinar las características de la población a partir de la muestra?

Una forma que podría elegirse para realizar el muestreo sería incluir cierta aleatoriedad en el proceso, es decir, realizar el muestreo de forma que cada elemento o sujeto tenga la misma probabilidad de ser seleccionado a partir de todos sujetos que conforman la población.

A su vez, el muestreo aleatorio simple se divide en dos categorías:

  • Muestreo simple sin reemplazo

  • Muestreo simple con reemplazo

 

Muestreo simple con reemplazo

En este tipo de muestreo una vez que se ha tomado un elemento o sujeto de la población, este se reemplaza dentro de la población, por lo que el siguiente sujeto que se tome de la población tiene la misma probabilidad de ser elegida. El proceso se repite hasta que se completa el tamaño de muestra deseado.

En este tipo de muestreo, el número de muestras posibles a partir de una población de tamaño N, es:

N˄n [Ecuación 1]

Ejemplo 1:

Si se tiene una población formada por los siguientes números: (1,2,3,4), ¿cuántas formas posibles hay de obtener una muestra de dos elementos de esta población, si se considera que se hará muestreo simple con reemplazo?

Solución:

Según la Ecuación 1, ya que tenemos una población de 4 datos y necesitamos dos de ellos:

42=16

¿Qué significa el número obtenido? Significa que hay 16 formas distintas en las que podemos tomar dos datos de la población, que podríamos tabular de la siguiente manera:

(1,1), (1,2), (1,3), (1,4)

(2,1), (2,2), (2,3), (2,4)

(3,1), (3,2), (3,3), (3,4)

(4,1), (4,2), (4,3), (4,4)

Esto da 16 formas distintas de selección, note que el mismo sujeto puede ser elegido más de una vez.

Muestreo simple sin reemplazo

El muestreo simple sin reemplazo se caracteriza porque una vez que se ha elegido un sujeto de la población, este no se reemplaza. Esto hace que cada sujeto que se elija sea distinto y no pueda repetirse.

El número de muestras posibles en este caso viene dada por:

Ejemplo 2:

En el ejemplo 1, teníamos una población de 4 datos (1,2,3,4), de la cual queríamos saber de cuántas formas posibles podíamos obtener 2 muestras, usando muestreo simple aleatorio con reemplazo. Pero en caso de que hagamos esto con muestreo sin reemplazo tendríamos:

N=4, y n=2. Entonces

 

Esto nos dice que solamente hay seis maneras posibles de elegir 2 muestras, que serían las siguientes:

(1,2), (1,3), (1,4), (2,3), (2,4), (3,4)

En este caso, no podemos repetir un sujeto (los números no se repiten en cada par), y tampoco hay repetición de valores donde el orden sea distinto.

ESTADÍSTICA –CONCEPTOS BÁSICOS-

La estadística se encarga del tratamiento de grupos de datos para lograr conclusiones cuantificables y útiles. Es de uso común escuchar frases que incluyen términos estadísticos como “el 30% del electorado votaría por el candidato A”, “el salario promedio de un trabajador corresponde a US$100” y otros parecidos. En cada una de las frases anteriores, se ha determinado un resultado a partir de una cierta cantidad de datos o de información.

Al grupo de datos que interesa analizar se le denomina población,  la población es el conjunto total de datos que se analizará. Sin embargo, la población puede ser tan grande o tan pequeña como el análisis lo requiera. Si quisiéramos por ejemplo, hacer un análisis de las edades de las personas del vecindario o barrio donde vivimos, encontraríamos que la población sería en términos generales, pequeña.

Pero si deseáramos analizar la población de un país, sería muy difícil, sino, imposible, lograr cuantificar persona por persona sin cometer ningún fallo. Es por esto que la estadística echa mano de un grupo más pequeño de sujetos o datos que la población original. A esto se le denomina muestra. Trabajar con una muestra es conveniente por varios motivos entre los que podríamos mencionar:

  • Menor cantidad de sujetos o datos.

  • Menor tiempo para realizar los análisis.

  • Facilidad de ordenar  y agrupar los datos.

  • Menor inversión económica en el análisis.

En esencia, lo que buscamos es lograr conclusiones de la población, a partir del tratamiento que hagamos de la muestra.

Ahora, bien ¿cómo elegimos qué datos tomar de la población para conformar la muestra? Realizar la selección de datos a partir de la población para formar la muestra se denomina muestreo.

Un muestreo aleatorio simple es un método donde se eligen los sujetos o datos para la muestra al azar, y con la misma probabilidad o posibilidad de ser elegidas. También se le denomina muestra aleatoria.

Si por ejemplo, quisiéramos saber la edad promedio de los votantes de un país, es claro que no podríamos realizar un análisis por cada votante. Deberíamos extraer una muestra y realizar un análisis. La edad que calculáramos a partir de la muestra sería un estadístico, y la edad que calculáramos a partir de toda la población se llama parámetro. En estadística, buscamos tomar decisiones sobre un parámetro en base a un estadístico.

MEDIDAS DE TENDENCIA CENTRAL

Es importante para fines de análisis, conocer el comportamiento de los datos que conformen la muestra. Podríamos preguntarnos ¿Son valores que se parecen entre sí?, ¿los valores no tienen ninguna relación entre ellos? o ¿la mayoría de datos está cercano a algún valor? Dar respuesta a este tipo de preguntas requiere que hagamos un análisis y podamos relacionar los datos para obtener un valor que nos permita sacar conclusiones al respecto.

La medidas de tendencia central son valores que permiten saber el agrupamiento de los datos respecto a un valor central. La más conocida de estas medidas es la media aritmética.

La media aritmética ( se define como la suma de los valores dividida por el número de observaciones. Si los datos se calculan a partir de la muestra entonces: [Ecuación 1]

Ejemplo 1:

Determine la media de la edad de cinco estudiantes cuyas edades son 18, 19, 20, 15 y 14 años, respectivamente.

Solución

Aplicando la ecuación anterior, ya que hay cinco estudiantes entonces n=5.

 

La siguiente medida de tendencia central es la mediana (Me). Esta es la observación que ocupa el lugar central de un grupo de datos u observaciones en sentido ascendente o descendente. Si la muestra es impar, la mediana estará en el centro y si la muestra es par, la mediana es la media de las dos observaciones que se encuentren al medio, o:

[Ecuación 2]

En la ecuación 2, n representa al primer valor central, por lo que n+1 sería el siguiente valor, a los cuales se les calcula la media.

Ejemplo 2:

Determine la mediana de los datos presentados en el ejemplo 1.

Solución:

En este caso, sabemos que n=5, por lo que el grupo de datos es impar. Debemos ordenar ascendentemente los datos y queda:

14, 15, 18, 19, 20

Una vez hecho esto nos damos cuenta que la  mediana corresponde al valor central (18), por lo que esta es la mediana.

 

La moda (Mo) es el valor que aparece con más frecuencia en una serie de datos.

Ejemplo 3:

Determine la moda y la mediana de la siguiente serie de datos:

17, 18, 18, 20, 25, 36, 24, 20, 9, 18.

Solución:

En este caso, cuando contamos los datos nos damos cuenta que n=10. De toda la serie de datos, si los ordenamos ascendentemente tenemos:

9, 17, 18, 18, 18,  20, 20, 24, 25, 36.

Entonces, el valor que más se repite es 18, por lo que éste sería el valor de la moda.

Para la mediana, ya que la serie es par, debemos buscar los dos valores centrales:

9, 17, 18, 18, 18,  20, 20, 24, 25, 36.

Y la mediana sería, aplicando la ecuación 2:

PROPAGACIÓN DE ERRORES (II)

Aunque se ha definido la forma en que se considera la incertidumbre en las mediciones y de dónde provienen, es más relevante conocer cómo se hacen operaciones y cálculos con datos que incluyen incertidumbre.

Por ejemplo, ¿cómo se combina la incertidumbre de dos mediciones cuando hacemos cálculos para obtener una tercera cantidad?

Puede sintetizarse la manera de operar incertidumbres en una serie de reglas aplicables a operaciones matemáticas frecuentes en cálculos referentes a la física, química y ciencias aplicadas definiendo a z como el producto de la operación que se realice, a partir de dos cantidades x y y. A continuación se listan las operaciones más frecuentes y la manera de operar la incertidumbre en cada caso.

Tabla 1. Determinación de incertidumbres

Función

Representación

Fórmula

Suma ó resta

**

Multiplicación o División

**

Multiplicación por una constante

**

Elevar a una potencia

**

Ejemplo 1

Considere un auto que viaja a una velocidad constante de 100± 5 km/h, durante un tiempo 3.2±0.1 h. ¿Cuál es la distancia que el auto ha viajado y cuál es la incertidumbre de este cálculo?

 

Solución

Ya que la velocidad es constante, la distancia viene dada por d=v*t. La distancia es

La incertidumbre de la distancia es:

La respuesta es: 320 ± 18.86 km

Ejemplo 2

Una pelota se arroja hacia arriba con una velocidad inicial de 4.0±0.2 m/s. Luego de 0.6±0.06 s, la altura de la pelota viene dada por la ecuación y=v0t-½gt2. ¿Cuál es la incertidumbre de y?

Solución

En este caso en particular, la forma de operar viene dada por una ecuación, donde hay operaciones combinadas de potencia, multiplicación y resta. La gravedad (9.80 m/s2) es una constante y por tanto, no tiene incertidumbre asociada.

Al sustituir valores en la ecuación:

Ya que las ecuaciones definidas en la Tabla 1 sólo involucran dos valores, x y y, es conveniente agrupar la ecuación de referencia en ese formato. Entonces

x= v0t=2.4 m y y=½gt2=1.764 m.

Para el caso de x, la incertidumbre viene dada por la ecuación para multiplicación y tenemos:

Y para la segunda parte, aplica la ecuación para potencia. Entonces:

Finalmente, la ecuación combina ambos resultados parciales mediante una resta, por lo que la regla de resta sea aplica:

De esta forma el resultado sería 0.636±0.44 m

 

En la práctica de la ingeniera, se requiere la realización de mediciones para poder hacer cálculos o determinar variables operativas.  A su vez, las mediciones se realizan con aparatos que de manera inherente, tienen un margen de error en la lectura que se realice a partir de ellos. Este margen de error inherente se conoce como incertidumbre.

A medida que se realizan cálculos a partir de la combinación de una o varias mediciones, la incertidumbre de cada resultado varía de acuerdo a la incertidumbre de las mediciones involucradas en las operaciones.

La manera en que la incertidumbre afecta las mediciones puede analizarse desde un punto de vista estadístico, recibiendo el nombre de propagación de errores.

Definimos como error la diferencia entre un valor medido y el valor real que corresponde a una medición. En la práctica, no se obtiene el valor real de una medición, sino un valor medido que puede ser cercano o alejado del valor real.

El error en sí está subdividido en varias clases:

Error sistemático o sesgo: Este es el error que es igual para cada medición, ocurre siempre para cada evento de medida.

Error aleatorio: También denominado error accidental, es la contraparte al error sistemático.

Para saber si se ha realizado una medida correcta, debemos definir además dos términos asociados al proceso medición, precisión y exactitud.

La precisión se define como el grado de coincidencia que hay entre mediciones repetidas de la misma cantidad.

La exactitud es la diferencia que hay entre la medición y el valor real de la medida. Mientras más pequeña sea esta diferencia, mayor exactitud habrá en la medición.

Buscamos siempre realizar una medida con la mayor precisión y exactitud posibles, para asegurar que el resultado de la medición es lo más cercano al valor verdadero de la variable a medir.

Cuando se realizan mediciones, estas se escriben de la forma:

 ec1[Ecuación 1] 

Donde  representa la incertidumbre de la medición.  En términos generales, si suponemos que el encargado de realizar la medición toma todas las medidas posibles para reducir el error que pueda provenir de su parte (mala lectura, escala inadecuada, errores de calibración del equipo) la incertidumbre se representa como la mitad de la unidad más pequeña de la escala del equipo.

ec2[Ecuación 2]

 

Ejemplo:

Si se lee la longitud de una pieza metálica utilizando una regla graduada en centímetros y milímetros y la lectura arroja 3.0 cm para la longitud de la pieza ¿cuál es la incertidumbre de la medición?

Solución

Ya que se indica la escala del aparato de medición (regla) y la escala menor de ésta (milímetros) la medida más pequeña de la regla es 1 milímetro, equivalente a 0.1 cm. Por tanto la incertidumbre viene dada por la Ecuación 2:

ec3

Por tanto la lectura de medida será: 3.0±0.05 cm