lunes, 21 de mayo de 2012


prueba de t de student para muestras independientes



PRUEBA Z

Las curvas aproximadamente normales de las distribuciones reales o empíricas pueden ser de muy diversa magnitud y tamaño.

Es necesario estandarizar las distribuciones reales o empíricas, transformando los datos originales de una variable conocida con el nombre de puntaje a puntuación estándar y que se simboliza con la letra z minúscula empleando el siguiente estadístico o formula:

 z=x- media poblacional/desviación estándar poblacional

La que nos permite transformar cualquier valor x de la distribución (variable) en su correspondiente puntaje zeta. Para toda distribución normal el número de casos de la serie se transforma a uno (N=1), la media poblacional a cero y la desviación estándar a 1.

Cuando la variable en una población tiene distribución cercana a la normal es posible determinar con cierta aproximación de la proporción, el porcentaje o el número de casos comprendidos entre dos calores especificados.

EJEMPLO:

La distribución del índice de paca dentó bacteriana (IPDB) de 100 pacientes es aprox normal con una media de 7.4 y una desviación estañar de 3.69.

Cada uno de los 100 promedios de IPDB puede ser transformado a puntajes estándar, con o cual los valores de N, X y la desviación estándar un paciente entre:

Un IPDB de 4.5% y 11.53%

Para obtenerlo:

1.       Estandarizar la variable IPDB a valores de Z con el estadístico de z

2.       Esquematizar  la distribución normal  para limitar y sombrear el área bajo la curva con e  valor de Zo calculado

3.       Utilizar la tabla de áreas bajo la curva normal (los valores en el cuerpo de la tabla son áreas entre menos infinito y Z)

Calculados los puntajes estándar o valores de z para  X1=11.53% y X2= 4.15% de IPDB

Z=x-media poblacional /desviación estándar poblacional

Z=11.53-7.84/3.69=+1               Z=11.53-7.84/3.69=-1

En la tabla (F del apéndice) se encuentran las áreas bajo la curva entre menos infinito y los valores de z mostrados en la columna de la extrema izquierda. El área sombreada representa el área dada en la tabla.

Área comprendida entre Z=-1 y Z=+1

El área comprendida entre menos infinito y z+1 es .8413 (valor obtenido en las tablas)

El área comprendida entre menos infinito y z+1 es .1587 (valor obtenido en las tablas)

Por lo tanto para obtener el área entre z-1 y z+1 se resta .8413 -.1587=.6826 y se interpreta:
ü  Como la probabilidad de que z seleccionada al azar tenga un valor entre z-1 y z+1
ü  Como la frecuencia relativa de ocurrencia (proporción) de los valores de z entre z-1 y z+1
ü  El 68.26 %de las z tienen un valor entre z-1 y z+1



Prueba t de student para muestras independientes.

Ø  Se utilizan cuando se obtienen dos grupos de muestras aleatorias, independientes e idénticamente distribuidas a partir de las dos poblaciones a ser comparadas. Por ejemplo, supóngase que estamos evaluando el efecto de un tratamiento médico, y reclutamos a 100 sujetos para el estudio. Luego elegimos aleatoriamente 50 sujetos para el grupo en tratamiento y 50 sujetos para el grupo de control. En este caso, obtenemos dos muestras independientes y podríamos utilizar la forma desapareada de la prueba t. La elección aleatoria no es escencial en este caso, si contactamos a 100 personas por teléfono y obtenemos la edad y género de cada una, y luego se utiliza una prueba t bimuestral para ver en que forma la media de edades difiere por género, esto también sería una prueba t de muestras independientes, a pesar de que los datos son observacionales.

Ø  Esta opción debe utilizarse cuando la comparación se realice entre las medias de dos poblaciones independientes (los individuos de una de las poblaciones son distintos a los individuos de la otra) como por ejemplo en el caso de la comparación de las poblaciones de hombres y mujeres.

La matriz de datos debe estar configurada como es habitual, es decir, existe una columna para los datos de la variable de interés y una segunda columna con los códigos que definen las poblaciones objeto de comparación.

Ø  Para obtener una prueba T para muestras independientes, se realiza el siguiente procedimiento:



Las muestras de los grupos investigados no necesariamente deben tener el mismo tamaño.



Se deben obtener las medias separadamente de cada grupo.



PROCEDIMIENTO PARA OBTENER UNA PRUEBA T PARA MUESTRAS INDEPENDIENTES

8br />

_ Realizar el Análisis exploratorio y descriptivo.

_ Verificación de supuestos de normalidad y de homogeneidad.

_ Realizar la prueba T de comparación de muestras independientes.

     Calculo con Excel
Las ventas medias semanales de las llantas en dos tiendas A y B de servicios, son aproximadamente iguales. Sin embargo el gerente de ventas de las tiendas B cree que sus ventas son diferentes. A continuación se presenta el número de llantas PS214 que se vendieron en las últimas 10 semanas en la tienda A y durante las últimas 11 semanas en la tienda B:
    a)  ¿son homogéneas las varianzas de las ventas semanales?
b)    ¿está usted de acuerdo con el cerente de la tienda B?<+div>
 Resultados
a)    ¿son homogéneas las varianzas de las ventas semanales?
Las ventas medias semanales de las llantas de las tiendas Ay B son diferentes estadísticamente a un nivel de significancia de 0.05
b)    ¿está usted de acuerdo con el gerente de la tienda B?
Si se está de acuerdo con el gerente de la tienda B ya que las ventas      semanales realizadas son diferentes.
8span style="font-family: Times New Roman;">


PRUEBA T DE STUDEN PAREADA

PRUEBA T DE STUDENT PAREADA


La prueba de t puede utilizarse para comparar los resusltados de una preprueba con los resultados de una postprueba en un contexto experimental.
La presencia de fuentes extrañas de variacion provoca el rechazo de la hipótesis nula de no diferencia.
El objetivo en las pruebas de comparaciones pareadas es eliminar un numero maximo de fuentes de variacion extraña, haciendo a las parejas semejantes con respecto a tantas variables como sea posible.
Las observaciones (mediciones) relacionadas o apareadas pueden obtenerse de varias formas. 
Los mismos individuos pueden registrarse antes y despues de recibir algun tratamiento.
Si estamos comparando un resultado cuantitativo en dos grupos de datos, a partir de muestras extraídas de forma aleatoria de una población normal, siendo nA el tamaño de la primera muestra y nB el de la segunda, la cantidad:
(donde son las medias muestrales, las correspondientes medias poblacionales, s la desviación típica muestral conjunta), se distribuye como una t de Student con nA+nB-2 grados de libertad, proporcionándonos una referencia probabilística con la que juzgar si el valor observado de diferencia de medias nos permite mantener la hipótesis planteada, que será habitualmente la hipótesis de igualdad de las medias (por ejemplo igualdad de efecto de los tratamientos), o lo que es lo mismo nos permite verificar si es razonable admitir que a la luz de los datos obtenidos en nuestro experimento.
Veamos un pequeño ejemplo. Se efectuó un estudio para comparar dos tratamientos en cuanto a la mejoría en la salud percibida, determinada mediante un cuestionario de calidad de vida en pacientes hipertensos. Se asignaron 10 pacientes de forma aleatoria a cada uno de los grupos de tratamiento, obteniéndose los siguientes resultados:
Tabla 1
Trat. A 5.2 0.2 2.9 6.3 2.7 -1.4 1.5 2.8 0.8 5.3
Trat. B 6.0 0.8 3.2 6.2 3.8 -1.6 1.8 3.3 1.3 5.6
Si calculamos el valor de t según la fórmula anterior obtenemos:
Tabla 2
Dif.medias 0.41
Err.est.dif. 1.11
t Student 0.37
gl 18
P 0.7165
Intervalo 95% para la dif. de medias -1.93 a 2.75
Tabla 3

Trat. A Trat. B
Media 2,63 3,04
Desv.Típ. 2,45 2,52
Figura 1
De acuerdo con esos resultados, al ser la probabilidad obtenida alta, vemos que no hay razones para rechazar la hipótesis de que no existe diferencia entre los grupos (P= 0.7165), aceptamos que las medias son iguales, lo que podemos también comprobar de forma gráfica, si representamos cada serie de valores en dos posiciones del eje X, obteniendo un gráfico como el representado en la figura 1.
Ahora bien, sabemos que dos variables que influyen en los resultados de los cuestionarios de calidad de vida percibida son la edad y el sexo de los pacientes. Al asignar de forma aleatoria los pacientes a cada grupo de tratamiento esperamos que las variables que puedan influir en el resultado, diferentes del propio tratamiento asignado, se distribuyan en ambos grupos de forma parecida; pero cuando de antemano conocemos que algunas variables sí influyen en el parámetro objeto de estudio, podemos controlarlas en el diseño para evitar que puedan afectar al resultado, sobre todo cuando vamos a trabajar con una muestra pequeña.
Así en nuestro ejemplo podemos dividir los pacientes dentro de cada sexo en varios grupos de edad y buscar parejas de pacientes con el mismo sexo y con edades similares. Dentro de cada pareja, seleccionada con ese criterio (igual sexo y edad similar), asignamos de forma aleatoria cada uno de los tratamientos.
Esto es lo que precisamente habíamos hecho en el estudio de la tabla 1: habíamos dividido la edad en 5 categorías y seleccionado 5 parejas de hombres y 5 de mujeres en cada grupo de edad. Dentro de cada par hemos asignado de forma aleatoria el tratamiento A o el B a cada uno de sus elementos.
En este caso hemos "diseñado" un estudio, en el que mediante el emparejamiento estamos controlando (o bloqueando) la influencia de las variables edad y sexo.
Ahora en el análisis estadístico de los datos, para tener en cuenta el diseño, hay que comparar cada pareja de valores entre sí.
Pero antes de hacer un análisis estadístico vamos a representar gráficamente el nuevo planteamiento.
Si calculamos las diferencias entre el valor del elemento B y el elemento A y las representamos gráficamente obtenemos la figura 2, donde hemos dibujado una línea horizontal en el valor 0, que corresponde a la igualdad entre los tratamientos.
Figura 2
Vemos que el panorama cambia radicalmente con respecto a la figura 1, ya que ahora la mayor parte de los puntos están por encima de esa línea de igualdad de efecto, reflejando una mayor puntuación por término medio en el tratamiento B que en el A dentro de las parejas.
En la siguiente tabla vemos los resultados del análisis estadístico, muy diferentes de los obtenidos en la tabla 1 en la que no se tenía en cuenta el tipo de diseño:
Dif. B - A Resultado
Media 0,410
Desv.Típ. 0,387
Tamaño 10
Err.est.dif. 0,122
t Student 3,349
gl 9
P 0,0085
Int. conf. 95% para la media 0,133 a 0,687
Ahora hemos calculado la media de las diferencias d, y su desviación típica sd en las n parejas. El error estándar de la media de las diferencias es:
Por lo que el valor de t será ahora
que en la hipótesis de igualdad -media de las diferencias igual a cero-, se distribuye como una t de Student con n-1 grados de libertad.
Aunque perdemos grados de libertad, siendo por ese lado la prueba menos potente, sin embargo al disminuir la variabilidad se aumenta la eficiencia de la prueba. No siempre será tan dramática la diferencia entre ambos planteamientos, ya que en este caso se trata de datos preparados y en la realidad las cosas no suelen salir tan redondas.
Cuando efectivamente influye en el resultado la variable que nos ha llevado a decidir utilizar un diseño pareado, las medidas dentro de cada pareja estarán correlacionadas, por lo que siempre podemos comprobar a posteriori si esto es así, calculando el coeficiente de correlación, que debiera ser positivo y de cierta entidad.
 







 

domingo, 20 de mayo de 2012

ANOVA


Anova  (análisis de varianza)

Es una muestra independiente de 3 o + grupos a los cuales se les aplica la misma variable y se obtienen resultados diferentes
El análisis de varianza se deriva de la partición de la variabilidad total en las partes que la componen. ANOVA establece que la variabilidad total en los datos, medida por la suma de cuadrados total, puede ser dividida en una suma de cuadrados de la diferencia entre los promedios de los tratamientos y el gran promedio total más una suma de cuadrados de la diferencia de las observaciones entre tratamientos del promedio del tratamiento. Anova, nos da la herramienta para distinguir si un factor afecta la respuesta en promedio.

A continuación se presentan diferentes experimentos con su análisis:





sábado, 19 de mayo de 2012

Ji cuadrada.  

Los valores que toman estas variables se resumen en tablas de frecuencias (tablas de contingencia), las cuales permiten ordenarlas y comparar su ocurrencia. 

Las tablas de contingencia se utilizan cuando se desea examinar la relación entre 2 variables categóricas, o explorar la distribución que posee una variable categórica entre diferentes muestras.

Aspectos que surgen al analizar una tabla de contingencia:
  • Bondad de ajuste.
  • Homogeneidad de muestras.
  • Independencia de variables.
  • La prueba ji cuadrada es el procedimiento de elección para el contraste de hipótesis. Se emplea para análisis de 2 o más grupos y de 2 o más variables.
Prueba de chi cuadrada (X^2)

La independencia de las variables consiste en que en la distribución de una de las variables es similar sin importar el nivel en que se examine de la otra. Estos se traduce en una tabla de contingencia.
La prueba de independencia de ji cuadrada (chi cuadrada) contrasta la hipótesis de que las variables son independientes; frente a la hipótesis alternativa de que una variable se distribuye de modo diferente para los niveles de la otra.
Ho: Fumar es independiente del genero.
Ha: Fumar es más común en hombres que en mujeres.

Ejemplo de tabla de contingencia.
Genero Fumar si Fumar no Total por región
M 1321 2349 3670
F 1278 3523 4801
Requisitos de ji cuadrada (x^2):
  1. Tener muestras independientes.
  2. Tener variables cualitativas o categóricas.
  3. Mediciones de variable
  4. Categorías de cada una de las variables, son mutuamente excluyentes.
  5. El valor estadístico de ji cuadrada (x^2) se podrá aproximar por una distribución chi cuadrada cuando el tamaño muestral n sea grande.  n es > o = 30 y todas las frecuencias esperadas sean = o > 5.
  6. A medida que el tamaño de la muestra aumenta, el valor de la probabilidad de error para aceptar Ha se acerca a 1

Pasos:  
  • Arreglar observaciones en una tabla de contingencia.
  • Determinar valor esperado (frecuencias teóricas) de las frecuencias para cada celda.
  • Calcular la diferencia entre valores observados con respecto a los teóricos de cada celda.
  • Elevar al cuadrado la diferencias y dividirlas entre le valor esperado de la casilla correspondiente.
  • Obtener la sumatoria de valores anteriores, que x^2 o ji^2.
  • Calcular los grados libertad. gl= (columnas-1)(renglones-1).
El valor de x^2 se compara con los valores críticos de ji^2 de la tabla de valores de x^2 y de acuerdo con los grado de libertad, y se determina la probabilidad.


Análisis estadístico.


1.- Introducir datos.
2.- Seleccionar "función"  (fx)
3.- Elegir "estadística", prueba de Chi.
4.-   Rango actual: B2:C3, aceptar
                               B8:C9
El resultado obtenido será la probabilidad 
para sacar el valor de x^2.


5.- Seleccionar función de x (fx)
6.- Buscar prueba de chi inversa y aceptar.
7.- Obtener grados de libertad. [total de renglones: 
(2-1) y total de (2-1)]




Valor de x^2 calculada: 5.2271

8.- Obtener el valor crítico de tablas 
(pag 534 del manual)


9.- Calcular grados de libertad: 


gl= (c-1) (r-1)
gl= (2-1) (2-1)


*valor de alfa: 0.05 
y el valor conferido: 95%


a= 3.841


Valor critico de x^2= 3.841
Valor calculado: 5.822719621


*Cuando el valor de tablas es menor, 
se rechaza Ho.


Se rechaza Ho ya que el valor de tablas
es menor que el valor calculado.

martes, 6 de marzo de 2012

DISEÑO DE UNA METODOLOGIA


Diseño de una metodología:

También denominada “material y métodos” o “procedimientos”.

El diseño metodológico es la descripción de cómo se va a realizar la investigación, o también;
–La estrategia utilizada para comprobar una hipótesis o un grupo de hipótesis.
–La determinación de las estrategias y procedimientos que servirán para dar respuesta al problema y comprobar hipótesis.
–El plan de acción del investigador para alcanzar los objetivos del mismo.
Al seleccionar y plantear un diseño se busca maximizar la validez y confiabilidad de la información y reducir los errores en los resultados.

  • VALIDEZ: Se refiere al grado en que se logra medir lo que se pretende medir
  • CONFIABILIDAD: Se refiere a la consistencia, coherencia o estabilidad de la información recolectada.