ANOVA de un solo factor (parte 3)

En esta tercera parte relacionada al tema de ANOVA de un solo factor, vamos a ver la parte estadística, es decir, como procesar los datos y para ello debemos de tener en cuenta lo siguiente:

  1. Variabilidad total = variabilidad por los tratamientos + variabilidad por el error
  2. La suma de cuadrados total (SSt) se usa como medida global de variabilidad de los datos (Montgomery, 2013)
  3. La suma de cuadrados de los tratamientos (SStrat) se usa para medir la variabilidad de los tratamientos
  4. La suma de cuadrados del error (SSe) se usa para medir la variabilidad debida al error
  5. Luego: SSt=SStrat + SSe

Lo que resulta en la siguiente tabla:

Figura 1: TABLA ANOVA
Fuente: Montgomery (2013)

Aun así, se podrán simplificar las fórmulas como sigue:

Con lo que se tendrá el cuadro completo de ANOVA el cual es válido tanto para efectos fijos como aleatorios. La hipótesis a probar varía según el tipo de ANOVA, en el caso de efectos fijos se busca probar la igualdad de las medias de los a tratamientos H0:

En H0 todas las medias de los a tratamientos son iguales, por lo tanto, ningún tratamiento tiene un efecto significativo en la variable dependiente.

En H1 al menos un par de medias de los a tratamientos son diferentes, por lo tanto, al menos dos de ellos tienen efecto en la variable dependiente; la identificación de este par (o más tratamientos) se realiza mediante pruebas posteriores.

Para los efectos aleatorios, no tiene sentido probar que las medias de los tratamientos seleccionados son iguales a cero, ya que no son todos sino una muestra, lo que interesa es saber si hay variabilidad entre todos los tratamientos de la población, por eso la hipótesis se enfoca en probar si la varianza de la población de tratamientos es igual a cero.

En una próxima entrada abordaremos el tema de los ANOVAS no balanceados.

REFERENCIA BIBLIOGRÁFICA

Montgomery D. (2013).  Diseño y Análisis de Experimentos.  México: Limusa Wiley

Anuncios

ANOVA de un solo factor (parte 2)

Continuando con el tema, hay que mencionar que las observaciones (yij) se ordenan tal y como se muestra en la figura 1 (Montgomery, 2013)

Figura 1: ESQUEMA ANOVA
Fuente: Montgomery (2013)

En donde el modelo ANOVA explica la conformación de cada observación yij, dicho modelo es el siguiente (ver figura 2):

Figura 2: MOMDELO ANOVA
Fuente: elaboración propia con datos de Montgomery (2013)

Es decir, cada observación o dato de la variable respuesta está dado por: la media de todas las observaciones más el efecto del tratamiento i-ésimo más el error, de todo esto en el ANOVA lo que interesa es analizar la variabilidad de los datos, para un mejor entendimiento, véase la figura 3:

Figura 3: VARIABILIDAD
Fuente: elaboración propia con datos de Gutierrez y de la Vara (2012)

Por lo tanto, si del total de la variabilidad, la mayor parte se debe a los tratamientos  entonces su efecto es significativo, en caso contrario si la mayor parte se debe al error (es decir a otros factores desconocidos) entonces los tratamientos no son significativos.

En una próxima entrada comentaremos más sobre el tratamiento estadístico.

REFERENCIAS BIBLIOGRÁFICAS

Gutierrez H. & De la Vara R. (2012). Análisis y Diseño de Experimentos. México: Mc Graw Hill

Montgomery D. (2013).  Diseño y Análisis de Experimentos.  México: Limusa Wiley

ANOVA de un solo factor (Parte 1: generalidades y tipos)

En el Análisis de Varianza (ANOVA) de un factor se desea investigar el efecto de los diferentes niveles de dicho factor en la variable respuesta (Escalante, 2014), es decir consiste en separar la variación total observada en cada una de las fuentes que contribuyen a la misma (Gutierrez y De la Vara, 2012) en donde la suma de cuadrados total (SSt) se usa como medida global de variabilidad de los datos (Montgomery, 2013)

Hay que recordar que se llama factor a la variable independiente y variable respuesta a la variable dependiente, además los posibles estados de un factor se llaman niveles, es decir si un factor tiene dos posibles niveles (por ejemplo 0 y 1) es una variable dicotómica, y si tiene una relación bivariable (es decir, se desea probar el efecto de un solo factor sobre una sola variable respuesta) se podría resolver con una t de Student,  pero si el factor tiene más de dos niveles (es decir a posibles niveles) se debe utilizar el ANOVA

Hay dos tipos de ANOVA, el fijo y el aleatorio, a continuación, se va a explicar cada uno de ellos:

  • En el ANOVA fijo se seleccionan todos los posibles procesos o niveles del factor
  • En el ANOVA aleatorio se selecciona solamente una muestra de los posibles procesos o niveles del factor
  • La obtención del ANOVA es el mismo en ambos casos

Además:

  • En el ANOVA fijo sus conclusiones se restringen solamente a los tratamientos utilizados
  • En el ANOVA aleatorio sus conclusiones se extienden a la población de tratamientos
  • Las hipótesis a probar en ambos casos son diferentes

Hasta acá esta primera parte, en una próxima entrada continuaremos con este tema.

REFERENCIAS BIBLIOGRÁFICAS

Montgomery D. (2013).  Diseño y Análisis de Experimentos.  México: Limusa Wiley

Gutierrez H. & De la Vara R. (2012). Análisis y Diseño de Experimentos. México: Mc Graw Hill

Prueba de hipótesis para una proporción poblacional

Continuando con las herramientas estadísticas para las pruebas de hipótesis, en esta ocasión vamos a tocar el tema de las pruebas para una proporción poblacional.

Este tipo de prueba, también conocida la Prueba Z para una proporción poblacional, se utiliza para una variable cualitativa X que representa el estado de algo, por ejemplo, defectuoso y no defectuoso, vendido o no vendido etc, y de la cual se quiere demostrar una hipótesis con la proporción de determinada categoría de una variable (Millones, Barreno, Vásquez y Castillo, 2016).

El estadístico de prueba está dado por:

formula

En donde:

n: Tamaño de la muestra

x: Cantidad de elementos de la muestra que cumplen con el criterio deseado

p0: Proporción a probar

Se supone que x tiene distribución binomial (lo que significa que solo puede tener dos posibles resultados, por ejemplo defectuoso o no defectuoso) y n es un tamaño relativamente grande.

Las hipótesis son las siguientes:

Prueba de dos colas:

H0: p=p0

H1: p≠p0

Pruebas de una cola

H0: p=p0

H1: p>p0

H0: p=p0

H1: p<p0

Es decir, se quiere verificar si el valor de una cierta proporción poblacional p es igual a p0

Los criterios de rechazo de H0 son los siguientes:

  • Si es de dos colas se rechaza H0 si |z0|>z(α/2)
  • Si H1: p>p0 se rechaza H0 si z0>zα
  • Si H1: p

Ejemplo:

En Ciudad Gótica se quiere saber si los jóvenes de 12 a 19 años tienen más o menos problemas de exceso de peso corporal que en el conjunto del país. De los datos nacionales se sabe que el 35% de los jóvenes de esas edades tiene sobrepeso u obesidad, si p es la proporción de jóvenes de 12 a 19 años con exceso de peso entonces se desea probar lo siguiente:

H0: p=0,35

H1: p≠0,35

α: 0,05

Se ha tomado una muestra de 300 jóvenes en ese rango de edad y 90 de ellos tienen sobrepeso.

Solución

n: 300

x:  90

p0: 0,35

formula2

Si z(α/2)=1,96 entonces 1,812<1,96 por lo tanto no cumple con el criterio de rechazo entonces se acepta H0, es decir no hay evidencia suficiente como para afirmar que la situación del peso de Ciudad Gótica es diferente a la del resto del país.

Referencia bibliográfica

Millones R., Barreno E., Vásquez F. y Castillo C. (2016).  Estadística aplicada a la ingeniería y los negocios.  Lima: Fondo Editorial de la UL

Escritos académicos y porque escribir

Nuevamente estamos de vuelta y en esta ocasión vamos a hablar de los escritos académicos, es decir, de los documentos mediante los cuales se comunican y difunden los resultados logrados; entre los principales tenemos los siguientes (Alayza, Cortés, Hurtado, Mory y Tarnawiccki, 2010):

  1. Estado de la cuestión
  2. Artículo académico
  3. Monografía
  4. Tesis
  5. Proyecto profesional
  6. Ensayo
  7. Reseña académica
  8. Informes

Comunicar los resultados de las investigaciones realizadas es una fase igual de importante que cualquiera relacionada a la realización de la investigación en sí misma, de hecho, los investigadores se basan en trabajos anteriores, los cuales son citados a fin de reforzar sus ideas.  Además, esta fase de comunicación de resultados también es inherente al proceso de investigación, de nada serviría cualquier esfuerzo realizado si este no va a ser utilizado por la sociedad.

Como se mencionó en el párrafo anterior, para la realización de una investigación se ha tenido que revisar trabajos anteriores, pues bien, en nuestro caso, el trabajo que realicemos será insumo para otros investigadores, los cuales permitirán a la ciencia seguir avanzando.

Publicar nuestras investigaciones permitirá a muchos que recién se inician en este tema a descubrir nuevos mundos y posibilidades que nos ofrece la ciencia, asimismo también permitirá reforzar el conocimiento de otras personas o quizás cambiar sus paradigmas.

Es importante recordar que las investigaciones también adquieren valor cuando llegan a la comunidad de investigadores relacionada al tema y genera discusión en dicho ámbito, ya sea a favor o en contra.  En ese momento el conocimiento generado deja de ser privado y pasa a ser un bien público.

REFERENCIAS BIBLIOGRÁFICAS

Alayza C., Cortés G., Hurtado G., Mory E. y Tarnawiccki N. (2010).  Iniciarse en la investigación académica.  Lima: UPC

Experimentos simples

Anteriormente hemos escrito acerca de la t de Student y una brevísima introducción al ANOVA de un solo factor, apartir de esta entrada vamos a ver algunos artículos dedicados al diseño de experimentos, para comenzar se detallará lo que son los experimentos simples.

Según Montgomery (2013) son aquellos experimentos en donde se comparan dos condiciones o tratamientos, un ejemplo de ello se puede apreciar en la entrada relacionada a la prueba t de Student, dentro de este tipo de experimentos se tienen los siguientes:

  1. Prueba de proporciones
  2. Prueba para distribuciones con varianza conocida
  3. Prueba para distribuciones con varianza desconocida

Normalmente estos experimentos pueden considerarse dentro del rango de los bivariables, es decir se tiene un factor o variable independiente x y una variable de respuesta o variable dependiente y, además x tiene solamente dos posibles niveles.

En las siguientes publicaciones de este bloc detallaremos un poco más sus herramientas y aplicaciones.

REFERENCIA BIBLIOGRÁFICA

Montgomery D. (2013).  Diseño y Análisis de Experimentos.  México: Limusa Wiley

 

 

Experimento y diseño de experimentos

A diario escuchamos la palabra experimento, aunque a veces no muy bien utilizado, sin embargo, el común denominador de las personas tiene una noción de lo que esto significa, pero a pesar de ello, para un investigador debe quedar bien claro que es y que no es un experimento.

Una definición clara sobre el tema es la siguiente: un experimento es una prueba o serie de pruebas en las que se hacen cambios deliberados en las variables de entrada para observar e identificar los cambios en la respuesta de salida (Montgomery, 2013)

En el párrafo anterior se puede apreciar que experimento es una prueba y que en esta prueba intervienen dos actores, es decir dos tipos de variables, una de entrada y otra de salida, la de entrada es la que controla el experimentador (es decir, el que va a llevar a cabo la prueba) y la de salida es en donde se va a verificar los cambios.

Otra palabra clave es cambio, en todo experimento se desea verificar si hay cambios en la variable respuesta o no los hay, también la magnitud de esos cambios y si son significativos.

Para realizar un experimento hay que hacer previamente un diseño experimental, el mismo que se puede definir como: planear y realizar un conjunto de pruebas para analizar datos estadísticamente de tal forma que pueda responder a las interrogantes planteadas por el investigador (Gutierrez y De la Vara, 2012)

El diseño experimental busca responder a las interrogantes del investigador, estas interrogantes son los problemas de investigación, y sus respectivas respuestas o posibles respuestas son las hipótesis, lo que se va a hacer con el diseño experimental es establecer una estrategia para llevar a cabo el experimento y verificar si es que aporta evidencia a favor o en contra de la hipótesis.

Esta estrategia debe incluir las hipótesis estadísticas a utilizar, tamaño de muestra, diseño de investigación, el estadístico de contraste, entre otros.  Las fases de un diseño experimental son las siguientes:

  1. Identificación del problema
  2. Formulación de la hipótesis
  3. Elección de los factores (variable independiente) y niveles
  4. Selección de la variable respuesta (variable dependiente)
  5. Elección del diseño experimental
  6. Realización del experimento
  7. Análisis estadístico de datos
  8. Conclusiones y recomendaciones

Y además debe cumplir con los siguientes principios básicos:

  1. Aleatorización: hacer corridas experimentales al azar
  2. Repetición: Correr más de una vez un tratamiento
  3. Bloqueo: nulificar todos los factores que pueden afectar la respuesta observada

 

REFERENCIAS BIBLIOGRÁFICAS

Gutierrez H. & De la Vara R. (2012). Análisis y Diseño de Experimentos. México: Mc Graw Hill

Montgomery D. (2013).  Diseño y Análisis de Experimentos.  México: Limusa Wiley

¿Qué son los grados de libertad en los diseños de experimentos?

Cuando trabajamos el tema de diseño de experimentos y otros relacionados, siempre aparece un término importante llamado grados de libertad, lo encontramos por ejemplo cuando queremos determinar el valor de tablas de t de Student o F de Fisher etc., a continuación, vamos a revisar algunas definiciones al respecto para aclarar el tema.

Según Gutiérrez y De la Vara (2012) “son parámetros que definen las distribuciones t, ji-cuadrada y F, y se determinan a partir de los tamaños muestrales involucrados” (p. 15), esta definición es demasiado “estadística”, es decir, nos explica cuál es la función que cumple, su importancia, pero, por ejemplo, no nos dice nada acerca de su naturaleza en si, por que es que definen las distribuciones, etc.

Por otro lado, en The Statistics Problem Solver (1986), citado en Escalante (2014), se dice que es el número total de términos en una expresión menos el número de restricciones lineales entre observaciones; lo cual nos da una idea más cercana de lo que son los grados de libertad, es decir, está relacionado con la diferencia entre los términos que puede tener una expresión y lo que le quitan las restricciones.

En esa misma línea, De la Cruz-Ore (2014) señala que “los grados de libertad son iguales al número de observaciones independientes que son libres de variar (el número de sujetos en los datos) menos el número de parámetros estimados (el número de relaciones impuestas a los datos)” (p. 5), definición que coincide con la anterior.

Para entender mejor este tema, veamos el siguiente ejemplo: supongamos que debemos escoger una muestra de 10 personas cuyo promedio de edades sea 30 años, las primeras nueve personas pueden ser escogidas libremente, es decir de cualquier edad, sin embargo, la décima persona no puede ser escogida libremente, sino que debe tener la edad adecuada que, junto con las nueve de un promedio de 30 años, en este caso los grados de libertad son 9, es decir el tamaño de muestra 10 menos uno, 10-1=9,  o también n-1 en forma general.

Referencias bibliográficas

De La Cruz-Oré J. (2014).  ¿Qué significan los grados de libertad? Revista Peruana de Epidemiología 17(2). 1-6

Gutierrez H. & De la Vara R. (2012). Análisis y Diseño de Experimentos. México: Mc Graw Hill

Montgomery D. (2013).  Diseño y Análisis de Experimentos.  México: Limusa Wiley

 

 

La ciencia como una decatupla según Bunge

Un aspecto muy interesante relacionado a la ciencia, es la definición que Bunge (2009) brinda sobre ella, para éste autor una ciencia en particular (CP) es una decatupla la cual se conforma de la siguiente manera:

Cp=<C, S, D, G, F, B, P, A, O, M>

A continuación, se va a explicar cada uno de los componentes en forma resumida:

Primero tenemos a la comunidad de investigadores (C), una ciencia en particular debe tener en ella un colectivo de investigadores dedicados a su estudio, además, esta comunidad debe debatir entre sus integrantes, cuestionar, cooperar etc, es decir pueden tener diferentes posiciones, pero es comunidad porque hay comunicación entre ellos.

Además, debe estar dentro de una sociedad (S) y para que la ciencia pueda florecer, esta sociedad debe como mínimo tolerar la investigación que se realiza; Bunge menciona la importancia de este elemento porque en sociedades teocráticas, cuya verdad está en un libro sagrado, es muy difícil que pueda desarrollarse la investigación.

También debe tener un dominio (D), este dominio es el conjunto de ideas o hechos que los investigadores estudian dentro de C.

Asimismo, debe contar con supuestos filosóficos (G), y como menciona Bunge, aunque un positivista quiera negarlo, los investigadores de por sí aceptan supuestos filosóficos cuando realizan su trabajo, por ejemplo, si es cuantitativo está aceptando los supuestos que dicho paradigma tiene implícito, los cuales analizaremos en una próxima entrada.

El fondo formal (F) es otro elemento de la decatupla, es decir, en CP no existe la contradicción, tampoco la imprecisión ni los círculos viciosos, se busca la exactitud como resultado final, en otras palabras, puede ser codificada por alguna teoría lógica.

Toda ciencia a excepción de las matemáticas presupone un fondo específico (B), es decir presupone otra ciencia, por ejemplo, la física presupone la matemática, al igual que la química entre otras ciencias, en este caso presuponer significa que lo admite y no lo discute (a menos que se convierta en matemático), esto no ocurre con las matemáticas que no presuponen otra ciencia, es decir, las matemáticas no presuponen a la física, ni a la química, las matemáticas se bastan por sí mismas.

Otro elemento importante son los problemas (P) que aborda CP, y en este caso el conjunto de problemas que aborda no es un conjunto cerrado, sino abierto, ya que cuando se resuelven determinados problemas, generalmente surgen nuevos problemas de investigación.

Luego tenemos el fondo de conocimientos acumulados (A), el cual como su propio nombre lo explica, representa la producción científica que CP ha logrado en un determinado tiempo.

Un componente adicional son los Objetivos (O) que tiene CP, los cuales se van a enmarcar según los objetivos generales de la ciencia aplicada o ciencia básica.

El décimo componente es la metódica (M), es decir los métodos que se utilizan en CP, en especial el método científico, también el método estadístico entre otros.

REFERENCIAS BIBLIOGRÁFICAS

Bunge M. (2009). Vigencia de la Filosofía. Lima: UIGV