Lección 4 Dominemos los residuos Consolido lo que aprendí

Focos de aprendizaje

Entender e interpretar los residuos.

¿Todos los datos bivariados deben modelarse con una función lineal?

¿Hay otras maneras de saber si un modelo lineal es adecuado, además de usar un coeficiente de correlación?

Indicaciones de uso de tecnología para la lección de hoy:

Descubramos las matemáticas: Introducción, Exploración, Discusión

El coeficiente de correlación no es la única herramienta que usan los especialistas en estadística para analizar si una recta es un buen modelo de los datos. Ellos también tienen en cuenta los residuos, que son las diferencias entre los valores observados (los datos reales) y los valores que se predijeron (los valores de de la recta de regresión). Esto suena complicado, pero en realidad no lo es. Los residuos son solo una manera de pensar en qué tan lejos de la recta de regresión están los datos reales.

Comencemos con algunos datos:

Hagamos un diagrama de dispersión y grafiquemos la recta de regresión. En este caso, la recta es .

A scatterplot with the horizontal axis extending from 0 to 7 and the vertical axis extending from 0 to 30. Both the regression line, y=3x 6, and the six points in the table are graphed. Four points are above the line and 2 points x111222333444555666777y101010202020303030000

Dibujemos un segmento de recta vertical desde cada punto hasta la recta de regresión. Así, obtenemos los segmentos que vemos en la siguiente gráfica.

The second scatterplot is identical to the one just described except a vertical line segment has been drawn from each point to the regression line.x111222333444555666y101010202020303030000

1.

Los residuos corresponden a las longitudes de los segmentos. ¿Cómo puedes calcular la longitud de cada segmento para obtener los residuos?

2.

Por lo general, si un punto de datos está por encima de la recta de regresión, el residuo correspondiente es positivo. Si el punto de datos está por debajo de la recta, el residuo es negativo. Teniendo esto en cuenta, usa tu plan del problema 1 para crear una tabla con los valores de los residuos para todos los puntos de datos.

3.

A los especialistas en estadística les gusta observar las gráficas de los residuos para saber qué tan buenas son sus rectas de regresión. Tú puedes hacer lo mismo. Grafica los residuos.

A blank coordinate plane with the horizontal axis extending from 0 to 6 and the vertical axis extending from -10 to 10.x111222333444555666y–10–10–10–5–5–5555101010000

Ahora que ya hiciste una gráfica de residuos, piensa en qué información nos dan los residuos y responde los siguientes problemas.

4.

¿Qué significa que un residuo sea grande y negativo?

5.

¿Qué significa que un residuo sea igual a ?

6.

Si alguien te dice que estimó una recta de mejor ajuste para un conjunto de puntos de datos y que todos los residuos son positivos, ¿qué le dirías?

7.

Si el coeficiente de correlación de un conjunto de datos es igual a , ¿cómo se verá la gráfica de residuos?

Un especialista en estadística usa gráficas de residuos para averiguar si en los datos hay patrones que no predijo su modelo. ¿Qué patrones puedes identificar en las siguientes gráficas de residuos que parezcan indicar que la recta de regresión no es un buen modelo de los datos? Con base en la gráfica de residuos, ¿hay puntos que pueden considerarse datos atípicos?

8.

A scatterplot of 26 plotted points in a coordinate plane x222444666888101010y–10–10–10101010000

9.

A scatterplot of 14 plotted points in a coordinate plane x222444666888101010y–10–10–10101010000

10.

A scatterplot of 10 plotted points in a coordinate plane x222444666888101010121212y–20–20–20–10–10–10101010000

11.

A scatterplot of 27 plotted points in a coordinate plane x222444666888101010y–20–20–20202020404040000

¿Listo para más?

Usa la gráfica de residuos del problema 10 para reconstruir el diagrama de dispersión en la siguiente gráfica, que muestra la recta de regresión.

La recta de regresión tiene un coeficiente de correlación positivo. ¿Los residuos del problema 10 pueden representar también datos que tienen un coeficiente de correlación negativo?

The line has an approximate y-intercept at (0, 3) and ends at approximately (10, 18)x222444666888101010y–20–20–20202020000

Aprendizajes

a venn diagram that relates correlation coefficient and data from a residual plotLo que podemos concluir sobre los datos a partir del coeficiente de correlación:Cosas que nos dicen tanto el coeficiente de correlación como los residuosLo que podemos concluir sobre los datos a partir de un gráfico de residuos

Vocabulario

Resumen de la lección

En esta lección aprendimos que un residuo muestra la diferencia entre el valor de de un punto de datos y el valor de que predice la recta de regresión. Calculamos los valores residuales y usamos gráficas de residuos para evaluar si un modelo lineal es adecuado para los datos.

Repaso

Usa el diagrama de caja para responder los problemas del 1 al 4.

A box plot with the left whisker beginning at 12 and extending to 14 where the left box begins. The left box ends at 15 where the right box begins. The right box ends at 20, where the right whisker begins. The right whisker ends at 23.121212131313141414151515161616171717181818191919202020212121222222232323

1.

¿Cuál es el resumen de cinco números (mínimo, Q1, mediana, Q3, máximo) de este diagrama de caja?

2.

¿Qué proporción del conjunto de datos está representado en la caja?

3.

¿Qué proporción de los datos está representado en uno de los bigotes del diagrama?

4.

¿Por qué el lado izquierdo de la caja es más pequeño que el lado derecho de la caja?