Sesgo muestral

El sesgo muestral, a veces también llamado efecto de selección o error muestral es una distorsión que se introduce debido a la forma en que se selecciona la muestra. Se refiere a la distorsión de un análisis estadístico, debido al método de recolección de muestras. Si el sesgo muestral no es tomado en cuenta, entonces algunas conclusiones propuestas pueden ser erróneas. Un ejemplo de sesgo muestral es el sesgo de Berkson.^[1]

Sesgo desde una selección muestral

El sesgo muestral implica pre o post selección de muestras que pueden incluir preferencia o excluir cierto tipo de resultados. Normalmente esto hace que medidas de significación estadística parezcan más fuertes de lo que son. Pero también es posible causar artefactos totalmente ilusorios. El sesgo muestral puede ser el resultado de fraudes científicos que manipulan directamente la información, pero más a menudo es inconsciente, o bien debido a los sesgos en los instrumentos utilizados para la observación.

Como otro ejemplo: si un experimento fuera conducido para contar de la distribución del tamaño de los peces en un lago, una red podría ser utilizada para capturar una muestra representativa de peces. Si la red tiene un tamaño de malla de 1 cm, entonces no hay peces más estrechos que 1 cm de ancho que se encuentren en la muestra. Este es el resultado del método de selección: no hay manera de saber si hay peces de tamaño inferior a 1 cm sobre la base de un experimento con esa red.

Para determinar en un contexto particular, si existe un sesgo muestral o no, no es suficiente establecer que ha habido selección. En su lugar, se debe establecer que la cantidad de interés (tamaño de los peces, por ejemplo) es sistemáticamente diferente en la muestra que en toda la población de interés, como el procedimiento de selección al mismo tiempo puede dar lugar a un sesgo en una cantidad como en el tamaño de los peces, pero no en otro, por ejemplo, la proporción de sexos de los peces, y qué tipo de pez que es.

Truman vs. Dewey

Artículo principal: Dewey Defeats Truman

Sherry Seethaler informa del caso del titular del Chicago Tribune,(Dewey derrota a Truman), que se basó en parte en una encuesta telefónica.^[2] En ese momento, los teléfonos eran artículos caros, cuyos propietarios tienden a estar en la élite, quienes favorecían a Dewey mucho más que el votante promedio.

Tipos

Hay muchos tipos de posibles sesgos de selección, entre otros, se incluyen:

Espacial

Selección de los puntos finales de una serie. Por ejemplo, para maximizar una tendencia aclamada, podría comenzar la serie de tiempo en un año inusualmente bajo, y al final en uno alto.
Cese anticipado de un experimento, en un momento en que sus resultados apoyan la conclusión deseada.
Un experimento podrá terminarse anticipadamente en un valor extremo (a menudo por razones éticas), pero el valor extremo es probable que se alcance por la variable con mayor varianza, incluso si todas las variables tienen una media similar. Como resultado de esa terminación anticipada, las medias de las variables con mayor varianza son sobrestimadas
Particionamiento de datos con el conocimiento de los contenidos de las particiones, y luego analizándolas con las pruebas diseñadas para las particiones elegidas a ciegas (ver muestreo estratificado, muestreo por conglomerados, falacia del francotirador de Texas).
Análisis de la longitud de los intervalos de la selección de los intervalos que ocupan los puntos elegidos aleatoriamente en el tiempo o el espacio, un proceso que favorece a intervalos más largos. Esto es conocido como sesgo de longitud del tiempo.

De información

Rechazo de datos "malos" por motivos arbitrarios, según se ha señalado anteriormente o, en general por criterios acordados.
Rechazo de "valores extremos" por motivos estadísticos que no toman en cuenta la información importante que podría derivarse de datos "aberrantes".^[3]

Participantes

Preselección de los participantes del experimento, o la publicidad para voluntarios en grupos particulares. Por ejemplo, un estudio para "probar" que el tabaco no afecta a la figura (peso) puede contratar en el gimnasio local, pero hacer publicidad a los fumadores durante la clase de aeróbic avanzado, y para no fumadores durante las sesiones de pérdida de peso.
Descuento de los sujetos del experimento / pruebas de que no se complete. Por ejemplo, en una prueba de un programa de dieta, el investigador sólo podrá rechazar todas las personas que abandona el experimento. Pero la mayoría de los que abandonan son aquellos para los que no estaba funcionando.
Sesgo de Auto-selección, que es posible siempre y cuando el grupo de personas que está siendo estudiado tiene alguna forma de control sobre la posibilidad de participar. La decisión de los participantes a participar, puede estar correlacionada con características que afectan el estudio, haciendo a los participantes una muestra no representativa. Por ejemplo, las personas que tienen opiniones fuertes o conocimiento sustancial pueden estar más dispuestas a gastar tiempo respondiendo a una encuesta que los que no lo hacen.
El sesgo de la migración puede ser introducido mediante la exclusión de los sujetos que se movieron recientemente al área de estudio (esto puede ocurrir cuando los recién llegados no están disponibles en un registro para identificar la población de origen) o por la exclusión de sujetos que se mueven fuera del área de estudio durante el seguimiento.

Estudios

Selección de los estudios a incluir en un análisis-meta (véase también análisis-meta combinatorio)
Presentar experimentos repetidos y reportar sólo de los resultados más favorables, tal vez reetiquetado los registros de laboratorio de los experimentos de otro como "pruebas de calibración", "errores de instrumentación" o "estudios preliminares".
Presentar el resultado más significativo de un conjunto de datos como si se tratara de un solo experimento (que es, lógicamente, lo mismo que el punto anterior, pero se considera mucho menos deshonesto).

Formas de evitar el sesgo

En general, los sesgos de selección no se pueden superar con el análisis estadístico de los datos solitarios existentes, aunque la corrección de Heckman se puede utilizar en casos especiales. Una evaluación informal del grado del sesgo de selección puede llevarse a cabo examinando las correlaciones entre las variables (exógena) de fondo y un indicador de tratamiento. Sin embargo, en modelos de regresión, es la correlación entre los determinantes inobservados de los resultados y los determinantes inobservados de la selección en la muestra, lo que da las estimaciones del sesgo, y esta correlación entre inobservables no se puede evaluar directamente por las determinantes observadas del tratamiento.^[4]

Temas relacionados

El sesgo de selección está estrechamente relacionado con:

El sesgo de la muestra, un sesgo de selección producido por un sesgo accidental en la técnica de muestreo, como contra a la manipulación deliberada o inconsciente.
El sesgo de publicación o de un sesgo de información, la distorsión producida en la percepción de la comunidad o meta-análisis por no publicar sin interés (por lo general negativo) los resultados, o los resultados que van en contra de los prejuicios del experimentador, los intereses de un patrocinador, o las expectativas de la comunidad.
El sesgo de confirmación, la distorsión producida por los experimentos que se han diseñado para buscar pruebas de confirmación en lugar de tratar de refutar la hipótesis
El sesgo de exclusión, los resultados de la aplicación de criterios diferenstes para casos y controles en lo que respecta a la elegibilidad de participación en un estudio/ las diferentes variables actúan como base para la exclusión.

Véase también

Referencias

↑ Tao, Lee; Bhushan, Vikas; Grimm, Lars (2010). First Aid for the USMLE step 1 (PDF) (en inglés). EE.UU.: McGraw-Hill. p. 55. ISBN 978-0-07-163340-2 |isbn= incorrecto (ayuda). Consultado el 24 de julio de 2010..
↑ Seethaler, Sherry (enero de 2009). «7» (PDF). En Pearson Education Inc., ed. Lies, Damned Lies and Science (en inglés) (1ª edición). New Yersey: FT Press Science. p. 107. ISBN 978-0-13-715522-4. Consultado el 23 de julio de 2010.
↑ Kruskal, William H. Some remarkes on wild observations (en inglés). Technometrics. Archivado desde el original el 26 de enero de 2010.
↑ Heckman, James J. «Sample selection bias as a specification error». Econometrica. Journal of the Econometric Society (47): 153-61.

Datos: Q2725298
Multimedia: Decision making / Q2725298

[1] Tao, Lee; Bhushan, Vikas; Grimm, Lars (2010). First Aid for the USMLE step 1 (PDF) (en inglés). EE.UU.: McGraw-Hill. p. 55. ISBN 978-0-07-163340-2 |isbn= incorrecto (ayuda). Consultado el 24 de julio de 2010..

[2] Seethaler, Sherry (enero de 2009). «7» (PDF). En Pearson Education Inc., ed. Lies, Damned Lies and Science (en inglés) (1ª edición). New Yersey: FT Press Science. p. 107. ISBN 978-0-13-715522-4. Consultado el 23 de julio de 2010.

[3] Kruskal, William H. Some remarkes on wild observations (en inglés). Technometrics. Archivado desde el original el 26 de enero de 2010.

[4] Heckman, James J. «Sample selection bias as a specification error». Econometrica. Journal of the Econometric Society (47): 153-61.

[1]

[2]

[3]

[4]