Pocas cosas le hacen más daño a la difusión de la Cultura Estadística que los juicios de los conocedores ignorantes. Maestros de maestros les dicen sus allegados y amigos, ¡cómo sabes de encuestas!, ¡cómo sabes de estadística!

“Yo sé de encuestas”, se dice que afirmaba uno de esos personajes que recientemente fue gobernador, y no entendía ni siquiera el significado del problema de la variación, a juzgar por sus juicios. “A ella nada nuevo le podrás decir, es una conocedora de ese campo”, alguna vez me advirtió la asistente de una lideresa nacional. Raro en verdad pensé yo, que haya ido a un congreso mundial a explicar mi nueva metodología de las Cartas de Navegación Política a maestros de universidades prestigiadas, como la de Harvard, pero que eso no pueda sorprender a alguien cuya actividad profesional está tan alejada de estas cuestiones técnicas. En fin, así es esto, y con esto deberemos trabajar.

La historia viene a cuento, porque uno de los conceptos que más se manosea en el medio por nuestros queridos conocedores ignorantes, es el relativo al sesgo telefónico. Descalifican en automático una encuesta telefónica porque está sesgada. Como si la connotación negativa del término en el lenguaje común, invalidara también los juicios estadísticos.

Hay ocasiones, como el caso en que no podemos afirmar que las variables predictoras se midan sin error, en el contexto del Análisis de Regresión Múltiple, en los cuales resulta más conveniente utilizar estimadores sesgados (latent root regression, Ridge regression). De modo que la tragedia que se pretende hacer de ellos es absurda.

Veamos antes de continuar con esto la definición precisa de estimador insesgado, y por consecuencia de uno sesgado: Se entiende como un estimador insesgado aquel que genera estimaciones cuyo promedio es justo el parámetro que busca estimar.

Así por ejemplo, si deseamos estimar la proporción o porcentaje de aprobación al presidente de México, y tomamos para ello una muestra aleatoria, dividiendo el número de personas en la muestra que lo aprueban entre el total de personas que conforman la muestra, tendremos una estimación del porcentaje que buscamos; si tomamos otra muestra y repetimos el procedimiento, y después otras más hasta conformar una buena cantidad de estimaciones , tendremos una colección de porcentajes y lo más probable es que todos sean diferentes entre sí, ¿Cuál de ellos es el verdadero porcentaje de aprobación del presidente? No lo sabremos nunca.

Sin embargo si continuamos el proceso y obtenemos más y más muestras y nos fuera posible conformar una colección infinita de muestras y porcentajes de aprobación estimados, sí tendríamos la forma de saber exactamente cuál es la aprobación del presidente: Sería el promedio de todas las estimaciones obtenidas, porque la proporción es un estimador insesgado; si no lo fuera el promedio diferiría del valor verdadero de aprobación.

Ser insesgado, sin embargo, no es garantía de ser una buena estimación en el sentido de que se aproxime mucho al valor real que desea estimarse. Para ello es necesario que además el estimador sea de mínima variabilidad (el que genera las estimaciones menos dispersas). En el caso que hemos descrito también se cumple esta condición.

Cuando se calcula la variancia para una población se divide la suma de las desviaciones cuadráticas respecto del promedio entre el tamaño de la muestra n. Si aplicamos la misma fórmula pero no a toda la población sino a una parte de ella o muestra, entonces el estimador será sesgado. Sin embargo si en lugar de dividir entre el valor n, se divide entre n-1, tendremos un estimador insesgado.
Una vez aclarado lo que son los estimadores sesgados e insesgados, permítanme decirles que las encuestas telefónicas utilizan estimadores insesgados. Es falso que sean sesgados. Dicho de otro modo, la crítica a las encuestas telefónicas por sesgadas no se ha planteado en los justos términos.

El problema en el caso de las encuestas telefónicas es que no se toma en cuenta que ellas presentan resultados que corresponden a una población especial: La conformada justo por aquellas personas que disfrutan del servicio telefónico domiciliario.

Las estimaciones que se obtienen de ellas corresponden de manera justa e inobjetable a la referida población, no a la población general. Sin embargo eso es lo que se espera y es ahí donde surge la discrepancia, pues si tomamos el valor que corresponde a esa subpoblación, muchas veces minoritaria, como el valor estimado de toda la población, los resultados muy bien podrían diferir en mucho de los reales.

Esa diferencia entendible por demás, es lo que se entiende como el sesgo, pero no es como en el caso de la estimación de la variancia que siempre es para dar de menos al dividir entre n en lugar de n-1. En este caso a veces se da de más, a veces de menos y a veces es muy similar. Cada historia será diferente.
En estricto sentido el problema que se tiene se conoce como de extrapolación, es decir, con base en los resultados de una parte de la población pretendemos estimar el valor que correspondería a la población general.

Técnicamente es imposible obtener la discrepancia con la sola muestra telefónica. Para ello es menester ir a un trabajo de campo en entrevistas domiciliarias cara a cara. Entre las preguntas se debe incluir una que nos informe si las personas en la muestra cuentan o no con servicio telefónico domiciliario. Una vez recabada esa información se puede hacer una estimación del desvío para lograr la referida extrapolación.

La técnica estadística que se utiliza para lo anterior es Análisis de Contingencia. Si en el ejemplo que hemos planteado, la aprobación presidencial resulta independiente de tener o no teléfono, entonces la extrapolación es directa. Es decir, los valores obtenidos en la telefónica se pueden extender a la población total con pocas posibilidades de dar una estimación que no contenga, en su abrazo con el margen de error, al valor verdadero de la aprobación presidencial.

Si resulta que hay alguna relación entre las variables referidas, entonces tendremos también una estimación de qué tanto se sobreestima o se subestima la aprobación presidencial, y esa cantidad se aplica a la estimación correspondiente.

En Nuevo León, donde por más de dos décadas le hemos tomado el pulso a la opinión pública, cuando de intención voto se trata hemos calculado el factor de extrapolación, que en consideración a la incultura imperante le hemos llamado sesgo telefónico. Por supuesto que no siempre se presenta, pero cuando lo hace por lo común se subestima en 5 puntos porcentuales al PRI y se sobreestima en 5 puntos porcentuales al PAN.

Es importante que no se haga el ajuste en automático, debe verificarse que la elección esté polarizada entre ricos y pobres, pues el nivel de ingresos está relacionado de modo importante con tener o no tener teléfono. En realidad es entre los más pobres donde menos se cuenta con teléfono, pero aún así en la muestra telefónica nacional estamos encontrando 45% de pobres extremos. La técnica estadística para verificar si hay polarización o no es de nuevo el Análisis de Contingencia.

A manera de ejemplo. En nuestro seguimiento de la elección presidencial anterior los resultados de la encuesta telefónica indicaban una clara ventaja para Calderón. En varios de nuestros comentarios aclaramos el problema del sesgo telefónico y sobre el hecho de que no teníamos una encuesta a tierra que nos permitiera estimar es desvío, pero señalamos que en caso de que los sesgos de Nuevo León fueran aplicables, habría que descontarle a Calderón 5 puntos y agregarle a AMLO también 5 puntos. Lo que resulta al hacer el ajuste es una ínfima ventaja de 0.9%, por supuesto que no significativa, de Calderón. Muy parecido al resultado oficial que le dio una ventaja a Calderón de 0.6% aproximadamente.

Toda la historia del proceso electoral del 2006 la pueden ver en la siguiente película electoral, donde se aplica el sesgo estimado para Nuevo León: https://www.sabaconsultores.com/?Monitoreo=3&btn=1
En resumen: No tiene sentido descalificar las encuestas telefónicas. Los defectos que tienen se pueden subsanar si hay suficiencia estadística, y los beneficios que representan apuntan directamente hacia cosas en verdad trascendentes en el ámbito político, tal como la posibilidad de anticipar problemas, de saber antes que nadie, incluso antes de que se forme la conciencia colectiva sobre un tema, lo que está pasando en la mente de los electores, de los gobernados o ciudadanos a los que nos interesa convencer de nuestro proyecto político.

Otro problema directamente asociado a esto es el siguiente: ¿A quién le importa que una estimación sea precisa?, ¿Es más importante eso que saber el sentido en el que vamos en nuestro proyecto político?, ¿Si vamos avanzando, si retrocedemos, si nos estancamos?

Si lo último es lo más importante, y estoy convencido que lo es, pues lo otro tiene propósitos vulgares de propaganda solamente, entonces que la estimación sea precisa es algo de poca importancia. Pero eso es entrar a otro tema sabroso que ya abordaremos en otra ocasión.

Hasta la próxima.