miércoles, 13 de marzo de 2013

De los datos engañosos, o de la promiscuidad estadística

En años recientes el fácil acceso a la información ha generado una inundación de datos que los menos escrupulosos utilizan a su conveniencia. Sí, la estadística es una suripanta que vende sus encantos al mejor postor, y por lo general, los publicistas y otros profesionistas de la mercadotecnia son sus proxenetas. La razón por la que tildo de taconera a la ciencia del análisis de datos, es porque la interpretación de la información generada por un experimento/encuesta/sondeo/muestreo, si bien son datos crudos, tienden a dejar fuera elementos importantes que permiten la manipulación descarada de las conclusiones. Mi máxima es: no dejarse llevar por los resultados, si no se conocen los parámetros del experimento.
Ilustraré mi argumento, primero, con un ejemplo sencillo. Supongamos que Gertrudis Mazorquera es una pequeña empresaria de la industria de los alimentos; vende esquites en un carrito. Un día su prima Holga Pérez Soza, una verdadera autoridad en la galbana, se declara hastiada de las insinuaciones hacia su poca contribución al gasto familiar y decide iniciar un negocio. Como era de esperarse, Holga prefiere imitar a su parienta Gertrudis, exitosa microempresaria de los alimentos ambulantes. La señorita Pérez Soza llama por teléfono a su prima, la señorita Mazorquera, y después de las fórmulas tradicionales de saludo (un hola, un hace mil que no te veo, un ¿Cómo está mi tía la Cuquis?) la cuestiona:
- ¿Cuánto vendiste hoy?
- ¿Dónde pones tu carrito?
- ¿Cómo preparas los elotes?
La otra contesta sendas preguntas:
- Cerca de $700.00
- A una calle de la plaza de armas.
- Con limón, chile, crema, mayonesa y queso.
Hasta aquí, todo pinta de maravilla. Holga Pérez arma su cacharro y se dispone a recibir oleadas de maysóvoros con los bolsillos dispuestos a vaciarse y la barrilla presta a llenarse. Sobra decir que no fue así. Yo les aseguro que Holga tenía el mismo sazón, ponía su changarro diariamente y daba un producto de calidad, pero su negocio no prosperó y hubo que traspasar la operación para minimizar las pérdidas ¿Qué fue lo que pasó? Resulta que las preguntas que la señorita Pérez Soza realizó a su consanguínea no eran del todo atinadas. Quiero decir, la información que Holga quería obtener era acertada: Venta aproximada diaria, lugar de venta (para minimizar la competencia) y la receta. El error fue la sencilla falta de contexto. Resulta que las respuestas contextualizadas son las siguientes:
- Hoy vendí $700 porque es 15 de diciembre, y pagaron quincena y aguinaldo, si promedio durante un mes las ventas diarias, son poco menos de $300 al día.
- Pongo el carrito a una cuadra de la plaza de armas, afuera de un gimnasio especial para personas con sobrepeso.
- Preparo los esquites con 2 limones, media cucharadita de chile, una cucharada de crema, una embarrada de mayonesa y copeteo el vaso con el queso. Es importante ser mezquina con la mayonesa y el queso, porque son los ingredientes más costosos.
Resulta evidente que si Holga sobreestimó las ventas, se colocó cerca de un puesto de tacos, y no echó buenos cálculos al costo de cada vaso de esquites, su misión estaba destinada al fracaso.
Visto lo anterior, resulta axiomática la necesidad del contexto al pedir o dar información. Gertrudis pudo actuar bajo una simple omisión, pero también pudo omitirlo mañosamente, para eliminar a la competencia, o porque nunca le perdonó a Holga que bailara con El Cachuchas en la tardeada de la secundaria 73. Así, la difusión de información fuera de contexto es usada por charlatanes y otros embaucadores, para influir en los incautos, inocentes y/o ignorantes. Ahora analicemos algunos ejemplos comunes en diferentes publicidades:

Es más probable morir en un accidente automovilístico que en uno aéreo.
Para hacer esta aseveración es importante observar que aún cuando hay muchos más accidentes mortales de tipo automovilístico que de tipo aéreo, hay diferencias importantes:
i) ¿Cuáles son los requisitos para que una persona maneje un auto y cuáles para que una persona maneje un avión? Al considerar el grueso de todos los accidentes automovilísticos se están incluyendo los aprendices, los ebrios, los que chocan por quedarse dormidos, los que chocan al estacionarse, los que se meten en contra por una calle, etc. Muchas de estas situaciones no se presentan en los pilotos de aviones, quiero decir, no permiten que un aprendiz vuele o aterrice un avión, en teoría los pilotos no vuelan ebrios ni se quedan dormidos, y definitivamente no se espera que choquen al estacionarse aún sin la ayuda de un vieneviene.
ii) Un piloto de avión recibió una preparación académica, tiene un permiso certificado y vive de pilotear un avión. La mayoría de los conductores que se ven involucrados en accidentes automovilísticos recibieron su formación de sus padres o de un curso de manejo, las licencias requieren un examen sencillo o ninguno, y la mayoría manejamos para transportarnos, no como profesión. Para poder comparar entre los pilotos de avión que participan de accidentes aéreos mortales contra los automovilistas que participan en accidentes mortales debemos comparar a los pilotos con, digamos, los choferes de autobuses de pasajeros, ya que ambos son conductores por profesión y transportan pasajeros.
iii) Y la más importante de todas: ¿Cuál es el porcentaje de pasajeros que mueren en un accidente aéreo y cuál es el porcentaje de pasajeros que mueren en un accidente de autobuses? Esta última es la verdadera comparación que permitiría saber si es más probable morir en un accidente de autobuses que en uno aéreo. Recomendación, no viajen en avión a menos que sea necesario.

Dicho de un antiséptico: Mata el 99.9% de las bacterias. 
Cuando hablamos de bacterias hay que tener dos hechos en mente:
i) Son muy pequeñas, caben millones en menos de un centímetro cuadrado. Supongamos que hay una superficie con un millón de bacterias de la misma cepa (que no es algo tan descabellado para algo que está realmente sucio). Si el antiséptico mata el 99.9% de las bacterias, después de aplicarlo sobreviven 10 000 células, listas para infectarnos. Cuando se habla de enfermedades que pueden contraerse por unas cuantas células, 10 000 es un número preocupante.

ii) Hay bacterias altamente patógenas y bacterias relativamente inocuas. Digamos, la mayoría de las cepas de Escherichia coli son inocuas, mientras que la mayoría de las cepas de Staphylococcus aureus son altamente patógenas. Cuando se dice que mueren el 99.9% de las bacterias no se indica si el 99.9% de todas las especies de bacterias mueren (si hay E. coli y S. aureus, mueren ambas especies), o si mueren el 99.9% de las bacterias presentes, dejando el 0.01% de bacterias que pueden o no, ser peligrosas (si el 99.9% eran E. coli y el 0.01% eran S. aureus estamos en un problema). El ejemplo más aproximado sería una fuga masiva de animales en un zoológico; si se reporta que se recuperaron el 99% de los animales no se indica si los que faltan son cebras, chimpancés y gacelas (inocuos), o son serpientes, tigres e hienas (peligrosos). Según la estadística, pudieron recuperarse 99 guacamayos y quedar libre un gorila de 500kg; recuperarse todas las granjas de hormigas y quedaron libres dos manadas de tigres, 2 anacondas, un oso grizzly con mal temperamento y más listo que los osos promedio, además un cardumen de una nueva especie resultado del cruzamiento de pirañas, escorpiones y palomas. En todos los casos el porcentaje se conserva.


8 de cada 10 gatos prefieren whiskas. 
Esto es muy relativo, ya que no se indica qué es lo que suelen comer los gatos que participaron en la encuesta. Si los 10 gatos suelen comer basura y les ofrecen una lata de alimento para gatos, rico y carnosito, seguro que la gran mayoría escogerá whiskas. Ahora, si los diez gatos suelen comer whiskas y les ofrecen otro alimento, y 2 de ellos prefieren el otro alimento, en realidad whiskas tiene una taza de rechazo del 20%, es decir, 1 de cada 5 gatos que come whiskas, preferiría comer otra cosa. Esto último es altamente revelador, y es una interpretación diferente de la misma estadística. NOTA: De ninguna manera pretendo perjudicar a whiskas con este comentario, yo no soy gato y no suelo untar galletitas con alimento para gatos, por lo que no tengo una opinión sobre su sabor o calidad.

Así, queridos lectores, la próxima vez que se les quiera convencer con una estadística o con el resultado de un experimento, hagan especial hincapié en conocer los parámetros/contexto de la información. Que los número no los apantallen.