Los errores de análisis de datos de las herramientas de Social Media

¿Te crees todos los informes que se comparten en redes sociales? ¿Sabes que, muchos de ellos, probablemente no tengan el fundamento que dicen y se basen en mentiras?

Es indudable que las herramientas de Social Media han evolucionado mucho, especialmente aquellas que incluyen criterios de Escucha Activa. De hecho, la Escucha Activa es un concepto que hemos adaptado desde la psicología y convertido en infinidad de herramientas. Y es indudable que la proliferación de las redes sociales, de ese concepto Big Data que tanto nos gusta y está tan de moda, y lo que este tipo de herramientas es capaz de hacer, nos brinda una visión del mundo inimaginable hace tan siquiera unos pocos años.

Pero hoy quiero compartir contigo algo que me preocupa y que creo que los profesionales de Marketing Online no se suelen plantear:

Las grandes mentiras de muchas herramientas de Social Media

Te voy a explicar cuáles creo que son las grandes mentiras que nos cuentan y qué debes tener en cuenta para que, cuando presentes informes a tus clientes o a tus jefes, lo hagas con coherencia y sabiendo de qué datos dispones.

Con estas mentiras no pretendo desilusionarte con respecto a las bondades de la Escucha Activa, ¡todo lo contrario! Con estas mentiras pretendo prevenirte contra infinidad de oportunistas que, en ocasiones por desconocimiento, te pueden vender algo que no es acorde con la realidad.

Y esto siempre es positivo, porque cuando uno conoce los límites de la realidad, está más cerca de ella. Así que vamos allá, te voy a agrupar las distintas mentiras respondiendo a 3 tipos de información que se puede extraer de este tipo de herramientas. ¡Pero ojo, no son las únicas!

Índice del artículo

# 1. Las mentiras de la información demográfica
# 2. Las mentiras de la información geográfica
# 3. Las mentiras de la Reputación Online
Conclusión

# 1. Las mentiras de la información demográfica

Me gusta empezar por la información demográfica porque es el núcleo de mi tesis doctoral, la identificación de la edad y el sexo de un autor en Social Media a partir de sus textos escritos.

Y no es la única investigación en esta línea. Desde 2013 llevamos organizando la tarea internacional de author profiling en el laboratorio del PAN en el marco del foro de evaluación CLEF precisamente por la importancia de la misma.

Y es que, en la mayoría de las redes sociales, la información demográfica no existe o no es cierta, por varias razones:

En la mayoría de ellas esta información no se reporta. Por ejemplo, ¿en Twitter puedes informar de tu edad y tu sexo?
En otras no es accesible por terceros. Por ejemplo, ¿has probado a informar de tu edad y tu sexo en Facebook, y ver si en el perfil público lo ves?.
Y en otras la gente miente descaradamente con propósitos varios: spam de opiniones, promoción y posicionamiento web, ¡¡pedofilia y acoso!!…

Entonces, ¿cómo es posible que la mayoría de herramientas proporcione información demográfica como el sexo o la distribución por edades?

Pues bien, se me ocurren varias aproximaciones:

Que descaradamente mientan. Aunque no lo creo, ¡la gente es imaginativa!
Que tomen estadísticas oficiales y las apliquen a su muestra de datos dando las cifras correspondientes. Por ejemplo, si el 13% de la población en una determinada red son mujeres adolescentes y la herramienta ha recuperado 100 mil datos, pues 13 mil se corresponderán con mujeres adolescentes.
Que utilicen algún heurístico tal como los nombres propios de las cuentas. ¿Qué sucede con nombres ambiguos o con cuentas organizativas?
Que apliquen técnicas de author profilining, es decir, procesamiento del lenguaje natural + aprendizaje automático para predecir el rasgo concreto.

Pensarás, en cualquier caso, que es un engaño. Pero no, un engaño es que no te digan cómo lo están obteniendo.

Por ejemplo, Google Analytics te da esa información a partir de las visitas a tu web y te explica cómo lo está haciendo. Luego a lo mejor no es verdad, pero por lo menos te da su método.

Una cosa importante que te deberían dar es el porcentaje de fiabilidad del método. No es lo mismo que el método de detección de sexo acierte un 60% de las veces a que lo haga un 85%. Piensa que decirlo de manera aleatoria acertaría un 50%, y que decirlo de manera aleatoria ligeramente ponderada hacia la distribución estadística oficial de la red social, aumentará considerablemente esa tasa de acierto (aunque no acierte a nivel individual en cada autor). Por otro lado piensa que estas técnicas no van a alcanzar nunca un 100%,

No juzgues una herramienta por su tasa de aciertos en una de estas tareas. Júzgala por la transparencia a la hora de indicarla.

# 2. Las mentiras de la información geográfica

Lo de la información geográfica es incluso más divertido, puesto que la mayoría de herramientas la incorporan.

Y aquí hay en juego gran cantidad de mentiras.

a. La mentira del canal

La primera mentira tiene que ver con el canal. Y es que normalmente, cuando se está pintando una distribución geográfica de contenidos, se hace única y exclusivamente de Twitter.

Y eso no está mal. Si realmente es la red de la que podemos pintar esto con cierta fiabilidad, pues adelante. Pero esto tiene que estar claro, porque en una escucha no sólo interviene Twitter; es más, puede ser incluso el canal que menos información válida nos proporcione, por lo que no podemos extrapolar conclusiones geográficas sin tomar esto en consideración.

b. La mentira del porcentaje de tuits

La segunda gran mentira es el porcentaje de tuits que están georeferenciados y que por lo tanto se pueden pintar en un mapa.

Empíricamente te puedo confirmar que, después de haber analizado centenares de millones de tuits, apenas el 2% -¡y con suerte!- de ellos lleva asociadas coordenadas geográficas. ¡¡Eso es insuficiente para extraer conclusiones!! Está bien para hacerse una idea y queda muy bonito un mapa en un informe, pero no es una muestra representativa y hay que sacar conclusiones con cuidado.

c. Técnicas alternativas para extraer conclusiones

Existen técnicas alternativas, como por ejemplo:

# 1. Tener en cuenta lo que la gente reporta en el apartado de localización de su cuenta

Lo que con ayuda de un diccionario se puede convertir en localizaciones geográficas representables en un mapa. Por ejemplo, si alguien tiene en su localización la palabra Argentina, o tiene la palabra México, fácilmente lo podremos asignar a esos países (que no a una ubicación concreta). Pero ojo, aquí hay que tener en cuenta todas aquellas ubicaciones ficticias o imaginativas (por ejemplo, la luna, mi casa o Narnia) y aquellas que no se informan porque se dejan en blanco.

Si la herramienta trabaja de esta manera tenemos que conocer un dato: ¿cuál es la proporción entre los datos de los cuales podemos conocer ciertamente su ubicación y de los que no? Por ejemplo, si tenemos recuperados 1 millón de tuits de los cuales la ubicación más frecuente es Argentina con 235 mil tuits, tenemos al menos un 23,5% de la muestra situado en Argentina. Si tomamos las 10 ubicaciones más frecuentes, igual llegamos a algo más del 70%. De este modo las conclusiones geográficas se pueden toman teniendo en consideración la representatividad de la muestra.

Por otro lado, hay que saber qué hace la herramienta con el resto, ¿lo elimina o lo mantiene? Porque esa representatividad de la muestra deberá considerarse dependiendo de lo anterior: en el primer caso podrá estar distorsionada por inclusión, y en el segundo por omisión, pero en ambos casos, por algo menos del 30%

# 2. Utilizar técnicas de author profiling en el campo de la identificación de la variedad lingüística

Y esta es mi segunda pasión y el segundo foco de mi tesis doctoral. Esto significa saber qué variedad regional, dialectal o de lenguaje similar utiliza una determinada persona. Por ejemplo, español de España, de Argentina, de Chile, de México, etcétera. Si sabemos que una persona utiliza español de México, podemos inferir que su ubicación geográfica, con gran seguridad, sería México (si no, siempre se puede echar mano de estadísticas de migración y ponderar).

Pero ojo, si la herramienta trata técnicas de este estilo, es de nuevo muy importante que conozcamos la tasa de acierto/error, porque por ejemplo, en nuestras investigaciones que están al nivel del estado del arte, en medios formales como noticias se ha llegado a obtener porcentajes de acierto superiores al 90%-95% mientras que en medios informales como blogs esta cifra cae por debajo del 70% (curioso porque sería esperable lo contrario, pero ese es otro tema…).

Y repito, no hay que juzgar los resultados como buenos ni como malos, sólo saber la certeza que tenemos para aplicarla en nuestras conclusiones.

Si quieres profundizar más sobre este tema, te dejo un artículo que publiqué recientemente: Dime cómo escribes y te digo de dónde eres.

# 3. Las mentiras de la Reputación Online

Y lo que más me gusta, la reputación entendida común y erróneamente como análisis de sentimiento (#ironyoff).

Son muchos los que se sorprenden con las técnicas de análisis de sentimiento que les muestran que el 30% de los consumidores hablan bien de sus productos, mientras que el 20% habla mal y el 50% restante es neutro (¿¿en serio algo puede ser neutro?? Ya hablaremos otro día de esa falacia…).

Y también son muchos los que se decepcionan cuando entran al detalle y ven la cantidad de errores que estas técnicas comenten. Pues voy a echar un capote a las técnicas: ¡no hay que ser tan extremista: ni son tan maravillosas, ni son tan malas! Son técnicas. Eso sí, con un porcentaje de acierto/error que depende de muchas cosas, y ahí residen las mentiras.

¿Cómo piensas que la mejor de estas técnicas indicaría la polaridad de la siguiente oración? (Es más, ¿qué opinas tú? Puedes dejarlo en los comentarios y abrimos un debate.)

“Este año, de nuevo, no habrá ambulancias en la playa”

Lógicamente la mayoría lo hará en negativo. Porque hay una negación que se corresponde con algo que no debería negarse, como es que haya ambulancias, porque hay un intensificador que es “de nuevo”…

Pues bien, la anterior oración en determinados contextos puede ser muy positiva. ¡¿En qué contexto?! Por ejemplo en el de un regidor municipal que lleve quejándose 10 años a un regidor provincial de que no le manda ambulancias a su playa y este año por fin consigue un titular tan sensacionalista en un periódico regional. ¡¡Por fin se han hecho eco de su problema!!

Hay ciertas mentiras con respecto al análisis de sentimiento que debes conocer cuando se trabaja con una herramienta de este tipo.

Por ejemplo:

a. Si se basa en una heurística de conteo de palabras o si utiliza aprendizaje automático

Muchas de las herramientas existentes simplemente cuentan la aparición de palabras positivas frente a palabras negativas y se deciden por la que más tiene, dejando un margen entre medias para las neutras.

Pero esto tiene un problema, y es que la mayoría de diccionarios tienen un porcentaje mayor de palabras negativas que de palabras positivas, aproximadamente un 70/30, lo que decanta la mayoría de textos, especialmente los largos, hacia lo negativo. Además, dependiendo del rango de diferencia entre positivas y negativas, puede ser mayor o menor el número de resultados neutros.

b. Si la herramienta trata la negación de manera lingüística o estadística

De manera lingüística se tratará de identificar las posibles negaciones con respecto a qué se producen, intentando determinar el sentido real de la oración.

Las estadísticas sin embargo tenderán a cambiar la polaridad de la oración hacia la contraria de la predicción, es decir, si la frase es positiva (por ejemplo, la de arriba, al tener más palabras positivas como nuevo, ambulancia y playa), la tornarán negativa.

c. Si se le puede incorporar contexto

Es decir, que un consultor especializado en ese cliente sea capaz de indicarle reglas al sistema que le den contexto al análisis.

Por ejemplo, decir que la prima de riesgo está en 180 puntos es algo que todos los sistemas dan por neutro. Pero si el contexto del proyecto tiene que ver con las elecciones catalanas, la polaridad de la frase será muy diferente si se produce tras una prima de riesgo de 250 o tras otra de 120.

d. La utilización del lenguaje figurado y extremadamente creativo por parte de los usuarios

Es decir, la utilización de la ironía y el sarcasmo, entre otras. Y, por lo tanto, si la herramienta tiene cierta fortaleza (mejor aún si lo trata) respecto a ellas, es un punto importante sobre todo en proyectos que tengan que ver con personas y no con productos de consumo (especialmente proyectos en el ámbito político).

Aquí es quizás aún más importante saber el tipo de aproximación que se hace al problema y la tasa de resolución del mismo.

No es malo saber que un determinado porcentaje habla bien de ti y otro mal si tenemos claro que puede haber un error y cuál es aproximadamente ese error. No se invalidan los resultados, al contrario, nos los ponen en perspectiva. Siempre es mejor eso que nada, pero siempre es mejor nada que creer a pies juntillas un resultado y cuando ves el detalle te decepciones porque en ciertos casos falle y no sepas la certeza que tienes.

Conclusión

Mentiras y más mentiras, pero lo más peligroso de las mentiras es saber que existen y creérselas. Así que a partir de ahora espero que, si lo hacías, no te las creas e intentes saber qué está haciendo tu aplicación de Escucha Activa.

Y ten presente que lo importante no es que una herramienta obtenga un 60% de acierto en una tarea mientras que otra obtenga un 85%. Ninguna de ambas va a tener certeza total. Lo importante es que conozcas ese porcentaje para tenerlo en cuenta en tus análisis, porque los harás de manera más acertada (y con mayor fundamento científico).

Así pues, resumiendo todo lo anterior, lo siguiente es lo que debes saber cuando se dispone de un resultado obtenido por una herramienta de Escucha Activa. Concretamente:

Qué método sigue para obtener ese dato.
Qué porcentaje de fiabilidad (tasa de acierto, tasa de error…) tiene el método.

Sólo en este punto podrás empezar a pensar que tu herramienta de Escucha Activa ha evolucionado, y se ha convertido en una herramienta de Escucha Inteligente. 😉

¿Y tú? ¿Conoces cómo hacen las herramientas que utilizas para darte los datos que te dan? ¿Te parecen suficientes los porcentajes de acierto/error para sacar conclusiones válidas? ¿Dónde crees que las herramientas mienten más? Deja tus comentarios y veámoslo juntos.

NOTA: Todas las capturas de pantalla proceden de la herramienta de análisis de social media y escucha activa Cosmos de Autoritas.

[grwebform url=”https://app.getresponse.com/view_webform_v2.js?u=lhGe&webforms_id=3511403″ css=”on” center=”off” center_margin=”200″/][grwebform url=”https://app.getresponse.com/view_webform_v2.js?u=lhGe&webforms_id=3512803″ css=”on” center=”off” center_margin=”200″/]

Imágenes del post: Shutterstock

5 comentarios

Frank D
04/11/2015 a las 17:03

Muy buen articulo. GRacias

Responder
Mar
05/11/2015 a las 13:48

Una de las grandes farsas de la reputación online es Klout. Si publicas contenido sugerido por ellos, prometen aumentar tu reputación, consiguiendo que muchos perfiles de Twitter estén llenos de tweets provenientes de este “analizador”. Posteriormente, cuando acudes a cualquier otra herramienta de analítica en redes sociales o búsqueda de Influencers, aparecen estos perfiles. ¡Todo un engaño!

Responder
Daniel /Publicidad
05/11/2015 a las 21:02

Muy buen análisis, realmente creo que hay estrategias enteras que se basan en datos proporcionados por estas herramientas y al final del día los resultados pueden parecer dudosos, pero dejas este tema para la reflexión ya que habría que encontrar las herramientas mas aproximadas y eficaces para evitar perder dinero y tiempo, buen post!”

Responder
Paloma
07/11/2015 a las 12:06

El artículo transmite que eres un gran conocedor de la materia, aunque a mi me resulta un poco complejo de entender.

Responder
Francisco Rangel
11/11/2015 a las 20:05

Muchas gracias por vuestros comentarios, animan a seguir compartiendo artículos con vosotros. Muchas gracias Frank por tus palabras.

Mar, como bien dices, uno de los grandes engaños es Klout, pero sobre todo porque nos engañamos pensando que lo que nos ofrecen es lo estándar, y realmente hay que analizar por qué dan lo que dan.

Daniel, ¡toda la razón! Hay estrategias que se caen no porque no estén bien llevadas, sino porque fallan desde la base. Hay que ser conscientes de ese riesgo desde el mismo momento de la planificación del proyecto.

Paloma, tienes razón que es un tema complejo de entender, de ahí el aprovechamiento que hay en el sector de esas grandes mentiras. Es importante que poco a poco este conocimiento vaya llegando a todo el mundo que se dedica (o se ve afectado), de una forma u otra, a este sector.

¡Nos leemos!

Responder

Dejar un comentario Cancel Reply

Tu dirección de correo electrónico no será publicada.

Socialancer Limited te informa de que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Socialancer Limited como responsable de esta web. La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para gestionar los comentarios que realizas en este blog. Legitimación: Consentimiento del interesado. El hecho de que no introduzcas los datos de carácter personal que aparecen en el formulario como obligatorios podrá tener como consecuencia que no podamos atender tu solicitud. Como usuario e interesado te informamos de que los datos que nos facilitas estarán ubicados en los servidores de Raiola (proveedor de hosting de Socialancer Limited), dentro de la UE. Ver política de privacidad de Raiola. Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en editorial@socialancer.com así como el derecho a presentar una reclamación ante una autoridad de control. Puedes consultar la información adicional y detallada sobre Protección de Datos en nuestra página web: https://www.socialancer.com, así como consultar nuestra política de privacidad.

He leído y acepto la Política de privacidad *

Los errores de análisis de datos de las herramientas de Social Media

# 1. Las mentiras de la información demográfica

# 2. Las mentiras de la información geográfica

a. La mentira del canal

b. La mentira del porcentaje de tuits

c. Técnicas alternativas para extraer conclusiones

# 3. Las mentiras de la Reputación Online

a. Si se basa en una heurística de conteo de palabras o si utiliza aprendizaje automático

b. Si la herramienta trata la negación de manera lingüística o estadística

c. Si se le puede incorporar contexto

d. La utilización del lenguaje figurado y extremadamente creativo por parte de los usuarios

Conclusión

Kico Rangel

anterior7 tácticas para conseguir que tus suscriptores abran más tus emails

siguienteCómo convertirte en un lince en Social Media: el Test de las Habilidades en SM

5 comentarios

Frank D

Mar

Daniel /Publicidad

Paloma

Francisco Rangel

Dejar un comentario Cancel Reply