Traducción realizada por Romina Mascareño, (@carpediem_isso), como parte del proyecto Traduciendo América Latina. Fuente original: Benjamin D. Horne en Medium.
Este texto puede ser el centésimo artículo que hayas leído sobre el tema de noticias falsas desde la Elección Presidencial 2016 de EE. UU. La información errónea y las noticias falsas y maliciosas no son nada nuevo, todos están al tanto de su existencia. Esta creciente conciencia al respecto es positiva (el primer paso para resolver un problema es darse cuenta de que existe, ¿verdad?), pero la sobrecarga ha provocado que la diferencia entre lo falso y lo auténtico no esté muy clara para muchos. Aunque desde un punto de vista informático es difícil decir lo que es verdadero, espero ofrecerte nueva evidencia científica de que las noticias falsas y reales pueden diferenciarse.
En un estudio reciente publicado en NECO 2017, Sibel Adali y yo hicimos la siguiente pregunta:
“¿Existe alguna diferencia sistemática y estilística entre la noticia falsa y la noticia verdadera?”
Para abordar este problema, consideramos 3 clases diferentes de artículos: el verdadero, el falso y el satírico. Las noticias verdaderas son aquellas que se sabe son auténticas y de fuentes “muy confiables”. Mientras que en el caso de las noticias falsas, es conocido que provienen de fuentes de “noticias falsas” que deliberadamente difunden información errónea. Y por último, las noticias satíricas provienen de fuentes explícitamente conocidas como satíricas y no tienen la intención de difundir información errónea.>
Pero ahora es cuando se pone difícil el asunto. Para ser sinceros, es difícil conseguir una verdad de “fundamento sólido” con respecto a las noticias falsas y verdaderas. Entonces, para determinar la autenticidad de los artículos investigados, usamos un enfoque de “fuentes estrictas”. Por ejemplo, si pensamos en las noticias como un espectro, que abarca desde “en general muy confiable” a “deliberadamente falsa, nunca confiable”, queremos capturar los extremos de ese espectro. Y para encontrarlos, usamos la lista participativa de noticias falsas de Zimdar y la lista de noticias más confiables de Business Insider. En el caso de las noticias satíricas, simplemente recopilamos sitios de noticias que expresaban este estilo en la primera página.
Generalmente muy confiable
Verdades parciales con una fuerte preferencia
Deliberadamente falsa, nunca confiable
Teniendo en cuenta este enfoque de la verdad en el terreno, analizamos 3 conjuntos de datos independientes: el conjunto de datos de Craig Silverman de BuzzFeed, tomado de su artículo “This Analysis Shows How Viral Fake Election News Stories Outperformed Real News On Facebook” (Este análisis muestra cómo las noticias virales falsas de las elecciones sobrepasaron a las noticias verdaderas en Facebook), el conjunto de datos del estudio del año 2009 de Burfoot and Baldwin sobre noticias satíricas y finalmente, un conjunto de datos muy nuevo de noticias políticas falsas, verdaderas y satíricas recopiladas por nosotros.
Para llevar a cabo el análisis, computamos las diferentes funciones del lenguaje natural tanto en los textos del cuerpo como del titular en cada artículo del conjunto de datos. Luego, ejecutamos una mezcla de los métodos de prueba de hipótesis de Wilcox y las máquinas de vectores de soporte (MVS) para desentrañar las diferencias en los artículos y demostrar la capacidad de las funciones de predecir la falsedad de una noticia. Por si acaso no estás familiarizado con estos métodos, te los comento. La prueba de hipótesis indica si existe una diferencia estadísticamente relevante entre dos clases de datos y la MVS es una metodología de clasificación supervisada que predice la clase de un punto de dato. En nuestro caso, las clases son noticias falsas, noticias verdaderas y noticias satíricas. Analizamos cada conjunto de datos de manera independiente para garantizar que ninguna limitación del conjunto afectara nuestras conclusiones finales. Hay otros detalles técnicos de estos métodos, pero no te asustes, me limitaré a dar solo los resultados. Para aquellas personas que tienen una gran necesidad de conocimiento (o tiempo libre), pueden encontrar la investigación aquí.
Los títulos son un importante factor diferenciador entre las noticias falsas y verdaderas.
Sin lugar a dudas, la mayor diferencia entre las fuentes de noticias falsas y reales es el título. En particular, encontramos en nuestro conjunto de datos y en el de Buzzfeed que los títulos de las noticias falsas son más largos que los de las noticias verdaderas y contienen palabras más simples en cuanto a extensión y tecnicidad. Además, los títulos falsos a menudo usan mayúsculas en todas las palabras y muchos nombres propios, pero emplean muy pocos sustantivos en general y muy pocas palabras vacías (por ejemplo: el/la los/las, y, un/a). También encontramos que en el conjunto de datos de Buzzfeed, los títulos falsos usan mucho más palabras analíticas, y en nuestro conjunto de datos, los títulos falsos hacen uso de más frases verbales y tiempos verbales en pasado.
Al ver algunos ejemplos al azar de nuestros datos, se consolida el resultado:
Ejemplo 1
TITULO FALSO: ÚLTIMO MOMENTO: Denuncia de la NYPD sobre los nuevos correos electrónicos de Hillary: lavado de dinero, delitos sexuales con niños, explotación infantil, “paga y participa”, falso testimonio
TÍTULO VERDADERO: Planes de los Republicanos y condiciones preexistentes para reemplazar el Obamacare
Ejemplo 2
TÍTULO FALSO: URGENTE: Principales medios de comunicación estuvieron escondiendo un hecho IMPORTANTE acerca de la victoria de Trump
TÍTULO VERDADERO: Obama designa áreas en el Atlántico y el Ártico prohibidas para la perforación en alta mar.
Como puedes observar, estos resultados muestran que los escritores de noticias falsas intentan explotar al máximo el contenido, pasando por alto palabras vacías y sustantivos para aumentar el uso de nombres propios y frases verbales. Es decir, los títulos falsos usan muchas frases verbales y entidades nombradas para conseguir lo que buscan, mientras que los títulos verdaderos prefieren una exposición resumida general (muchas afirmaciones contra pocas afirmaciones).
El contenido de los artículos periodísticos falsos y verdaderos también es sustancialmente diferente.
No solo el encabezado de un artículo es un factor diferenciador, la estructura del contenido también es, en realidad, muy diferente. En especial, encontramos que los artículos verdaderos son bastante más largos que los artículos falsos y éstos últimos usan en menor medida palabras técnicas, puntuación y citas y abundan en caracteres más pequeños y redundancia léxica. Es más, las noticias falsas son más fáciles de leer, usan menos palabras analíticas y sustantivos pero tienen más pronombres personales y adverbios.
Este gran número de diferencias puede parecer abstracto, pero aquí está lo importante: las noticias falsas tienen escasa información o sustancia en el contenido del artículo pero agrupan un montón de información en los títulos.
Este resultado se respalda aún más en nuestra capacidad de predecir la categoría de noticia con un pequeño subconjunto de nuestras características. Logramos un 78 % de precisión al separar los títulos falsos de los verdaderos y un 71 % de precisión al separar el contenido falso del verdadero. Esto significa que nuestro sencillo subconjunto de características mejora la predicción sobre la elección aleatoria ente un 21 % y un 28 %. (Si no conoces sobre el aprendizaje de máquinas, básicamente esto indica que podemos predecir automáticamente si un artículo es falso o verdadero a través de una estructura de contenido mejor que si lo hiciéramos eligiendo al azar la categoría en la que un artículo periodístico debería entrar).
Resultados de la clasificación de MVS con núcleo lineal, con las 4 características principales para los textos del cuerpo y el título en nuestro conjunto de datos. La precisión es la media de la validación cruzada de 5 carpetas. La base de referencia es la clase mayoritaria.
El contenido falso está más estrechamente relacionado con la sátira que con la verdad.
Es momento de incluir las noticias satíricas en el análisis. Hasta ahora, solo habíamos considerado las categorías de verdadero y falso pero incluir la categoría de satírico puede darnos más conocimiento. Al añadir el artículo satírico al análisis, descubrimos que gran parte de nuestras distribuciones de características son comunes entre lo satírico y lo falso. Específicamente, el contenido de la noticia satírica y la falsa usa en menor medida palabras técnicas y analíticas, citas, puntuación, y sustantivos pero emplea en mayor medida caracteres más pequeños, redundancia léxica y adverbios que los artículos verdaderos. Esta similitud entre el contenido satírico y falso está respaldada por nuestros resultados de la predicción. Al predecir la noticia satírica de la falsa, obtenemos una mejora en la precisión mucho más reducida sobre la base de referencia que si lo hiciéramos con noticias falsas contra verdaderas o satíricas contra verdaderas.
Este resultado es interesante y útil por muchas razones. En primer lugar, mucha de la cobertura periodística de noticias falsas ha asumido que éstas son intrínsecamente persuasivas y quisieran parecer verdaderas, pero no es así. La gran similitud entre el contenido satírico y falso demuestra que lo falso está redactado de una manera estudiada, tal como sabemos que la sátira pretende ser absurda y no tiene argumentos sólidos. Esta afirmación puede ser obvia para muchos (la noticia falsa no puede hacer argumentos sólidos simplemente porque es falsa), pero tiene ciertas implicaciones importantes que quizás no sepas. La gente sigue cayendo en la trampa de las noticias falsas, basta con solo mirar la Elección Presidencial 2016 de EE. UU.; pero aún así las noticias falsas tienen poco contenido argumentativo o lógico. El campo de las comunicaciones puede brindarnos mayor información.
Las noticias reales convencen a través de argumentos mientras que las falsas convencen por medio de atajos.
A fin de explicar mejor nuestros resultados, usamos el ampliamente estudiado Modelo de persuasión de la probabilidad de elaboración (ELM). Según este modelo, se convence a las personas por medio de dos vías: la ruta central y la ruta periférica. La ruta central de persuasión resulta del examen más detenido de las características presentadas de los argumentos y el mensaje. Esta vía implica una gran cantidad de energía y capacidad cognitiva. Por el contrario, la ruta periférica de persuasión resulta de la asociación de ideas o la creación de conjeturas no relacionadas con la lógica y la calidad de información presentada. Esta vía también puede llamarse ruta heurística o atajo, ya que implica muy poca energía y capacidad cognitiva. Los seres humanos tienden a elegir estos atajos, como por ejemplo: confiar en un amigo de Facebook (mis amigos son inteligentes, ¡nunca compartirían noticias falsas!), escanear un artículo para ver su contenido o simplemente creer lo que el titulo de una noticia afirma (el titulo tiene sentido para mí y no tengo tiempo para verificar si es confiable). El daño de estos atajos puede ampliarse por la homofilia (“Dios los cría y ellos se juntan”) de las redes sociales o los algoritmos que clasifican por nuestros intereses estimados.
¿Pero qué significa todo esto para nuestros resultados de noticias falsas? Descubrimos que los artículos periodísticos falsos agrupan mucho contenido en el título, a veces incluso un número mayor palabras analíticas en el titulo. A pesar de esto, también descubrimos que el contenido del cuerpo de los artículos falsos tienen poco fundamento, mucha redundancia léxica (se repiten mucho), falta de palabras analíticas y de citas directas. Además, encontramos que gran parte de la estructura del contenido de una noticia falsa es similar al conocido formato extravagante de la sátira. Ya que los seres humanos son propensos a tomar atajos en las decisiones que implican confianza, al reunir todas las afirmaciones en el título, los usuarios tendrían poca necesidad de abrir el artículo para saber más. A menudo, los títulos de estas noticias falsas muestran afirmaciones acerca de personas y entidades en oraciones completas, asociándolas con acciones. Por lo tanto, los títulos sirven como el principal mecanismo para realizar afirmaciones rápidas y de fácil acceso. Entonces, quizás creemos en las noticias falsas porque somos negligentes o simplemente porque tenemos pocas ganas. Este concepto se sustenta en lo que ya dijimos sobre la información en las redes sociales: muchos de los enlaces compartidos o comentados nunca se abren y, por lo tanto, solo los títulos de los artículos se leen (un estudio que debate este asunto es Wang, Ramachandran y Chaintreau 2016).
Este resultado resulta preocupante ya que una persona puede estar convencida de que una noticia falsa es verdadera simplemente por tener poca energía o mucha carga mental y no por falta de educación o falta de atención (¿No almorzaste hoy? ¡Podrías compartir noticias falsas mientras estás de receso y miras Facebook! No importa tu nivel de educación…). Desafortunadamente, las afirmaciones engañosas en los títulos de noticias falsas pueden conducir a creencias establecidas que pueden ser difíciles de cambiar a través de argumentos razonados (especialmente si esas creencias falsas son coherentes con tus creencias arraigadas). Una posible solución a este problema es que los artículos que buscan contrarrestar las afirmaciones falsas, las reúnan en sus títulos, aprovechándose de los atajos de persuasión de las personas.
En general, este trabajo destaca que podemos detectar las noticias falsas hasta cierto punto, pero en definitiva somos responsables de tomarnos el tiempo necesario para leer los argumentos de un artículo y evaluar la veracidad de nuestras preferencias antes de compartir alguna información.
Aún nos queda mucho trabajo por realizar en esta área, pero entretanto, lee el contenido del artículo y reflexiona antes de compartirlo.
Benjamin D. Horne
(Traducción realizada por Romina Mascareño, (@carpediem_isso), como parte del proyecto Traduciendo América Latina. Fuente original: Benjamin D. Horne en Medium.)
Imagen Portada: WCN en Flickr bajo licencia CC