Big Data en el periodismo: el caso del New York Times

Desde hace tiempo, venimos hablando con cierta frecuencia del periodismo de datos, una tendencia ya consolidada que promueve un uso más intensivo de los datos en el mundo de la información digital. Y también nos hemos referido alguna vez al Big Data, que describiremos simplificando como la manipulación de grandes conjuntos de datos para diversos fines, aunque, como aquí hicimos notar, la definición de Big Data «resulta intencionadamente elusiva y ambigua» y «más allá de lo evidente, el término hace referencia no solo al volumen y/o a la velocidad con la que crece, sino también a la complejidad de las relaciones establecidas entre la variedad de datos».

Si bien en el primer caso la utilidad de los datos para enriquecer y mejorar la información resulta fácilmente comprensible, el encaje de operaciones de Big Data en el periodismo puede no antojarse tan claro. Pero existe, y tiene mucho que ver con revelar esas relaciones entre unos y otros datos.

Un ejemplo de esta utilización del Big Data lo podemos encontrar en The New York Times, como resume Which-50 a partir de un artículo en HBR Blog Network de Sinan Aral, Scholar-in-Residence en el New York Times R&D Lab.

El objetivo buscado con este análisis de Big Data es «comprender y predecir cuándo una cascada o una conversación en línea (en las redes sociales) dará lugar a una ola de consumo de contenidos en el Times, y también cuando no lo hará». Esto es, establecer la relación entre los enlaces a artículos del diario en las redes sociales y las visitas a esos mismos artículos en su web, con el objeto de convertir este conocimiento en inteligencia práctica para impulsar las ventas y el desarrollo de productos.

Visualización de datos

Aral ofrece tres ejemplos diferentes de esa posible relación. En el primero, los tuits y las visitas al artículo parecen funcionar de forma independiente los unos de las otras. En el segundo, la conversación en Twitter es intensa, pero se traduce en muy poco tráfico para el Times. Y finalmente, en el tercer ejemplo (en la imagen sobre este párrafo), la intensidad de la conversación en Twitter corre paralela al tráfico que genera en el diario.

Cada ejemplo corresponde a un artículo del NYT y las visualizaciones (se pueden ver las dos restantes en el artículo de Aral) muestran las cascadas de tuits y retuits relacionados como líneas y puntos a través del tiempo, junto con el volumen de clics a cada artículo, sincronizado también en el tiempo, como un gráfico negro debajo de cada cascada.

Sobre el ejemplo de la visualización aquí incluida explica Aral: «Según la gente tuitea y retuitea este artículo, sus seguidores van accediendo y relacionándose con el contenido mismo. Esta estrecha relación entre la conversación en línea y el tráfico del sitio web es más pronunciada cuando los tres ‘usuarios influyentes’ resaltados en la imagen inspiran los dos mayores picos de tráfico a través del ciclo de vida social del artículo.»

Con estas visualizaciones, dice Aral, han ganado en la comprensión de matices importantes sobre la viralidad. Pero, como las diferencias entre los tres ejemplos muestran, la relación entre las conversaciones en las redes sociales y el tráfico generado en la web del periódico no es tan simple como lo que entendemos comúnmente por «viral». Diferentes patrones emergen con diferentes tipos de contenido.

Las imágenes hasta ahora obtenidas no pueden contar todo, aclara Aral, y será necesario construir modelos estadísticos causales más sofisticados que generen conocimientos más profundos y fiables sobre la influencia de la actividad en las redes sociales. Sin embargo, estas visualizaciones iniciales ayudan a conseguir saber dónde buscar y qué preguntas hacer de los datos.

Un primer paso obligado para entender cómo construir modelos más complejos, y que ofrece ya un poco de ese conocimiento –«insight»– que el NYT busca en el Big Data.

Imagen superior | «La tecnología de big data revolucionará la seguridad de la información», de infocux Technologies, bajo licencia Creative Commons (CC BY-NC 2.0)