Hace poco más de dos años hablábamos aquí de la puesta en marcha de Media Cloud, un proyecto del Berkman Center for Internet & Society de la Universidad de Harvard cuyo relanzamiento anuncia Ethan Zuckerman en su blog.
Media Cloud –explicábamos ya entonces– «es una herramienta de estudio e investigación sobre quién cubre qué y en qué medida». Algo –añadíamos– «que permite ver qué medios cubren mejor ciertas zonas o ciertos temas, o qué lagunas tienen en su cobertura».
O según definición de la propia plataforma:
Media Cloud es una plataforma «open data» de código abierto que permite a los investigadores responder preguntas cuantitativas sobre el contenido de los medios de comunicación online. Usando Media Cloud, los investigadores, analistas de medios y ciudadanos interesados pueden examinar qué medios de comunicación cubren qué noticias, qué tratamiento dan diferentes medios a las mismas noticias y cómo las noticias se propagan de un medio a otro.
Técnicamente –explican también en la plataforma–, Media Cloud realiza cinco funciones básicas:
- Definición de los medios de comunicación: en primer lugar, se define el conjunto de medios de comunicación que se quieren recoger y se buscan los feeds de cada medio.
- Rastreo: se consulta cada uno de esos feeds varias veces al día para descubrir cualquier nueva noticia publicada y descargarla en formato HTML.
- Extracción de texto: se extrae del HTML el texto de la noticia, desechando el resto de elementos (menús de navegación, publicidad, etc.).
- Vectorización de palabras: se estructura el texto en un conjunto de palabras para poder establecer qué palabras está usando cada medio al tratar un mismo tema.
- Análisis: por último, se emplean diferentes herramientas para el análisis de esas palabras.
La plataforma ofrece a los usuarios un buscador que admite criterios de fecha y tema, así como de fuentes en las que buscar, tanto individuales como en grupos establecidos. En estos últimos encontramos medios de comunicación y blogs, a su vez divididos en blogs políticos y generales más populares (los 1.000 feeds más populares en Bloglines). Se pueden consultar los listados de fuentes incluidas en esos grupos.
En su primera etapa –hace dos años– Media Cloud sólo agregaba medios y blogs estadounidenses, pero con el relanzamiento y la inclusión del listado de Bloglines, se pueden encontrar feeds de blogs y medios en castellano, también algunos españoles.
Un post en el blog de Media Cloud explica con detalle las funciones y métodos de esta plataforma.