El archivo de Twitter en la Biblioteca del Congreso de EE.UU.

La atemporal majestuosidad del edificio de la Biblioteca del Congreso de EE.UU. no incita a imaginar que entre los documentos allí custodiados pueda archivarse algo tan inmaterial y efímero como un “tweet”. Pero desde hace poco más de un año, cuando Twitter donó su archivo de mensajes a esa institución, todo lo que en esa red de microblogging publicamos queda allí registrado para la posteridad.

Así lo explicaba Matt Raymond en el blog de la Biblioteca:

¿Alguna vez ha publicado un “tweet” en el popular servicio de microblogging Twitter? Felicidades: sus 140 caracteres o menos se encuentran ahora almacenados en la Biblioteca del Congreso.

Así es. Cada tweet público, siempre, desde el inicio de Twitter en marzo de 2006, será archivado digitalmente en la Biblioteca del Congreso. Eso es un montón de tweets, por cierto: Twitter procesa más de 50 millones de tweets cada día, con un volumen total de miles de millones.

Tweet de la Biblioteca del Congreso de EE.UU.En ese post de Raymond y en otro del mismo autor publicado pocos días después, The Library and Twitter: An FAQ, los comentarios mostraban todo tipo de reacciones. Había quienes recibían la noticia con agrado, opinando que era una excelente idea, pero también podían leerse críticas no tan favorables: cuestiones sobre privacidad o el copyright de los tweets, dudas sobre la importancia o trascendencia de lo publicado en Twitter, acusaciones de malgasto de fondos públicos…

Aunque parece que las razones no convencieron a algunos, en ese último post Matt Raymond explicaba la importancia de conservar el archivo:

Twitter forma parte del registro histórico de las comunicaciones, la transmisión de noticias y las tendencias sociales, todo lo cual complementa las actuales colecciones del patrimonio cultural de la Biblioteca. Se trata de un registro directo de acontecimientos importantes, como las elecciones presidenciales de 2008 en EE.UU. o la “Revolución Verde” en Irán. También sirve como una fuente de noticias con titulares minuto a minuto de medios principales como Reuters, The Wall Street Journal y The New York Times. Al mismo tiempo, es una plataforma para el periodismo ciudadano con muchos acontecimientos significativos de los que testigos presenciales informaron ahí por primera vez.

Las colecciones de la Biblioteca del Congreso incluyen documentos como el primer telegrama enviado por el inventor del telégrafo Samuel FB Morse, relatos orales de veteranos y ciudadanos de a pie y muchas otras aportaciones históricas de primera mano. Estas colecciones y otras han dejado entrever la vida de la gente común, enriqueciendo así el conocimiento del contexto de los actos públicos registrados en documentos del gobierno y periódicos. Los tweets pueden parecer insignificantes individualmente, pero vistos en conjunto pueden ser un recurso para que las generaciones futuras puedan entender la vida en el siglo XXI.

La Biblioteca no ha pagado por el archivo, sino que ha sido un regalo de Twitter.

Estas eran cosas que se decían hace un año. Desde entonces, sin duda nuestra conciencia de la importancia de Twitter como canal de comunicación ha crecido, como lo ha hecho ese número de tweets diarios que se mencionaba en el anuncio del proyecto. De los 50 millones de abril de 2010 ya se había pasado a 140 millones de tweets al día en marzo de este año, en el quinto aniversario de Twitter.

Con este ritmo de crecimiento, el mantenimiento del archivo no es tarea fácil. No tanto por su tamaño, sino por su composición. Miles y miles de millones de tweets que a su vez contienen, individualmente, un buen número de datos diferentes:

Cada tweet es un archivo JSON, que contiene una inmensa cantidad de metadatos además de los contenidos en el mensaje en sí: fecha y hora, número de seguidores, la fecha de creación de la cuenta, datos geográficos y otros más. Para añadir aún más complejidad, muchos tweets contienen URLs acortadas, y la Biblioteca del Congreso está en conversaciones con los proveedores de acortamiento así como con el Internet Archive y su proyecto 301works para ayudar a resolver eso y mapear los enlaces.

Otra tarea ingente es la indexación de toda esa información, algo imprescindible para que los investigadores puedan trabajar con ella. Esto requiere un gran esfuerzo tecnológico para crear la infraestructura necesaria y las aportaciones de esos investigadores –con los que ya trabaja un equipo interdepartamental de la Biblioteca– para conocer sus necesidades concretas y los parámetros de búsqueda requeridos.

El proyecto está todavía en construcción y se están evaluando una serie de tecnologías de código abierto para el almacenamiento, gestión y consulta de los archivos de Twitter. Si bien la decisión no está tomada aún en cuanto a qué herramientas utilizar, la Biblioteca está probando las siguientes en varias combinaciones: HiveElasticSearchPigElephant-birdHBaseHadoop.

En principio, el acceso al archivo estará limitado a “investigadores conocidos”, que tendrán que pasar por un proceso de aprobación de la Biblioteca del Congreso. Aunque el número de solicitudes de investigación es ya muy elevado, lo que da una idea de la importancia que los investigadores conceden a ese archivo cultural y tecnológico.

Vía | O’Reilly Radar
Imágenes:
Library of Congress en el Flickr de mobilene
Library of Congress’ Twitter Archive en el Flickr de ajrowley

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *