El archivo de Twitter en la Biblioteca del Congreso de EE.UU.

El archivo de Twitter en la Biblioteca del Congreso de EE.UU.

La atemporal majestuosidad del edificio de la Biblioteca del Congreso de EE.UU. no incita a imaginar que entre los documentos allí custodiados pueda archivarse algo tan inmaterial y efímero como un “tweet”. Pero desde hace poco más de un año, cuando Twitter donó su archivo de mensajes a esa institución, todo lo que en esa red de microblogging publicamos queda allí registrado para la posteridad.

Así lo explicaba Matt Raymond en el blog de la Biblioteca:

¿Alguna vez ha publicado un “tweet” en el popular servicio de microblogging Twitter? Felicidades: sus 140 caracteres o menos se encuentran ahora almacenados en la Biblioteca del Congreso.

Así es. Cada tweet público, siempre, desde el inicio de Twitter en marzo de 2006, será archivado digitalmente en la Biblioteca del Congreso. Eso es un montón de tweets, por cierto: Twitter procesa más de 50 millones de tweets cada día, con un volumen total de miles de millones.

Tweet de la Biblioteca del Congreso de EE.UU.En ese post de Raymond y en otro del mismo autor publicado pocos días después, The Library and Twitter: An FAQ, los comentarios mostraban todo tipo de reacciones. Había quienes recibían la noticia con agrado, opinando que era una excelente idea, pero también podían leerse críticas no tan favorables: cuestiones sobre privacidad o el copyright de los tweets, dudas sobre la importancia o trascendencia de lo publicado en Twitter, acusaciones de malgasto de fondos públicos…

Aunque parece que las razones no convencieron a algunos, en ese último post Matt Raymond explicaba la importancia de conservar el archivo:

Twitter forma parte del registro histórico de las comunicaciones, la transmisión de noticias y las tendencias sociales, todo lo cual complementa las actuales colecciones del patrimonio cultural de la Biblioteca. Se trata de un registro directo de acontecimientos importantes, como las elecciones presidenciales de 2008 en EE.UU. o la “Revolución Verde” en Irán. También sirve como una fuente de noticias con titulares minuto a minuto de medios principales como Reuters, The Wall Street Journal y The New York Times. Al mismo tiempo, es una plataforma para el periodismo ciudadano con muchos acontecimientos significativos de los que testigos presenciales informaron ahí por primera vez.

Las colecciones de la Biblioteca del Congreso incluyen documentos como el primer telegrama enviado por el inventor del telégrafo Samuel FB Morse, relatos orales de veteranos y ciudadanos de a pie y muchas otras aportaciones históricas de primera mano. Estas colecciones y otras han dejado entrever la vida de la gente común, enriqueciendo así el conocimiento del contexto de los actos públicos registrados en documentos del gobierno y periódicos. Los tweets pueden parecer insignificantes individualmente, pero vistos en conjunto pueden ser un recurso para que las generaciones futuras puedan entender la vida en el siglo XXI.

La Biblioteca no ha pagado por el archivo, sino que ha sido un regalo de Twitter.

Estas eran cosas que se decían hace un año. Desde entonces, sin duda nuestra conciencia de la importancia de Twitter como canal de comunicación ha crecido, como lo ha hecho ese número de tweets diarios que se mencionaba en el anuncio del proyecto. De los 50 millones de abril de 2010 ya se había pasado a 140 millones de tweets al día en marzo de este año, en el quinto aniversario de Twitter.

Con este ritmo de crecimiento, el mantenimiento del archivo no es tarea fácil. No tanto por su tamaño, sino por su composición. Miles y miles de millones de tweets que a su vez contienen, individualmente, un buen número de datos diferentes:

Cada tweet es un archivo JSON, que contiene una inmensa cantidad de metadatos además de los contenidos en el mensaje en sí: fecha y hora, número de seguidores, la fecha de creación de la cuenta, datos geográficos y otros más. Para añadir aún más complejidad, muchos tweets contienen URLs acortadas, y la Biblioteca del Congreso está en conversaciones con los proveedores de acortamiento así como con el Internet Archive y su proyecto 301works para ayudar a resolver eso y mapear los enlaces.

Otra tarea ingente es la indexación de toda esa información, algo imprescindible para que los investigadores puedan trabajar con ella. Esto requiere un gran esfuerzo tecnológico para crear la infraestructura necesaria y las aportaciones de esos investigadores –con los que ya trabaja un equipo interdepartamental de la Biblioteca– para conocer sus necesidades concretas y los parámetros de búsqueda requeridos.

El proyecto está todavía en construcción y se están evaluando una serie de tecnologías de código abierto para el almacenamiento, gestión y consulta de los archivos de Twitter. Si bien la decisión no está tomada aún en cuanto a qué herramientas utilizar, la Biblioteca está probando las siguientes en varias combinaciones: HiveElasticSearchPigElephant-birdHBaseHadoop.

En principio, el acceso al archivo estará limitado a “investigadores conocidos”, que tendrán que pasar por un proceso de aprobación de la Biblioteca del Congreso. Aunque el número de solicitudes de investigación es ya muy elevado, lo que da una idea de la importancia que los investigadores conceden a ese archivo cultural y tecnológico.

Vía | O’Reilly Radar
Imágenes:
Library of Congress en el Flickr de mobilene
Library of Congress’ Twitter Archive en el Flickr de ajrowley

39 Comentarios

  1. Publicado el 05 de junio de 2011 a las 7:46 | Enlace permanente

    RT @pciudadano: El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  2. Publicado el 05 de junio de 2011 a las 8:02 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU.: La atemporal majestuosidad del edificio de la Bib… http://bit.ly/ln7V2z

  3. Publicado el 05 de junio de 2011 a las 8:02 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU.: La atemporal majestuosidad del edific… http://bit.ly/m698K8 #periodismo

  4. Publicado el 05 de junio de 2011 a las 8:02 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  5. Publicado el 05 de junio de 2011 a las 8:09 | Enlace permanente

    RT @pciudadano: El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  6. Publicado el 05 de junio de 2011 a las 8:24 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. – Periodismo Ciudadano http://t.co/J6aX30h vía @pciudadano.

  7. Publicado el 05 de junio de 2011 a las 8:24 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. – Periodismo Ciudadano http://bit.ly/mdoUE7 vía @pciudadano.

  8. Publicado el 05 de junio de 2011 a las 8:27 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. – Periodismo Ciudadano http://t.co/vRA0wRV vía @pciudadano

  9. Publicado el 05 de junio de 2011 a las 8:34 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  10. Publicado el 05 de junio de 2011 a las 8:40 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. (Periodismo Ciudadano) http://bit.ly/kd2ohf

  11. Publicado el 05 de junio de 2011 a las 8:40 | Enlace permanente

    Todos los tweets quedan almacenados en la biblioteca del congreso de EEUU http://bit.ly/iozV67 Uno ya no twitea con la misma tranquilidad…

  12. Publicado el 05 de junio de 2011 a las 9:05 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. – Periodismo Ciudadano – http://kcy.me/3lpf

  13. Publicado el 05 de junio de 2011 a las 9:30 | Enlace permanente

    RT @pciudadano El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/jXlGVQ

  14. Publicado el 05 de junio de 2011 a las 9:36 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  15. Publicado el 05 de junio de 2011 a las 9:39 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://feedly.com/k/m7VeIB #twitter

  16. Publicado el 05 de junio de 2011 a las 9:41 | Enlace permanente

    RT @Ducado60: El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://feedly.com/k/m7VeIB #twitter

  17. Publicado el 05 de junio de 2011 a las 9:47 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/kflGOn

  18. Publicado el 05 de junio de 2011 a las 9:51 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/kflGOn

  19. Publicado el 05 de junio de 2011 a las 9:53 | Enlace permanente

    valor cultural y tecnológico para investigadores RT @pciudadano archivo d Twitter #Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  20. Publicado el 05 de junio de 2011 a las 9:59 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  21. Publicado el 05 de junio de 2011 a las 10:27 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://bit.ly/iicLJV

  22. Publicado el 06 de junio de 2011 a las 13:40 | Enlace permanente

    El archivo de Twitter en la #Biblioteca del Congreso de EE.UU. http://bit.ly/lNQGVo vía @pciudadano

  23. Publicado el 06 de junio de 2011 a las 13:55 | Enlace permanente

    El archivo de Twitter en la #Biblioteca del Congreso de EE.UU. http://bit.ly/lNQGVo vía @pciudadano

  24. Publicado el 06 de junio de 2011 a las 14:45 | Enlace permanente

    El archivo de Twitter en la #Biblioteca del Congreso de EE.UU. http://bit.ly/lNQGVo vía @pciudadano

  25. Publicado el 06 de junio de 2011 a las 15:18 | Enlace permanente

    Desde 2006 Twitter regala a Library of Congress sus twitts y esta los archiva digitalmente: 50 millones tweets día : http://t.co/ePSb4L4

  26. Publicado el 06 de junio de 2011 a las 17:43 | Enlace permanente

    El archivo de Twitter en la #Biblioteca del Congreso de EE.UU. http://bit.ly/lNQGVo vía @pciudadano

  27. Publicado el 06 de junio de 2011 a las 18:51 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://t.co/k81eA2O via @pciudadano

  28. Publicado el 07 de junio de 2011 a las 7:22 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. – Periodismo Ciudadano http://t.co/n5kG0bL vía @pciudadano

  29. Publicado el 07 de junio de 2011 a las 8:45 | Enlace permanente

    ¿Te imaginas que tus tweets quedaran almacenados en la Biblioteca del Congreso de los EE.UU.? Pues ya lo están http://owl.li/5aPHQ

  30. Publicado el 07 de junio de 2011 a las 9:16 | Enlace permanente

    Todos sus tuits, almacenados en la Biblioteca del Congreso de EEUU http://ow.ly/5bNVb

  31. Publicado el 07 de junio de 2011 a las 9:16 | Enlace permanente

    Todos sus tuits, almacenados en la Biblioteca del Congreso de EEUU http://ow.ly/5bNVb

  32. Publicado el 09 de junio de 2011 a las 0:10 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://j.mp/lTuAS2

  33. Publicado el 09 de junio de 2011 a las 0:39 | Enlace permanente

    ¿Alguna vez has publicado un “tweet”? Felicidades: ya se encuentra almacenado en la Biblioteca del Congreso. http://bit.ly/jDINWh

  34. Publicado el 09 de junio de 2011 a las 0:45 | Enlace permanente

    ¿Alguna vez has publicado un “tweet”? Felicidades: ya se encuentra almacenado en la Biblioteca del Congreso. http://bit.ly/jDINWh

  35. Publicado el 14 de junio de 2011 a las 18:34 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. http://t.co/Q585Edg

  36. Publicado el 11 de agosto de 2011 a las 16:20 | Enlace permanente

    ¿Sabías que tus tweets están siendo almacenados en la Biblioteca del Congreso de EEUU?: http://t.co/JAPeNug

  37. Publicado el 11 de agosto de 2011 a las 16:22 | Enlace permanente

    RT @kjaimes: ¿Sabías que tus tweets están siendo almacenados en la Biblioteca del Congreso de EEUU?: http://t.co/JAPeNug

  38. Publicado el 14 de agosto de 2011 a las 0:45 | Enlace permanente

    ¿Sabías que tus tweets están siendo almacenados en la Biblioteca del Congreso de EEUU?: http://t.co/JAPeNug

  39. Publicado el 03 de mayo de 2012 a las 21:04 | Enlace permanente

    El archivo de Twitter en la Biblioteca del Congreso de EE.UU. – Periodismo Ciudadano, noticia antigua http://t.co/Q9kcWJZK via @pciudadano