Twitter : les messages archivés à la Bibliothèque du Congrès
La «Library of Congress» ne conserve que les messages publics, écartant systématiquement les tweets effacés ou protégés.
L'institution de Washington vient de publier un état des lieux de cet archivage d'un genre nouveau. Après avoir signé en 2010 un accord avec le réseau social, qui lui a fait «don» de ses tweets via Gnip, une petite société du Colorado, la bibliothèque a reçu jusqu'à 500 millions de tweets par jour en octobre dernier (contre 140 millions par jour en février 2011).
Contrairement aux archives traditionnelles ou même numériques de pages internet, celles de Twitter arrivent en flux continu, grossissent chaque jour et de plus en plus vite. Et ce, dans toutes les langues. Le cadeau de Twitter pèse de plus en plus lourd. Dernier chiffre annoncé: 133.000 gigaoctets.
Une mine pour les chercheurs
La bibliothèque doit maintenant relever des défis technologiques importants afin de rendre l'archivage accessible pour répondre aux attentes. Car la technologie permettant aux chercheurs d'accéder à ces données est à la traîne. Loin derrière, en tout cas, celle qui permet de produire et de distribuer les tweets, souligne l'institution. Et là, «on ne peut pas mettre seulement trois ingénieurs», reconnaît lui-même le patron de Twitter Dick Costolo, cité par la Library of Congress.
A ce jour, celle-ci n'est pas en mesure de répondre aux demandes de chercheurs du monde entier qui l'ont sollicitée depuis le début de cet archivage en 2010. Ceux-ci travaillent sur des sujets aussi variés que le journalisme-citoyen, les taux de vaccinations ou les prévisions boursières.
Commentaires
Connectez-vous à votre compte franceinfo pour participer à la conversation.