Cet article date de plus d'onze ans.

Archiver le web, un devoir de mémoire GIGAntesque

ENQUÊTE | Aux Etats-Unis, la bibliothèque du congrès américain s'est lancée dans l'archivage de tous les tweets du monde. En France, depuis 2011, la BnF et l'Ina se chargent d'archiver le web, au titre du dépôt légal numérique. Environ 10 milliards de pages web sont d'ores et déjà stockées. Mais à quoi cela sert-il ? Peut-on (et faut-il) tout archiver ? Comment stocker ces milliards de données ?

Clara Beaudoux

Radio France

Publié le 04/04/2013 16:57 Mis à jour le 07/05/2014 16:22

Temps de lecture : 15min

400 millions de tweets par jour, voilà ce que la bibliothèque
du Congrès américain tente d'avaler depuis trois ans. La plus grande
bibliothèque du monde s'est lancée dans ce projet pharaonique d'archiver
tous les tweets de la planète. En janvier dernier, elle a publié un état des
lieux de cet archivage,
chiffrant à 170 milliards le nombre de messages en 140 caractères archivés pour
l'instant.

La bibliothèque du congrès américain conserve par exemple

We just made history. All of this happened because you gave your time, talent and passion. All of this happened because of you. Thanks
— Barack Obama (@BarackObama) November 5, 2008

("Nous venons d'écrire l'histoire. Merci.") ou

just setting up my twttr
— Jack (@jack) March 21, 2006

et signé de l'un de ses co-fondateurs Jack Dorsey.

Le dépôt légal numérique

En France, depuis 2011, la Bibliothèque nationale de France (BnF) et l'Institut national de l'audiovisuel (Ina) se chargent
d'archiver le web. Il s'agit en fait d'une mission qui leur est confiée par l'Etat,
celle du dépôt légal. Depuis François Ier, la BnF a pour mission de
conserver tout ce qui est publié (physiquement) en France. Mais, depuis la loi
DADVSI de 2006, et surtout depuis son décret d'application en 2011, validé par
la CNIL,
ce dépôt légal a été étendu au web et réparti entre l'Ina et la BnF.

L'Ina s'occupe d'archiver les sites officiels de chaînes de
télévision et de radios, les sites d'émissions, les sites institutionnels, ainsi que les blogs ou sites de fans,
soit quelque 10.000 sites. La BnF archive tout le reste. Pour l'heure, le plus grande bibliothèque de France estime avoir récolté 19 milliards de fichiers (textes, photos, etc...) soit "une petite dizaine de milliards de pages web ".

Premiers tests avec les élections de 2002

A la BnF, les premières expérimentations d'archivage ont été lancées au début des années 2000. Les premières collectes expérimentales ont ensuite été réalisées à l'occasion des législatives et présidentielles de 2002, on retrouve donc dans ces archives des sites politiques qui n'existent plus :

La collecte à un rythme régulier a seulement démarré en 2006 à la BnF, avec la loi DAVDSI. En parallèle, la bibliothèque a passé un accord avec Internet Archive, une fondation américaine qui a entrepris d'archiver tout le web depuis 1996. "Internet Archive nous a donné les incunables du web, pour la période 1996-2000 ", explique Clément Oury, responsable du dépôt légal numérique à la BnF, en référence aux tout premiers livres publiés entre les débuts de l'imprimerie (1450) et 1501. Dernière trouvaille en date d'Internet Archive : le premier site de Mark Zuckerberg, le fondateur de Facebook.

Mais à quoi ça sert ?

Alors pourquoi s'atteler à un tel chantier ? Le web bouge, très vite. "On estime que la pérennité d'un lien, notamment en ce qui concerne les news, n'excède pas une cinquantaine de jours ", explique Louise Merzeau, maître de conférence en Sciences de l'information et de la communication à l'université Paris Ouest Nanterre La Défense. "Cette instabilité gagne en plus tout le web, avec une logique de plus en plus de timeline ", ajoute-t-elle.

Mais "i l y a beaucoup d'incompréhensions autour du sujet. On se représente encore assez peu les contenus du web comme un patrimoine culturel au même titre que les autres supports ", poursuit Louise Merzeau. Or, "le web est une véritable valeur
patrimoniale ", estime Clément Oury, responsable du service du dépôt légal numérique à
la BnF. "M ême si les gens qui publient
n'en sont pas forcément conscients ". "On ne pourrait pas dans quelques
années, ne serait-ce que dans dix ans, faire l'histoire du début du XXIe
siècle, comprendre la société, si on n'a pas gardé la trace de ce qu'était le
web en 2013 ", poursuit Clément Oury.

"Capturer l'essence de ce qu'était l'expression de la société à un moment donné"

"On sait que le web tel qu'il
existe aujourd'hui va disparaître, le web tel qu'il existait en 2000 a
complètement disparu, les modes de publication, d'interaction, ont complètement
changé. Archiver le web permet donc de capturer l'essence de ce qu'était
l'expression de la société à un moment donné ", ajoute-t-il.

"Le web est une partie
de l'activité sociale, il y a des activités de toutes sortes, des échanges, des relations, des
enjeux économiques, du commerce, de la science ", complète Louise Merzeau.
"C'est donner de la mémoire et une profondeur historique au web qui en manque
un peu ", ajoute Claude Mussou, responsable du dépôt légal
numérique à l'Ina.

Retrouver des sites politiques fermés, par exemple celui de Jérôme Cahuzac

Se contente-t-on d'archiver le web pour les historiens du
futur ? Non, répondent en chœur les acteurs de cette entreprise titanesque. "Les usages de recherche émergent , ajoute Claude Mussou, de l'Ina, *en parallèle avec le développement d'un e nouvelle discipline qui concerne 'les humanités numériques ' * ".

"Dès maintenant, les
chercheurs trouvent des contenus qui les intéressent dans les archives du web,
car certains ont pu disparaître du jour au lendemain ", indique Clément Oury, de la BnF. "Par exemple pour les sites politiques,
lorsqu'un candidat perd au premier tour, il est souvent arrivé qu'il ferme son
site dès le lendemain de l'élection ".

Ces archives peuvent aussi servir aux
journalistes, qui voudraient retrouver le site ou le blog fermé par un homme
politique. Et l'actualité nous en donne un bon exemple, puisque
juste après ses aveux et sa mise en examen mardi, l'ancien ministre du Budget
Jérôme Cahuzac a rendu son site inaccessible, on ne peut plus y lire que sa déclaration d'aveux et d'excuses. Or, la BnF avait stocké ce site lors des dernières législatives, on peut donc le consulter dans leurs archives :

Ces archives sont accessibles à la BnF ou à l'Ina, pour les chercheurs, mais aussi toute personne qui aurait perdu son site ou son blog et souhaiterait
le retrouver. Tout le monde peut d'ailleurs proposer un site à archiver. Ces archives peuvent aussi servir à tout curieux intéressé par l'évolution d'un site. Voyons par exemple l'évolution du site de France Info grâce aux archives web de l'Ina :

Pour éviter la "privatisation de la mémoire collective"

Archiver le web pour éviter que des entreprises privées ne s'en chargent ? C'est un autre argument mis en avant par Louise Merzeau, maître de conférence en Sciences de
l'information et de la communication et animatrice d'ateliers sur l'archivage
du web. "Les traces sur le web sont de plus en plus gérées par des entreprises privées qui ont le contrôle et
souvent la propriété des contenus ", indique-t-elle.

"Au plan
politique et éthique, il y a un enjeu fondamental qui est ce risque de
privatisation de la mémoire collective, il faut la contrebalancer par une
mémoire garantie par une institution ", ajoute-t-elle. Elle insiste également sur l'enjeu éducatif : "Le drame aujourd'hui c'est que tous nos élèves, nos étudiants ou enseignants font quasiment toutes leurs recherches sur le web, mais en étant complètement dépendants d'une logique de flux. Il n'y pas de connaissance possible si on est simplement branché à un flux qu'on ne maîtrise absolument pas ", s'inquiète-t-elle.

Une "exception à la propriété intellectuelle", qui peut faire débat

Mais cette pratique d'archiver le web ne plaît pas à tout le monde. Que cette mission soit entre les mains de l'Etat, cela ne présente-t-il pas un risque " de centralisation de la mémoire, de contrôle de la mémoire à des fins politiques ? ", interroge la chercheuse.

Certains s'offusquent d'ailleurs que leurs contenus soient archivés au titre du dépôt légal, évoquant un "big brother". "La BnF va donc violer en toute impunité tous les sites qui ne seront pas un minimum protégés ", s'est indigné par exemple un photographe sur son site Internet en octobre dernier.

Mais le dépôt légal de l'Internet est conçu dans la loi "comme une exception à la propriété intellectuelle ", explique Clément Oury de la BnF. "Les auteurs des contenus ne peuvent pas s'opposer à ce que les contenus en ligne soient collectés. En revanche, la BnF et l'Ina n'ont pas le droit de les mettre à disposition largement ". C'est pourquoi ces archives ne sont pas en ligne, mais uniquement consultables à la BnF ou à l'Ina.

D'autres internautes s'inquiètent de l'archivage de certaines données personnelles. Sur ce point, lors de la mise en place du décret d'application du dépôt légal numérique, "la CNIL avait rendu son avis indiquant que le fait de récupérer les données personnelles était acceptable à condition que leur usage soit complètement contrôlé par la BnF ", explique Clément Oury.

Mais cette opposition de certains internautes "montre une certaine incohérence dans la représentation que des gens se font encore du web : ils sont dans une posture de publication mais refusent que ce qu'ils publient soit archivé ", analyse également Louise Merzeau, chercheuse en Sciences de l'information et de la communication.

Mais au fait, qu'est-ce qu'on garde ?

Peut-on tout archiver ? Impossible. "Pour le dépôt légal de
l'Internet il ne s'agit pas de faire une sélection de ce qu'il y a de meilleur
sur le web, parce que sinon dans dix ans les personnes qui auraient accès à nos
archives auraient une vision biaisée de ce qu'était la société française ", explique Clément Oury.
"On abandonne donc l'idéal d'exhaustivité et on le remplace par un objectif
de représentativité ", ajoute-t-il. A défaut d'avoir "tout
le web ", on a "un peu de tout ".

Neuf humains et 70 robots

Pour mener à bien cette mission, à la BnF, le dépôt légal numérique occupe neuf personnes à temps plein et 70 "robots" prénommés Heritrix. Il s'agit en fait de
logiciels qui s'occupent d'"aspirer" les données en ligne et de les archiver.

La bibliothèque combine plusieurs modes de collecte : des collectes larges une
fois par an qui concernent environ 3 millions de noms de domaine en .fr ; et des
collectes ciblées repérées par les bibliothécaires de la BnF (environ 30.000
sites par an), soit en fonction de l'actualité (élections, événements sportifs,
etc) soit en fonction de choix thématique (journaux intimes, révolution arabes,
etc).

Et c'est uniquement dans le cadre de ces collectes ciblées que
la BnF conserve pour l'instant les tweets, "des principaux hommes politiques pendant les élections ou ceux de sportifs pendant les JO ", explique le responsable de la BnF.

De nombreux défis techniques

Toutes ces collectes représentent une quantité
impressionnante de données : 330 téraoctets pour la BnF, 160 pour l'Ina (petit
rappel de l'échelle :
1 téraoctet = 10 puissance 12 octets). Autant de données qui posent de grands
défis techniques.

Parmi les nombreux enjeux, il y a d'abord la
question du stockage. Comment conserver 160 téraoctets ? "On a développé à l'Ina
un format de stockage qui prend en considération la redondance, qui permet
d'éviter toute duplication ", explique Claude Mussou, responsable du
service de dépôt légal numérique à l'Ina. Sans cela, les données archivées de
l'Ina ne représenteraient pas 160 téraoctets mais plus d'un pétaoctet (autrement dit la ligne
d'au-dessus dans la petite échelle précédente, donc 10 puissance 15).

Des archives "stockées dans une partie hautement sécurisée de la salle des machines"

Il faut ensuite mettre tout cela sur des serveurs, en
plusieurs exemplaires et dans des lieux différents. "Ces données ont la
même valeur patrimoniale que les collections les plus précieuses de manuscrits
de la bibliothèque, à ce titre ces collections sont stockées dans une partie
hautement sécurisée de la salle des machines ", indique-t-on à la BnF. Impossible donc de voir les
serveurs, mais la plus grande bibliothèque de France fournit ses propres illustrations :

Se posent ensuite les questions de préservation à long terme
: telle animation flash sera-t-elle encore lisible dans 30 ans ? Et tel format
vidéo ne sera-t-il pas devenu obsolète ? "A l'Ina on a la chance
d'avoir une équipe de recherche et développement de quatre ingénieurs, qui justement font un travail de suivi très assidu de
l'évolution des technologies de publication sur le web, puisque ce n'est pas
stabilisé ", explique Claude Mussou. "Peut-être qu'un jour on sera
obligé d'avoir une bibliothèque de logiciels en parallèle des contenus que
l'on collecte ", ajoute-t-elle.

Une recherche parmi les tweets de la bibliothèque du Congrès américain prendrait 24 heures

Vient
enfin la question de l'exploitation de ces archives. Comment
organiser et indexer toutes ces données, pour que d'autres puissent y chercher
(et y trouver) des choses ? C'est justement la question qui n'a pas encore été
résolue à la bibliothèque du Congrès américain. Si pour l'instant elle récolte
les tweets, elle n'a pas encore trouvé de système permettant leur accès et
leur exploitation.

"La technologie pour que les chercheurs accèdent à ces
données est à la traîne derrière (celle) qui permet de les produire et de les
distribuer ", souligne l'institution américaine. Pour l'instant, faire une seule recherche parmi les tweets archivés de 2006 à 2010 prendrait jusqu'à 24 heures. L'institution publique américaine envisage de faire appel au
secteur privé pour trouver la solution. "Quand le Congrès américain aura réglé ces questions-là,
nous pourrons nous demander s'il est possible d'avoir spécifiquement un accès
aux tweets français ", indique Clément Oury de la BnF.

"Heureusement que des choses disparaissent, cela fait partie du fil de l'Histoire"

Mais dans 200 ans, les historiens ne seront-ils pas face à un déluge d'informations avec toutes ces archives ? Alors que pour d'autres périodes ils reconstruisent l'Histoire "en creux ", s'interroge Valérie Schafer, chargée de recherche à l'Institut des sciences de la communication du CNRS. "****O n serait dans une société absurde en considérant que toutes les bribes de conversation sur le net doivent être conservées. H eureusement que des choses disparaissent, cela fait partie du fil de l'Histoire ", ajoute-t-elle.

Alors l'archivage du web sera-t-il encore d'actualité dans 30, 100 ou 2.000 ans ? Ce papier sur l'archivage du web sera-t-il lui-même archivé ?