Le web est vaste
Actuellement, à la Bibliothèque nationale de France comme à l’Institut national de l’audiovisuel, les services du dépôt légal emploient une demi-douzaine de personnes. Cependant, la BnF s’appuie aussi sur un réseau de 110 collaborateurs en interne et basés dans les bibliothèques du dépôt légal en région.
Chaque année, le fonds s’accroît de 10 milliards d’éléments nouveaux
Le personnel a notamment pour mission d’établir la liste des sites qui doivent être collectés, aussi bien pour les collectes annuelles de la BnF que pour les collectes ponctuelles liées à certains événements comme les attentats ou les Jeux olympiques. Les sites sont ensuite parcourus par des robots qui amassent les
URL et les contenus qui seront stockés. Le plus utilisé est
Heritrix, conçu par Internet Archive. « On travaille avec les bureaux d’enregistrement, notamment l’
Arsys, qui mettent à notre disposition la liste des sites qui correspondent à notre périmètre. Cela représente 4,5 milliards de domaines ! », explique Marie Chouleur, cheffe de service du dépôt légal numérique à la BnF. Pour l’Ina, la masse de sites est beaucoup moins élevée, puisqu’elle ne représente que 14 000 sites, mais la collecte est quotidienne. « Notre fonds d’archives représente 4 pétaoctets (soit 4 000 000 Go) pour 53 milliards d’éléments, c’est-à-dire les URL, les images, les vidéos, etc. Chaque année, le fonds s’accroît de 10 milliards d’éléments nouveaux à peu près », précise Thomas Drugeon, qui coordonne le dépôt légal du web à l’Ina. Loin devant les 668 To (668 000 Go) du fonds de la BnF en décembre 2015, qui s’accroît d’environ 120 To par an.