L'ironie d'écrire en ligne sur la préservation numérique
Le mois dernier, L'Atlantique a publié un long article sur les informations perdues sur le Web. Cette histoire elle-même est en danger.

Maison Bonfils / Bibliothèque du Congrès / Zak Bickel / L'Atlantique
Récemment, Adrienne LaFrance a écrit dans L'Atlantique sur la mort numérique et la renaissance d'une histoire qui a été finaliste du prix Pulitzer en 2008. Parce que The Crossing, une série en 34 parties publiée à l'origine par le Nouvelles des montagnes Rocheuses , est né numérique, il n'était pas aussi facile à archiver que les histoires imprimées, et son voyage de l'obscurité à la résurrection était émouvant.
J'ai adoré l'histoire de LaFrance. Il a été écrit de manière magistrale et a abordé la plupart des problèmes auxquels les conservateurs numériques sont confrontés chaque jour. Par coïncidence, l'histoire a été publiée la même semaine qu'un numéro spécial de Journal de recherche de journaux appelé Capturer et préserver le « premier brouillon de l'histoire » dans l'environnement numérique, qui est une collection d'articles scientifiques (y compris le mien) sur la préservation des actualités numériques.
Ce qui m'a amené à me demander : dans 20 ans, est-ce que quelqu'un pourra lire l'histoire de LaFrance ?
Rien ne garantit que nous pourrons lire les informations d'aujourd'hui sur les ordinateurs de demain. J'étudie la préservation de l'information depuis deux ans et je peux affirmer avec confiance que la plupart des entreprises médiatiques utilisent une stratégie de préservation qui ressemble au fromage suisse.
Ma contribution à la NRJ un numéro spécial sur les applications d'actualités, les bases de données interactives comme ProPublica 's Fiche de pointage du chirurgien qui permettent aux lecteurs de lire une histoire, de rechercher eux-mêmes ou leur communauté dans les données, puis de comprendre exactement comment l'histoire affecte leur propre vie. Lorsqu'un journaliste de données appelle quelque chose une application d'actualités, cela ne signifie pas ce que vous téléchargez depuis l'App Store. ProPublica C'est Scott Klein explique : Dans les salles de rédaction, ces bases de données interactives sont parfois appelées « applications d'actualités », mais ne vous y trompez pas. Ce sont des bases de données interactives publiées sur le Web, pas quelque chose que vous achetez sur votre smartphone. Pensez à Dollars for Docs, pas à Flipboard ou à Zite.
lecture recommandée
-
Les aventuriers de la toile perdue
Adrienne LaFrance -
Est-ce que [SUPPRIMÉ] est un film de Noël ?
Kaitlyn Tiffany -
Les fans de K-pop ont un nouvel ennemi juré
Emma Marris
Les applications d'actualités ne sont pas conservées car ce sont des logiciels, et préservation du logiciel est une activité spécialisée et idiosyncratique qui nécessite plus d'argent et plus de main-d'œuvre spécialisée que ce qui est disponible dans les organisations médiatiques aujourd'hui. Mais, pourriez-vous dire, il devrait être facile de préserver des histoires qui ne sont pas des logiciels, n'est-ce pas ? Une histoire comme celle de LaFrance, composée de texte et d'images et de quelques hyperliens vers des sources extérieures, devrait-elle être plus simple à sauvegarder ?
Vous le penseriez. Mais pas nécessairement.
Pour comprendre pourquoi, nous devons examiner la technologie back-end de la salle de rédaction. En termes de développeur, le front-end est la partie esthétique de la technologie ouverte aux clients et au monde ; l'arrière est l'usine où la saucisse est fabriquée.
Vous connaissez probablement les bases du back-end : lorsque vous cliquez sur un lien ou saisissez une URL dans votre navigateur Web, un serveur Web délivre une page à votre navigateur. Dans une organisation médiatique, le serveur Web assemble pour vous une page composée de différents actifs numériques : texte, images, légendes, titres, code, vidéos ou publicités. Ces actifs résident dans un système de gestion de contenu (CMS) qui organise les milliers ou millions de contenus générés par l'entreprise de médias.
Cependant, il s'agit rarement d'un seul CMS. Les salles de rédaction s'appuient sur un mélange de systèmes nouveaux et anciens. Dans une salle de rédaction qui produit une édition imprimée, il existe toujours un système logiciel supplémentaire, comme K4, CCI ou Hermes, qui gère les mises en page et envoie ces pages aux imprimantes numériques. Appelons cela le CMS d'impression. Ceci est différent du CMS Web, qui pourrait être un système comme Wordpress. La BBC les usages au moins deux CMS Web. (Voici un schéma du plus récent, Vivant .)
Les processus invisibles transmettent de manière transparente du texte, des images, des titres et d'autres contenus d'un système à l'autre. La plupart des agences de presse n'ont plus de bibliothécaires internes, donc l'archivage se fait en grande partie automatiquement. De grandes organisations comme LexisNexis ou EBSCO ( L'Atlantique l'archiveur de ) récupérera un flux numérique de l'agence de presse, stockera les informations dans une base de données, puis concédera sous licence les packages de ces bases de données aux bibliothèques. Le flux numérique peut inclure le texte de chaque histoire, le nom de l'auteur, le titre de l'histoire, toutes les images associées et certaines méta-informations qui décrivent le placement de l'histoire ou ses droits de licence. Dans certains cas, le flux comprend également des images PDF de chaque page du journal ou du magazine.
Pour essayer de déterminer si l'histoire de LaFrance était incluse dans le fil d'archives, j'ai effectué une recherche le 16 octobre 2015, pour tous les articles de L'Atlantique dans la base de données EBSCO (en utilisant mon abonnement à la bibliothèque universitaire) du 1er janvier 2014 au 31 décembre 2015. Il y a eu 488 résultats.
J'ai effectué la même recherche sur Google à la même date pour des articles indiquant une date de publication sur TheAtlantic.com du 1er janvier 2014 au 31 décembre 2015. Il y a eu 20 200 résultats.
Y avait-il vraiment 19 712 histoires de plus publiées sur TheAtlantic.com que dans L'Atlantique magazine? Je ne suis pas sûr. Certains des résultats Google pourraient être des doublons, ce qui ramène le nombre total d'articles publiés en dessous de 20 200. Ou, il pourrait y avoir quelque chose que je ne sais pas sur le nombre d'articles inclus dans l'abonnement de ma bibliothèque à la collection d'œuvres d'EBSCO dans L'Atlantique . Il pourrait également y avoir d'autres problèmes techniques et de licence dont je ne suis pas au courant - l'archivage est une pratique extrêmement complexe. Le nombre de 20 200 ne comprend pas atlantique les publications des écrivains sur Facebook, Twitter, Instagram, Pinterest, Reddit ou toute autre plate-forme sociale où les journalistes peuvent avoir interagi avec des lecteurs ou publié des commentaires liés à leurs histoires. Si nous voulons compter les publications sociales comme contenu journalistique, nous devons réviser considérablement notre estimation à la hausse. (Les publications sur les réseaux sociaux sont également étonnamment difficile à préserver de manière significative dans les bibliothèques, soit dit en passant.)
Les enjeux de la conservation des archives numériques sont autant sociaux et institutionnels que technologiques.Dans toutes mes recherches dans la bibliothèque, je n'ai pas trouvé l'article de LaFrance sur The Crossing. En fait, en cherchant plus de 400 bases de données et éditeurs via EBSCO, et les 700 millions de sources qu'elles contiennent, je n'ai trouvé que neuf articles d'Adrienne LaFrance. Ce qui est étrange, car regarder la page de l'auteur de LaFrance sur The Atlantic.com révèle des pages sur des pages de résultats de recherche.
Pour comprendre ce qui se passe, nous devons revenir au back-end et réfléchir aux systèmes dans lesquels réside le texte de l'histoire. L'histoire de LaFrance est apparue sur TheAtlantic.com, qui fonctionne sur un CMS Web appelé Ollie . Ollie, qui a remplacé trois anciens CMS, a été sur mesure en utilisant un framework logiciel open source populaire appelé Django . L'édition imprimée de L'Atlantique est géré via un système de workflow appelé K4 , qui (contrairement à Django) fonctionne bien avec les logiciels Adobe utilisés pour créer des mises en page. Du point de vue de la technologie médiatique, il s'agit d'une ingénierie de pointe. Je ne sais pas comment ni où le flux EBSCO puise dans cette configuration. Probablement, ce qui se passe est quelque chose comme ceci:
Meredith Broussard
Je me souviens de l'époque où j'utilisais un évier dans le nouveau pool house d'un ami, qu'il avait lui-même construit. Ne faites pas couler trop d'eau lorsque vous lavez les choses, m'a dit mon ami. Cela ressemble à un vrai évier, mais je ne l'ai pas raccordé au système d'égout, donc l'eau s'écoule simplement sur le sol. J'étais déconcerté. Comment cela pourrait-il être? A-t-il même été autorisé à le faire ? À ce moment-là, j'ai réalisé que la plomberie, comme les logiciels, est un système complexe construit par des humains. Les humains font des erreurs et prennent des décisions de conception idiosyncratiques. Il est donc surprenant, mais pas improbable, de se rendre compte que les systèmes logiciels multidimensionnels complexes qui nous servent de contenu Web pourraient ne pas envoyer de contenu aux bibliothèques de la manière que nous attendons.
Lorsque j'ai commencé mes recherches sur la préservation de l'information, j'ai pensé qu'il y aurait une solution technologique simple. Il n'y a pas. Toutes les entreprises de médias dans le monde sont aux prises avec le problème de l'archivage numérique. Les grandes organisations héritées, comme L'Atlantique ou Le New York Times ou la BBC, font un meilleur travail que les petites entreprises, mais personne n'a de solution. D'un point de vue logiciel, c'est un problème légitimement difficile : non résolu, mais probablement pas insoluble. Les défis de la conservation des archives numériques sur de longues périodes sont autant sociaux et institutionnels que technologiques, lit-on dans une NSF de 2003 et la Bibliothèque du Congrès. rapport . Même les solutions technologiques les plus idéales nécessiteront une gestion et un soutien de la part d'institutions qui, avec le temps, subiront des changements d'orientation, d'objectif, de gestion et de financement.
combien valent les bouteilles en plastique
Les salles de rédaction doivent gérer le flux de travail et le contenu pour l'impression, l'audio, les visuels, la vidéo et le code. La plupart des logiciels sont conçus pour les entreprises qui ne font qu'une seule de ces choses à la fois ; les rédactions les font toutes simultanément. Chaque fois qu'une nouvelle technologie est introduite, une salle de rédaction a besoin d'un nouveau système de gestion de contenu ou de flux de travail pour la gérer. Garantir l'interopérabilité entre ces systèmes et les systèmes d'archivage requiert de l'ingénierie, de l'ingéniosité et une attention régulière.
L'échelle est également différente pour les salles de rédaction. Facebook n'a qu'à gérer 11 ans de données, qui sont toutes numériques et qui sont toutes structurées exactement de la manière dont elles doivent être structurées. Une entreprise de médias traditionnelle peut avoir à gérer plus de cent ans de données, dont certaines seulement sont numériques, toutes étant potentiellement important pour les chercheurs , qui ont toutes des restrictions de licence et des besoins de conservation différents et sont structuré de manière ambiguë . Rappelez-vous quand Macromedia Flash était la nouvelle chose à la mode dans le journalisme ? La plupart de ces projets Flash élaborés ont disparu à présent. Ils sont probablement archivés sur je conduis dans une pièce de stockage quelque part, à côté de boîtes de diapositives couleur et de piles de disquettes et autres supports obsolètes. Les futurs historiens déploreront probablement cette perte.
L'Internet Archive vous permettra de trouver une aiguille dans une botte de foin, mais seulement si vous savez déjà approximativement où se trouve l'aiguille.Le Web ne montre que l'historique récent. Aucune publication ne possède d'archives complètes de son site Web, écrivent mes collègues Kathleen Hansen et Nora Paul dans leur NRJ article, Les archives des journaux révèlent des lacunes majeures à l'ère numérique. La plupart ne peuvent pas remonter avant 2008… Dans tous les cas, les informateurs ont parlé du chaos du changement de CMS ou de serveur, du changement de domicile organisationnel pour le site Web, des changements de personnel et de nombreux autres éléments qui ont eu un impact sur l'intégrité du site Web. heures supplémentaires.
La quantité et la variété des informations que nous produisons aujourd'hui ont dépassé notre capacité à les préserver pour l'avenir. Les bibliothécaires sont les seuls à veiller à la préservation de notre mémoire collective. Et eux, avec de petites équipes d'historiens du numérique ailleurs, essaient toujours de comprendre l'étendue des innombrables défis impliqués dans la préservation moderne. Si les nouvelles d'aujourd'hui, d'origine numérique, ne sont pas automatiquement mises dans les entrepôts des bibliothèques, il est peu probable que ces histoires survivent de manière accessible.
Donc : Les articles que nous voyons aujourd'hui sur TheAtlantic.com sont stockés dans un CMS qui est relié de manière ambiguë au flux d'archives de ma bibliothèque. Aux fins de la recherche universitaire (qui est effectuée via les bases de données des bibliothèques, et non via Google), il semble que certains sous-ensembles d'articles de TheAtlantic.com ne soient pas conservés. Ce qui signifie que dans 20 ans, les spécialistes des médias ne pourront peut-être pas lire l'article d'Adrienne LaFrance sur une histoire disparue et ressuscitée, car l'article de LaFrance a peut-être disparu.
Certains lecteurs avertis peuvent se demander : les archives Internet ? La Wayback Machine ne préserve-t-elle pas les pages Web, et l'histoire de LaFrance ne sera-t-elle pas préservée de cette façon ? La réponse simple est oui. L'article de LaFrance a été exploré par la Wayback Machine d'Internet Archive, et vous pouvez aller le voir là-bas. Les gens d'Internet Archive sont des préservateurs numériques réfléchis, et je suis reconnaissant chaque jour pour leur travail de préservation de notre mémoire numérique collective.
Si je sais exactement quelle page Web je recherche, Internet Archive est très utile. Je sais que l'histoire de LaFrance a fait la une de TheAtlantic.com le 14 octobre 2015, et je peux donc aller sur la Wayback Machine et regarder l'instantané pris le plus près de cette date, qui est le 15 octobre, et je peux voir histoire Raiders of the Lost Web et je peux cliquer dessus.
Mais si je ne connais pas exactement la page Web que je veux et le jour exact où l'information est apparue, je ne pourrai pas trouver l'information dans Internet Archive. Les bases de données des bibliothèques sont indexées de manière à pouvoir être recherchées, ce qui signifie que les bases de données contiennent de nombreuses informations sur les informations qu'elles contiennent. La Wayback Machine est technologiquement assez sophistiqué — il préserve aussi les images et le code, par exemple — mais ce n'est pas encore indexé de manière à être facilement consultable. L'Internet Archive vous permettra de trouver une aiguille dans une botte de foin, mais seulement si vous savez déjà approximativement où se trouve l'aiguille.
Je suis à peu près sûr que dans cinq ans, quand je voudrai relire l'article de LaFrance, je ne me souviendrai plus de la date exacte à laquelle il a été publié. Je suis également raisonnablement sûr que dans cinq ans, le signet de mon navigateur vers l'histoire sera brisé à cause de linkrot : L'Atlantique aura repensé son site Web et l'URL de l'histoire sera différente. Mon auto-recherche sur le Web 2020 regardera probablement L'Atlantique et je ne parviens pas à trouver l'article car le CMS aura changé et les paramètres de recherche seront configurés différemment, et je ne pourrai pas trouver un seul titre pour l'article dans les bases de données de la bibliothèque. Ce qui signifie que j'abandonnerai par frustration et que je dirai à quiconque entendra à quel point le monde en ligne est désorganisé et comment nous perdons l'histoire numérique presque dès que nous la réalisons. C'est une honte. Parce que c'est un très bon article, et qu'il mérite d'être durable.
Il y a une solution, bien sûr. Je pourrais juste imprimer l'article et le garder dans mon classeur. Mais ce serait un pas en arrière, pas en avant.