in

Frapper les livres: l’Amérique a besoin d’un nouveau système de données publiques

Les données

Presse MIT

Extrait de Democratizing Our Data: A Manifesto par Julia Lane. Réimprimé avec la permission de The MIT PRESS. . 2020. En vente sous forme de livre électronique maintenant. En vente en version imprimée le 01/09/2020.

De nos jours, lorsque les gens ont un rendez-vous à travers la ville, leur application de calendrier prédit obligatoirement le temps qu’il faudra pour y arriver. Lorsqu’ils se rendent sur Amazon pour rechercher des livres susceptibles de les intéresser, Amazon fait des suggestions utiles et demande des commentaires sur la façon d’améliorer sa plate-forme. S’ils sélectionnent des photos de Google Photos, cela suggère aux gens de les envoyer, des invites avec d’autres photos qui, selon eux, ressemblent à celles sélectionnées, et avertissent si le fichier zip sera particulièrement volumineux. Aujourd’hui, nos applications sont conscientes des multiples dimensions des données qu’elles gèrent pour nous, elles mettent à jour ces informations en temps réel et suggèrent des options et des possibilités basées sur ces dimensions. En d’autres termes, le secteur privé se prépare au succès car il utilise des données pour nous fournir des produits et services utiles.

Le gouvernement – pas tellement. Le manque de données rend le travail de Joe Salvo beaucoup plus difficile. Il est le démographe en chef de la ville de New York et il utilise les données de l’American Community Survey (ACS) du Census Bureau pour se préparer à des urgences comme l’ouragan Sandy. Il doit utiliser des données pour décider comment amener les résidents plus âgés à des abris physiquement accessibles – sur le plan opérationnel, où dire à une flotte de cinquante autobus d’aller chercher et évacuer les personnes âgées. Il a besoin de données sur les caractéristiques de la population locale pour le Bureau du maire pour les personnes handicapées. Il doit identifier les zones à forte population âgée pour indiquer à la Metropolitan Transit Authority où envoyer les bus. Il doit identifier les quartiers avec des populations vulnérables importantes afin que le ministère de la Santé et de l’Hygiène mentale puisse installer des générateurs d’urgence dans les établissements du ministère de la Santé. Mais les produits produits par le système statistique fédéral ne lui fournissent pas la valeur dont il a besoin. Les données les plus récentes de la source principale sur la population américaine, l’ACS, sont publiées deux ans après la collecte, et elles-mêmes reflètent des moyennes mobiles sur cinq ans.

La création de valeur pour le consommateur est la clé du succès dans le secteur privé. Le défi pour les agences statistiques est de trouver comment se préparer pour réussir et produire des données de haute qualité mesurées par rapport à la même liste de contrôle en fournissant un accès aux données tout en protégeant la vie privée et la confidentialité.

Le problème est que la liste de contrôle pour les agences est encore plus longue avec des exigences supplémentaires afin que Joe Salvo et ses homologues puissent mieux faire leur travail. Une exigence, étant donné que les États-Unis sont une démocratie, est que les statistiques doivent être aussi impartiales que possible – afin que tous les résidents, quelles que soient leurs caractéristiques, soient comptés et qu’ils soient traités de manière égale dans les mesures. Corriger le biais inévitable des données sources est un rôle important pour les agences statistiques. Une autre exigence est que la collecte des données est rentable, de sorte que le contribuable obtient une bonne affaire. Une troisième exigence est que les informations recueillies soient cohérentes dans le temps afin que les tendances puissent être facilement repérées et traitées. Les agences ont besoin de l’aide extérieure des parties prenantes et des experts pour s’assurer que toutes ces exigences sont satisfaites. Cela nécessite un accès aux données, ce qui nécessite de traiter des problèmes de confidentialité.

La valeur générée lorsque les agences gouvernementales peuvent simplement fournir un accès et produire de nouvelles mesures peut être considérable. Par exemple, les mêmes personnes qui vous apportent le service météorologique national et ses prévisions météorologiques – la National Oceanic and Atmospheric Agency, ou NOAA – ont fourni aux scientifiques et aux entrepreneurs un accès aux données pour développer de nouveaux produits, tels que la prévision des incendies de forêt et la fourniture de services de renseignement à temps pour les catastrophes naturelles aux États-Unis et au Canada. Les agences de transport en commun partagent des données sur les transports en commun avec des développeurs d’applications du secteur privé qui produisent des applications de haute qualité qui offrent des cartes en temps réel des emplacements des bus et des heures d’arrivée prévues aux arrêts de bus, etc.

Mais d’autres cas, où le gouvernement dispose de données confidentielles, ce qui est le cas de la plupart des agences statistiques, sont différents. Nous devons pouvoir compter sur notre gouvernement pour garder certaines données très privées, mais cela signifie souvent que nous devons renoncer à la granularité des données gouvernementales qui sont produites. Si, par exemple, l’IRS fournissait tellement d’informations sur les contribuables qu’il était possible de savoir combien d’argent une personne donnée gagnait, le public serait indigné.

Tant d’agences gouvernementales doivent s’inquiéter de deux choses: (1) produire des données qui ont de la valeur et (2) garantir en même temps la protection de la confidentialité des propriétaires de données. Ceci peut être fait. Certains gouvernements – plus petits – ont mieux réussi que d’autres à créer des systèmes de données qui respectent la liste de contrôle des fonctionnalités souhaitées tout en protégeant la vie privée.

Prenons l’exemple du système de services aux enfants. Pour mettre les services à l’enfance dans leur contexte, près de quatre enfants américains sur dix seront référés à leur gouvernement local pour d’éventuels abus ou négligence envers les enfants à l’âge de dix-huit ans. Cela représente près de quatre millions de références par an. Les travailleurs sociaux de première ligne doivent prendre des décisions rapides sur ces renvois. S’ils se trompent dans un sens ou dans l’autre, l’inconvénient potentiel est énorme: les enfants mal examinés en raison de données inadéquates ou inexactes pourraient être arrachés aux familles aimantes. Ou, inversement, également en raison de données insuffisantes, les enfants pourraient se retrouver dans des familles abusives et mourir. En outre, il pourrait y avoir un parti pris dans les décisions, laissant les parents noirs ou LGBTQ plus susceptibles d’être pénalisés, par exemple.

En 2014, le bureau des enfants, des jeunes et des familles (CYF) du comté d’Allegheny en Pennsylvanie s’est mobilisé pour utiliser ses données internes de manière prudente et éthique afin d’aider les travailleurs sociaux à mieux faire leur travail. Les résultats ont attiré l’attention nationale, comme le rapporte un article du New York Times Magazine. La CYF a fait appel à des experts universitaires pour concevoir un outil automatique de notation des risques qui résume les informations sur une famille afin d’aider le travailleur social à prendre de meilleures décisions. Le score de risque, un nombre compris entre 1 et 20, utilise une grande partie des informations sur la famille dans le système du comté, telles que les dossiers de protection de l’enfance, les dossiers de prison et les dossiers de santé comportementale, pour prédire les événements indésirables qui peuvent conduire à placer un enfant en famille d’accueil.

Une analyse de l’efficacité de cet outil a montré qu’un enfant dont le score de placement à la référence est le plus élevé possible – 20 – a vingt et une fois plus de chances d’être admis à l’hôpital pour une blessure auto-infligée, dix-sept fois plus susceptible d’être admis pour agression physique et 1,4 fois plus susceptibles d’être admis pour une chute accidentelle qu’un enfant avec un score de risque de 1, le plus bas possible. Une évaluation indépendante a révélé que les décisions des travailleurs sociaux qui étaient éclairées par le score étaient plus précises (les cas étaient plus susceptibles d’être correctement identifiés comme ayant besoin d’aide et moins susceptibles d’être identifiés à tort comme n’ayant pas besoin d’aide), la charge de travail des cas a diminué et les préjugés raciaux étaient probables. être réduit. Sur la liste de contrôle en huit éléments, le comté d’Allegheny a touché tous les éléments. Ils ont produit un nouveau produit qui a été utilisé, était rentable et a produit des données en temps réel, précises, complètes, pertinentes, accessibles, interprétables, granulaires et cohérentes. Et CYF n’a pas violé la confidentialité. Mais plus important encore, le comté d’Allegheny a travaillé avec soin et ouvertement avec les défenseurs des parents, des enfants et des droits civils pour s’assurer que le programme ne soit pas construit à huis clos. Ils ont travaillé, en d’autres termes, pour faire en sorte que les nouvelles mesures soient développées et utilisées démocratiquement.

L’histoire du comté d’Allegheny est une illustration de la manière dont les nouvelles technologies peuvent être utilisées pour démocratiser la décision de trouver un équilibre entre le compromis toujours présent entre l’utilité d’une nouvelle mesure et le risque de compromettre la confidentialité. Ils ont profité du potentiel pour créer des informations utiles dont les gens et les décideurs politiques ont besoin tout en protégeant la vie privée. Ce potentiel peut être rendu réel dans d’autres contextes en rendant la valeur des données plus claire pour le public. Bien que ce compromis utilité / coût ait généralement été effectué par un petit groupe d’experts au sein d’une agence, il existe de nombreux nouveaux outils qui peuvent démocratiser la décision en fournissant plus d’informations au public. Ce chapitre va plus en détail sur les défis et les nouvelles approches du compromis utilité / coût. Il y a de nombreuses leçons à tirer des expériences passées.

Dragon Quest XI S arrive sur Xbox One et PC

Wild Hunt With All the DLC est à seulement 25 $ (40 $ si vous êtes sur Switch)