Pourquoi il faut s'intéresser à l'open data (même si ça vous paraît compliqué)

François Hollande rencontre vendredi des acteurs du secteur, alors que se déroule à la Cour des comptes une conférence de deux jours sur les données publiques.

L\'application Tranquilien, développée par Snips en partenariat avec la SNCF, prédit la fréquentation des trains en Ile-de-France en fonction des données récoltées sur plusieurs années.
L'application Tranquilien, développée par Snips en partenariat avec la SNCF, prédit la fréquentation des trains en Ile-de-France en fonction des données récoltées sur plusieurs années. (SNIPS)

Les tableaux Excel pourront-ils aider François Hollande à faire remonter sa cote de popularité ? Vendredi 25 avril, le président de la République accueille des patrons venus parler de "données publiques" et de "modernisation de l'Etat". La veille, la Cour des comptes a inauguré deux jours de conférence sur le sujet, réunissant des ministres européens, des chefs d'entreprise et des experts.

C'est peu dire que l'open data, qui consiste pour un Etat à mettre à disposition sur internet les données que ses administrations utilisent ou produisent de façon gratuite, traîne une réputation austère. La faute à un jargon rempli de XML et autres CSV pas toujours compréhensibles par le commun des mortels. Mais si le gouvernement et le président de la République s'y intéressent, vous devriez peut-être le faire aussi. Voici pourquoi.

Parce que les données permettent plus de transparence

L'une des premières raisons d'être de l'open data est de rendre plus transparent le fonctionnement de l'administration. Depuis 2010, la ville de Rennes a rendu accessible au grand public des dizaines de bases de données qui permettent aux administrés de savoir comment l'argent de leur taxe d'habitation est dépensé. Il est par exemple possible de consulter dans un tableur les différents postes de recettes et de dépenses prévus dans le budget 2014 de la municipalité. Un autre document détaille le montant des subventions versées à plusieurs centaines d'associations.

Des démarches similaires ont été initiées à l'échelon national. Fin janvier, l'Assemblée nationale a ainsi publié pour la première fois le détail de l'utilisation en 2013 de la réserve parlementaire, une enveloppe de subventions distribuées par chaque député aux collectivités et associations de son choix. Au total, du ministère à la commune en passant par le conseil général, 286 producteurs de données sont recensés par la plateforme data.gouv.fr, active depuis décembre 2011.

Petit problème, alors que 55 % des Français jugeaient en avril 2013 que la plupart des responsables politiques étaient corrompus, ces démarches de transparence ne reposent que sur le volontariat. En septembre 2013, les services du Premier ministre ont communiqué aux ministères un guide (PDF) visant à inciter les différents agents de l'Etat à mettre en ligne les données publiques qu'ils utilisent, mais sans qu'aucune obligation légale n'y soit assortie.

La situation pourrait toutefois évoluer. Un rapport d'information rendu devant la commission des lois du Sénat le 16 avril recommande de "poser le principe que l'administration soit tenue de mettre en ligne progressivement, en les anonymisant si nécessaire, toutes les bases de données qu'elle détient et qui seraient susceptibles d'être communiquées à un citoyen s'il en fait la demande ou qui font l'objet d'une diffusion publique sur un autre support". Et une directive européenne allant dans le même sens devrait être aussi transposée dans la loi française d'ici juillet 2015, rapporte le site NextInpact.com.

Parce que les données peuvent vous faciliter la vie

D'autres données mises en ligne par les services de l'Etat et des collectivités territoriales ont une vocation plus pratique. La ville de Paris propose par exemple de visualiser sur une carte l'emplacement exact des toilettes publiques, des endroits où trouver un café à un euro à Paris, ou encore de l'accessibilité des trottoirs aux fauteuils roulants.

Certains y vont vu des opportunités pour créer des entreprises. En exploitant des données détenues par les préfectures sur le taux de réussite aux examens du code et du permis pour chaque auto-école, Edouard Schlumberger a créé Vroomvroom.fr. En y entrant son adresse, il est possible de repérer en un coup d'œil le meilleur établissement où s'inscrire pour passer son permis de conduire.

Le site immobilier Home'n'go, qui croise les données de l'Insee à celles publiées par les municipalités, permet lui de connaître le prix moyen du m2 dans la rue où vous comptez vous installer, le taux de réussite au bac des lycées les plus proches, ou encore les statistiques sur les catégories socio-professionnelles de vos futurs voisins.

La mission Etalab, qui gère le dossier de l'open data auprès du Premier ministre, récompense régulièrement les entreprises les plus innovantes de ce secteur lors du concours Dataconnexion. Parmi elles, Snips, dont l'application Tranquilien, développée en partenariat avec la SNCF, permet de prédire le taux de remplissage des différents wagons des trains circulant en Ile-de-France à l'aide de statistiques accumulées par l'opérateur ferroviaire.

Parce que les données menacent peut-être votre anonymat

Malgré les nombreux bénéfices de l'open data, certains élus ont manifesté une inquiétude quant à la possibilité que des données personnelles des citoyens soient rendues publiques malgré eux. Dans leur rapport, rendu à la commission des lois du Sénat le 16 avril, les sénateurs Gaëtan Gorce (Nièvre, PS) et François Pillet (Cher, UMP) ont ainsi souligné qu'en croisant certaines données publiques, il était possible d'identifier avec une quasi certitude certains citoyens.

"Dans le domaine de la santé, avec le nom d'un hôpital, une date de naissance et un code postal, on peut identifier une personne à 89% et dans 100% des cas si le malade a été hospitalisé deux fois", a cité en exemple à l'AFP Gaëtan Gorce. Le rapport fait également état de contribuables dont l'identité a pu être retrouvée dans des données pourtant anonymisées, "parce que le procédé utilisé, qui consistait à agréger toutes les impositions des contribuables habitant la même zone géographique de 200 m sur 200 m était appliqué à des zones très peu peuplées".

Pour éviter ces problèmes, les sénateurs proposent la mise en place d'un instance chargée de contrôler l'anonymisation des données publiques mises en ligne par l'administration, qui pourrait être financée par une redevance que paieraient les réutilisateurs de ces données. Au risque d'aller à l'encontre même des principes de l'open data, et comme le note un journaliste du Monde.fr, d'un autre rapport remis au Premier ministre en 2011.