• Mathieu Nohet

Pourquoi l’Open Data ne suffit pas


La promesse de l’Open Data


Il y a plusieurs années, l’Open Data était présenté comme une avancée majeure de la transparence publique, une innovation pleine de promesses. Les administrations locales et nationales allaient ouvrir leurs données, la société civile allait s’en emparer et construire une multitude de merveilleuses applications, révolutionnant la manière dont fonctionnent nos environnements urbains.

Or la révolution tant attendue n’est pas arrivée, et les entreprises peinent à s’approprier l’Open Data en France. Les pouvoirs publics ont pourtant lancé des initiatives intéressantes, de nombreux territoires ont ouvert des portails d’Open Data et la législation a évolué positivement en faveur d’une administration ouverte… Alors que s’est-il passé ?

Récemment, nous avons essayé de récolter des données pour étudier sommairement l’offre de places en crèches en France. Naturellement, nous nous sommes tournés vers les portails Open Data nationaux et territoriaux dans un but simple : définir les territoires sur lesquels il était le plus profitable d’ouvrir une crèche. Se faisant, nous nous sommes heurtés aux principales limites de l’Open Data tel qu’il existe.

Au delà de la complexité de développement des algorithmes d’intelligence artificielle, c’est surtout la matière première, la donnée, qui fait défaut. Tout d’abord, le manque de contraintes réglementaires n’incite pas tous les acteurs à ouvrir leurs données, rendant difficile la reconstitution d’un espace géographique cohérent. De plus, parmi les jeux de données disponibles, l’hétérogénéité des dates couvertes, des formats de fichiers ou des périmètres concernés complique grandement la consolidation. Enfin, même après avoir centralisé toutes les données, l’absence de langage commun empêche de nourrir un algorithme automatiquement: certains départements rentrent les données géographiques sous forme d’adresse postale quand d’autres utilisent des coordonnées GPS.

Au final, nous avons passé plus de temps à agréger et nettoyer les données qu’à les analyser. Bien sûr, cela ne bloque pas systématiquement toute réutilisation, mais une entreprise qui veut créer un service basé sur ces données multiplie automatiquement par deux ou trois ses coûts de développement.

La nécessité d’un langage partagé

Notre petite experience sur les crèches illustre parfaitement le problème de l’Open Data.

Sans harmonisation, l'Open Data ne sert à rien.

Si une entreprise, une administration ou un simple citoyen veut faire une analyse au niveau national, un long et fastidieux travail d’harmonisation doit d’abord être réalisé. Ce travail, s’il ne nécessite pas de savoir-faire technique particulier, est extrêmement chronophage, surtout s’il faut le reproduire à intervalles réguliers.

Au delà du problème de la qualité des données disponibles, il y a un problème d’infrastructure. Toutes les villes ne disposent pas des mêmes moyens, et leurs portails ont donc tous des caractéristiques différentes. Certains ont une API, d’autres non. Certains ont des visualisations disponibles directement sur le site, d’autres non. Cette diversité est un immense handicap dans un secteur où l’efficacité d’une solution dépend directement du volume de données disponible.

Les initiatives en cours

Plusieurs initiatives existent pour corriger ce problème, et doivent être saluées. Tout d’abord la mission Etalab, qui a notamment mis en place, en collaboration avec l’INSEE, une infrastructure mettant à disposition l’ensemble des numéros SIREN du territoire. Même si cela peut sembler anecdotique, une API unifiée et à jour qui peut être exploitée de manière fiable est assez peu fréquente pour être soulignée.

Dans le cadre du service public de la donnée, l’INSEE met également en place des API de très bonne qualité, même si le nombre de jeux de données disponibles est relativement restreint pour le moment.

Enfin, la Loi République Numérique oblige les communes de plus de 3,500 habitants à ouvrir leurs données à partir du 1er janvier 2018. Elle introduit, au passage, une liste de jeux de données relevant de l’exigence de transparence démocratique. C’est une excellente base en vue de la standardisation des données ouvertes.

Notre solution

En tant que data scientists, nous étions frustrés de l’absence de solution normalisée permettant la réutilisation d’un grand nombre de jeux de données. Nous avons donc décidé de créer notre propre outil, Transparence.

En nous basant sur les jeux de données disponibles sur le site de l’INSEE et d’Etalab, nous avons défini un ensemble d’indicateurs qui nous semblaient pertinents, puis nous avons construit l’API et l’interface permettant de visualiser ces données. Nous disposons maintenant d’une base de données unifiée contenant par exemple des données budgétaires pour toutes les communes de France, de 2000 à 2014. L’ensemble des indicateurs est disponible sur la plateforme.

Cet outil n’est bien sur qu’une première étape. Pour commencer, les données disponibles dépendent de l’INSEE, et sont donc assez anciennes. Les indicateurs disponibles sont loin d’être exhaustifs, et les fonctionnalités sont minimales. Cependant, notre plateforme permet une vraie réutilisation des données, en fournissant une interface unifiée, et des données directement exploitables pour des études à grande échelle. Avec quelques requêtes, il devient très simple de trouver la réponse à des questions comme “Combien une collectivité dépense-t-elle en fonction de ses habitants ?” ou “Quel est l’âge moyen des habitants de l’Yonne ?”.

Conclusion

Pour que les entreprises et les data scientists s’emparent réellement de l’Open Data et construisent des applications innovantes pour la ville de demain, une nouvelles étape de normalisation est nécessaire, un Open Data 2.0 .

Les pouvoirs publics ont un rôle à jouer, mais les entreprises aussi. Si Transparence est une modeste contribution, l’un de nos objectifs principaux est de parvenir à cette unification des données, et de mettre à disposition du public un grand lac de données contenant toutes les données disponibles, pour qu’enfin les promesses de l’Open Data soient réalisées.