Open data

Pourquoi l’Open Data ne suffit pas

Publié le
11/9/2017
Dernière mise à jour le
21/9/23
4

La promesse de l’Open Data

Il y a plusieurs années, l’Open Data était présenté comme une avancée majeure de la transparence publique, une innovation pleine de promesses. Les administrations locales et nationales allaient ouvrir leurs données, la société civile allait s’en emparer et construire une multitude de merveilleuses applications, révolutionnant la manière dont fonctionnent nos environnements urbains.

Or la révolution tant attendue n’est pas arrivée, et les entreprises peinent à s’approprier l’Open Data en France. Les pouvoirs publics ont pourtant lancé des initiatives intéressantes, de nombreux territoires ont ouvert des portails d’Open Data et la législation a évolué positivement en faveur d’une administration ouverte… Alors que s’est-il passé ?

Récemment, nous avons essayé de récolter des données pour étudier sommairement l’offre de places en crèches en France. Naturellement, nous nous sommes tournés vers les portails Open Data nationaux et territoriaux dans un but simple : définir les territoires sur lesquels il était le plus profitable d’ouvrir une crèche. Se faisant, nous nous sommes heurtés aux principales limites de l’Open Data tel qu’il existe.

Au delà de la complexité de développement des algorithmes d’intelligence artificielle, c’est surtout la matière première, la donnée, qui fait défaut. Tout d’abord, le manque de contraintes réglementaires n’incite pas tous les acteurs à ouvrir leurs données, rendant difficile la reconstitution d’un espace géographique cohérent. De plus, parmi les jeux de données disponibles, l’hétérogénéité des dates couvertes, des formats de fichiers ou des périmètres concernés complique grandement la consolidation. Enfin, même après avoir centralisé toutes les données, l’absence de langage commun empêche de nourrir un algorithme automatiquement: certains départements rentrent les données géographiques sous forme d’adresse postale quand d’autres utilisent des coordonnées GPS.

Au final, nous avons passé plus de temps à agréger et nettoyer les données qu’à les analyser. Bien sûr, cela ne bloque pas systématiquement toute réutilisation, mais une entreprise qui veut créer un service basé sur ces données multiplie automatiquement par deux ou trois ses coûts de développement.

La nécessité d’un langage partagé

Notre petite expérience sur les crèches illustre parfaitement le problème de l’Open Data.

Sans harmonisation, l'Open Data ne sert à rien.

Si une entreprise, une administration ou un simple citoyen veut faire une analyse au niveau national, un long et fastidieux travail d’harmonisation doit d’abord être réalisé. Ce travail, s’il ne nécessite pas de savoir-faire technique particulier, est extrêmement chronophage, surtout s’il faut le reproduire à intervalles réguliers.

Au delà du problème de la qualité des données disponibles, il y a un problème d’infrastructure. Toutes les villes ne disposent pas des mêmes moyens, et leurs portails ont donc tous des caractéristiques différentes. Certains ont une API, d’autres non. Certains ont des visualisations disponibles directement sur le site, d’autres non. Cette diversité est un immense handicap dans un secteur où l’efficacité d’une solution dépend directement du volume de données disponible.

Les initiatives en cours

Plusieurs initiatives existent pour corriger ce problème, et doivent être saluées. Tout d’abord la mission Etalab, qui a notamment mis en place, en collaboration avec l’INSEE, une infrastructure mettant à disposition l’ensemble des numéros SIREN du territoire. Même si cela peut sembler anecdotique, une API unifiée et à jour qui peut être exploitée de manière fiable est assez peu fréquente pour être soulignée.

Dans le cadre du service public de la donnée, l’INSEE met également en place des API de très bonne qualité, même si le nombre de jeux de données disponibles est relativement restreint pour le moment.

Enfin, la Loi République Numérique oblige les communes de plus de 3,500 habitants à ouvrir leurs données à partir du 1er janvier 2018. Elle introduit, au passage, une liste de jeux de données relevant de l’exigence de transparence démocratique. C’est une excellente base en vue de la standardisation des données ouvertes.

Notre solution

En tant que data scientists, nous étions frustrés de l’absence de solution normalisée permettant la réutilisation d’un grand nombre de jeux de données. Nous avons donc décidé de créer notre propre outil, Transparence.

En nous basant sur les jeux de données disponibles sur le site de l’INSEE et d’Etalab, nous avons défini un ensemble d’indicateurs qui nous semblaient pertinents, puis nous avons construit l’API et l’interface permettant de visualiser ces données. Nous disposons maintenant d’une base de données unifiée contenant par exemple des données budgétaires pour toutes les communes de France, de 2000 à 2014. L’ensemble des indicateurs est disponible sur la plateforme.

Cet outil n’est bien sur qu’une première étape. Pour commencer, les données disponibles dépendent de l’INSEE, et sont donc assez anciennes. Les indicateurs disponibles sont loin d’être exhaustifs, et les fonctionnalités sont minimales. Cependant, notre plateforme permet une vraie réutilisation des données, en fournissant une interface unifiée, et des données directement exploitables pour des études à grande échelle. Avec quelques requêtes, il devient très simple de trouver la réponse à des questions comme “Combien une collectivité dépense-t-elle en fonction de ses habitants ?” ou “Quel est l’âge moyen des habitants de l’Yonne ?”.

Conclusion

Pour que les entreprises et les data scientists s’emparent réellement de l’Open Data et construisent des applications innovantes pour la ville de demain, une nouvelles étape de normalisation est nécessaire, un Open Data 2.0 .

Les pouvoirs publics ont un rôle à jouer, mais les entreprises aussi. Si Transparence est une modeste contribution, l’un de nos objectifs principaux est de parvenir à cette unification des données, et de mettre à disposition du public un grand lac de données contenant toutes les données disponibles, pour qu’enfin les promesses de l’Open Data soient réalisées.


Tarif sur mesure

Abonnement annuel
Proportionnel à votre budget de fonctionnement

Pour structures de toute taille

Nombre d'utilisateurs illimité

Compatible avec la plupart des logiciels finance du marché

Installation rapide et facile : 2h pour votre DSI

Accompagnement et formation

Tarif sur mesure

Abonnement annuel ou acquisition de licence.

Pour administrations et collectivités de toute taille

Nombre d'utilisateurs illimité

Développement de connecteurs custom, API

Accompagnement et formation

Installation rapide et facile : 2h pour votre DSI

Prestations de conseil sur devis (cartographie des bases, algorithmes sur mesure ...)

Récapitulatif de l'offre

Abonnement annuel.

Pour tous types d'administrations : collectivité, SDIS, hôpitaux, universités...

Connecté automatiquement
à votre SIRH

Installation rapide et facile pour votre DSI

Accompagnement et
formation inclus

Nécessite seulement 2 heures de paramétrage pour l'équipe RH

Moteur de calcul puissant
& calculs transparents

L'offre Essentiel

Abonnement annuel.
4000€ HT pour les 2 périmètres, soit 2000€ annuel par périmètre.
Frais d'installation : 1000€ plateforme + 1000€ par périmètre

14 tableaux de bord spécifiques petites structures

Personnalisation des tableaux avec le référent

Formation de 1h30 par utilisateur

Nombre d'utilisateurs illimité

Installation rapide et facile : 2h pour votre DSI

Compatible avec la plupart des logiciels finance et RH du marché

Posts similaires

No items found.

Newsletter Manty

Abonnez-vous pour ne rien manquer de l’actualité de Manty et de l’utilisation de la donnée dans les administrations publiques !
Merci ! Votre inscription à notre newsletter a bien été prise en compte !
Oops! Une erreur est survenue.
Mensuelle
Désabonnement en un clic
Gratuit
Nous utilisons des cookies pour comprendre comment vous interagissez avec notre site. En acceptant, vous consentez à notre utilisation de ces cookies. Politique de confidentialité