• Lucas Gaillard

Collectivités, pourquoi il est urgent de mettre en place un Data Lake ?

Mis à jour : mars 19


Sujet chaud de 2021 avec le volet numérique du plan France Relance, l'incendie d'OVH et les initiatives de certaines communes comme Nevers, le Data Lake fait de plus en plus parler de lui.

S'il est déjà utilisé depuis plusieurs années au sein des grandes entreprises afin de stocker leurs innombrables données, le Data Lake s'ouvre désormais aux administrations publiques locales, car elles collectent également une multitude de données sur un large spectre (circulation, fréquentation, cadastre, données financières ...).

C'est pourquoi la mise en place d'un Data Lake dans les collectivités devient aujourd'hui un enjeu prioritaire, de réappropriation et d'utilisation de leurs propres données. Il s'agit aussi un enjeu stratégique, ces données étant actuellement sous-utilisées, malgré plusieurs initiatives comme l'Open Data.

Dans cet article nous allons voir en quoi consiste la mise en place d'un lac de données dans une collectivité, et quels sont les nombreux avantages qu'on peut tirer d'un accès croisé et transversal à la donnée.


🧐 Mais qu'est-ce donc qu'un Data Lake ?

Un lac de données (Data Lake en anglais) est un vaste entrepôt de données qui facilite la prise de décision au sein d'une entité publique ou privée.

Le concept de data lake a été développé pour faciliter la transition et le changement du rôle des données : de la simple consommation par les services, à l’alimentation des systèmes d’aide à la décision.

Dans les collectivités territoriales, les données à stocker dans un Data Lake peuvent provenir de différentes sources :

  • Les applications internes des services : Finance, RH, Services techniques (...)

  • Les applications en contact avec les administrés : Facturation, État civil (..)

  • Les systèmes externes (Internet of Things) de partenaires comme les DSP.

Sur le plan technique, les données sont extraites, formatées et importées automatiquement depuis ces applications et systèmes. Ces données sont ensuite stockées dans le Data Lake pour qu’elles soient accessibles aux décideurs à travers des logiciels d'aide à la décision.

Sur le même sujet : Exploitation des données : 6 points à surveiller dans ma collectivité en 2021

👍🏼 Quels sont les avantages d'un Data Lake pour une collectivité ?

1 - Casser les silos & construire un référentiel commun

Vous l'aurez compris, un Data Lake vous permet de stocker les données temps réel de différentes provenances, en un seul endroit, constituant de fait une unique source de vérité pour toute la collectivité.

Ainsi, vous pouvez piocher dans l'ensemble de ces données et diffuser une information homogène à travers des indicateurs, dont les définitions sont partagées par tous les services. Il pourra alors s'instaurer un réel dialogue de gestion : les décisions se prendront plus rapidement et avec une réelle transparence.

De plus, la mise en place d'un Data Lake dans votre collectivité vous permet d'ancrer de bonnes pratiques au sein de vos directions et services :

  • Cela peut par exemple vous aider à détecter des failles et implémenter un meilleur processus de saisie des données par vos agents.

  • La mise en place du Data Lake engendre à très court terme un effet auto réalisateur pour la mise en place d'une comptabilité analytique par exemple. L'importance que prend la donnée en matière de prise de décision agit comme un catalyseur pour inciter les agents à être attentifs à la qualité de la donnée.

2 - Piloter des projets transverses & créer des indicateurs croisés

Mettre en place un référentiel commun permet également une transversalité dans la création de vos indicateurs de pilotage. Une telle base de données rend notamment possible l'analyse des centres de coûts au sein de votre collectivité, car elle agrège les données de coûts venant de différentes sources.

Par exemple, si vous souhaitez examiner l'activité de votre centre aquatique, vous devez accéder à l'ensemble de vos données de ce référentiel commun :

  • Les données d’exécution des lignes de budget allouées

  • La part du chapitre des paies (le 012)

  • Les taux d’occupation des postes qui y sont dédiés

  • La billetterie fournissant les entrées et les activités “consommées” par les usagers

En croisant ces multiples sources de données, vous pouvez ainsi analyser plus en détail un centre de coûts précis, en prenant en compte toutes les variables existantes.

Les indicateurs d'impacts sur la population (rapportés aux ressources allouées), sont indispensables pour le pilotage d'un centre municipal, et permettent de répondre à des questions capitales pour la collectivité.

À lire sur le même sujet : 6 exemples de tableaux de bord pour piloter votre collectivité.

Prenons l'exemple de la refonte des heures d'ouverture d'un centre municipal lorsque l'on a mis en place un data lake.

  • Intéressons-nous à la question "Devrions-nous laisser la piscine ouverte de 20h à 21h le mercredi soir ?"


Le problème sous-jacent est le suivi d'un indicateur clé : le coût unitaire d'une entrée à la piscine. Il est calculé comme suit : le coût financier et humain de fonctionnement, divisé par le nombre d'entrées en une heure.

Accéder à ce dernier sans lac de données peut prendre plusieurs mois (voir cas d'usage ci-dessous), et sans accès à cet indicateur il est très compliqué de décider rationnellement d'ouvrir la piscine une heure de plus le mercredi soir.

Par contre, si l'on a toutes nos données au même endroit dans un datalake avec un référentiel commun, l'indicateur coût unitaire est relativement aisé à construire.

Cet indicateur est ensuite simple à pérenniser puisque que sa construction est sauvegardée, le système ré-effectuant la même requête autant de fois que désiré. L'indicateur est alors accessible en temps réel.

Pour répondre à notre question, il faut maintenant regarder si le coût unitaire entre 20h et 21h le mercredi est inférieur au coût unitaire moyen sur le reste de la semaine. Si tel est le cas, il est préférable de laisser la piscine ouverte une heure de plus. Et si l'on cherche à faire des économies en impactant le moins possible les administrés, il suffit de regarder les heures où cet indicateur est le plus élevé, et d'adapter les heures d'ouverture en fonction.


Illustrons l'étude d'un coût unitaire dans le cas où vous n'avez pas mis en place de Data Lake.


Vous souhaitez suivre le coût d'une place en crèche. Vous avez donc besoin d'extraire :

  • Les données provenant de votre logiciel RH : le nombre d'assistantes maternelles par site, leur salaire, leur temps de travail.

  • Les données provenant de votre logiciel Finance :

  • Coût du bâtiment, des infrastructures attenantes, de l'équipement, de l'entretien.

  • Montants mandatés et réalisés par mois, par site lors de l'exercice budgétaire précédent.

  • Les données provenant de votre logiciel Petite Enfance :

  • Le nombre de réservations

  • Le nombre de présences

  • Le nombre d'heures facturées en fonction des enfants et du quotient familial des familles. Le tout en fonction des sites et des plages horaires.

Cela vous permet d'obtenir le coût des locaux, le coût des agents et les recettes de la crêche, et ainsi de calculer le coût d'une place.

En tant que DGS, vous devez donc demander ces données aussi bien à votre DRH, qu'à votre DAF et à votre Directeur.trice Petite Enfance.

Plus vous multipliez les interlocuteurs, plus cela prendra du temps avant que vous ne puissiez accéder à l'information souhaitée.

Le temps de formuler vos demandes à vos Directeurs.trices, le temps que ces dits-Directeurs.trices demandent éventuellement à un.e collègue, le temps de créer des requêtes précises sur les logiciels source, le temps d'extraire ces informations, le temps de mettre en forme ces fichiers Excel à rallonge pour vous les rendre lisibles (...).

Plusieurs jours, voire semaines se sont écoulés, avant d'enfin recevoir dans votre boite mail ces informations. Alors que vous les auriez obtenues instantanément avec un Data Lake.

De plus, maintenant que vous avez à votre disposition vos 3 documents Excel : qui va se charger de les lire, de les comprendre, de les croiser et d'en ressortir (enfin !) votre indicateur tant attendu ? Combien de temps cela va prendre à vos agents ?

Vous l'aurez donc compris : mettre en place un Data Lake pour ainsi regrouper toutes vos informations au même endroit vous permet de gagner en transversalité !

Ne pas mettre en place de Data Lake vous coûte donc très cher en termes de temps et d'énergie, mais c'est également prendre le risque de faire des erreurs évitables, lors de la ressaisie ou du traitement des données par vos agents par exemple.


3 - Préparer le futur


Terminons cet article en beauté avec un dernier argument de taille : votre Data Lake vous offre la possibilité de moderniser le fonctionnement de votre collectivité, et de préparer le futur.

A partir de données diverses qui ne sont parfois même pas liées entre elles, il est possible d'y détecter des schémas.

Par exemple, en utilisant l'Intelligence Artificielle il est possible de trouver un rapport entre la fréquentation des ALSH et les conditions météorologiques, entre les données sur le trafic urbain et la pollution, entre les niveaux de pollution et les absences maladies.

Toutes sortes de combinaisons, parfois même incongrues, pourraient alors être détectées automatiquement et ainsi apporter des informations-clés pour le bon fonctionnement de votre collectivité.

Un Data Lake ouvre donc le champs des possibles. Pour chaque nouveau projet (infrastructure, innovation ..), la faisabilité et le potentiel pourront être calculés en piochant directement dans les données brutes de votre Data Lake.

Le lac de données deviendra le fondement de l'administration de demain, la première pierre à l'édifice, afin que les collectivités puissent tirer profit de l'IoT.

Imaginez le pouvoir des données reliées entre elles. Mettre en place des caméras de surveillance pour renforcer la sécurité de votre ville. Utiliser efficacement des capteurs pour lampadaire afin d'économiser de l'énergie. Tous ces beaux projets ne pourront être réalisables financièrement et logistiquement que si vous avez l'infrastructure de données pour les étudier.

À noter que le volet numérique du plan France Relance permet de financer jusqu’à 50% les initiatives permettant de développer l’utilisation de la donnée dans les territoires, incluant entre autres les Data Lakes et les solutions d’aide à la décision (SID) et visualisation de données. Les collectivités ont jusqu’à mai 2021 pour déposer leurs demandes de subventions.

Si vous avez un projet qui rentre dans ce cadre (vous devez être un groupement de collectivité ou une collectivité de taille importante) contactez l’équipe Manty pour en discuter et être conseillé sur la marche à suivre pour profiter de ce financement France Relance.

À lire sur le même sujet : Les 7 étapes de la gestion de projet informatique dans une collectivité

💡 Le mot de la fin

Nous avons passé en revue les nombreux avantages liés à la mise en place d'un Data Lake. Cependant, cette solution n'est qu'une solution de stockage, ce qui est le premier niveau d'organisation nécessaire à une utilisation efficiente de vos données.

Une fois stockées, vos données se doivent d'être utilisées.

Afin d'optimiser votre temps et de prendre des décisions éclairées, il est impératif d'utiliser une solution de visualisation de données (Dataviz ou Business Intelligence en anglais), qui ira piocher des informations dans votre Data lake. Certaines grandes entreprises du privé utilisent les solutions de Palantir, Tableau ou Metabase.

Ces logiciels branchés sur votre Data Lake vont vous permettre d'en ressortir des indicateurs et tableaux de bord de pilotage, et ainsi de prendre des décisions comme ouvrir la piscine plus tard le mercredi soir; ou construire ou non une nouvelle école dans votre commune.

Manty propose une solution d'aide à la décision 100% dédiée aux collectivités, incluant l'installation d'un Data Lake unifié. Ainsi, ayez une seule plateforme et un seul prestataire pour vos données. Prenez rendez-vous ici pour une démonstration avec un chargé d'affaires ou cliquez ici pour en savoir plus.

* Pour faciliter la lecture de l'article, les notions de data lake et de data warehouse sont confondues.

Lucas Gaillard & Julia Lacolle

Spécialistes des collectivités locales