Les enjeux d'un référentiel "communes"

Lors du premier opendatacamp organisé par la mission Etalab fin novembre 2013, j'ai proposé un atelier sur un référentiel des communes.

Ceci coïncidait avec l'achèvement proche du tracé des limites de communes françaises dans OpenStreetMap et c'était l'occasion de se poser quelques questions sur les usages potentiels de ce genre de référentiel, des ré-utilisateurs, de leurs attente et aussi des problèmes liés à un tel référentiel.

Notre atelier a rapidement tourné en un quizz avec une question basique: combien y a-t-il de communes en France ?

Je ne pensais pas qu'on passerai autant de temps à répondre à cette question d'apparence simple et ce tweet a eu pas moins de 37 retweets ce qui doit être mon record !

Comme vous le voyez, des nombres assez variés sont sortis de nos explorations de données, en fonction de la source et du jeu de données. Seules 2 sources semblaient d'accord l'INSEE et le Ministère de l'Intérieur avec 36681 communes.

L'INSEE publie le COG (Code Officiel Géographique) sur sont site web. Fin novembre c'était le COG au 1er janvier 2013 qui était disponible. C'est comme son nom l'indique la source Officielle. L'autre jeu de données qui coïncidait était celui du Ministère de l'Intérieur disponible sur data.gouv.fr et qui indique l'appartenance à un EPCI (communauté de communes, d'agglos, etc) là aussi au 1/1/2013.

Pour le chiffre du cadastre, ceci provient d'un script maison qui va chercher chaque nuit sur le site du cadastre la disponibilité au format vectoriel ou image du cadastre des communes. Ce n'est donc pas à proprement parlé un jeu de données. Pour les chiffres de la DILA, ce sont les emplacements de mairies... donc un jeu de données soit incomplet soit il y a plus d'une centaine de communes sans mairie. Pour Territoria, je n'ai pas le descriptif exact.

Pour l'IGN, deux jeux de données spécifiques aux communes sont disponibles, le GEOFLA qui contient l'emprise géographique approximative et le RGC (Registre Général des Communes) qui est un fichier texte listant les communes et des informations les concernant, un jeu assez proche du COG. Là les données datent de 2012 ce qui explique en partie l'écart.

Certains écarts trouvent leur explication dans le contenu du jeu de données. Y a-t-il bien les DOM ? Les arrondissements municipaux (Paris, Lyon, Marseille) ont ils été mélangés aux communes ? En gros compte-on la même chose ?

D'autres écarts sur des sources à considérer comme des références (COG, GEOFLA, RGC) proviennent des mises à jour et du millésime des données. Il est par exemple étonnant que fin novembre 2013 GEOFLA et RGC n'aient pas été remis à jour depuis 2012.

Une donnée mouvante

En effet, les communes évoluent, fusionnent, se séparent, mais aussi changent de nom, voient leur territoire changer, bref c'est un jeu de données en perpétuelle évolution. Ces évolutions pourraient par mesure de simplification de leur suivie être appliquées par exemple le premier janvier de chaque année, mais non ce serait bien trop simple (ou alors personne n'y a pensé).

Donc le chiffre de 36681 du COG qui semblait le plus exact était en fait lui aussi inexact à la date de l'opendatacamp car depuis le 1er janvier 2013, au moins une commune a fusionné avec sa voisine le 28 février 2013.

Pour se tenir au courant il faut faire la lecture du JORF (Journal Officiel) qui publie ces changements. Le texte est disponible sur le site légifrance, mais sans les plans et cartes associés pour ce qui est des changements de territoires entre deux communes. Ceci bien sûr ne facilite pas la tâche pour des données cartographiques.

Par mesure de simplification, je suggère vraiment que toutes ces modifications soit officielles au 1er janvier de chaque année et jamais en milieu d'année. Ceci permettrait à minima d'avoir un jeu de données annuel stable et donc bien plus facile à suivre.

Un besoin de millésimes

Il est aussi important que les différents millésimes de ce jeu de données soient facilement disponibles, ce qui n'est pas le cas aujourd'hui. l'INSEE publie bien l'historique des modifications du COG depuis 1943, mais reconstituer le COG de 2005 n'est pas quelque chose de facile.

Pareil pour l'IGN et le GEOFLA, avoir les limites de communes au 1er janvier de chaque année et conserver la publication des millésimes précédents est très utile car ce jeu de données sert souvent à faire des datavisualisations par exemple de statistiques parfois de l'année en cours, mais souvent établies sur des données issues des années passées. Comment représenter sans erreur la population par commune en 2010 alors qu'on n'a plus à notre disposition les découpages des communes de 2010 ?

C'est ce que nous allons tenter de faire à partir des données OpenStreetMap dans les semaines à venir vu que ça y est, depuis l'opendatacamp nous avons fini de tracer les limites des communes françaises (hors Mayotte).

Le découpage communal est en effet un socle sur lequel de multiples découpages s'appuient (EPCI, électoraux, ressort judiciaire, différents syndicats de communes, carte scolaire rectorats et académies, etc). C'est donc une donnée essentielle, fortement réutilisée et etrèmement utile ! Son libre partage est donc essentiel.

 

Ah oui... dernier point... sauf erreur de ma part à la lecture du JO 2013, il y aurait à l'heure où je poste ce billet 36680 communes françaises.

Mise à jour du 1-10-2014: il y a actuellement 36683 communes en comptant St-Pierre et Miquelon et la "dé-fusion" de Bihorel et Bois-Guillaume intervenue le 1/1/2014...

Mise à jour du 1-1-2015: 24 communes de moins en ce premier janvier, issues de fusions... on est donc à 36659 (sauf erreur)