Automatisation des mises à jour de BANO

La Base d'Adresses Nationale Ouverte (BANO) vient de passer un nouveau cap, l'automatisation de ses mises à jour.

En effet, depuis les mises à disposition des première données du projet (mai 2014), nous avons travaillé à accélérer les différents processus afin de les rendre si possible quotidiens.

Le cycle de mise à jour de BANO consiste à:

  1. mettre à jour la liste des communes disponibles sur cadastre.gouv.fr pour déterminer celles qui sont passées en vectoriel ou qui ont une nouvelle version disponible
  2. collecter les données "Adresses" sur les communes concernées
  3. collecter les données "Adresses" de toutes les communes dans OSM
  4. combiner ces 2 sources ainsi que le FANTOIR et les données opendata
  5. dédoublonner le contenu de BANO et l'exporter au format CSV, shapefile et RDF (turtle)
  6. publier la version CSV sur le projet github
  7. mettre à jour les tuiles du rendu BANO

Sur les premières versions de BANO, certaines étapes pouvaient prendre plusieurs jours. Des systèmes de cache et des optimisations on permis de descendre à quelques heures. Puis la parallélisation des processus sur 8 threads a permis de descendre en dessous d'une heure.

Le cycle complet prend désormais moins de 2h. Il est donc maintenant lancé quotidiennement vers minuit, pour avoir chaque matin avec son café des données adresses plus fraîches que vos tartines !

Pour suivre l'évolution du contenu de BANO, celui-ci est graphé par notre serveur munin: http://munin.openstreetmap.fr/bano-month.html