opendata: La Poste, posture ou imposture ?

 
Depuis la publication de ce billet, La Poste a finalement diffusé en opendata le fichier officiel des codes postaux sur data.gouv.fr le 14 novembre 2014 et a signé le même jour un accord avec l'IGN, OSM France ainsi que le SGMAP/Etalab pour la constitution de la Base d'Adresses Nationale qui sera disponible sous licence libre.
 
Samedi dernier s'est tenu le troisième acte de "la démarche DataPoste" où "Le Groupe La Poste se positionne comme un acteur incontournable de l’Open Data."
Ce n'est pas moi qui le dis, mais le groupe La Poste sur son site: http://legroupe.laposte.fr/en/Innovation/L-Open-Data-accelerateur-d-innovation-pour-Le-Groupe-La-Poste
« L’Open Data c’est avant tout un état d’esprit, une posture et des valeurs. Pour Le Groupe La Poste, incarner ces valeurs, c’est faire preuve d’ouverture et d’un esprit innovant. L’Open Data peut également être une opportunité pour créer de nouveaux services accessibles par Internet ou via une application mais c’est aussi la possibilité d’améliorer nos bases via le crowdsourcing, comme par exemple la base des boîtes aux lettres dont la qualité pourrait être encore supérieure si le public apportait des corrections aux erreurs qu’il constate. »
 
Un état d'esprit, une posture et des valeurs...
L'état d'esprit de l'opendata est le libre partage de données à mi-chemin entre une demande de transparence et un gisement d'innovations. Des données donc, en volume, en qualité et avec une licence libre qui permet de les utiliser le plus librement possible sans présager des usages qui en seront faits. Oui, l'ouverture est une valeur centrale, qu'on retrouve dans la racine "open".
Le terme de "posture" m'a un peu surpris, ce n'est pas un mot qu'on entend souvent accolé aux concepts d'opendata. Il est bien adapté si on le prend dans le sens de comportement et conduite mais beaucoup moins dans le sens d'une attitude ou d'une pose qu'on prendrait de façon un peu artificielle.
Je constate que le "crowdfixing" est aussi au programme avec un exemple fort à propos.
 
opendata = open + data
Désolé de devoir rappeler les évidences, mais le terme opendata s'appuie sur deux mots centraux. On parle bien d'ouverture, de liberté (open), et de données (data).
Quelles sont dans le cas présent les données ouvertes par La Poste à ce jour ?
 
Par données ouvertes, je parle bien sûr de données disponibles sous licence libre et sur data.gouv.fr, seuls 2 jeux de données sont disponibles depuis avril 2012 (bientôt 2 ans) :
 
  • la liste des "points de contact" et leurs horaires d'ouverture
  • la liste des espaces de retraits So Colissimo
Hum... comment dire... c'est maigre pour un "acteur incontournable de l'opendata", non ?
 
Personne n'a encore pensé aux codes postaux ? C'est une donnée de base actuellement non accessible en opendata (sauf data-bricolages pas très légaux: http://georezo.net/forum/viewtopic.php?id=90124).
Je n'ose même pas aborder le sujet des adresses... serpent de mer avec le projet de Base d'Adresse Nationale qui n'avance pas depuis plus de 12 ans (cf: https://drive.google.com/file/d/0B0urI9Y66dXNc014X1d6RE03azJNaEM0eEUwWW1MTGRCRjFJ/edit?usp=sharing)
 
dataposte... une lueur d'espoir ?
Voyant le Groupe La Poste enfin s'intéresser à l'opendata avec sa démarche "dataposte", on peut s'attendre à un petit peu plus de data et surtout des données utiles au plus grand nombre. La remise des prix du 4e concours dataconnexions organisé par la mission Etalab avait même eu lieu au siège du Groupe La Poste.
Le discours est enthousiasmant: "Avec DataPoste, [le Groupe La Poste] s’engage dans une démarche d’ouverture et d’exploitation des données postales à grande échelle."
Engagement, ouverture, grande échelle... on va voir ce qu'on va voir et tout le monde retient son souffle jusqu'au 8 février, date du concours "datajam", où de nouvelles données seront mises à disposition.
 
open ? pas vraiment
Donc rendez-vous au datajam... et là quelques données supplémentaires sont mises à disposition des participants ne sont pas si croustillantes. Ah oui, petit détail d'importance: ces données ne sont utilisables que dans le cadre de ce concours, pas en dehors, donc pas après.
Après 2 tweets sans réponse, je lis le règlement du concours (11 pages, rien que ça autant dire que comme sûrement tout le monde je ne l'avais pas lu) et, oui, c'est marqué noir sur blanc:
"Toutes autres données de La Poste, portées à la connaissance et mises à disposition des Participants pendant la durée du Datajam sont la propriété exclusive de La Poste et/ou de ses filiales. Ces données ne pourront être utilisées que dans le strict respect du Règlement, uniquement pendant la durée du Datajam, et afin de réaliser l’objectif du Datajam. Aucune utilisation ni exploitation, commerciale ou non, de ces données ne pourra être faite après le Datajam sans l’accord préalable de La Poste, ce que le Participant reconnaît expressément. Si nécessaire, une licence d’utilisation des données devra être signée par les Participants au jour du Datajam. Dans ce cas, la participation au Datajam ne sera effective que si le Participant accepte les termes de la licence."

Grosse déception: en gros, nous allons passer une journée à coder un prototype qui ne pourra pas voler de ses propres ailes librement si nous le souhaitons.
Remarquez, on a vu pire comme concours, là au moins notre travail nous appartient à peu près, pas comme dans un hackathon récent où tous les droits étaient cédés à l'organisateur du concours... une forme de travail gratuit.
On s'éloigne un peu de l'état d'esprit, non ? La posture ressemble à une pose...
 
Quand la com prend le dessus...
Pour une fois, je n'étais pas mentor et j'ai participé à ce concours histoire d'avoir une autre point de vue sur ces évènements auxquels j'ai souvent pris part. C'était donc ma première participation de ce type à ce que je croyais être un hackathon, c'est-à-dire un sprint où en un temps très court on teste une idée en créant un prototype qui s'appuie sur des jeux de données ciblés.
 
Notre petite équipe avait pris le parti de répondre à 2 des 5 défis:
  • défi #1 : points de contact postaux et territoires
  • défi #5: collecte de nouvelles données et croisements
Il s'agissait de mettre en valeur un jeu en opendata (celui des bureaux de poste) et un jeu qu'on qualifiera de "beta", c'est-à-dire celui des boites aux lettres.
Le croisement avec d'autres données a été fait sur les emplacements de parking réservés aux personnes handicapées (source Préfecture de Police et OpenStreetMap), et la collecte de nouvelles données devait servir à améliorer le jeu de données des boites aux lettres reconnu comme n'étant pas au top et à compléter la liste des parkings réservés.
 
Le datajam durait une seule journée, c'est très court. Habituellement les hackathon s'étalent un peu plus, sur 48h minimum ce qui permet grâce à une ou deux nuits blanches supplémentaires de produire quelque chose de fonctionnel et de ne pas rester dans le conceptuel.
Or, la communication a rapidement pris le pas sur le reste. Il nous faut produire une vidéo ! Ah bon ? Il nous faut un scénario de présentation, et pourquoi pas une marque, un logo, des goodies à distribuer ?
Doit-on vraiment présenter un prototype qui s'appuie sur des données ouvertes ou plutôt une vidéo ou de magnifiques slides d'un concept ou d'une idée ?
 
And the winner is...
Que penser des 3 lauréats ?
Pour certains, aucun jeu de données n'a été utilisé. C'est pourtant la base du concours, c'est même une obligation faite par le règlement un petit peu oublié.
Les données semblent passer complètement au second plan dans tout ce ramdam. Au final, aucunes nouvelles données n'ont été mises en opendata, rien de nouveau donc depuis avril 2012 ce n'est donc peut être pas pour rien qu'elles passent en arrière plan dans ce palmarès.
Le winner c'est surtout la communication du Groupe La Poste et ce n'est pas le monde de l'opendata, qui attend toujours des données structurelles essentielles tels les codes postaux ou les adresses (j'en ai déjà parlé ?) pour n'en citer que deux qui à défaut d'être librement disponibles nous sont sans arrêt demandés dans OpenStreetMap.
 
Post-pitch
Pour devenir "un acteur incontournable de l’Open Data", il faut ouvrir ses données et le faire sans arrière pensée.
C'est un acte qui ne doit pas se faire avec une attente de retour directe, en visant tel usage ou tel autre pour favoriser telle ou telle innovation car c'est le meilleur moyen de brider l'ouverture et les innovations.
Un acteur incontournable de l'opendata aurait déjà depuis longtemps mis à disposition des essentielles pour de très nombreux acteurs.
Sur les codes postaux, peut-on me dire pourquoi ces données ne sont toujours pas publiques et libres ?
Pour les adresses, en ne partageant pas ces informations, La Poste n'aide pas à la création d'une référence publique. Ceci lui coûte chaque année énormément d'argent... une part sûrement non négligeable des "NPAI".
Cela fait aussi que ses boites aux lettres de rues sont relativement mal positionnées dans les fichiers entre aperçus samedi, tout comme les bureaux de postes publiés en 2012 étaient pour certains très mal positionnés à partir d'un géocodage très approximatif.
Il y a tellement à gagner et si peu à perdre... et pas qu'en image !
 
Le Groupe La Poste se positionne comme un acteur incontournable de l’Open Data ? Chiche, c'est quand vous voulez !
 

 

A lire aussi :
  

Commentaires

Après examen rapide des données de point¨s de contact du réseau postal ( https://www.data.gouv.fr/fr/dataset/liste-des-points-de-contact-du-reseau-postal-francais-et-horaires ) il s'avère que la qualité de l'information n'est pas extraordinaire: 22% des adresses géocodées sont du milieu de commune et 15% du milieu de rue (merci à eux de l'indiquer tout de même). En un sens, c'est pas si mal pour du géocodage, mais enfin bref, si la Poste a une solution de géocodage qui connait les adresses de ses bureaux, elle n'a pas daigné l'utiliser...

Etienne