Intégration des stations du réseau ferré RATP

Voir les mises à jour à jour en fin d'article

La RATP a libéré début juillet 2012 plusieurs jeux de données en opendata sur le site http://data.gouv.fr et sur son site http://www.ratp.fr/opendata/

Deux jeux de données peuvent être intégrés dans OpenStreetMap:

  • les stations du réseau ferré
  • les points de ventes (débits de tabac, bar, magasins de presse, etc)

Je me suis attelé au premier jeu, les stations.

La licence: compatible avec OSM ?

Comme tout fichier disponible via le mouvement opendata, la première étape consiste à vérifier la compatibilité de sa licence. Dans ce cas, il s'agit de la licence LO/OL préconisée par Etalab et elle est parfaitement compatible CC-by-SA et ODbL.

Les données fournies

La deuxième étape consiste à vérifier les données libérées. Sont-elles homogènes, précises ?

Les informations disponibles sous forme de fichier csv (dans le cas présent 'c' voulant dire '#') sont:

  • REF: une référence que je garderai pour conserver le lien avec les données RATP à l'avenir, pour une éventuelle mise à jour ou pour d'autres données qui pourraient être libérées ultérieurement et qui utiliseraient le même numéro de référence.
  • LATITUDE/LONGITUDE: en degrés WGS84, avec jusqu'à... 14 décimales, soit une précision de l'ordre de l'Ångström (1 dixième de milliardième de mètre) !
  • NOM1: le nom de la station
  • NOM2: l'emplacement (ville ou arrondissement parisien)
  • TYPE: le type de station (metro, tram ou rer)

Premier contrôle... la précision de la géolocalisation

Pour ce faire, j'ai commencé par une simple visualisation sur le fond de carte OpenStreetMap habituel afin de déterminer sur quelques stations que je connais bien si le positionnement est correct. J'ai utilisé l'outil en ligne csvmap actuellement en développement chez logisima.

Visualisation à l'aide csvmap des données RATP

Première carte de ce type faite avec cet outil et quelques minutes. Vraiment très prometteur !

La localisation semble relativement correcte mais j'ai quand même un doute sur le fait qu'elle corresponde au barycentre des accès comme c'est indiqué sur le site data.gouv.fr. Sur les stations pour lesquelles les bouches de métro sont présentes dans OSM cela ne semble pas très cohérent.

Comme souvent, il n'est pas possible d'importer ce fichier tel quel sans une vérification systématique.

Deuxième contrôle... la description des stations

Là, il n'y a pas grand chose à se mettre sous la dent... le nom, le type et la référence interne RATP. Ce fichier ne va donc pas apporter beaucoup de nouvelles informations dans OpenStreetMap mais va au moins servir à valider celles présentes et contrôler qu'il ne manque pas de station.

Pour les noms, il y a un petit problème... les libellés ne sont pas homogènes et l'usage abusif du tiret est parfois étonnant. Pêle mêle on a du "Alexandre-Dumas" et "Franklin-Roosevelt" ont droit à un tiret mais pas "Etienne Marcel" ni "Félix Faure" et les inévitables libellés tout en majuscules "LIBERATION", etc.

Donc pour les noms, ça manque clairement d'homogénéïté... d'autant plus qu'ils ne correspondent toujours pas à ceux figurant sur le plan de métro aussi libéré par la RATP.

Le champ TYPE semble correct, et le champs REF d'origine RATP n'est pas vérifiable, il a au moins l'air d'être bien unique.

Bilan avant intégration

  • La localisation devra être vérifiée une à une, manuellement... je m'aiderai aussi des images aériennes de Bing.
  • Seuls les champs TYPE et REF pourront venir compléter les objets OSM existants avec les tags "type:RATP" et "ref:FR:RATP"
  • Les NOMS pourront être vérifiés aussi manuellement (ceux présents dans OSM ne sont pas forcément homogènes), parfois à mettre en "alt_name"

Les outils utilisés pour intégrer les données

J'ai utilisé JOSM pour intégrer les données ainsi que 2 plugins: opendata et conflation.

Le plugin opendata permet de transformer très facilement un fichier CSV en données OSM. Il me faut par contre remplacer ce # utilisé comme séparateur par un autre plus habituel.

Le plugin conflation, lui, permet de faire le rapprochement entre deux séries d'objets OSM. Il se base sur la position de ceux-ci et sur leurs attributs pour trouver les correspondances. Après analyse il sort 3 listes, celles des objets où une correspondance a été trouvée, celle des objets présents seulements dans la liste de référence et celle dans la liste "sujet".

Il me faut donc charger les stations de métro, rer et tram de la région parisienne dans JOSM, ce que je fais grâce à notre XAPI et la commande "Ouvrir un emplacement" de JOSM :

http://api.openstreetmap.fr/xapi/xapi?*[bbox=1,48,4,50][railway=station|tram_stop][@meta]

Le plugin conflation trouve les correspondances et il ne me reste plus qu'à les valider après correction une à une... cela prendra quelques heures et quelques clics de souris...

J'en profite pour compléter de temps en temps les liens wikipédia (wikipedia=* wikipedia:fr=*)... avec le plugin "wikipedia" de JOSM.

Bilan après intégration

Le résultat est visible ici (grâce à l'excellent xapiviewer de Nicolas Dumoulin):

Je me suis amusé à calculer la différence de localisation des stations entre les données OSM et celles publiées par la RATP. En moyenne il y a 50m d'écart, sur le réseau métro  et tram, les différences peuvent dépasser 150 à 200m, et sur le réseau RER en particulier les lignes non gérées par la RATP, là on peut parler d'erreurs avec un record de plus de 15km pour 2 stations. Il semble que ce fichier a donc été constitué de plusieurs sources, certaines d'origines interne à la RATP (métro/tram et une partie du RER) et de qualité relativement correcte, et de source externe (sûrement SNCF pour la partie RER avec les plus grosses erreurs).

Il reste encore du travail d'harmonisation à faire sur les noms des stations dans OSM, les liens wikipédia pas tous présents et quelques autres vérifications.

De mémoire, il ne manquait que quelques stations dans OSM, station de RER Bussy-Saint-Georges, Bagneux et Arcueil-Cachan qui avait disparu suite au passage du robot de migration des données pour l'ODbL.

Ajout du 25-08-2012

Les liens wikipédia des stations de métro sont désormais tous renseignés... une vérification n'est pas inutile, n'hésitez pas !

Prochain chantier, l'harmonisation des noms. 

Ajout du 28-08-2012

L'harmonisation des noms des stations de Métro et Tram est faite.
J'ai retenu le principe suivant: pour les noms composés (Mouton-Duvernet), un tiret sans espace, pour les séparations (Réaumur - Sébastopol) un tiret avec espace.
C'est semble-t-il le même principe utilisé sur wikipédia. 
Ajout du fichier des stations Metro et Tram corrigé et complété.
 

Commentaires

Bonjour, tu parles d'un outil en ligne chez logisima mais tu ne donnes pas de lien ... Où peut-on trouver cet outil ?
Portrait de webmaster

Il suffit de cliquer sur l'image pour arriver sur le site de csvmap, mais je vais rajouter le lien.

Bonjour, Super travail! Peut-être ai-je loupé quelque chose d'évident, mais il me semble que le numéro de ligne n'est pas présent dans les informations rattachées à une station. Est-ce le cas ? Merci
Portrait de webmaster

Il ne l'est pas directement, mais indirectement via le système de "relations" présent dans les données OpenStreetMap.