Scipt en Python 3.4 permettant de convertir l'ordre du jour en PDF du Conseil municipal de la Ville de Montréal en format CSV.

Ordre du jour sur : http://ville.montreal.qc.ca/portal/page?pageid=5798,85945578&dad=portal&_schema=PORTAL

Ce fichier est converti en fichier TXT avec pdf2txt.

C'est ce fichier texte, ne contenant que les décisions portant sur des contracts qui est traité.

Le fichier PDF original fait 250 megs. Il n'a pas été testé si la conversion en TXT fonctionne pour un fichier aussi gros.

Pour l'instant, l'extraction a été limitée aux pages pertinents.

Mais éventuellement, il serait bien d'automatiser tout le processus.

Pour les traitements, utilisez un répertoires C:\contrats.

Il s'agit d'une première version du script. Il se peut donc qu'il y ai des cas particulier qui soient mal traités selon le texte source.

This scraper has not yet been run

Statistics

Total run time: less than 5 seconds

Total cpu time used: less than 5 seconds

Total disk space used: 58.3 KB

History

  • Created on morph.io

Scraper code

odj_cm-contrats