La boîte à outils (quasiment gratuite) du journaliste de données

NAE_1011

Peu importe le domaine, avoir de bons outils, c’est essentiel, et mes amis et collègues me demandent bien souvent lesquels j’utilise. Alors je me suis dit qu’une réponse écrite à cette question ferait un bon article ici.

De manière générale, vous aurez toujours besoin d’à peu près les mêmes fonctionnalités de base: ramasser des données, les nettoyer et les trier, les analyser, puis les rendre digestes pour publication.

La liste que je vous présente humblement ci-dessous est loin d’être exhaustive. Ce sont simplement mes préférences du moment, généralement gratuites, open source et multiplateformes. Disons que c’est un bon point de départ.

Si vous avez d’autres suggestions, n’hésitez pas!

Tableur:

Tableur

Outil de base! Indispensable pour rapidement passer au travers de quelques centaines ou milliers de lignes. L’utilisation de formules en décuple le potentiel. Aussi pratique pour créer des graphiques simples et présentables.

Défaut: Pour l’instant limité à un million de lignes. Lent quand le nombre de lignes devient important.

Calc de Open Office : Une suite bureautique gratuite, open source, avec un tableur très efficace, capable de faire grosso modo la même chose qu’Excel de Microsoft Office.
Google Sheets: Gratuit avec une adresse Gmail. Possibilité d’utiliser des formules et même des tables pivots. Mais limité à 2 millions de cellules (donc, un document avec 4 colonnes ne pourrait avoir que 500 000 lignes).  Tout est hébergé sur Google Drive, ce qui peut causer des ralentissements avec les fichiers volumineux. Quand même intéressant!

Système de gestion de base de données:

MySQL

Quand vos fichiers contiennent plus d’un million de lignes, il faut sortir les gros outils!

MySQL Community Server avec MySQL Workbench: Gratuit et open source. Capable de traiter une base de données de plusieurs milliards de lignes si nécessaire. Très utile pour joindre des bases de données ensemble. Très facile d’exporter une sélection aussi.

Défaut: Pas très accessible pour le néophyte. Fonctionne avec des requêtes (queries) qu’il faut taper à la main. Par conséquent, il faut connaître la syntaxe!

Visualisation de données:

Tableau

Rien de mieux que de voir vos données pour les comprendre. Et à un moment donné, il faudra aussi les montrer!

Tableau Public: Logiciel normalement très couteux (999$), mais décliné en une version gratuite très impressionnante. Pratique pour créer des graphiques interactifs facilement publiables sur un site web. Outil de visualisation mais aussi d’analyse. La compagnie produit elle-même de nombreux tutoriels.

Défaut: Pas toujours intuitif. Limite d’un million de lignes et sauvegardes uniquement sur leur serveur. Si vous êtes membre de IRE (Investigative Reporters and Editors), vous avez droit gratuitement à la version Desktop, qui vous permet de travailler avec vos fichiers sur votre disque dur, avec autant de lignes que vous le souhaitez.

Analyse spatiale et cartographie:

QGIS

Quand vous avez des coordonnées géographiques, placer les éléments sur une carte et les recouper avec une autre base de données peut complètement changer votre perspective sur les informations que vous détenez.

QGIS: Gratuit et open-source. De nombreuses ressources en ligne. Grand nombres d’extensions disponibles également. Je commence tout juste à m’en servir. J’utilisais ArcGIS auparavant, qui n’est pas gratuit du tout (1500$ pour la version de base!) et juste disponible sur PC.
CartoDB: Comptes gratuits et payants disponibles. Un logiciel en ligne que je commence aussi à apprivoiser. Les données sont hébergées sur leur serveur et la carte finale est facilement intégrable à un site web. Possibilité de joindre des bases de données différentes, de créer des zones tampons ou de calculer des distances. Plein de fonctions intéressantes qui étaient jusqu’alors réservées aux gros logiciels comme QGIS et ArcGIS.

Défaut: Compliqué! Préparez-vous à passer quelques heures à faire des tutoriels avant de maîtriser les fonctions avancées.

Convertisseur de fichiers:

Cometdocs

Que faire quand les données se trouvent sur des pdfs? On les convertit!

Cometdocs: Convertisseur en ligne. Très performant. La version gratuite vous permettra de réaliser cinq conversions par semaine. Si vous êtes membre de IRE, vous avez droit à la version pro gratuitement (conversions illimitées). Sinon, c’est malgré tout très abordable.

Défaut: Les fichiers convertis ne sont pas toujours très propres. Mais c’est mieux que rien!

Éditeur de texte:

Sublime Text

Si vous programmez, un logiciel capable de reconnaître le langage que vous utilisez se révèle bien pratique. En colorant les fonctions et les éléments de votre code, l’éditeur de texte vous permet de mieux vous y retrouver.

Sublime Text 2: Très rapide, avec toutes sortes de raccourcis très pratiques pour coder plus rapidement. De nombreuses extensions existent également. Si vous utilisez Cyberduck pour votre gérer votre site web via ftp, Sublime Text est automatiquement pris en charge, ce qui vous permet de modifier vos fichiers directement sur votre serveur!

Défaut: Je n’en ai pas trouvé jusqu’à présent!


Vous avez de quoi vous amuser maintenant! N’oubliez pas de faire un petit don aux auteurs de ces programmes si on vous le demande et si vous le pouvez. Les logiciels open source ne tombent pas du ciel! Et écrivez-moi si vous avez d’autres suggestions!

Je prépare quelques articles sur certains de mes projets. Vous aurez bientôt l’occasion de voir ces logiciels en action. Suivez moi sur Facebook, Twitter and LinkedIn pour ne rien rater!

2 commentaires sur “La boîte à outils (quasiment gratuite) du journaliste de données

  1. Denis Caron

    Intéressant profil et intérêt.
    Bienvenue chez Transcontinental! On aura peut-être à travailler ensemble parfois.
    Je pense que Yannick saura bien profiter de tes connaissances.
    Et puis, c’est drôle, j’ai étudié en géo avec jean-Hugues Roy.

    Denis Caron
    Géomarketing
    TC Média

    Répondre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *