Journalisme de données 101


Journalisme de données 101

Le mercredi 25 novembre 2015

Par Anne Fleischman

Exploiter les tonnes de données numériques en libre accès pour donner un nouvel élan au journalisme, c’est la promesse du journalisme de données. Survol d’un eldorado à défricher avec Jean-Hugues Roy, professeur à l’École des médias de l’Université du Québec à Montréal.

On entend souvent parler du libre accès aux banques de données sur Internet. En pratique, qu’y trouve-t-on?

C’est extrêmement varié : des informations municipales, des états financiers et, bien sûr, une foule de données issues de la recherche scientifique… Tout dépend de ce qu’on cherche. La plupart des données sont accessibles relativement facilement, par exemple, en utilisant les mots « database » ou « system » dans Google ou directement dans les sites qui nous intéressent. Les sites gouvernementaux comme Statistique Canada, les différents ministères ou encore Bibliothèque et Archives nationales du Québec (BAnQ) sont des sources très utiles pour dénicher du matériel intéressant.

Les données trouvées en ligne sont-elles utilisables directement?

L’extraction des données, ou scraping, est la deuxième étape. Les fichiers qui sont déjà en format .csv ou .tsv pourront facilement être traités par des tableurs comme Excel. Pour de très grosses banques de données (plus d’un demi-million d’enregistrements), on devra utiliser un langage de manipulation des données comme SQL. Il arrive aussi que les données aient besoin d’un bon « nettoyage » quand le fichier n’est pas homogène : majuscules et minuscules, écriture des dates, unités de mesure dans des systèmes différents, accents…  Une application comme Google Refine peut être d’un grand secours.

Pour faire du journalisme de données, a-t-on besoin de devenir un pro de l’informatique?

Pas nécessairement, mais quand les données ne sont pas téléchargeables directement, on doit programmer des outils d’extraction, ce qui nécessite quelques connaissances rudimentaires. Pour ceux que ça intéresse, il existe des outils en ligne ou des livres qui peuvent aider. Sinon, avoir un collègue ou un ami qui s’y connait est très utile.

Comment faire « parler » les données?

Notre travail consiste à donner du sens aux données. Une fois la moisson faite, il faut jouer avec comme de la plasticine… On peut par exemple créer des tableaux croisés dynamiques qui nous permettront de voir se dessiner des tendances ou des liens. L’important est de se poser la bonne question dès le départ, c’est une démarche scientifique. Il faut faire attention de ne pas créer des liens là où il n’y en a pas et apprendre à tirer les bonnes conclusions des liens que l’on découvre. Le journalisme de données est avant tout un travail de journaliste.

Avez-vous un exemple précis?

Imaginons qu’on décide de travailler sur les liens entre les résultats des dernières élections et la présence des différents partis sur les médias sociaux. On pourrait facilement trouver des données à exploiter et, peut-être, faire des liens. Mais de là à en tirer de véritables corrélations, c’est autre chose.

Y a-t-il une meilleure manière de présenter visuellement les données?

La présentation peut être faite sous forme de carte, de graphique ou encore de tableau. C’est une nouvelle manière de raconter une histoire. Mais ce nouveau style narratif ne remplacera pas l’écrit : on aura toujours besoin d’ajouter un texte, en plus d’expliquer ce qu’on présente, et d’aller plus loin dans la réflexion.

Avez-vous un conseil à donner à ceux qui veulent se lancer?

Le journalisme de données est un outil de plus dans le couteau suisse du journaliste. Cette nouvelle source documentaire peut être extrêmement riche… quand elle est exploitable. Par exemple, quand on fait des demandes d’accès à l’information, il faut penser à demander des fichiers numériques et pas des documents en format papier. Il faut aussi être patient et ne pas sauter trop vite aux conclusions, car il arrive à tout le monde de faire des erreurs quand on entre les données, ce qui peut donner des maux de tête! Enfin, se replonger dans les cours de statistiques peut être une bonne idée.

Anne Fleischman a remporté la bourse Fernand-Seguin en 2000 avec un article sur les langues signées. Pigiste depuis quelques années après avoir été rédactrice en chef du magazine Pluie de science, elle travaille notamment dans le domaine muséal comme recherchiste et rédactrice. 

Légende : Jean-Hugues Roy publie un blogue sur le journalisme de données dont est tirée cette illustration : http://jhroy.ca/

 

> Retour à la liste des nouvelles