Data journalism trainer and writer Paul Bradshaw explains how to get started in data journalism, from getting to the data to visualising it
* Guardian data editor Simon Rogers explains how our data journalism operation works
* Data journalism and data visualisation
par Dominique Cardon -
Le mouvement qui s'est constitué autour des "données ouvertes" et du "journalisme de données" ouvre un nouveau terrain au dialogue, déjà ancien, entre journalisme et sciences sociales1. La promotion du journalisme de données ne cesse en effet de vouloir faire du journaliste un chercheur en sciences sociales, doublé d'un informaticien et d'un infographiste. Certes, la révolution de l'information numérique, ses potentialités interactives, la multiplication des grandes bases de données, la participation du public et les nouveaux outils de visualisation créent un contexte tout à fait nouveau. Mais les chercheurs en sciences sociales reconnaîtront facilement leur travail quotidien dans certaines des promesses du journalisme de données : se coller devant des kilomètres de stats, de verbatim et d'archives [dire "données"] pour les interpréter [dire "narrativiser"] en produisant des corrélations parlantes [dire "storytelling"].
Et si les applications et les visualisations servaient de relais au monde journalistique ?
C’est bien beau d’avoir des informations, encore faut-il savoir comment les présenter à tous.
Si l’utilisation des Open Data est devenue un atout important dans le futur des applications dédiées à la vie citoyenne, sans une idée moteur permettant leur utilisation concrète, cela n’en reste pas moins des données en vrac, des relevés, des chiffres, dont la lecture de la part d’un citoyen lambda est au mieux vaguement informative et au pire fastidieusement inintéressante.
Chronologie de l'atelier de co-conception Visualisons Rennes
Quelques lignes pour raconter les spécificités de l'atelier Visualisons Rennes, véritable processus de co-conception des plus raccourcis, un sprint de deux journées et un beau succès à l'arrivée pour cette première expérience rennaise (les synthèses des travaux réalisés arrivent très rapidement).
"What were the data stories of 2011? Which figures gripped the headlines and defined the year? Find our top data stories of the year"
"This post is #6 in DailyTekk’s famous Top 100 series which explores the best startups, gadgets, apps, websites and services in a given category. Total items listed: 112. Time to compile: 8+ hours. Follow @DailyTekk on Twitter to make sure you don’t miss a week!
Update: Be sure to check out our latest post on infographics: Infographics Are Everywhere – Here’s How to Make Yours Go Viral."
Now that everyone loves them, early adopters and forward thinkers want to know what is next for the infographic. Is this just the beginning of a visual revolution, or have they already jumped the shark? This is an important question, especially for those who are making large investments in the medium, such as publishers and marketers.
Matt Stiles oversees data journalism on NPR's State Impact project.
by Alex Howard | @digiphile | +Alex Howard | Comment | March 6, 2012
inShare
14
Around the globe, the bond between data and journalism is growing stronger. In an age of big data, the growing importance of data journalism lies in the ability of its practitioners to provide context, clarity and, perhaps most important, find truth in the expanding amount of digital content in the world. In that context, data journalism has profound importance for society.
To learn more about the people who are doing this work and, in some cases, building the newsroom stack for the 21st century, I conducted a series of email interviews during the 2012 NICAR Conference.
Matt Stiles (@Stiles) , a data journalist based in Washington, D.C., maintains a popular Daily Visualization blog. Our interview follows.
Where do you work now? What is a day in your life like?
I work at NPR, where I oversee data journalism on the State Impact project, a local-national partnership between us and member stations. My typical day always begins with a morning “scrum” meeting among the D.C. team as part of our agile development process. I spend time acquiring and analyzing data throughout each data, and I typically work directly with reporters, training them on software and data visualization techniques. I also spend time planning news apps and interactives, a process that requires close consultation with reporters, designers and developers.
How did you get started in data journalism? Did you get any special degrees or certificates?
No special training or certificates, though I did attend three NICAR boot camps (databases, mapping, statistics) over the years.
Did you have any mentors? Who? What were the most important resources they shared with you?
I have several mentors, both on the reporting side and the data side. For data, I wouldn’t be where I am today without the help of two people: Chase Davis and Jennifer LaFleur. Jen got me interested early, and has helped me with formal and informal training over the years. Chase helped me with day-to-day questions when we worked together at the Houston Chronicle.
What does your personal data journalism “stack” look like? What tools could you not live without?
I have a MacBook that runs Windows 7. I have the basic CAR suite (Excel/Access, ArcGIS, SPSS, etc.) but also plenty of open-source tools, such as R for visualization or MySQL/Postgres for databases. I use Coda and Text Mate for coding. I use BBEdit and Python for text manipulation. I also couldn’t live without Photoshop and Illustrator for cleaning up graphics.
What data journalism project are you the most proud of working on or creating?
I’m most proud of the online data library I created (and others have since expanded) at The Texas Tribune, but we’re building some sweet apps at NPR. That’s only going to expand now that we’ve created a national news apps team, which I’m joining soon.
Where do you turn to keep your skills updated or learn new things?
I read blogs, subscribe to email lists and attend lots of conferences for inspiration. There’s no silver bullet. If you love this stuff, you’ll keep up.
Why are data journalism and “news apps” important, in the context of the contemporary digital environment for information?
More and more information is coming at us every day. The deluge is so vast. Data journalism at its core is important because it’s about facts, not anecdotes.
Apps are important because Americans are already savvy data consumers, even if they don’t know it. We must get them thinking — or, even better, not thinking — about news consumption in the same way they think about syncing their iPads or booking flights on Priceline or purchasing items on eBay. These are all “apps” that are familiar to many people. Interactive news should be, too.
This interview has been edited and condensed for clarity.
O'Reilly Radar (http://s.tt/1kTro)
"XML/SWF Charts is a simple, yet powerful tool to create attractive charts and graphs from XML data."
Outils Google pour réaliser des graphiques.
"Big Data, c’est toujours plus de données à analyser dans un univers où les outils sont plus puissants et où les méthodes d’analyse restent les mêmes. L’univers du Big Data, c’est un monde d’abondance de données dans lequel il existe finalement deux grandes raretés : le temps et la connaissance.
Nous croulons littéralement sous l’abondance d’informations. Ces informations viennent du téléphone, de l’internet, des réseaux sociaux, de l’entreprise… L'abondance de données est devenue une réalité qui croît de manière exponentielle : ce mouvement qui s’accélère est devenu une tendance lourde de notre société, qui impacte les relations BtoB, BtoC ou CtoC. Cette abondance provient évidemment des connexions et interconnexions de plus en plus poussées qui existent entre les personnes. Ces connexions ne sont pas sans ambiguïté. Un flou s’est installé où se mêlent l’intimité réelle et la simple « proximité de réseau ». Ce flou est entretenu par l’augmentation de la vitesse dans laquelle nous vivons. Les connexions sont rapides : l’instantané est un étalon.
Le Big Data, c’est l’ensemble des données collectées, stockées qui provient de multiples sources qui prend ses racines dans la multiplicité de connexions instantanées.
Quel impact cela a-t-il ?
Cette vie dans l’instantané occulte en partie l’observation des tendances de fond. Entre la temporalité très courte, l’immédiateté, et la réflexion sur le long terme, nous avons perdu le sens du temps et de la réflexion. Les personnes sont de plus en plus dans la réaction et ont des difficultés à être dans l’action.
Quels sont les défis à relever ? Il existe à mon sens 2 challenges :
D’abord, l’enjeu pour les DSI est de pouvoir collecter et stocker un volume d’information toujours plus volumineux. Au-delà du stockage, il s’agit de rendre accessible ces informations pour en permettre une analyse : le rôle des analystes sera de simplifier ces informations et d’en déduire un sens métier afin d’en permettre la compréhension pour la prise de décision.
Le 2e défi est la simplification de l’information. Simplifier, c’est enlever ce bruit de fond qui accompagne le véritable message. Cette simplification dépend du but poursuivi : développement commercial, notoriété, segmentation, typologie… Dès lors que la simplification des informations est aboutie, il faut la résumer pour la rendre accessible et interprétable à toute personne qui en a besoin pour décider.
Tamiser et agglomérer voilà les deux nouvelles tâches du système d’information.
Quels enjeux pour l’entreprise ?
Les décideurs doivent faire face à deux situations en même temps :
S’adapter en fonction des évènements du moment ; c'est-à-dire adapter les ventes des produits et services et fonction de la demande des clients, monitorer les efforts commerciaux entre les visites face à face et les autres formes de relations… Et ce afin de faire face aux opportunités de marché. L’entreprise doit être agile pour s’adapter aux clients.
Avoir une démarche prospective pour détecter des « signaux faibles ». Il s’agit de distinguer pour l’entreprise, ce qui relève de l’épiphénomène, de ce qui est une future tendance majeure : c’est un enjeu stratégique pour la pérennité de l’entreprise.
Les exemples sont nombreux. Ainsi, beaucoup d’entre nous ont utilisé les pellicules Kodak. Aujourd’hui, cette entreprise est une PME moribonde qui a découvert en son temps l’appareil photo numérique… Et qui n’a que trop tardivement cru dans ce marché.
Il y a presque 10 ans, tous les médias reprenaient la référence « Second Life » pour exprimer les possibilités nouvelles d’Internet. Loisirs, business, interactions… Est-ce que Second Life est finalement devenu une réalité quotidienne ? Non.
D’un autre côté, nous avons également connu une évolution de la téléphonie mobile. Les Smartphones se sont complètement démocratisés, à partir de ce qui n’était au départ qu’un usage particulier des téléphones portables. Ces usages, qui auraient pu être temporaires ont profondément modifiés les outils et les écosystèmes personnels ou professionnels. Des milliers de personnes et d’entreprises se sont adaptées à ces changements.
La structure de l’offre des entreprises s’en retrouve impactée. Est-ce que l’utilisation d’une application va être temporaire ou non ? Quelle va être l’évolution des clients et des usages ?
A travers cette tendance, il parait donc important pour l’entreprise d’adopter la « humble attitude » : exploiter intensivement ses big data pour découvrir comment les clients se sont appropriés les usages et s’adapter pour répondre aux clients.
Comment une entreprise doit-elle alors concrètement adapter son fonctionnement ?
L’organisation de l’entreprise doit sortir d’une confusion des genres.
Nous avons :
Des DSI qui veulent faire du pilotage par la mise en œuvre d’applications toujours plus complexes.
Des équipes métiers qui sont privées des informations dont elles ont besoin pour piloter leur activité
Au final, nous observons la neutralisation des équipes car chacun veut faire le métier de l’autre.
Voilà 2 approches très antagonistes :
La DSI fait un métier de process de l’information et le métier fait de la décision pour piloter son activité.
La DSI veut faire de l’analyse de données et le métier veut faire du SI en allant chercher les informations qui lui sont nécessaires pour piloter son activité.
En conclusion, une frontière forte et non-hermétique est à définir entre le SI et les métiers.
Au SI de mettre en place tous les éléments qui vont restituer l’information, pour adopter des procédures de simplification et de résumé. Le SI doit rendre ces informations accessibles, disponibles, fiables, directement sur le poste de travail de l’utilisateur. Le SI devient le logisticien de l’information, pour que le métier puisse travailler.
D’un autre côté, le métier (dirigeant d’entreprise, marketeur, vendeur…) doit apprendre à s’approprier ces informations simplifiées pour lui. Il doit les interpréter, inférer, les exploiter et au final « analyser l’usage », savoir identifier les signaux faibles ou détecter des opportunités. Dans tous les cas, il faut pouvoir distinguer les éléments court-termistes, qui peuvent être des opportunités commerciales ponctuelles pour l’entreprise, des tendances de fonds, structurantes."
"Peut-on imaginer un graphique plus dénué d’intérêt que celui qu’on trouve ce 10 mars dans Libération ?"
"Un récent communiqué de presse d’Information Builders a éveillé mon attention à propos de la nouvelle édition de la Forrester Ware sur le marché des solutions d’ADV. ADV, pour Advanced Data Visualization, c’est-à-dire les logiciels qui permettent de créer des #dataviz de qualité. Bon, c’était un peu une surprise pour moi que de voir le vaillant new yorkais se classer leader parmi les leaders du domaine, l’éditeur étant plus connu pour son reporting de masse que pour des tableaux de bord avec des petits mickeys. Cela dit tous les éditeurs traditionnels mettent le paquet pour améliorer leurs offres sur le plan des visualisation de données et des éditeurs un peu largués sur ce plan (dont Oracle) sont revenus dans la course.
Les 14 éditeurs identifiés par Forrester
TIBCO Spotfire, l’un des logiciels testés par Forrester.
Donc l’édition Q3 2012 du « The Forrester Wave™: advanced data Visualization (ADV) platforms » évalue les offres de 14 éditeurs. Les usual suspects de la BI (IBM, Information Builders, Microsoft, Microstrategy, SAP, SAS), les Open sourcés (Actuate, Jaspersoft, Pentaho, SpagoBI) et les jeunes loups (Panorama Software, QlikTech, Tableau Software et Tibco).
Petit point de vocabulaire : Forrester définit un ADV par 6 caractéristiques de base:
les données doivent être dynamiques,
du requetage visuel,
du multi-dimentionnel,
des animations graphiques,
des visualisations personnalisables,
Enfin, une gestion d’alertes business.
Une évaluation sur le logiciel et la stratégie de l’éditeur
Donc, à son habitude, la Forrester Wave classe les éditeurs sur leur stratégie en abscisse, et sur la qualité de leur logiciel en ordonnée. Sur ce dernier plan, pas de grande surprise : Tableau Software domine assez largement les débats, suivi par Tibco Software. Derrière, les offres de SAS, Oracle sont suivies par MicroStrategy, SAP, Information Builders et IBM suivent sur une même ligne. Derniers de la classe les Pentaho et Jaspersoft. Ces deux dernières solutions sont jugée comme des alternatives correctes… pour les utilisateurs radins.
Sur le plan des stratégies d’entreprise, IBM et Information Builders sont ceux qui sont jugés les plus puissants, devant Microsoft et SAP.
Plutôt méconnue, WebFOCUS Visual Discovery, la solution de DataViz d’Information Builders
Bon, je vous passe le très rébarbatif tableau de notes (dont il manque la colonne Oracle au pdf original !), allons à l’essentiel. Boris Evelson et Noel Yuhanna ont placé Tableau Software en tête de classement. Selon eu, l’éditeur a creusé l’écart avec ses concurrents lorsqu’il a introduit la technologie in-memorydans son offre. Par contre, Tableau est considéré comme un complément aux plates-formes BI et ne concurrence pas ces dernières, toujours selon les auteurs. IBM de son côté semble avoir tapé dans l’oeil des analystes avec Cognos Insight. Ils placent le jeune outil à la hauteur de Qliktech, j’avoue que ça me semble plutôt discutable. Par contre, c’est clair que du point de vue présence sur le marché et puissance de frappe marketing, IBM boxe en catégorie poids lourd. Autre petite surprise, Information Builders au coude à coude avec IBM. Le prince du reporting mainframe serait donc parmi les leaders des ADV ? Les analystes considèrent qu’avec le logiciel Visual Discovery, composant de WebFOCUS, l’éditeur teint un diamant dans son catalogue produit. Sa gestion du in-memory décroche la note maximale et la note utilisateur est plutôt pas mauvaise (3,4/5). SAS Institute pour sa part est considéré comme le top pour les power users. Pas une surprise.
Les gros bras bénéficient du soutien de leurs appliances
Je ne vais pas passer en revue les offres des 14 éditeurs, mais faire un focus sur celles de SAP et d’Oracle. Forrester considèrent que ces géants de la BI sont revenu dans la course des outils d’analyse visuelle. SAP peut s’appuyer sur HANA pour permettre une navigation dans les données à la vitesse de la lumière avec ses solution BusinessObjects Explorer et Visual Analytics. Admettons. Côté Oracle, même constat : avec Exalytics, Oracle a refait son retard sur le plan in-memory. Super, sauf que là on se retrouve avec des configs à plusieurs centaines de milliers de dollars, Avec en face du Qliktech, du PowerPivot ou du Tableau Software, ça nous fait un sacré grand écart !"
Esri France annonce le lancement du géoportail OpenGeodata.fr, une plateforme offrant l'accès aux meilleurs contenus géographiques Open Data disponibles en France.
Rue89 lance son Cumuloscope pour encourager députés et sénateurs socialistes à quitter leurs mandats locaux comme ils s’y sont engagés. Date limite : le 1er octobre.
Collection des applications et services permettant de créer des visualisations de données.
Le 28 septembre, le gouvernement a approuvé son projet de loi de finances (PLF) pour 2012 lors du conseil des ministres. Ce projet se base sur une projection de croissance de 1,75 % pour 2012. Ce budget prévoit de faire baisser le déficit de 5,7 % à 4,5 % du produit intérieur brut.