Information

Informatique

Workshop le 15 mars 2016

Loin de l'image des autoroutes de l'information, l'espace numérique tient plutôt des chemins tortueux dans lesquels les professionnels de l'information doivent rechercher, filtrer, croiser, vérifier ou décoder. Les volumes de données manipulées, leur variété (vidéos, textes, images, bases de connaissances...) et leur vélocité offrent à la fois des opportunités pour appréhender l'information autrement, mais posent aussi de nombreux problèmes de recherche désormais rangés sous l'étiquette Big Data.

Les domaines du TAL, RI, BD, IA offrent de nombreux outils d'accès aux informations, mais qui restent souvent insuffisants pour réaliser des recherches en lien avec les médias. Cette journée se veut donc un point de rencontre entre professionnels de l'information, des médias, et de l'informatique s'intéressant au traitement des news (journaux TV, dépêches, sites web institutionnels ou d'opinions, médias sociaux, archives TV...) pour divers usages et applications (détection d’événements, fact-checking/décodage, étude sociologique ou historique, fiabilité des sources, exploration d'archives de news...).

Il s'agit d'une part de constater quels outils développés par les informaticiens apportent concrètement au professionnels de l'information, et d'autre part d'identifier, de manière prospective, leurs manques et leurs besoins afin de faciliter leur travail et/ou de proposer de nouvelles analyses liées à l'exploitation des médias. Ces interactions ont souvent lieu dans un cadre informel, cet atelier a pour vocation de contextualiser et garder trace de tels échanges au bénéfice des deux parties.

La journée se tiendra le 15 mars 2016 à l'IRISA-Centre Inria à Rennes. Elle sera organisée autour de plusieurs exposés portant aussi bien sur les besoins applicatifs (AFP, INA, Le Monde, MediaLab Sciences Po, Ouest France, Ouest MediaLab...) que sur les technologies existantes.

Programme

Plusieurs exposés de professionels de l'information et de l'informatique seront proposés, et des moments de discussion ouverte seront également organisés.

Horaire programme
9h30-10h accueil
10h-10h15 Ouverture
10h15-10h45 N. Hervé - A. Saulnier (INA)
La plateforme OTMedia d'analyse de l'information
10h45-11h15 R. Troncy (EURECOM)
Enrichir des vidéos d'actualités par la création d'instantanés sémantiques et contextualisés
11h15-11h45 Ioana Manolescu (Inria Saclay) - Samuel Laurent (Le Monde)
Gestion de contenu pour la vérification de faits : modèles, algorithmes et outils
11h45-12h Julien Kostrèche, Philippe Roux (Ouest Médialab)
Ouest Médialab : favoriser l'innovation ouverte et la transition numérique des médias
12h-12h15 présentations flash poster/démo
12h15-13h15 buffet
13h15-14h30 posters, démos
14h30-15h Michel Le Nouy (Ouest France)
Que faire avec 30 millions de documents ?
15h-15h30 Tommaso Venturini (Médialab, Sciences Po Paris)
Equiper le journalistes per les méthodes numériques : le cas du Climate Negociation Explorer
15h30-16h Denis Teyssou (Medialab AFP)
Comment automatiser certains tâches dans la vérification de l'information ?
16h-16h30 Pause
16h30-17h Éric de la Clergerie (Inria Alpage)
Quelques expériences autour les flux de dépêches AFP
17h-17h30 Laurent Amsaleg (IRISA-CNRS)
Indexation d'images
17h30-18h Discussion
18h clôture



Exposés

Ioana Manolescu (Inria Saclay) - Samuel Laurent (Le Monde)
Gestion de contenu pour la vérification de faits : modèles, algorithmes et outils

Denis Teyssou (Medialab AFP)
Titre : Comment automatiser certains tâches dans la vérification de l'information ?
Résumé : Le projet européen InVID qui vient de commencer au 1er janvier et dont l'AFP est partenaire, vise à construire une plateforme logicielle pour détecter, authentifier et vérifier les vidéos sur des événements médiatiques qui circulent sur les réseaux sociaux. Jusqu'à présent, le processus de vérification consiste à croiser les sources et à mettre en place une longue série de procédures manuelles pour analyser les vidéos. Démonstration d'un premier prototype en version alpha visant à aider les journalistes à détecter si une vidéo postée sur Youtube n'a pas déjà été publiée auparavant.

Michel Le Nouy (Ouest France)
Titre: Que faire avec 30 millions de documents ?
Résumé : Avec les 30 millions de documents d'archives du groupe Ouest-France, il doit être possible de proposer une autre expérience que de lister les réponses « matchant » une suite de caractères demandés... Dans cet exposé, nous proposons un retour d'éxpérience sur le projet « Banque de contenus » qui explore cette question depuis un peu plus d'1 an. L’idée est que devant l'étendue des informations qui sont accessibles, chaque lecteur développe sciemment ou inconsciemment des stratégies pour réduire le temps nécessaire à « trouver » l’information qui lui correspond. Il optimise ainsi le temps disponible à la lire. La recommandation est l’une des formes pouvant servir cette ambition. Pertinente, elle peut aider à formuler une réponse, pour une question non encore clairement exprimée. L'enrichissement des contenus, par la fouille des données que ces contenus peuvent révéler, est l'un des axes que nous poursuivons. Mais dans ce domaine, l’étendue des sujets, des contextes, des données, généralistes ou spécialisées, traités par les rédactions du groupe Ouest-France, sont à la fois générateur de précisions et de bruits pour les algorithmes. Algorithmes que l’on utilise pour apporter « du sens » et renforcer l’engagement de lecture que nous devons à nos lecteurs et à nos rédactions.

Nicolas Hervé, Agnès Saugnier (INA)
La plateforme OTMedia d'analyse de l'information : analyse transmédia de la production d'information en France, des algorithmes pour extraire des indicateurs quantitatifs, quelques exemples d'études SHS réalisées avec OTMedia, perspectives.

Éric de la Clergerie (Inria Alpage)
Titre : Quelques expériences autour du flux de dépêches AFP
Résumé : Dans le cadre de 2 projets (SCRIBO et EdyLex), l'équipe ALPAGE a eu l'occasion d'exploiter les flux de dépêches de l'AFP, une véritable mine d'or pour un TAListe. Nous présentons certaines expériences menées en lien avec les besoins exprimés par l'AFP : extraction de citations sur un lot de dépêches (présidentielle 2007), acquisition de réseaux sémantiques, extraction de termes ou d'entités nommées, détection automatique des nouvelles entités de l'actualité et de néologismes. Quelques pistes seront présentées pour aller plus loin dans l'exploitation d'un tel flux de données.

Raphaël Troncy (EURECOM)
Titre : Enrichir des vidéos d'actualités par la création d'instantanés sémantiques et contextualisés
Résumé : Dans le cadre du projet européen LinkedTV et du projet national NexGen-TV, nous avons développé une méthode automatique permettant d'enrichir un sujet vidéo d'un journal télévisé par la création d'instantanés sémantiques et contextualisés. Ceux ci sont en fait un graphe idéal, du point de vue journalistique, d'entités nommées et de leurs relations qui permettent d'approfondir le sujet traité. Notre méthode utilise des bases de connaissances généralistes, les réseaux sociaux et les nombreux documents publiés sur le web pour créer cet instantané.

Tommaso Venturini (Médialab, Sciences Po Paris)
Titre : Equiper le journalistes par les méthodes numériques : le cas du Climate Negociation Explorer
Résumé : Dans mon intervention, je présenterai l'approche du médialab de Sciences Po aux méthodes numériques et quali-quantitatives et j’introduirai l'exemple d’un projet que nous avons mené sur les négociations au sein de la Conférence Cadre de Nations Unies sur le Changement Climatique.

Laurent Amsaleg (IRISA-CNRS)
Indexation d'images à très large échelle.

Julien Kostrèche, Philippe Roux (Ouest Médialab)
Titre : Ouest Médialab : favoriser l'innovation ouverte et la transition numérique des médias
Résumé : Crée en 2012, le cluster Ouest Médialab regroupe une centaine de structures ligériennes et bretonnes des secteurs de l'information, de la communication et du numérique : médias d’information, de collectivités ou de marques, établissements d’enseignement supérieur, laboratoires de recherche, startups, agences de communication ou de design, producteurs audiovisuels ou multimédia, etc. L’association, soutenue par la région Pays de la Loire et Nantes Métropole, est ouverte à tous ceux qui souhaitent monter en compétences sur le numérique, expérimenter de nouvelles façons de travailler, faire émerger des projets de contenus ou de services innovants. Ouest Médialab organise notamment chaque année les HybLab, des ateliers transdiciplinaires à l'occasion desquels professionnels et étudiants explorent ensemble les nouvelles écritures (datajournalisme, transmédia, brand content...).




Posters/démontrations

A.R. Balamurali, F. Bechet, B. Favre, M. Rouvier (LIF - Univ. Aix-Marseille)
Analyse de commentaires d’articles de journaux en ligne dans le cadre du projet SENSEI
(poster + démo)

Swen Ribeiro, Olivier Ferret, Xavier Tannier
Le projet ASRAEL : traitement automatique des langues et Web sémantique pour indexer et rechercher les événements médiatiques
(poster + démo)

Xavier Tannier
Fouille de texte pour le journalisme de données au LIMSI
(poster)

Guillaume Gravier, Vincent Claveau (IRISA-CNRS)
Le projet NexGenTV
(roll-up)

Rémi Bois, Guillaume Gravier, Pascale Sébillot (IRISA, CNRS, Insa de Rennes)
Exploration d'archives multimédias : Quelles attentes ?
(poster)

Guillaume Gravier (IRISA-CNRS)
TexMix : exploration multimodale d'archives de journaux TV
(démo)

Cédric Maigrot, Ewa Kijak, Vincent Claveau (IRISA, DGA, CNRS, Univ. Rennes 1)
Détection de fausses informations : analyse conjointe texte-image
(poster + démo)

Inscriptions

Plus de places, les inscriptions sont closes !

L'inscription est gratuite mais obligatoire.

Venir

La journée aura lieu à l'IRISA-Centre Inria, sur le campus de Beaulieu à Rennes. Voir le plan.

attention ! Du fait du plan vigipirate, tout visiteur doit se présenter à l'accueil muni d'une pièce d'identité.