Mathieu Lafourcade


2022

pdf bib
Introducing RezoJDM16k: a French KnowledgeGraph DataSet for Link Prediction
Mehdi Mirzapour | Waleed Ragheb | Mohammad Javad Saeedizade | Kevin Cousot | Helene Jacquenet | Lawrence Carbon | Mathieu Lafourcade
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Knowledge graphs applications, in industry and academia, motivate substantial research directions towards large-scale information extraction from various types of resources. Nowadays, most of the available knowledge graphs are either in English or multilingual. In this paper, we introduce RezoJDM16k, a French knowledge graph dataset based on RezoJDM. With 16k nodes, 832k triplets, and 53 relation types, RezoJDM16k can be employed in many NLP downstream tasks for the French language such as machine translation, question-answering, and recommendation systems. Moreover, we provide strong knowledge graph embedding baselines that are used in link prediction tasks for future benchmarking. Compared to the state-of-the-art English knowledge graph datasets used in link prediction, RezoJDM16k shows a similar promising predictive behavior.

2021

pdf bib
Open Information Extraction: Approche Supervisée et Syntaxique pour le Français (Supervised Syntactic Approach for French Open Information Extraction)
Massinissa Atmani | Mathieu Lafourcade
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

L’ Open Information Extraction, est un paradigme d’extraction conçu pour gérer l’adaptation de domaine, la principale difficulté des approches traditionnelles pour l’extraction d’informations. Cependant, la plupart des approches se concentrent sur l’anglais. Ainsi, nous proposons une approche supervisée pour l’OpenIE pour le français, nous développons également un corpus d’entraînement et un référentiel d’évaluation. Nous proposons un nouveau modèle basé en deux étapes pour l’étiquetage de séquence, qui identifie d’abord tous les arguments de la relation avant de les étiqueter. Les expérimentations montrent non seulement que l’approche que nous proposons obtient les meilleurs résultats, mais aussi que l’état de l’art actuel n’est pas assez robuste pour s’adapter à un domaine différent du domaine du corpus d’entraînement.

pdf bib
Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier (Automatic extraction of hypernym and hyponym relations in a professional corpus)
Camille Gosset | Mokhtar Boumedyen Billami | Mathieu Lafourcade | Christophe Bortolaso | Mustapha Derras
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Nous nous intéressons dans cet article à l’extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie à partir d’un corpus de spécialités métier. Le corpus regroupe des ouvrages et articles en français d’expertise juridique et a été partiellement annoté en termes-clés par des experts. Nous prétraitons ces annotations afin de pouvoir les retrouver dans ce corpus et obtenir un concept général pour extraire les relations entre ces termes. Nous décrivons une étude expérimentale qui compare plusieurs méthodes de classification appliquées sur des vecteurs de relations construits à partir d’un modèle Word2Vec. Nous comparons les résultats obtenus grâce à un jeu de données construit à partir de relations d’hyperonymie tirées d’un réseau lexico-sémantique français que nous inversons pour obtenir les relations d’hyponymie. Nos résultats montrent que nous obtenons une classification pouvant atteindre un taux d’exactitude de 92 %.

2020

pdf bib
A Dataset for Anaphora Analysis in French Emails
Hani Guenoune | Kevin Cousot | Mathieu Lafourcade | Melissa Mekaoui | Cédric Lopez
Proceedings of the Third Workshop on Computational Models of Reference, Anaphora and Coreference

In 2019, about 293 billion emails were sent worldwide every day. They are a valuable source of information and knowledge for professionals. Since the 90’s, many studies have been done on emails and have highlighted the need for resources regarding numerous NLP tasks. Due to the lack of available resources for French, very few studies on emails have been conducted. Anaphora resolution in emails is an unexplored area, annotated resources are needed, at least to answer a first question: Does email communication have specifics that must be addressed to tackle the anaphora resolution task? In order to answer this question 1) we build a French emails corpus composed of 100 anonymized professional threads and make it available freely for scientific exploitation. 2) we provide annotations of anaphoric links in the email collection.

pdf bib
Inferences for Lexical Semantic Resource Building with Less Supervision
Nadia Bebeshina | Mathieu Lafourcade
Proceedings of the Twelfth Language Resources and Evaluation Conference

Lexical semantic resources may be built using various approaches such as extraction from corpora, integration of the relevant pieces of knowledge from the pre-existing knowledge resources, and endogenous inference. Each of these techniques needs human supervision in order to deal with the potential errors, mapping difficulties or inferred candidate validation. We detail how various inference processes can be employed for the less supervised lexical semantic resource building. Our experience is based on the combination of different inference techniques for multilingual resource building and evaluation.

pdf bib
Game Design Evaluation of GWAPs for Collecting Word Associations
Mathieu Lafourcade | Le Brun Nathalie
Workshop on Games and Natural Language Processing

GWAP design might have a tremendous effect on its popularity of course but also on the quality of the data collected. In this paper, a comparison is undertaken between two GWAPs for building term association lists, namely JeuxDeMots and Quicky Goose. After comparing both game designs, the Cohen kappa of associative lists in various configurations is computed in order to assess likeness and differences of the data they provide.

pdf bib
Réduire l’effort humain d’amélioration des ressources lexicales grâce aux inférences (Reducing the Knowledge Resource Enhancement Human Effort through Inferences)
Nadia Bebeshina | Mathieu Lafourcade
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Les inférences translingues représentent une piste intéressante pour la construction des ressources lexico-sémantiques multilingues. Cependant, la validation des éléments candidats nécessite un effort humain considérable. Nous décrivons une façon de construire des ressources lexico-sémantiques via des inférences monolingue et translingue. Son intérêt principal consiste à implémenter dans le contexte d’une ressource lexico-sémantique multilingue une approche où le processus de construction est un processus auto-apprenant car l’évaluation participe à la construction de celle-ci.

pdf bib
Recherche de similarité thématique en temps réel au sein d’un débat en ligne (Thematic similarity real-time computation during an online debate)
Mathieu Lafourcade | Noémie-Fleur Sandillon-Rezer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Cet article se focalise sur l’utilisation d’un large réseau lexico-sémantique français pour le calcul de similarité thématique d’interventions au cours d’un débat en ligne dans les lycées, proche du temps réel. Pour cela, notre système extrait des informations sémantiques du réseau et crée à la volée des vecteurs enrichis pour chaque fragment de texte. Les données récupérées sont contextualisées via un algorithme de propagation. Les vecteurs résultat permettent aux fragments de texte d’être comparés. Notre méthode aide à trouver les thématiques émergentes des débats et à identifier des clusters d’opinion. La contrainte temps réel nous force à sélectionner précisément les informations que nous incluons, aussi bien pour les temps de calcul des vecteurs créés que la qualité de ceux-ci.

pdf bib
DEFT 2020 - Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance (Fine-grained Information Extraction in Clinical Data : Dedicated Terminologies and Knowledge Graphs )
Thomas Lemaitre | Camille Gosset | Mathieu Lafourcade | Namrata Patel | Guilhem Mayoral
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes

Nous présentons dans cet article notre approche à base de règles conçue pour répondre à la tâche 3 de la campagne d’évaluation DEFT 2020. Selon le type d’information à extraire, nous construisons (1) une terminologie spécialisée à partir de ressources médicales et (2) un graphe orienté basé sur les informations extraites de la base de connaissances généraliste et de grande taille - JeuxDeMots.

2019

pdf bib
Using a Lexical Semantic Network for the Ontology Building
Nadia Bebeshina-Clairet | Sylvie Despres | Mathieu Lafourcade
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019)

Building multilingual ontologies is a hard task as ontologies are often data-rich resources. We introduce an approach which allows exploiting structured lexical semantic knowledge for the ontology building. Given a multilingual lexical semantic (non ontological) resource and an ontology model, it allows mining relevant semantic knowledge and make the ontology building and enhancement process faster.

pdf bib
Inférence des relations sémantiques dans un réseau lexico-sémantique multilingue (Inferring semantic relations in a multilingual lexical semantic network)
Nadia Bebeshina-Clairet | Mathieu Lafourcade
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Les méthodes endogènes se trouvent au coeur de la construction des ressources de connaissance telles que les réseaux lexico-sémantiques. Dans le cadre de l’expérience décrite dans le présent article, nous nous focalisons sur les méthodes d’inférence des relations. Nous considérons, en particulier, les cas d’inférence des relations sémantiques et des raffinements de sens. Les différents mécanismes d’inférence des relations sémantiques y compris dans le contexte de polysémie de termes ont été décrits par Zarrouk (2015) pour le contexte monolingue. À notre connaissance, il n’existe pas de travaux concernant l’inférence des relations sémantiques et des raffinements dans le contexte d’amélioration d’une ressource multilingue.

2018

pdf bib
Utilisation d’une base de connaissances de spécialité et de sens commun pour la simplification de comptes-rendus radiologiques (Radiological text simplification using a general knowledge base)
Lionel Ramadier | Mathieu Lafourcade
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Dans le domaine médical, la simplification des textes est à la fois une tâche souhaitable pour les patients et scientifiquement stimulante pour le domaine du traitement automatique du langage naturel. En effet, les comptes rendus médicaux peuvent être difficile à comprendre pour les non spécialistes, essentiellement à cause de termes médicaux spécifiques (prurit, par exemple). La substitution de ces termes par des mots du langage courant peut aider le patient à une meilleure compréhension. Dans cet article, nous présentons une méthode de simplification dans le domaine médical (en français) basée sur un réseau lexico-sémantique. Nous traitons cette difficulté sémantique par le remplacement du terme médical difficile par un synonyme ou terme qui lui est lié sémantiquement à l’aide d’un réseau lexico-sémantique français. Nous présentons dans ce papier, une telle méthode ainsi que son évaluation.

pdf bib
JeuxDeLiens: Word Embeddings and Path-Based Similarity for Entity Linking using the French JeuxDeMots Lexical Semantic Network
Julien Plu | Kevin Cousot | Mathieu Lafourcade | Raphaël Troncy | Giuseppe Rizzo
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Entity linking systems typically rely on encyclopedic knowledge bases such as DBpedia or Freebase. In this paper, we use, instead, a French lexical-semantic network named JeuxDeMots to jointly type and link entities. Our approach combines word embeddings and a path-based similarity resulting in encouraging results over a set of documents from the French Le Monde newspaper.

2017

pdf bib
Ambiguss, a game for building a Sense Annotated Corpus for French
Mathieu Lafourcade | Nathalie Le Brun
Proceedings of the 12th International Conference on Computational Semantics (IWCS) — Short papers

pdf bib
Explicative Path Finding in a Semantic Network
Kévin Cousot | Mathieu Lafourcade
Proceedings of the Computing Natural Language Inference Workshop

pdf bib
Identifying Polysemous Words and Inferring Sense Glosses in a Semantic Network
Maxime Chapuis | Mathieu Lafourcade
Proceedings of the Computing Natural Language Inference Workshop

pdf bib
Extracting semantic relations via the combination of inferences, schemas and cooccurrences
Mathieu Lafourcade | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

Extracting semantic relations from texts is a good way to build and supply a knowledge base, an indispensable resource for text analysis. We propose and evaluate the combination of three ways of producing lexical-semantic relations.

pdf bib
If mice were reptiles, then reptiles could be mammals or How to detect errors in the JeuxDeMots lexical network?
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

Correcting errors in a data set is a critical issue. This task can be either hand-made by experts, or by crowdsourcing methods, or automatically done using algorithms. Although the rate of errors present in the JeuxDeMots network is rather low, it is important to reduce it. We present here automatic methods for detecting potential secondary errors that would result from automatic inference mechanisms when they rely on an initial error manually detected. Encouraging results also invite us to consider strategies that would automatically detect “erroneous” initial relations, which could lead to the automatic detection of the majority of errors in the network.

pdf bib
Parcourir, reconnaître et réfléchir. Combinaison de méthodes légères pour l’extraction de relations sémantiques (Browse, recognize and think)
Mathieu Lafourcade | Nathalie Le Brun
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

La capture de relations sémantiques entre termes à partir de textes est un moyen privilégié de constituer/alimenter une base de connaissances, ressource indispensable pour l’analyse de textes. Nous proposons et évaluons la combinaison de trois méthodes de production de relations lexicosémantiques.

pdf bib
Si les souris étaient des reptiles, alors les reptiles pourraient être des mammifères ou Comment détecter les anomalies dans le réseau JDM ? (If mice were reptiles, then the reptiles could be mammals, or How to detect errors in a lexical network?)
Alain Joubert | Mathieu Lafourcade | Nathalie Le Brun
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

La correction des erreurs dans une collection de données est un problème délicat. Elle peut être réalisée manuellement par un expert, ou en utilisant des méthodes de crowdsourcing, ou encore automatiquement au moyen d’algorithmes. Nous présentons ici des méthodes automatiques permettant de détecter les erreurs potentielles « secondaires » induites par les mécanismes automatiques d’inférences de relations, lorsqu’ils s’appuient sur des relations erronées « initiales » détectées manuellement. Des résultats encourageants, mesurés sur le réseau JeuxDeMots, nous invitent à envisager également des stratégies qui permettraient de détecter automatiquement les relations erronées « initiales », ce qui pourrait conduire à une détection automatique de la majorité des erreurs présentes dans le réseau.

2016

pdf bib
Semantic Relation Extraction with Semantic Patterns Experiment on Radiology Reports
Mathieu Lafourcade | Lionel Ramadier
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

This work presents a practical system for indexing terms and relations from French radiology reports, called IMAIOS. In this paper, we present how semantic relations (causes, consequences, symptoms, locations, parts...) between medical terms can be extracted. For this purpose, we handcrafted some linguistic patterns from on a subset of our radiology report corpora. As semantic patterns (de (of)) may be too general or ambiguous, semantic constraints have been added. For instance, in the sentence néoplasie du sein (neoplasm of breast) the system knowing neoplasm as a disease and breast as an anatomical location, identify the relation as being a location: neoplasm r-lieu breast. An evaluation of the effect of semantic constraints is proposed.

pdf bib
Construire un lexique de sentiments par crowdsourcing et propagation (Building a sentiment lexicon through crowdsourcing and spreading)
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Cet article présente une méthode de construction d’une ressource lexicale de sentiments/émotions. Son originalité est d’associer le crowdsourcing via un GWAP (Game With A Purpose) à un algorithme de propagation, les deux ayant pour support et source de données le réseau lexical JeuxDeMots. Nous décrivons le jeu permettant de collecter des informations de sentiments, ainsi que les principes et hypothèses qui sous-tendent le fonctionnement de l’algorithme qui les propage au sein du réseau. Enfin, nous donnons les résultats quantitatifs et expliquons les méthodes d’évaluation qualitative des données obtenues, à la fois par le jeu et par la propagation par l’algorithme. Ces méthodes incluent une comparaison avec Emolex, une autre ressource de sentiments/émotions.

pdf bib
Patrons sémantiques pour l’extraction de relations entre termes - Application aux comptes rendus radiologiques (Here the title in English)
Lionel Ramadier | Mathieu Lafourcade
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article nous nous intéressons à la tâche d’extraction de relations sémantiques dans les textes médicaux et plus particulièrement dans les comptes rendus radiologiques. L’identification de relations sémantiques est une tâche importante pour plusieurs applications (recherche d’information, génération de résumé, etc). Nous proposons une approche fondée sur l’utilisation de patrons sémantiques vérifiant des contraintes dans une base de connaissances.

2015

pdf bib
Vous aimez ?...ou pas ? LikeIt, un jeu pour construire une ressource lexicale de polarité
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

En analyse de discours ou d’opinion, savoir caractériser la connotation générale d’un texte, les sentiments qu’il véhicule, est une aptitude recherchée, qui suppose la constitution préalable d’une ressource lexicale de polarité. Au sein du réseau lexical JeuxDeMots, nous avons mis au point LikeIt, un jeu qui permet d’affecter une valeur positive, négative, ou neutre à un terme, et de constituer ainsi pour chaque terme, à partir des votes, une polarité résultante. Nous présentons ici l’analyse quantitative des données de polarité obtenues, ainsi que la méthode pour les valider qualitativement.

pdf bib
Augmentation d’index par propagation sur un réseau lexical Application aux comptes rendus de radiologie
Mathieu Lafourcade | Lionel Ramadier
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les données médicales étant de plus en plus informatisées, le traitement sémantiquement efficace des rapports médicaux est devenu une nécessité. La recherche d’images radiologiques peut être grandement facilitée grâce à l’indexation textuelle des comptes rendus associés. Nous présentons un algorithme d’augmentation d’index de comptes rendus fondé sur la propagation d’activation sur un réseau lexico-sémantique généraliste.

pdf bib
Collecting and Evaluating Lexical Polarity with A Game With a Purpose
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing

pdf bib
Medical imaging report indexing: enrichment of index through an algorithm of spreading over a lexico-semantic network
Mathieu Lafourcade | Lionel Ramadier
Proceedings of the International Conference Recent Advances in Natural Language Processing

2014

pdf bib
About Inferences in a Crowdsourced Lexical-Semantic Network
Mathieu Lafourcade | Manel Zarrouk | Alain Joubert
Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics

pdf bib
Annotations and inference of relations in a lexical semantic network : Applied to radiology (Annotations et inférences de relations dans un réseau lexico-sémantique: application à la radiologie) [in French]
Lionel Ramadier | Manel Zarrouk | Mathieu Lafourcade | Antoine Micheau
Proceedings of TALN 2014 (Volume 1: Long Papers)

pdf bib
Colors of People (Les couleurs des gens) [in French]
Mathieu Lafourcade | Nathalie Le Brun | Virginie Zampa
Proceedings of TALN 2014 (Volume 2: Short Papers)

pdf bib
Propa-L: a semantic filtering service from a lexical network created using Games With A Purpose
Mathieu Lafourcade | Karën Fort
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

This article presents Propa-L, a freely accessible Web service that allows to semantically filter a lexical network. The language resources behind the service are dynamic and created through Games With A Purpose. We show an example of application of this service: the generation of a list of keywords for parental filtering on the Web, but many others can be envisaged. Moreover, the propagation algorithm we present here can be applied to any lexical network, in any language.

pdf bib
Relation Inference in Lexical Networks ... with Refinements
Manel Zarrouk | Mathieu Lafourcade
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

Improving lexical network’s quality is an important issue in the creation process of these language resources. This can be done by automatically inferring new relations from already existing ones with the purpose of (1) densifying the relations to cover the eventual lack of information and (2) detecting errors. In this paper, we devise such an approach applied to the JeuxDeMots lexical network, which is a freely available lexical and semantic resource for French. We first present the principles behind the lexical network construction with crowdsourcing and games with a purpose and illustrated them with JeuxDeMots (JDM). Then, we present the outline of an elicitation engine based on an inference engine using schemes like deduction, induction and abduction which will be referenced and briefly presented and we will especially highlight the new scheme (Relation Inference Scheme with Refinements) added to our system. An experiment showing the relevance of this scheme is then presented.

pdf bib
Inferring Knowledge with Word Refinements in a Crowdsourced Lexical-Semantic Network
Manel Zarrouk | Mathieu Lafourcade
Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers

2013

pdf bib
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network (Inférences déductives et réconciliation dans un réseau lexico-sémantique) [in French]
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf bib
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013

2012

pdf bib
Long Tail in Weighted Lexical Networks
Mathieu Lafourcade | Alain Joubert
Proceedings of the 3rd Workshop on Cognitive Aspects of the Lexicon

pdf bib
A new dynamic approach for lexical networks evaluation
Alain Joubert | Mathieu Lafourcade
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

Since September 2007, a large scale lexical network for French is under construction with methods based on popular consensus by means of games (under the JeuxDeMots project). To assess the resource quality, we decided to adopt an approach similar to its construction, that is to say an evaluation by laymen on open class vocabulary with a Tip of the Tongue tool.

2011

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

pdf bib
Évaluation et consolidation d’un réseau lexical via un outil pour retrouver le mot sur le bout de la langue (Evaluation and consolidation of a lexical network via a tool to find the word on the tip of the tongue)
Alain Joubert | Mathieu Lafourcade | Didier Schwab | Michael Zock
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Depuis septembre 2007, un réseau lexical de grande taille pour le Français est en cours de construction à l’aide de méthodes fondées sur des formes de consensus populaire obtenu via des jeux (projet JeuxDeMots). L’intervention d’experts humains est marginale en ce qu’elle représente moins de 0,5% des relations du réseau et se limite à des corrections, à des ajustements ainsi qu’à la validation des sens de termes. Pour évaluer la qualité de cette ressource construite par des participants de jeu (utilisateurs non experts) nous adoptons une démarche similaire à celle de sa construction, à savoir, la ressource doit être validée sur un vocabulaire de classe ouverte, par des non-experts, de façon stable (persistante dans le temps). Pour ce faire, nous proposons de vérifier si notre ressource est capable de servir de support à la résolution du problème nommé ‘Mot sur le Bout de la Langue’ (MBL). A l’instar de JeuxdeMots, l’outil développé peut être vu comme un jeu en ligne. Tout comme ce dernier, il permet d’acquérir de nouvelles relations, constituant ainsi un enrichissement de notre réseau lexical.

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

pdf bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Mathieu Lafourcade | Violaine Prince
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

2010

pdf bib
Détermination et pondération des raffinements d’un terme à partir de son arbre des usages nommés
Mathieu Lafourcade | Alain Joubert
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Grâce à la participation d’un grand nombre de personnes via des jeux accessibles sur le web, nous avons construit un réseau lexical évolutif de grande taille pour le Français. A partir de cette ressource, nous avons abordé la question de la détermination des sens d’usage d’un terme, puis après avoir introduit la notion de similarité entre ces différents usages, nous avons pu obtenir pour un terme son arbre des usages : la racine regroupe tous les usages du terme et une descente dans l’arbre correspond à un raffinement de ces usages. Le nommage des différents noeuds est effectué lors d’une descente en largeur. En simplifiant l’arbre des usages nommés, nous déterminons les différents sens d’un terme, sens que nous introduisons dans le réseau lexical en tant que noeuds de raffinement du terme considéré. Nous terminons par une évaluation empirique des résultats obtenus.

2009

pdf bib
Similitude entre les sens d’usage d’un terme dans un réseau lexical [Similarity between term senses in a lexical network]
Mathieu Lafourcade | Alain Joubert
Traitement Automatique des Langues, Volume 50, Numéro 1 : Varia [Varia]

pdf bib
Sens et usages d’un terme dans un réseau lexical évolutif
Mathieu Lafourcade | Alain Joubert | Stéphane Riou
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’obtention d’informations lexicales fiables est un enjeu primordial en TALN, mais cette collecte peut s’avérer difficile. L’approche présentée ici vise à pallier les écueils de cette difficulté en faisant participer un grand nombre de personnes à un projet contributif via des jeux accessibles sur le web. Ainsi, les joueurs vont construire le réseau lexical, en fournissant de plusieurs manières possibles des associations de termes à partir d’un terme cible et d’une consigne correspondant à une relation typée. Le réseau lexical ainsi produit est de grande taille et comporte une trentaine de types de relations. A partir de cette ressource, nous abordons la question de la détermination des différents sens et usages d’un terme. Ceci est réalisé en analysant les relations entre ce terme et ses voisins immédiats dans le réseau et en calculant des cliques ou des quasi-cliques. Ceci nous amène naturellement à introduire la notion de similarité entre cliques, que nous interprétons comme une mesure de similarité entre ces différents sens et usages. Nous pouvons ainsi construire pour un terme son arbre des usages, qui est une structure de données exploitable en désambiguïsation de sens. Nous présentons quelques résultats obtenus en soulignant leur caractère évolutif.

2008

pdf bib
Evolutionary Basic Notions for a Thematic Representation of General Knowledge
Alain Joubert | Mathieu Lafourcade
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

In the field of Natural Language Processing, in order to work out a thematic representation system of general knowledge, methods relying on thesaurus have been used for about twenty years. A thesaurus consists of a set of concepts which define a generating system of a vector space modelling general knowledge. These concepts, often organized in a treelike structure, constitute a fundamental, but completely fixed tool. Even if the concepts evolve (we think for example of the technical fields), a thesaurus as for it can evolve only at the time of a particularly heavy process, because it requires the collaboration of human experts. After detailing the characteristics which a generating system of the vector space of knowledge modelling must have, we define the “basic notions”. Basic notions, whose construction is initially based on the concepts of a thesaurus, constitute another generating system of this vector space. We then approach the determination of the acceptions expressing the basic notions. Lastly, we clarify how, being freed from the concepts of the thesaurus, the basic notions evolve progressively with the analysis of new texts by an iterative process.

pdf bib
Détermination des sens d’usage dans un réseau lexical construit à l’aide d’un jeu en ligne
Mathieu Lafourcade | Alain Joubert
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les informations lexicales, indispensables pour les tâches réalisées en TALN, sont difficiles à collecter. En effet, effectuée manuellement, cette tâche nécessite la compétence d’experts et la durée nécessaire peut être prohibitive, alors que réalisée automatiquement, les résultats peuvent être biaisés par les corpus de textes retenus. L’approche présentée ici consiste à faire participer un grand nombre de personnes à un projet contributif en leur proposant une application ludique accessible sur le web. A partir d’une base de termes préexistante, ce sont ainsi les joueurs qui vont construire le réseau lexical, en fournissant des associations qui ne sont validées que si elles sont proposées par au moins une paire d’utilisateurs. De plus, ces relations typées sont pondérées en fonction du nombre de paires d’utilisateurs qui les ont proposées. Enfin, nous abordons la question de la détermination des différents sens d’usage d’un terme, en analysant les relations entre ce terme et ses voisins immédiats dans le réseau lexical, avant de présenter brièvement la réalisation et les premiers résultats obtenus.

2007

pdf bib
Les vecteurs conceptuels, un outil complémentaire aux réseaux lexicaux
Didier Schwab | Lian Tze Lim | Mathieu Lafourcade
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Fréquemment utilisés dans le Traitement Automatique des Langues Naturelles, les réseaux lexicaux font aujourd’hui l’objet de nombreuses recherches. La plupart d’entre eux, et en particulier le plus célèbre WordNet, souffrent du manque d’informations syntagmatiques mais aussi d’informations thématiques (« problème du tennis »). Cet article présente les vecteurs conceptuels qui permettent de représenter les idées contenues dans un segment textuel quelconque et permettent d’obtenir une vision continue des thématiques utilisées grâce aux distances calculables entre eux. Nous montrons leurs caractéristiques et en quoi ils sont complémentaires des réseaux lexico-sémantiques. Nous illustrons ce propos par l’enrichissement des données de WordNet par des vecteurs conceptuels construits par émergence.

2006

pdf bib
Approche évolutive des notions de base pour une représentation thématique des connaissances générales
Alain Joubert | Mathieu Lafourcade | Didier Schwab
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Dans le domaine du Traitement Automatique du Langage Naturel, pour élaborer un système de représentation thématique des connaissances générales, des méthodes s’appuyant sur des thésaurus sont utilisées depuis une quinzaine d’années. Un thésaurus est constitué d’un ensemble de concepts qui définissent un système générateur d’un espace vectoriel modélisant les connaissances générales. Ces concepts, souvent organisés en une hiérarchie arborescente, constituent un instrument fondamental, mais totalement figé. Même si les notions évoluent (nous pensons par exemple aux domaines techniques), un thésaurus ne peut quant à lui être modifié que lors d’un processus particulièrement lourd, car nécessitant la collaboration d’experts humains. C’est à ce problème que nous nous attaquons ici. Après avoir détaillé les caractéristiques que doit posséder un système générateur de l’espace vectoriel de modélisation des connaissances, nous définissons les « notions de base ». Celles-ci, dont la construction s’appuie initialement sur les concepts d’un thésaurus, constituent un autre système générateur de cet espace vectoriel. Nous abordons la détermination des acceptions exprimant les notions de base, ce qui nous amène naturellement à nous poser la question de leur nombre. Enfin, nous explicitons comment, s’affranchissant des concepts du thésaurus, ces notions de base évoluent par un processus itératif au fur et à mesure de l’analyse de nouveaux textes.

pdf bib
Conceptual Vector Learning - Comparing Bootstrapping from a Thesaurus or Induction by Emergence
Mathieu Lafourcade
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

In the framework of the Word Sense Disambiguation (WSD) and lexical transfer in Machine Translation (MT), the representation of word meanings is one critical issue. The conceptual vector model aims at representing thematic activations for chunks of text, lexical entries, up to whole documents. Roughly speaking, vectors are supposed to encode ideas associated to words or expressions. In this paper, we first expose the conceptual vectors model and the notions of semantic distance and contextualization between terms. Then, we present in details the text analysis process coupled with conceptual vectors, which is used in text classification, thematic analysis and vector learning. The question we focus on is whether a thesaurus is really needed and desirable for bootstrapping the learning. We conducted two experiments with and without a thesaurus and are exposing here some comparative results. Our contribution is that dimension distribution is done more regularly by an emergent procedure. In other words, the resources are more efficiently exploited with an emergent procedure than with a thesaurus terms (concepts) as listed in a thesaurus somehow relate to their importance in the language but nor to their frequency in usage neither to their power of discrimination or representativeness.

2005

pdf bib
Extraction semi-supervisée de couples d’antonymes grâce à leur morphologie
Didier Schwab | Mathieu Lafourcade | Violaine Prince
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le cadre de la recherche sur la représentation du sens en Traitement Automatique des Langues Naturelles, nous nous concentrons sur la construction d’un système capable d’acquérir le sens des mots, et les relations entre ces sens, à partir de dictionnaires à usage humain, du Web ou d’autres ressources lexicales. Pour l’antonymie, il n’existe pas de listes séparant les antonymies complémentaire, scalaire et duale. Nous présentons dans cet article une approche semi-supervisée permettant de construire ces listes. Notre méthode est basée sur les oppositions de nature morphologique qui peuvent exister entre les items lexicaux. À partir d’un premier ensemble de couples antonymes, elle permet non seulement de construire ces listes mais aussi de trouver des oppositions morphologiques. Nous étudions les résultats obtenus par cette méthode. En particulier, nous présentons les oppositions de préfixes ainsi découvertes et leur validité sur le corpus puis nous discutons de la répartition des types d’antonymie en fonction des couples opposés de préfixes.

2004

pdf bib
Classification automatique de définitions en sens
Fabien Jalabert | Mathieu Lafourcade
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Dans le cadre de la recherche en sémantique lexicale, l’équipe TAL du LIRMM développe actuellement un système d’analyse des aspects thématiques des textes et de désambiguisation lexicale basé sur les vecteurs conceptuels. Pour la construction des vecteurs, les définitions provenant de sources lexicales différentes (dictionnaires à usage humain, listes de synonymes, définitions de thésaurus, . . .) sont analysées. Aucun découpage du sens n’est présent dans la représentation : un vecteur conceptuel est associé à chaque définition et un autre pour représenter le sens global du mot. Nous souhaitons effectuer une catégorisation afin que chaque élément ne soit plus une définition mais un sens. Cette amélioration concerne bien sur directement les applications courantes (désambiguïsation, transfert lexical, . . .) mais a aussi pour objectif majeur d’améliorer l’apprentissage de la base.

2003

pdf bib
Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques
Didier Schwab | Mathieu Lafourcade | Violaine Prince
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.

2002

pdf bib
Vers l’apprentissage automatique, pour et par les vecteurs conceptuels, de fonctions lexicales. L’exemple de l’antonymie
Didier Schwab | Mathieu Lafourcade | Violaine Prince
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le cadre de recherches sur le sens en traitement automatique du langage, nous nous concentrons sur la représentation de l’aspect thématique des segments textuels à l’aide de vecteurs conceptuels. Les vecteurs conceptuels sont automatiquement appris à partir de définitions issues de dictionnaires à usage humain (Schwab, 2001). Un noyau de termes manuellement indexés est nécessaire pour l’amorçage de cette analyse. Lorsque l’item défini s’y prête, ces définitions sont complétées par des termes en relation avec lui. Ces relations sont des fonctions lexicales (Mel’cuk and al, 95) comme l’hyponymie, l’hyperonymie, la synonymie ou l’antonymie. Cet article propose d’améliorer la fonction d’antonymie naïve exposée dans (Schwab, 2001) et (Schwab and al, 2002) grâce à ces informations. La fonction s’auto-modifie, par révision de listes, en fonction des relations d’antonymie avérées entre deux items. Nous exposons la méthode utilisée, quelques résultats puis nous concluons sur les perspectives ouvertes.

pdf bib
UNL Lexical Selection with Conceptual Vectors
Mathieu Lafourcade | Christian Boitet
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

pdf bib
Antonymy and Conceptual Vectors
Didier Schwab | Mathieu Lafourcade | Violaine Prince
COLING 2002: The 19th International Conference on Computational Linguistics

2001

pdf bib
Synonymies et vecteurs conceptuels
Mathieu Lafourcade | Violaine Prince
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

La synonymie est une relation importante en TAL mais qui reste problématique. La distinction entre synonymie relative et synonymie subjective permet de contourner certaines difficultés. Dans le cadre des vecteurs conceptuels, il est alors possible de définir formellement des fonctions de test de synonymie et d’en expérimenter l’usage.

1996

pdf bib
Structured lexical data: how to make them widely available, useful and reasonably protected? A practicalexample with a trilingual dictionary
Mathieu Lafourcade
COLING 1996 Volume 2: The 16th International Conference on Computational Linguistics

1994

pdf bib
Manipulating human-oriented dictionaries with very simple tools
Jean Gaschler | Mathieu Lafourcade
COLING 1994 Volume 1: The 15th International Conference on Computational Linguistics