Gilles Bernard


2018

pdf bib
L’évaluation des représentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet)
Nourredine Aliane | Jean-Jacques Mariage | Gilles Bernard
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les méthodes d’évaluation actuelles des représentations vectorielles de mots utilisent généralement un jeu de données restreint et biaisé. Pour pallier à ce problème nous présentons une nouvelle approche, basée sur la similarité entre les synsets associés aux mots dans la volumineuse base de données lexicale WordNet. Notre méthode d’évaluation consiste dans un premier temps à classer automatiquement les représentions vectorielles de mots à l’aide d’un algorithme de clustering, puis à évaluer la cohérence sémantique et syntaxique des clusters produits. Cette évaluation est effectuée en calculant la similarité entre les mots de chaque cluster, pris deux à deux, en utilisant des mesures de similarité entre les mots dans WordNet proposées par NLTK (wup _similarity). Nous obtenons, pour chaque cluster, une valeur entre 0 et 1. Un cluster dont la valeur est 1 est un cluster dont tous les mots appartiennent au même synset. Nous calculons ensuite la moyenne des mesures de tous les clusters. Nous avons utilisé notre nouvelle approche pour étudier et comparer trois méthodes de représentations vectorielles : une méthode traditionnelle, WebSOM et deux méthodes récentes, word2vec (Skip-Gram et CBOW) et GloVe, sur trois corpus : en anglais, en français et en arabe.

2017

pdf bib
Jmp8 at SemEval-2017 Task 2: A simple and general distributional approach to estimate word similarity
Josué Melka | Gilles Bernard
Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017)

We have built a simple corpus-based system to estimate words similarity in multiple languages with a count-based approach. After training on Wikipedia corpora, our system was evaluated on the multilingual subtask of SemEval-2017 Task 2 and achieved a good level of performance, despite its great simplicity. Our results tend to demonstrate the power of the distributional approach in semantic similarity tasks, even without knowledge of the underlying language. We also show that dimensionality reduction has a considerable impact on the results.

2004

pdf bib
Catégorisation de patrons syntaxiques par Self Organizing Maps
Jean-Jacques Mariage | Gilles Bernard
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous présentons quelques résultats en catégorisation automatique de données du langage naturel sans recours à des connaissances préalables. Le système part d’une liste de formes grammaticales françaises et en construit un graphe qui représente les chaînes rencontrées dans un corpus de textes de taille raisonnable ; les liens sont pondérés à partir de données statistiques extraites du corpus. Pour chaque chaîne de formes grammaticales significative, un vecteur reflétant sa distribution est extrait et passé à un réseau de neurones de type carte topologique auto-organisatrice. Une fois le processus d’apprentissage terminé, la carte résultante est convertie en un graphe d’étiquettes générées automatiquement, utilisé dans un tagger ou un analyseur de bas niveau. L’algorithme est aisément adaptable à toute langue dans la mesure où il ne nécessite qu’une liste de marques grammaticales et un corpus important (plus il est gros, mieux c’est). Il présente en outre un intérêt supplémentaire qui est son caractère dynamique : il est extrêmement aisé de recalculer les données à mesure que le corpus augmente.