MORFITT : Un corpus multi-labels d’articles scientifiques français dans le domaine biomédical

Yanis Labrak, Mickael Rouvier, Richard Dufour


Abstract
Cet article présente MORFITT, le premier corpus multi-labels en français annoté en spécialités dans le domaine médical. MORFITT est composé de 3 624 résumés d’articles scientifiques issus de PubMed, annotés en 12 spécialités pour un total de 5 116 annotations. Nous détaillons le corpus, les expérimentations et les résultats préliminaires obtenus à l’aide d’un classifieur fondé sur le modèle de langage pré-entraîné CamemBERT. Ces résultats préliminaires démontrent la difficulté de la tâche, avec un F-score moyen pondéré de 61,78%.
Anthology ID:
2023.jeptalnrecital-arts.11
Volume:
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Florian Boudin, Béatrice Daille, Richard Dufour, Oumaima El, Maël Houbre, Léane Jourdan, Nihel Kooli
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
66–70
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-arts.11
DOI:
Bibkey:
Cite (ACL):
Yanis Labrak, Mickael Rouvier, and Richard Dufour. 2023. MORFITT : Un corpus multi-labels d’articles scientifiques français dans le domaine biomédical. In Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023, pages 66–70, Paris, France. ATALA.
Cite (Informal):
MORFITT : Un corpus multi-labels d’articles scientifiques français dans le domaine biomédical (Labrak et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-arts.11.pdf