Outiller l’occitan : nouvelles ressources et lemmatisation

Aleksandra Miletić


Abstract
Ce travail présente des contributions récentes à l’effort de doter l’occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont été modifiées ou adaptées, notamment un tokéniseur à base de règles, un lexique morphosyntaxique et un corpus arboré. Ces ressources ont été utilisées pour entraîner et évaluer des modèles neuronaux pour la lemmatisation. Dans le cadre de ces expériences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikipédia a été annoté en parties du discours, lemmatisé et diffusé.
Anthology ID:
2023.jeptalnrecital-long.17
Volume:
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Christophe Servan, Anne Vilnat
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
217–231
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-long.17
DOI:
Bibkey:
Cite (ACL):
Aleksandra Miletić. 2023. Outiller l’occitan : nouvelles ressources et lemmatisation. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 217–231, Paris, France. ATALA.
Cite (Informal):
Outiller l’occitan : nouvelles ressources et lemmatisation (Miletić, JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-long.17.pdf