Stanza

Stanza est une librairie Python développée par le Stanford NLP Group et utilisée dans le traitement automatique des langues. Stanza est capable de réaliser diverses analyses et annotations d'un texte telles que la tokenisation, la lemmatisation, l'annotation des parties du discours, des relations de dépendances ou encore la reconnaissance d'entités nommées.

Cet outil, développé à partir de Stanza, prend un texte en entrée au format TXT, TEXT, XML/TEI, CHA, TRS, EAF ou TEXTGRID. Le texte est ensuite annoté avec Stanza selon l'un des quatre modèles disponibles. Pour le français : gsd, partut, sequoia, spoken. Le modèle par défaut utilisé pour l'instant est gsd. Pour l'anglais : ewt, gum, lines, partut. Le modèle par défaut utilisé pour l'instant est combined, une combinaison de plusieurs jeux de données. Le résultat est retourné au format CoNLL-U à 10 colonnes pour un fichier de l'écrit et au format CoNLL-U à 13 colonnes inspiré du projet Orféo, pour un fichier de l'oral (transcription).

Annoter un texte avec Stanza ...

Fichier d'entrée
Format
Langue