Cet outil est un plugin pour Gate 5.0 permettant d'exporter des données vers un fichier texte de format Conll.
À l'aide des paramètres, plusieurs attributs d'une même annotation peuvent être extraits en colonnes (un attribut par colonne) et en ordre croissant de l'ordre d'apparition des annotations dans le document. Une deuxième annotation doit être spécifié pour délimiter les segments, par exemple les phrases, pour indiquer quand ajouter une fin de segment et une ligne vide dans le fichier de sortie.
Par exemple, si vous désirez extraire les attributs string, lemma et la catégorie de part-of-speech du tag Token et les séparer pour chaque phrase, vous pouvez ajuster les paramètres suivants :
- AnnotationSet : NE
- AnnotationTag : Token
- ExtractProperties: true
- SkipTag : Sentence
- PropertyList : string,lemma,category
- SuffixForOutputFile : conll
- OutputFilePath : file:/c:/Temp/
Le résultat pour la phrase "Réduire la durée des études de deuxième et troisième cycles." serait alors:
1 Réduire réduire VER:infi
2 la le DET:ART
3 durée durée NOM
4 des du PRP:det
5 études étude NOM
6 de de PRP
7 deuxième deuxième NUM
8 et et KON
9 troisième troisième NUM
10 cycles cycle NOM
11 . . SENT[ligne vide]
Fichiers et code source :