CUTE | Proceedings | Programm | Call for Submissions | Infos zur Einreichung | Wichtige Termine | Kontakt und Organisation | Datenmaterial
Datenmaterial
Inhaltliche Beschreibung
Korpusgröße
Subkorpus | Tokens | Entitäten | Version |
---|---|---|---|
Werther (1787) | 41.505 | 331 | 1 |
Adorno | 13.233 | 929 | 1 |
Parzival | 30.491 | 2.001 | 1 |
Bundestagsdebatten | 6.371 | 488 | 1 |
Datenformate
CoNLL (TSV)
Je Zeile ein Token. An Satzgrenzen eine Leerzeile. Annotationen sind tab-separiert. Mehrere Annotationen können in verschiedenen Spalten notiert werden. B-PER
bezeichnet das erste Token einer Personen-Annotationen, I-PER
bezeichnet folgende Tokens einer Personen-Annotation. O
(der Buchstabe) bezeichnet keine Annotationen.
Update, 29.11.: Da sich die Trainingsdaten für Werther nur auf einen Teil des Textes beziehen, enthält die Datei mit der Id 3_34_12
nur noch einen Teil des Textes. Frühere Versionen der Datei enthielten aufgrund eines technischen Fehlers leider auch nicht-geprüfte Annotationen.
Beispiel
Die B-PER
geringen I-PER
Leute I-PER
des I-PER B-LOC
Orts I-PER I-LOC
kennen O
mich O
schon O
, O
und O
lieben O
mich O
, O
besonders O
die B-PER
Kinder I-PER
. O
Apache UIMA XMI
XML-basiert, für die Verarbeitung mit Apache UIMA. Das Typsystem kann hier heruntergeladen werden. Die relevanten Typen sind Untertypen von de.unistuttgart.ims.creta.api.Entity
. Die Annotationskategorie ergibt sich zum einen aus dem Untertyp (z.B. de.unistuttgart.ims.creta.api.EntityPER
) und zum anderen aus dem Wert von Attribut category
.
Markdown
Benutzt das pandoc Markdown, vor allem zum manuellen Lesen der Annotationen. Annotationen sind mit eckigen Klammern gekennzeichnet, tiefgestellt folgt dann die Kategorie.
Das Format sollte nicht zur automatischen Verarbeitung verwendet werden.
Beispiel
[Die geringen Leute [des Orts ]~LOC~]~PER~kennen mich schon, und lieben mich, besonders [die Kinder]~PER~.
Downloads
Subkorpus | CoNLL (TSV) | XMI | Markdown |
---|---|---|---|
Werther (1787) | 3_34_12 | 3_34_12 | 3_34_12 |
Adorno | Bitte |
||
Parzival | Buch 3, Buch 4, Buch 5, Buch 6 | Buch 3, Buch 4, Buch 5, Buch 6 | Buch 3, Buch 4, Buch 5, Buch 6 |
Bundestagsdebatten | 3_22_26, 3_23_26, 3_24_26, 3_25_26 | 3_22_26, 3_23_26, 3_24_26, 3_25_26 | 3_22_26, 3_23_26, 3_24_26, 3_25_26 |