Corpustransfer ist ein kleines, aber wirksames Windows-Tool, um Korpora automatisch zu lemmatisieren und/oder zu Wortart-taggen. Dabei wird im Hintergrund auf TreeTagger (Helmut Schmid, Stuttgart) zuückgegriffen, dessen Listenergebnisse ausgewertet und nach verschiedenen Filteroptionen wieder zu Volltext-Korpora transformiert.

Damit wird es möglich, auch mit Analysetools, die keine Annotationen berücksichtigen (wie AntConc), dennoch grammatische Analysen i.w.S. durchzuführen (z.B. Wortartfrequenzen, Konkordanzabfragen zu spezifischen Wortart-Mustern, automatische Herausfilterung von bestimmen Wortarten aus Texten uäm.).

Für die Installation sind TreeTagger (inkl. aller dafür notwendigen Dateien) sowie eine Perl-Installation Voraussetzung.

Screenshots


Download

Die aktuelle Version von Corpustransfer (v1.5) kann hier als ZIP-File und unter den Bedingungen der Creative Commons Licence heruntergeladen werden; Zip einfach in einen Ordner entpacken.

In der neuesten Version (v1.5) ist eine Kurzanleitung (in Deutsch) integriert. Bitte informieren Sie sich dort über die Funktionalität und das Handling.

Ältere Versionen

Bugreport

Es wurden bereits von ersten Bugs berichtet, an deren Lösung noch gearbeitet wird. Folgende Bugs sind bekannt und lassen sich teilweise leicht umgehen: