[image:840:c]Ich habe letzte Woche meine Diplomarbeit angemeldet und nun sechs Monate Zeit, diese zu schreiben. Im Prinzip beschäftige ich mich mit der Frage, wieviele linguistische Informationen man aus geschriebener Sprache (Bücher, Artikel, Internetseiten) ziehen kann, wenn man dazu statistische Methoden bzw. in meinem Fall ein Verfahren zur Signalverarbeitung, anwendet.
Schaut man sich an, in welchen Kontexten ein Wort in einer großen Textmenge (Korpus) vorkommt, stellt man fest, daß es mit bestimmten Wörtern deutlich häufiger zusammen steht, als mit anderen. Über das ICA-Verfahren können alle Wörter nach ihrem verwendeten Kontext gruppiert werden, so daß auf Basis der statistischen Auswertung Wortgruppen, sogenannte syntaktische Kategorien, extrahierbar werden. Wenn man so will, erlernt das System durch die Verarbeitung großer Textmengen, aus welchen Wortarten der Text der jeweiligen Sprache zusammengesetzt ist und wie man diese verwendet. Soviel also zur Theorie! ;-)
Realisiert wird die Anwendung zur Analyse des Verfahrens in Matlab, wobei ein wichtiger Vorverarbeitungsschritt in Perl durchgeführt wird. Matlab ist zum schnellen Erstellen von GUIs zur Informationsanalyse hervorragend geeignet. Alle Operationen, die ich auf den Korpora, also auf Texten, die im ASCII-Format vorliegen, durchführen muß, gehen allerdings am schnellsten und einfachsten in Perl.
Bildquelle: flickr
