Unistoff
25.02.2007

[image:840:c]Ich habe letzte Woche meine Diplomarbeit angemeldet und nun sechs Monate Zeit, diese zu schreiben. Im Prinzip beschäftige ich mich mit der Frage, wieviele linguistische Informationen man aus geschriebener Sprache (Bücher, Artikel, Internetseiten) ziehen kann, wenn man dazu statistische Methoden bzw. in meinem Fall ein Verfahren zur Signalverarbeitung, anwendet.

Schaut man sich an, in welchen Kontexten ein Wort in einer großen Textmenge (Korpus) vorkommt, stellt man fest, daß es mit bestimmten Wörtern deutlich häufiger zusammen steht, als mit anderen. Über das ICA-Verfahren können alle Wörter nach ihrem verwendeten Kontext gruppiert werden, so daß auf Basis der statistischen Auswertung Wortgruppen, sogenannte syntaktische Kategorien, extrahierbar werden. Wenn man so will, erlernt das System durch die Verarbeitung großer Textmengen, aus welchen Wortarten der Text der jeweiligen Sprache zusammengesetzt ist und wie man diese verwendet. Soviel also zur Theorie! ;-)

Realisiert wird die Anwendung zur Analyse des Verfahrens in Matlab, wobei ein wichtiger Vorverarbeitungsschritt in Perl durchgeführt wird. Matlab ist zum schnellen Erstellen von GUIs zur Informationsanalyse hervorragend geeignet. Alle Operationen, die ich auf den Korpora, also auf Texten, die im ASCII-Format vorliegen, durchführen muß, gehen allerdings am schnellsten und einfachsten in Perl.

Bildquelle: flickr


Kommentare

digi_c - 26.02.2007 at 18:46:01

Also dann mal viel Erfolg Martin!

Das klingt echt spannend, wirst du dann Graphen erzeugen die die Gewichtung der Worte angibt oder wo ist dann der “tiefere” Sinn sprich was habe ich von dieser Aussage? Ist das gut für text-to-speech oder Themenerkennung oder so?

Martin Pyka - 26.02.2007 at 19:08:05

eher für themenerkennung. aber die anwendungsgebiete werden sich erst dann so richtig erschließen, wenn es läuft ;)

Kommentieren

*
Wegen des Spamschutzes muß das im Bild angezeigte Wort eingetippt werden.
Anti-Spam Image