Simsen für den Stamokap
Wie kommt ein Wort ins Wörterbuch? Die Computerlinguistik unterstützt die Lexikografen
Ein undankbares Geschäft, ein Wörterbuch zu verfassen. Ständig dieses nörgelnde Kritikervolk, das alles besser weiß, "Aber, aber!" schreit und stets Lücken findet. Lästig. Aber Kritik muss sein. Ein Wörterbuch wird nun einmal an dem gemessen, was fehlt. Im Idealfall steht es geduldig auf dem Schreibtisch, bis der Benutzer nach "Graecum" sucht oder nach "Mukoviszidose" oder "Computerlinguistik". Und dann spricht das Wörterbuch: Sieh her, ich weiß es! So soll es sein, der Benutzer muss sich jedes Mal freuen, dass er 14,95 Euro investiert hat.
Der neue Wahrig, die Wörterbuch-Traditionsmarke, kennt das Wort "Computerlinguistik" nicht. Das wäre eigentlich zu verschmerzen, insofern aber dann doch peinlich, als das Haus Bertelsmann, das den Wahrig herausgibt, in seiner Pressemappe just stolz darauf hinweist, dass das Werk mit Methoden der Computerlinguistik erstellt worden sei. Wer da nun denkt: Das Wort sagt mir erst einmal nichts, aber ich kann ja nachsehen, wenn ich das Buch gekauft habe, hat Pech.
Doch darf man vom neuen Wahrig wirklich das Wort "Computerlinguistik" verlangen? Schließlich ist er nur ein Rechtschreibwörterbuch und hat eine begrenzte Anzahl Einträge, damit er sein handliches Format behält. Wer es ausführlicher will, solle sich eben das Wörterbuch der deutschen Sprache zulegen, sagt Beate Varnhorn, die Leiterin der Wahrig-Redaktion in Gütersloh, und sie hat Recht.
Doch was hat es dann mit der Computerlinguistik auf sich? Das Haus Bertelsmann ist ganz neue Wege gegangen, denn es hat einen digitalisierten Korpus zurate gezogen. Korpus? Nun, das Wort kennt der neue Wahrig: ein Sammelwerk. In diesem Fall ein Sammelwerk von Texten aus Zeitungsartikeln hochwertiger Printprodukte - zu denen die Süddeutsche, der Standard und andere zählen (allerdings nicht die ZEIT). Der Korpus umfasst Artikel vom Jahr 2001 an und hat 500 Millionen Wörter. Aus diesen filtert ein Computerprogramm neue Wörter heraus, die dem Lexikografen dann als mögliche Kandidaten für das Wörterbuch vorgelegt werden. Das Programm liefert ihm, als Entscheidungshilfe, auch Angaben, wie oft das Wort im Korpus auftauchte, wann es zum ersten Mal erschien und ob es eventuell schon wieder verschwunden ist.
"Leitkultur" zum Beispiel hat es nicht in den Wahrig geschafft. "Das Wort war eine Eintagsfliege", sagt Varnhorn dezidiert. Anders als "schwächeln", das hat sich durchgesetzt, von den Sportseiten bis auf die Titelseite, so viel Ausdauer muss honoriert werden: Im Wahrig steht's. Und noch viel mehr steht dort: Nicht nur "SMS", sondern auch das "Simsen" für das Schicken derselben.
Außerdem "allergieauslösend" und "Mukoviszidose", "Nasdaq" und "Nemax", "Stammzelle" und "Verlinkung". Die Suche nach neuen Wörtern per Korpus ersetzt die traditionelle Arbeit des Lexikografen aber nicht.
Die besteht immer noch darin, dass sich Scharen von Freunden des geschriebenen Wortes im Auftrag der Lexikonredaktion auf Texte stürzen und per Hand die Wörter herauspicken, die ihnen erwähnenswert erscheinen.
- Datum 29.08.2002 - 14:00 Uhr
- Seite 1 | 2 | 3 | 4 | Auf einer Seite lesen
- Quelle DIE ZEIT, 36/2002
- Versenden E-Mail verschicken
- Empfehlen Facebook, Twitter, Google+
- Artikel Drucken Druckversion | PDF
-
Artikel-Tools präsentiert von:







Bitte melden Sie sich an, um zu kommentieren