1. Der paradoxe Umgang mit der Perzeption in der klassischen Phonologie

Mit der formalen, oder: wahrnehmbaren, Seite des sprachlichen Zeichens befassen sich mindestens zwei Unterdisziplinen der Linguistik, nämlich die Phonetik und die Phonologie. Die von Nikolai Sergejewitsch Trubetzkoy (1939) begründete Phonologie, die einen großen Fortschritt in der Wissenschaftsgeschichte markiert, trat von vornherein mit dem Anspruch auf, die abstrakte formale Lautstruktur zu erfassen; die Phonetik zielt dagegen auf die konkrete lautliche Realisierung; sie "kann als die Wissenschaft von der materiellen Seite (der Laute der) menschlichen Rede definiert werden" (Trubetzkoy 1939, 14). Der Unterschied zwischen diesen beiden Subdisziplinen lässt sich ausgehend von einigen prägnanten Zitaten aus Trubetzkoy 1939 schnell skizzieren.

1.1. Das akustische Kontinuum als Basis der Phonetik

Zunächst arbeitet die Phonetik nicht mit isolierten Einzellauten:

Der Schallstrom, den der Phonetiker untersucht ist ein Kontinuum, das in beliebig viele Teile gegliedert werden kann. (Trubetzkoy 1939, 16)

Zwar suggeriert uns die lange Tradition der Alphabetschrift, dass ein Signifikant, wie z.B. ita. mano ‘Hand’ genau aus vier aufeinander folgenden Einzellauten bestünde, die jeweils durch einzelne Buchstaben graphisch repräsentiert werden (m→a→n→o), aber die Visualisierung des entsprechenden akustischen Signals in Form des folgenden Spektrogramms zeigt, dass die Grenzen zwischen diesen vier vermeintlichen Einzellauten alles andere als klar sind:

Spektrogramm ita. mano (Quelle: https://it.wikipedia.org/wiki/Spettrogramma#/media/File:SpettrogrammaParolaManoBN.jpg)

Zwar gibt es Lautklassen, die sich klar voneinander unterscheiden, vor allem die Plosive und die Vokale; so erkennt man im folgenden Sonagramm die Vokale an den Verdichtungen der Frequenz (den sogenannten Formanten) im Bereich über 1000Hz und die Plosive an der ‘Stille’, weiß visualisiert wird; der eigentliche Verschluss des Verschlusslautes (Plosiv) ist ja eine Unterbrechung, eine Lücke im Schallstrom, die man gar nicht hören kann; erst die Lösung oder Sprengung des Verschlusses (engl. burst) wird hörbar. Weiterhin sieht man am untersten Formanten (Formant 0) sehr schön den Unterschied zwischen den stimmlosen und stimmhaften Plosiven; die Stimmhaftigkeit von [d] und [b] zeigt sich in der deutlichen Schwärzung im Bereich unter 100Hz:

Sonagramm Das gute Boot (Machelett 1996, Abb. 2.4)

Aber im Kontrast anderer Klassen erscheint der Übergang oft fließend, so z.B. zwischen Nasalen und Vokalen oder auch zwischen Lateralen und Vokalen. Das folgende Sonagramm von [ara] zeigt einerseits, dass der Formant 1¹ auch in dem Abschnitt erscheint, dem [-r-] entspricht. Andererseits sieht man ebenfalls deutlich, dass im selben Abschnitte bereits der Formant 2 des finalen [-a] auftaucht. Die drei Laute sind also nicht rein sequentiell angeordnet, sondern ihre Merkmale überlagern sich.

Sonagramm von [ara] (Machelett 1996, Abb. 2.16)

Das Sonagramm von ala zeigt sehr eindrücklich, dass die Formanten des initialen [a-] während der Artikulation von [-l-] deutlicher durchgehalten werden als die von [u-] und [i-]:

Lateral in Vokalumgebung [ala] links, [ili] Mitte und [ulu] rechts; (Machelett 1996, Abb. 2.13)

Das letzte Sonagramm, das wir hier wiedergeben, zeigt schließlich zwei Varianten von deu. Pilz, einmal (links) mit velarisiertem [ʟ], einmal mit dem [l] des Standarddeutschen. Man sieht, dass diese konsonantische Variation sich bereits in den Formanten des vrohergehenden Vokals abzeichnet.

Sonagramm von deu. Pilz in zwei Varianten Pilz (Machelett 1996, Abb. 2.16)

Die Frage ist nun, ob und in welchem Maße das akustische Profil des ausgesprochenen Zeichens (das im Sonagramm wiedergegeben wird) uns schon durch Audition, d.h. durch die Wahrnehmung als gegliedert erscheint; womöglich wird der Höreindruck auch automatisch durch unser Wissen um das alphabetische Schriftbild, das sich als Folge von Einzelbuchstaben präsentiert, überlagert; als ob wir die alphabetische Repräsentation in die Akustik ‘hinein’- und aus ihr ‘heraus’hörten. Die eigentliche Audition und ihre Repräsentation im Sprecherwissen kann das Sonagramm ja nicht zeigen.

Es wäre ein interessanter Perzeptionstest die Audition eines Sprechers, der eine Sprache mit Alphabetschrift spricht, und eines Sprechers mit einer logographisch geschriebenen Sprache (z.B. Mandarin) zu vergleichen. In einem solchen Test müssten diese Probanden(gruppen) einen identischen akustischen String in Laute segmentieren, so dass auftretende Unterschiede mit den beiden Schrifttypen in Verbindung gebracht werden könnten (vgl. ähnlich Kinoshita u.a. 2018).

1.2. Merkmalskombinatorik als Basis der Phonologie

Ein anderer grundlegender Unterscheid zwischen phonetischer und phonologischer Beschreibung besteht in der radikalen Reduktion der Lautmerkmale; so werden Vokale und Konsonanten im Sinne der Darstellungsökonomie mit möglichst wenigen Merkmalen beschrieben;

Die Sprachlaute, welche die Phonetik zu untersuchen hat, besitzen eine große Zahl von akustischen und artikulatorischen Eigenschaften, die für den Phonetiker alle wichtig sind [...] Für den Phonologen sind aber die meisten dieser Eigenschaften ganz unwesentlich, da sie nicht als Unterscheidungsmale der Wörter fungieren. [...] Der Phonologe hat am Laut nur dasjenige in Auge zu fassen, was eine bestimmte Funktion im Sprachgebilde erfüllt.(Trubetzkoy 1939, 14)

Zwar gibt es durchaus unterschiedliche Kriterien für die Festlegung der phonologischen Merkmale, aber meistens handelt es sich um artikulatorisch basierte Ansätze (vgl. exemplarisch Nespor 1993, 61), so dass die oben visualisierten Formanten gar keine Rolle spielen; die gezeigten, darauf beruhenden Überlappungen können also gar nicht abgebildet werden. Die selteneren Modelle, die in der Nachfolge Roman Jakobsons mit auditiv abgeleiteten Merkmalen operieren (vgl. exemplarisch Muljačić 1972) können zwar die grundsätzliche Ähnlichkeit von Liquiden und Vokale darstellen, wenn sie im Konsonantismus ein Merkmal ‘vokalisch’ ansetzen, aber die spezifischen, mit dem jeweiligen Vokal/Konsonanten variierenden, auch wechselseitig konditionierten Überlappungen vom Konsonant auf den Vokal und vom Vokal auf den Konsonanten (vgl. das Sonagramm von deu. Pilz) können sie ebenso wenig wiedergeben. Letztlich will die Phonologie dergleichen gerade als grundsätzlich irrelevant für das formale Funktionieren der Signifikanten erklären, wie sich aus der Diskussion des Phonembegriffs ergeben wird.

Phonologisch relevant für die Darstellung von Sachverhalten (d.h. funktional im Sinne der Phonologie) sind "Schalleigenschaften" laut Trubetzkoy nur dann, wenn sie
(1) eine "gipfelbildende oder kulminative" ,
(2) eine "abgrenzende oder delimitative" oder
(3) eine "bedeutungsunterscheidende oder distinktive Funktion" (29)
besitzen.

Eindeutig im Vordergrund steht dabei die Bedeutungsunterscheidung (3):

Jede sprachliche Einheit muss Schalleigenschaften mit distinktiver Funktion enthalten - sonst könnte sie ja von den anderen Eigenschaften nicht unterschieden werden. (Trubetzkoy 1939, 29)

Der funktionale Unterschied wird terminologisch als ‘Opposition’ fixiert:

Der Begriff der Unterscheidung setzt den Begriff des Gegensatzes, der Opposition voraus. Schallgegensätze, die in der betreffenden Sprache die intellektuelle Bedeutung zweier Wörter differenzieren können, nennen wir phonologische (oder phonologisch-distinktive oder distinktive) Oppositionen. (Trubetzkoy 1939, 31)

Mit diesem Ausdruck wurde der Schlüsselbegriff der ‘klassischen’ Phonologie etabliert, denn er bildet die Grundlage für die Identifikation der phonologischen Einheiten:

Jedes Glied einer | solchen Opposition nennen wir phonologische (bezw. distinktive) Einheit. (Trubetzkoy 1939, 32 f.)

Dafür wurde ein anderer Terminus festgeschrieben, der in weniger scharfer Definition bereits bei Saussure auftaucht:

Phonologische Einheiten, die sich vom Standpunkt der betreffenden Sprache nicht in noch kürzere aufeinander folgende phonologische Einheiten zerlegen lassen, nennen wir Phoneme. Somit ist das Phonem die kleinste phonologische Einheit der gegebenen Sprache. (Trubetzkoy 1939, 34)

Aus Sicht der Phonologie präsentiert sich die formale Seite eines Zeichens (der Signifikant) nicht als ein artikulatorisches und auditives Kontinuum, sondern als eine Folge distinktiver, oder: diskreter, Einheiten. Diese Einheiten (oder: Phoneme) bilden ein recht kleines und geschlossenes System (im Standarditalienischen zählt man 30 Phoneme; vgl. Nespor 1993, 61), dessen höchst ökonomische Effizienz sich daraus ergibt, dass jede der wenigen Einheiten als Kombination von noch weniger Merkmalen verstanden wird. In der Darstellung von Muljačić 1972 können die 30 Phoneme des Standarditalienischen auf nur 11 Merkmale zurückgeführt werden. Ob einem Laut Phonemstatus zugesprochen werden kann, muss durch die Bildung von so genannten Minimalpaaren ermittelt werden. Ein Minimalpaar sind zwei Sprachzeichen, deren Signifikanten, die sich nur in einem Phonem unterscheiden; anders gesagt ist ein Laut nur dann ein Phonem, wenn er im jeweiligen Lautsystem in der Lage ist, mindestens in einem Minimalpaar ein Wort von einem anderen Wort zu unterscheiden. Aus den folgenden Minimalpaaren (Beispiele aus Nespor 1993, 45) ergeben sich etwa für das Italienische drei Nasalkonsonanten: /n/, /m/ , /ɲ/:

ita. /mano/ ‘Hand’ vs. ita. /nano/ ‘Zwerg’
ita. /lena/ ‘Atemluft’ vs. ita. /leɲa/ <legna> ‘Holz’
ita. /ramo/ ‘Ast’ vs. ita. /raɲo/ <ragno> ‘Spinne’

Mehr Nasalphoneme gibt es nicht; zwar realisieren viele (Nord)Italiener den Laut [ŋ], z.B. in [coŋ] <con>, allerdings steht dieser Laut bei diesen Sprechern niemals in Opposition zu einem anderen Nasal; es handelt sich vielmehr um eine Variante, ein sogenanntes Allophon, des Phonems /n/. Im Deutschen und Englischen (und anderen Sprachen) ist /ŋ/ dagegen ein Phonem, wie die Minimalpaare zeigen:

deu. /saŋ/ <sang> vs. /san/ <sann>
deu. /lam/ <Lamm> vs. /laŋ/ <lang>
eng. /siŋ/ <sing> ‘singen’ vs. /sin/ ‘Sünde’
eng. /hæm/ <Schinken> vs. /hæŋ/ <hang> ‘hängen’

Dagegen fehlt das ita. Phonem /ɲ/ im deu. und engl. System.

1.3. Der Gestaltbegriff und die Phonologie

Während die Phonetik sich, in der Sicht durch Trubetzkoy ebenso wie in ihrem aktuellen Selbstverständnis, gleichermaßen auf Produktion und Perzeption bezieht (♦), führt die radikale Konzentration auf die funktionale und ökonomische Distinktivität in der Phonologie dazu, dass die Perzeption zwar theoretisch in den Mittelpunkt rückt. Gleichzeitig verliert die Phonologie aber auch den Bezug zur experimentellen und datenbasierten Perzeptionsforschung und zu neurophysiologischen Realität der Perzeption überhaupt.

Augenfällig wird formalistische Verselbständigung des phonologischen Modells und seine Loslösung vom von der Audition in der Tatsache, dass ein Phonem rein negativ, durch nicht vorhandene Merkmale repräsentiert werden kann. Ein ebenso einfaches wie eindrucksvolles Beispiel liefert die Beschreibung des ita. Vokalsystems in Nespor 1993. Die phonologische Beschreibung der sieben Vokale beruht auf nur vier Merkmalen, die jeweils nach dem Prinzip des Binarismus zugeordnet (+) oder abgesprochen (-) werden; rein logisch ist das vollkommen hinreichend. So lässt sich das Phonem /e/ unter totalem Verzicht auf spezifizierte akustische Korrelate, ganz abstrakt, über vier negative Merkmale beschreiben:

Das italienische Vokalsystem nach Nespor 1993

Derartige formale Zwänge und die damit einhergehende Entphonetisierung der Phonologie führen auch dazu, dass perzeptiv nahezu identische Laute wie /w/ als Entsprechung von <u> in ita. <uova> und /u/ als Entsprechung desselben Graphems in ita. <uva> mit völlig unterschiedlichen Merkmalen beschrieben werden, da beide Laute einmal als Konsonant und einmal als Vokal analysiert werden:

Merkmalanalyse von ita. /w/ und /u/ aus (Nespor 1993)

Die forschungsgeschichtliche Entstehung dieser Paradoxie lässt sich ausgehend vom wahrnehmungspsychologischen Begriff der Gestalt (Krefeld 2019m) sehr gut darlegen. Trubetzkoy misst diesem Begriff zwar an einer Stelle viel Bedeutung bei, aber letztlich spielt er methodologisch und methodisch für seine Konzeption der Phonologie keine Rolle:

Natürlich darf man die Sache nicht zu sehr vereinfachen. Man darf sich die Phoneme nicht etwa als Bausteine vorstellen, aus denen die einzelnen Wörter zusammengesetzt werden. Vielmehr ist jedes Wort eine lautliche Ganzheit, eine Gestalt, und wird auch von den Hörern als eine Gestalt erkannt, ebenso wie man etwa einen bekannten Menschen auf der Straße an seiner ganzen Gestalt erkennt. Das Erkennen der Gestalten setzt aber ihre Auseinanderhaltung voraus, und diese ist nur dann möglich wenn die einzelnen Gestalten sich voneinander durch gewisse Merkmale unterscheiden. Die Phoneme sind eben die Unterscheidungsmerkmale der Wortgestalten. Jedes Wort muss so viele Phoneme und in einer solchen Reihenfolge enthalten, daß es sich von jedem anderen Worte unterscheidet. (Trubetzkoy 1939, 34; Hervorhebung im Original)

Man hat den Eindruck, als sei der Gestaltbegriff für Trubetzkoy gewissermaßen unvermeidbar gewesen, denn er spielt in der zeitgenössischen Wahrnehmungspsychologie eine wirklich zentrale Rolle. Nicht zuletzt muss er ihm durch ein anderes prominentes Mitglied des Prager Linguistenkreises, nämlich durch seinen Wiener Kollegen Karl Bühler, vertraut gewesen sein; Bühler wurde ja nicht nur mit seiner Sprachtheorie (1934a) einer der bis heute einflussreichsten Sprachtheoretiker; er war auch ein sehr prominenter und maßgeblicher Vertreter der Gestaltpsychologie (vgl. Bühler 1960). Speziell der Vergleich der Worterkennung mit der gestalthaften Erkennung menschlicher Individuen im oben zitierten Passus aus Trubetzkoy 1939, 34 erinnert stark an die gestalttheoretische Auseinandersetzung Bühlers mit der Phonologie.

2. Die gestalttheoretische Diskussion der Phonologie bei Karl Bühler

Karl Bühler (1934a) hat sich sehr genau und auch zustimmend mit der frühen programmatischen Arbeit von Trubetzkoy (1929) beschäftigt:

Der einfache und durchsichtige Systemgedanke Trubetzkoys ist sprachtheoretisch von größter Tragweite. (Bühler 1934a, 281)

Die deskriptive und analytische Bedeutung der phonologischen Kombinatorik von Merkmalen und Phonemen, die er als das "phonematische Signalement der Wörter" (Bühler 1934a, passim) bezeichnet, steht für ihn außer Frage; allerdings sieht er als Gestaltpsychologe darin gerade nicht die absolute und generell wirksame Basis der Zeichenperzeption und Erkennung:

[Zeichen] müssen jedes einzelne als das und das erkennbar, d.h. diakritisch genügend scharf von den anderen getrennt und abgehoben sein. Dazu das System und dazu die Beschränkung.

Nur muß, wenn auf dem Wege des Signalementsverfahrens der Horizont eines mühelosen Wiedererkennens auf Tausende von Einheiten erweitert werden soll, eine zweite Bedingung erfüllt sein, die man nicht aus dem Auge verlieren darf; man kann sie als Psychologe der aufstrebenden Phonologie nicht oft genug ins Merkbuch schreiben. Es ist die einfache Tatsache, daß kein Mensch imstande ist, Tausende von Gebilden, die wie die Eier in unserem Exempel einzig durch Notae-Kombinationen charakterisiert wären, praktisch so spielend, schnell und sicher auseinanderzuhalten, wie das jeder geübte Partner einer Sprachgemeinschaft mit den Klanggebilden der Wörter fertig bringt [...]; ein Faktum, das wie andere erkannt und respektiert sein will und auf die weitgehende Mitwirkung des akustischen Gesichts der Klangbilder bei der Diakrise hinweist. Die Phonologie von heute löst die Aufgabe einer systematisch aufgebauten Diakrisenlehre nur im ersten Schritt und wird beim zweiten zur Gestaltpsychologie in die Lehre gehen müssen." (Bühler 21965, 282 f.)

Dem phonologischen Gerüst ("Signalement") stellt Bühler das komplexe "Klanggesicht" oder "Klangbild" der Wörter gegenüber und insistiert auf der Tatsache, dass in den allermeisten Situationen dieser komplexe auditive Gesamteindruck eines Worts das Verständnis sichert, denn "Komplexe als solche [sind] ohne die Vermittlung ihrer Elemente assoziationsfähig" (Bühler 1934a, 283, Anm. 1).

Theoretisch fruchtbar wird dieser Tatbestand deshalb, weil wir einigermaßen exakt angeben können, welche Momente und Konstituenten des Lautgepräges unter den genannten Umständen zuerst und am meisten der Abschwächung, Verwaschung und Verzerrung unterliegen. Es sind akustisch gesprochen die Geräusche, phonetisch gesprochen die Explosionslaute, welche allem anderen voraus alteriert werden. Bei wachsender Entfernung vom Sprecher wird rasch die Grenze ihrer Tragweite überschritten, das Telephon schwächt und verzerrt sie. Widerstandsfähiger sind in beiden Fällen die Vokalklänge und mit ihnen, an sie gebunden, bestimmte wohlcharakterisierte Komplexcharaktere (Gestaltqualitäten), z.B. die Melodie, d.h. das Stimmhöhenrelief des Lautstroms, weiter das rhythmische Gepräge (stark – schwach, kurz – lang), und schließlich die Helligkeits- und Sättigungswellen der Vokalität. Tatsache ist, daß diese Komplexcharaktere zusammen oft schon genügen, um die herabgesetzten diakritischen Anforderungen zu erfüllen. Die Wortbilder werden dann vorwiegend an ihrem akustischen Gesicht und keineswegs allein an ihrem Signalement erkannt. (Bühler 1934a, 284)

Leider erwähnt Bühler keine empirischen Tests, auf die sich seine Aufzählung der für die Audition besonders wichtigen akustischen "Gestaltqualitäten" stützt.² Sehr wichtig im Hinblick auf die inzwischen erfolgte Weiterentwicklung der Phonologie ist jedoch der Hinweis auf das "rhythmische Gepräge" und die unterschiedliche Widerstandsfähigkeit von "Geräuschen" (= Konsonanten) einerseits und "Vokalklängen" andererseits; beide Aspekte wurde durch die Rhythmustypologie und die Silbenphonologie genauer untersucht.

3. Der kognitive Status von Gestalten

Der Begriff der Gestalt im Bühlerschen Sinn ist für das Verständnis von Perzeption sehr hilfreich; denn er bezeichnet gerade die unkontrollierbare, uns automatisch erscheinende Selbstverständlichkeit, mit der sensoriell vermittelte Informationen erkannt und mit womöglich sehr komplexen Inhalten assoziiert werden:

Das Gestaltprinzip als ein Mittleres zwischen Sinnesempfindungen und begrifflichem Erkennen. Es gibt [...] eine Brücke, metaphorisch gesprochen, zwischen dem Empfinden von Sinnesdaten und dem (begrifflichen) Denken, das Gestalterlebnis nämlich. (Bühler 1960, 88)

Die Gestalten sind also, unserer Ansicht nach, keine Denkprodukte. Dies wird besonders deutlich am menschlichen Säugling und an Tieren (bis hinunter zu den Insekten). Während im Begriff ein Absehen, eine Abstraktion beschlossen liegt, bleibt das gestaltlich Erfasste inhaltsgesättigt. (Bühler 1960, 20, Anm. 1)

Bibliographie

Bühler 1934a = Bühler, Karl (1934): Sprachtheorie: Die Darstellungsfunktion der Sprache, Jena, Gustav Fischer (Link).
Bühler 1960 = Bühler, Karl (1960): Das Gestaltprinzip im Leben des Menschen und der Tiere, in: Enzyklopädie der Psychologie, vol. 5, Bern, Huber.
Kinoshita u.a. 2018 = Kinoshita, S. u.a. (2018): Orthographic and phonological priming effects in the same–different task, in: Journal of Experimental Psychology: Human Perception and Performance, vol. 44, 1661-1671 (Link).
Krefeld 1999 = Krefeld, Thomas (1999): Wortgestalt und Vokalsystem in der Italoromania. Plädoyer für eine gestaltphonologische Rekonstruktion des romanischen Vokalismus, Kiel, Westensee.
Krefeld 2019m = Krefeld, Thomas (2019): Gestaltpsychologie und aktuelle Wahrnehmungspsychologie, in: Lehre in den Digital Humanities, LMU (Link).
Machelett 1996 = Machelett, Kirsten (1996): Das Lesen von Sonagrammen, München, Institut für Phonetik und Sprachliche Kommunikation, LMU (Link).
Muljačić 1972 = Muljačić, Žarko (1972): Fonologia della lingua italiana, Bologna, Il Mulino.
Nespor 1993 = Nespor, Marina (1993): Fonologia, Bologna, Il Mulino.
Trubetzkoy 1929 = Trubetzkoy, Nicolai Sergejewitsch (1929): Zur allgemeinen Theorie der phonologischen Vokalsysteme, in: Travaux du cercle linguistique de Prague, vol. 1, 39-67.
Trubetzkoy 1939 = Trubetzkoy, Nikolai Sergejewitsch (1939): Grundzüge der Phonologie, Prag (Link).

Die Formanten erscheinen hier schwarz, im vorigen Sonagramm jedoch weiß.

Aufgenommen wurde die Bühlersche Anregung einer gestaltorientierten Phonologie in der diachronischen Rekonstruktion des romanischen Vokalismus durch Krefeld 1999; diese Arbeit stützt sich allerdings ausschließlich auf Produktionsdaten und setzt keine Perzeptionstests ein.

Lehre in den Digital Humanities

Die formale Seite des sprachlichen Zeichens