1. Einleitung und Fragestellung

Was ist divulgativer Diskurs? Auf den ersten Blick scheint es – gerade für Romanisten – einfach, das offensichtlich gelehrte Wort divulgativ und seine lateinische Herkunft zu durchschauen: vulgus ‚Volk‘ und di– ‚ver-, auseinander-‘ hat man selbst als K(l)ein-Lateiner schnell erschlossen. So etwas wie ‚ins Volk hinaus‘ müsste also dahinter stecken. Dann gibt es noch den Namen jener mittelalterlichen Bibel, auf die sich bis heute die katholische Kirche bezieht: Vulgata – eine Bibel fürs Volk? Nicht ganz – tatsächlich steckt ja nicht die Übersetzung der klassischen lateinischen, hebräischen oder griechischen Bibeltexte in eine Volkssprache hinter diesem Namen, sondern lediglich die Anpassung an einen adäquateren (schriftlichen) Sprachgebrauch des Lateinischen und die Absicht bzw. Notwendigkeit größerer *Verbreitung* – allerdings nicht auf die Gesamtheit der Bevölkerung als Leser bzw. direkte Rezipienten bezogen, sondern die gelehrten Eliten betreffend. ‚Unters Volk‘ gebracht wurde also nicht die ‚Neuauflage‘ an sich, die für den Klerus als Vermittlungsinstanz ein pädagogisches Hilfsmittel und nicht zuletzt eine interne Verständnishilfe darstellte. Das *divulgative* Ziel der Vulgata hatte demnach drei Facetten: 1. Hilfsmittel für Pädagogen zu sein, 2. durch erleichterte, vermehrte Vermittlung der Inhalte mehr Analphabeten/ungebildete Christen (od. ‚Heiden‘) zu erreichen, 3. Sicherstellung der ‚korrekten‘ Rezeption¹.

In den modernen Gesellschaften ist die schriftliche Form in ihrer diasystematischen und konzeptionellen Variation (vgl. Oesterreicher 1997) für die meisten Mitglieder keine Herausforderung mehr per se. ‚Jeder‘ ist in der Lage, einen Zeitungsartikel zu lesen, den Inhalt einzuordnen und die wichtigsten Punkte von den weniger wichtigen zu unterscheiden. ‚Unters Volk gebracht‘ im großen, gesellschaftsweiten Maßstab, d.h. der breiten Öffentlichkeit unterbreitet, werden Texte (oft als Informationen bezeichnet) z.B. in den großen Tageszeitungen. Diese Texte unterscheiden sich, indem sie ein disperses², möglichst zahlreiches Publikum erreichen sollen, sowohl von solchen Texten, die von Wissenschaftlern für Wissenschaftler eines selben Faches geschrieben werden, als auch von solchen, die z.B. einer firmeninternen Kommunikation angehören oder in administrativen Kontexten anzutreffen sind. Was den ‚an alle‘ gerichteten Diskurs der Massenmedien und speziell der französischen Tageszeitungen konkret ausmacht, ihn als solchen erkennbar macht, was ihm seine allgemeine Handhabbarkeit, aber vielleicht auch sein rhetorisches Potential verleiht, wird in dieser Arbeit unter verschiedenen sprachlichen Gesichtspunkten – am Beispiel der in den französischen Medien seit Jahren präsenten Diesel- bzw. Dieselmotoren-Thematik – erörtert.

Die Gründe für die Wahl dieses ‚Aufhängers‘, um französische Pressetexte diskurslinguistisch zu untersuchen, waren in erster Linie:

Es war zu erwarten, dass Inhalte im Zusammenhang mit Dieselfahrzeugen in der französischen Presse seit mindestens zehn Jahren³ thematisch gut vertreten sind, d.h., dass der für eine quantitative Untersuchung nötige Umfang des Korpusmaterials problemlos erreicht würde.
Der Dieselmotor existiert seit langem (1894), somit lässt sich theoretisch auch weit in die Vergangenheit recherchieren; wichtiger an der historischen Komponente war für die vorliegende Arbeit jedoch, dass das Konzept der Diskurstradition(en) miteinbezogen werden sollte und die diesbezüglichen Betrachtungen bei einer weit zurückreichenden Technologie auf einem referentiellen Fundament stehen, das jüngere Entwicklungen nicht hergeben.

Bei der Konzeption der Fragestellung (s.u.) spielten folgende Überlegungen eine zentrale Rolle:

Produktion und Rezeption von versprachlichten Inhalten sind ohne Kopräsenz von Regeln nicht denkbar, auch wenn diese (im Fall der Muttersprache) meist nicht explizit erlernt, ja nicht einmal als solche wahrgenommen werden⁴, sondern vielmehr unbemerkt im Hintergrund am Sprechen ‚mitwirken‘⁵. Der Grund hierfür ist, dass Norm im Coseriuschen Sinn⁶ sich nicht als System (im Vordergrund) bemerkbar macht, solange innerhalb desselben bzw. in Abhängigkeit von ihm kommuniziert wird. Die Entlastung⁷ der Sprecher durch etablierte Kommunikations-blueprints⁸ wirkt wie ein Souffleur im Hintergrund der Konzeption und Interpretation von Äußerungen: Man muss seine Vorschläge nicht annehmen, aber seine dauernde Teilnahme an jeglicher sprachlicher Interaktion hat v.a. zusammen mit dem Faktor Zeit so starke Auswirkungen auf den Bewusstheitsgrad, mit dem wiederkehrende kommunikative Entscheidungszwänge wahrgenommen werden⁹, dass man sich fragen kann, was eigentlich diese soufflierende Instanz individuellen ‚Sprechwissens‘ befähigt, ‚richtige‘, normgerechte, funktionale Vorschläge zu machen, obwohl der konkret agierende Sprecher sich in einer einzigartigen Situation befindet, die indivuelle ad-hoc-Entscheidungen erfordert, für die er nicht synchron verschiedene Optionen der Sinngestaltung ausprobieren kann.

Da sprachliche Interaktion zwingend in einem oder mehreren Idiom(en) stattfindet, muss neben den vielen nichtsprachlichen kognitiven Hinweisen zur Sinngestaltung auch auf der Textebene¹⁰ etwas sein, das solche Hinweise gibt. Das heißt, dass die historische Ebene, die u.a. lt. Koch 1997, 44f sowohl das einzelsprachliche System als auch das übereinzelsprachliche ‚Diskurssystem‘ beherbergt, an der individuellen Konzeption und Interpretation von Lokutionen teilhat. Die beteiligten ‚Modelle‘ scheinen zwar gewissermaßen im resultierenden ‚Illokutionswert‘ der individuellen Äußerung aufzugehen¹¹, aber auf der konkreten, lokutiven Ebene des Textes bleiben sie manifest und beobachtbar. Sie müssen es sein, da das ‚Soufflieren‘ (sozusagen eines Alter Ego), das so konstitutiv für die Äußerung auf der lokutiven Ebene war, ebenfalls eine lokutive, wenn auch flüchtige, ‚Substanz‘ besitzt. Die der sprachlichen Kommunikation als Bedingung innewohnende Historizität (langue) scheint also dank der *Materialität* der einzelnen sprachlichen Erzeugnisse (parole) zustande zu kommen.

Bildlich gesprochen kann das Alltags- bzw. Wachbewusstsein, das uns befähigt, einen Zeitungsartikel zu lesen und zu verstehen, einzelne Sandkörner od. -haufen aus der a priori undifferenzierten und indefiniten Masse an ’schon gesehenem Sand‘ eigentlich nur über die Identifikation von Sandmerkmalen funktional zuordnen¹². Ein solcher Wiedererkennungswert liegt Elementen bzw. Netzen von Elementen des individuellen Diskurses zugrunde, die wiederkehrend sind und daher kognitive Entlastungssprozesse (vgl. oben) in Gang setzen. Die dies bewerktstelligende *diskursive Prägung* (einzel- wie übereinzelsprachlich) bzw. das kognitive highlighting solcher Manifestationen wird auch als Diskurstradition (DT) bezeichnet¹³. Das System od. Netzwerk (od. Rhizom) der DT ist wie ein ‚lebendiger‘ bzw. organisch gewachsener Schlüsselbund, dessen Zweck es ist, individuelle Äußerungen möglichst nah an der intendierten Illokution bzw. am Sinn zu gestalten bzw. zu interpretieren¹⁴.

Da Diskursivität also eindeutig abhängig ist von der Qualität ihrer ‚Vertretung‘ auf materiell-lokutiver Ebene, setzt die vorliegende Arbeit auf dieser Ebene an, indem als empirische Basis ein umfangreiches Textkorpus, bestehend aus Artikeln französischer Tageszeitungen, mit modernen korpuslinguistischen Hilfsmitteln untersucht wird – mit dem Ziel, möglichst aufschlussreiche Beispiele für einzelsprachliche sowie kognitive bzw. übereinzelsprachliche Diskursmuster zu ‚(re)konstruieren‘¹⁵.

1.1. Fragestellung

Welche typischen Merkmale an der Textoberfläche kennzeichnen französische Zeitungsartikel im Zusammenhang mit dem Thema Diesel(motor) in verschiedenen Zeiträumen, und welche Bedeutung kommt diesen aus diskurstraditioneller Sicht zu?

1.1.1. Thesen

1. Die öffentliche Wahrnehmung von Dieselfahrzeugen im Spiegel des französischen Pressediskurses hat diachron quantitative und qualitative Veränderungen durchlaufen. Im jüngeren untersuchten Zeitraum (2017-2018) wurde öfter und deutlicher eine problematisierende bis stigmatisierende Haltung gegenüber Dieselfahrzeugen eingenommen als dies im früheren untersuchten Zeitraum (2007-2008) der Fall war. Auch die unterschiedliche Positionierung beider Zeitungen im politischen Spektrum spiegelt sich im ‚Dieseldiskurs‘ wider.

2. Das pragmatische Zusammenspiel der beiden kognitiven Ebenen (kommunikativer Erfahrungsschatz vs. aktuelles Sprechen) bedeutet, dass es eine dritte kognitive Ebene geben muss, auf der sich die Typizität (und die Typik) der aktuellen Kommunikationssituation (bzw. von Aspekten derselben) aus dem (mehr oder weniger bewussten) Abgleich mit dem ‚Vergleichskorpus‘ der kommunikativ-einzelsprachlichen Erfahrungswerte erschließt¹⁶.

3. Aus der Dualität des sprachlichen Zeichens ergibt sich, dass mit sprachlicher Variation theoretisch auch eine Variation/Dynamik des Wissens einhergeht (und als implizite Größe jeder Divulgation existiert): Einerseits fördert Divulgation in den Massenmedien Wissensverbreitung (sprachliches und außersprachliches Wissen), andererseits bleibt dabei offen, in welchem Verhältnis die divulgativen Inhalte tatsächlich zu den fachspezifischen Grundlagen stehen, d.h. inwiefern das Divulgierte (‚Divulgat‘) auf diese zurückführbar ist¹⁷.

4. Da auch der Rezipient offensichtlich ‚etwas mit dem Text macht‘ (vgl. Barthes 1970, 15), steht Divulgation in direktem Zusammenhang mit Sprach- und Diskurswandel.

5. Divulgativer Diskurs, der wie ein Puffer Wissen, Fachwissen und Terminologien verschiedenster Bereiche für die ganze Sprachgemeinschaft sortiert und aufbereitet, kann in seiner diachronen Dimension analog zum Sprachwandel bei Keller 2014, 88-146 als Phänomen der dritten Art gesehen werden. Wie man diesem Erklärungsansatz auch gegenüber steht, es scheint gegeben, dass außersprachliche Impulse zur Begründung und Entwicklung von Diskurstraditionen bzw. reproduktiven Diskursmustern¹⁸ beitragen. Bedenkt man die massiven möglichen Auswirkungen etwa von Falschmeldungen, Fake News oder der unverzichtbaren, aber arbiträren Selektion durch Gatekeeper, kommt ein unidirektionaler Ansatz allerdings nicht in Frage. Vielmehr stellt sich gleichzeitig die umgekehrte Frage, welchen Kontext ein bestimmer Diskurs *erzeugt* und darüber hinaus, welche Sprachmerkmale dafür verantwortlich sind, dass etwas kontextualisiert wird (vgl. Feilke in Bubenhofer 2009, 66). Es ist anzunehmen, dass die divulgative Selektion von diskursiven Elementen Kontexte erzeugt, die Auswirkungen auf die in der Gesellschaft wahrgenommene Weltwirklichkeit hat, was die Relevanz bestimmter Kontexte konventionalisiert und letztere zu potenten Diskursdomänen macht.

1.2. Aufbau und Schwerpunkte

Die Fragestellung impliziert sowohl eine diskursanalytische als auch eine korpuslinguistische Herangehensweise. Beide stellen eigene Subdisziplinen (nicht nur) der Sprachwissenschaft dar und wurden in der Praxis bereits in zahlreichen Arbeiten kombiniert (vgl. Forschungsüberblick). Als solche schließen sie auch je ein weites methodisches und konzeptuelles Spektrum ein, was dazu geführt hat, dass die Begriffsbestimmungen und die Beschreibung der Methode in der vorliegenden Arbeit auf den ersten Blick überproportional viel Platz einnehmen. Betrachtet man aber die Proportionen der tatsächlichen Arbeitsprozesse, die zur erfolgreichen Bearbeitung der gewählten Thematik notwendig waren, relativiert sich dieser Eindruck:

Bei der ersten Annäherung an die im Arbeitstitel ausgedrückten Konzepte tat sich zunächst ein weites und z.T. unübersichtliches Feld der begrifflichen und methodischen Möglichkeiten auf, was bedeutete, dass bereits das Ausfindigmachen und Verwerten relevanter Sekundärliteratur keinem vorgezeichneten Weg folgen konnte. Der theoretische ‚Unterbau‘ verdichtete sich entsprechend langsam, während seine Schilderung (bzw. die Selbstvergewisserung der Verf.) einen hohen Explikationsgrad und z.T. weites Ausholen in Nachbardisziplinen verlangte.

Mehr oder weniger parallel zu diesem Prozess ging es darum, mit grundlegenden Praktiken der Korpuslinguistik vertraut zu werden, was weiteres begriffliches und methodisches Neuland bedeutete, welches wiederum nicht mit wenigen Worten zu beschreiben war. Die digitale Aufbereitung des gewählten Korpusmaterials vom Quelltext bis zum Vorliegen in Form einzelner annotierter Tokens in einer relationalen Datenbank – die Gesamtheit der entsprechenden für jedes korpuslinguistische Vorhaben unverzichtbaren, aber individuell auszugestaltenden Maßnahmen lässt sich prägnant als Strukturierung korpuslinguistischer Daten¹⁹ fassen – nahm einen zentralen Platz in der korpuslinguistischen Praxis der vorliegenden Arbeit ein. Diese Praxis machte es erforderlich, den Zweck und die interne Logik der angewendeten digitalen Prozeduren so gründlich wie möglich zu verstehen und möglichst fasslich zu erläutern. Man könnte die im Verlauf von ca. zwei Monaten erfolgte Konzeption und Umsetzung der Datenstrukturierung als ein kleines ‚digitales Bauvorhaben‘ beschreiben, das eine adäquate korpuslinguistische ‚Versuchsanordnung‘ zum Ziel hatte.

Als die o.g. konzeptionellen und praktischen Arbeitsprozesse soweit gediehen waren, dass im Prinzip mit der empirischen Auswertung der Korpusdaten begonnen werden konnte, musste zunächst der Umgang mit der Abfragesprache SQL soweit erlernt werden, dass nach und nach ein SQL-Abfragenkatalog formuliert und abgearbeitet werden konnte, der, indem das globale Erkenntnisinteresse sozusagen in eine Hierachie von Einzelteilen zerlegt wurde, letztendlich die empirische Basis für das übergeordnete Ziel einer ‚quantitativ informierten, qualitativen Diskursanalyse‘²⁰ liefern sollte.

Zwar ist die Syntax der basalen SQL-Abfragen schnell und intuitiv erlernbar, aber bereits bei der Formulierung von Fragen des Typs: Wie oft kommt Token X mit Token Y im selben Satz vor? kommen relativ komplexe, oft mehrere Dimensionen des Korpus betreffende ‚Abfragegebilde‘ zustande, die im Einzelnen durchdacht sein wollen und Anfänger u.U. viel Zeit mit Try & Error verbringen lassen. Da jedes Erkenntnisinteresse und jedes Korpus individuell sind, gibt es keine konkreten Musterlösungen und selbst mit der Unterstützung eines erfahrenen Anwenders dieser formalen Sprache muss man immer noch selbst die erhaltenen Lösungsvorschläge nachvollziehen, um sie natürlichsprachlich zu beschreiben und sinnvoll anzuwenden.

Es war offensichtlich, dass die Ausschöpfung der theoretischen Möglichkeiten, die sich aus der Fragestellung und der SQL-Aussagenlogik ergaben, trotz relativ schnell zunehmender eigener Kompetenz im Umgang mit der DB einen zeitlichen Rahmen erfordert hätte, der weit über den gegebenen hinausging. Es ist daher zu betonen, dass die in den Kap. 7-12 (Korpusanalyse II-VII) vorgestellten Befunde im Prinzip nur die Spitze eines Eisbergs darstellen, für deren Freilegung aufgrund des geschilderten ‚Vorbereitungsaufwands‘ nur ca. 10% der Bearbeitungszeit zur Verfügung standen. Für die darauf folgende Evaluierung und Interpretation der Befunde musste ebenfalls ein sehr knapp bemessenes Zeitpensum ausreichen.

Auch wenn dieses scheinbare Ungleichgewicht zwischen Aufwand und Ertrag für korpuslinguistische Untersuchungen typisch sein mag und sich aus den genannten Gründen in der vorliegenden Arbeit nicht zu einer umfangreicheren Ergebnisseite hin verschieben ließ, ist zu bedenken, dass einmal korpuslinguistisch aufbereitet vorliegende Datenbestände, insbesondere zusammen mit einem geeigneten und ausreichend explizierten methodischen Instrumentarium, ihr empirisches und interpretatorisches Potential behalten, nachdem eine individuelle Untersuchung wie die vorliegende abgeschlossen ist. Somit wird die eher mager erscheinende ‚Ernte‘ gewissermaßen kompensiert durch umfangreiche Möglichkeiten der ‚Wiederverwendung‘ der empirischen und methodischen Basis.

2. Begriffsbestimmungen

In diesem Kapitel werden Begriffe besprochen, die im Fokus des Untersuchungsinteresses stehen. Sie werden im Vorfeld geklärt, damit sich die Fragestellung und deren Bearbeitung semantisch transparent und eindeutig darstellt. So kann im weiteren Verlauf auf entsprechende, u.U. nicht dem gängigsten Sprachgebrauch entsprechende Definitionen verzichtet werden, soweit keine Abweichung von den in diesem Kapitel vorgenommenen Bestimmungen vorliegt. Termini u. Konzepte, die nicht direkt in den Objektbereich der Fragestellung fallen, werden bei Bedarf an anderer Stelle definiert.

2.1. Divulgation / vulgarisation

2.1.1. Vorbemerkung

Der zu Beginn erfolgende, weit ausholende Versuch einer Inhalts- u. Herkunftsbestimmung von Divulgation/divulgativ kam dadurch zustande, dass die lexikologische/-graphische Recherche zu diesem Bestandteil des Arbeitstitels überraschend wenig Aufschluss darüber gaben:

Im Duden findet man bei der Suche nach Divulgation lediglich Divulgator ‚Verbreiter‘/‚Propagandist‘, zusammen mit einer diasystematischen Zuordnung zur Bildungssprache und Angabe der lateinischen Herkunft.

Im Kluge (Kluge/Seebold 2015) taucht kein Eintrag mit dem Stamm divulg– auf. Immerhin findet sich im Artikel zu vulgär folgender Hinweis: „Morphologisch zugehörig: vulgarisieren, Vulgarität,
etymologisch verwandt: [Vulgata, vulgo]“ (Kluge/Seebold 2015, 770).

Auch Grimms Deutsches Wörterbuch enthält keinen entsprechenden Eintrag unter D.

2.1.2. Versuch einer Herleitung

Divulgation bzw. divulgativ ist im Deutschen anscheinend nicht lexikalisiert bzw. nicht lexikographisch erfasst²¹ (im Gegensatz zu frz. divulgation²², it. divulgazione, aber auch frz. vulgarisation/vulgariser, s.u.). Selbst wenn man das Wort als lexikalisiert betrachten will aufgrund der lexikographischen Erfassung von Divulgator, ist dennoch klar, dass Divulgation (wie Divulgator) kein Lexem der deutschen Standardvarietät bzw. ein gelehrtes Wort ist, das auch als solches nicht frequent ist.

Die in der Bildungssprache bzw. in den Fachwortschätzen sehr zahlreich vorhandenen sog. gelehrten Wörter (mots savants) – deren ‚Schöpfer‘ sich bekanntlich aus dem griechischen und lateinischen Morpheminventar bedienen, um (im besten Fall) eine prägnante Bezeichnung für etwas zu kreieren, das erbwörtlich nicht prägnant und präzis genug bezeichnet war – haben hinsichtlich ihrer Lexikalisierung und lexikographischen Erfassung eine gewisse Sonderstellung: Sie erfüllen den Zweck der hohen Aussagekraft gerade dann besonders gut, wenn sie nicht allgemeinsprachlich lexikalisiert sind bzw. nur sehr spezifisch zum Einsatz kommen und damit nicht dem potentiellen Bedeutungswandel frequenter (Standard-)Formen unterworfen sind.

Der antike Fundus an Morphemen, die wissenschaftliche Abstraktionen versprachlichen helfen (sollen), scheint dank der zahlreichen Kombinationsmöglichkeiten nie erschöpft und erfreut sich auch bei Wissenschaftlern, die keiner der Gebersprachen mächtig sind, bis heute großer Beliebtheit. Vielleicht ist sogar anzunehmen, dass gerade letztere den Transparenz-Mehrwert der gelehrten Wortbildung einfach voraussetzen, während gute Kenner des Griechischen und/oder Lateinischen durch ihr (kontextuelles) Bedeutungswissen diese Sichtweise u.U. nicht immer teilen.

Diese reichen und gleichzeitig strukturell ‚handhabbaren‘ Inventare und die Abstraktheit der Aspekte, die daraus gebildete Lexeme normalerweise erfassen sollen, machen ihre Verwendung wissenschaftsübergreifend schlüssig – zumindest gibt die Kompositionalität dieser ‚maximal motivierten‘ Entlehnungsphänomene jeweils eine gewisse Vorstellung, was in einem bestimmten Kontext damit gemeint sein könnte. Natürlich ist aber gerade aufgrund der unspezifischen Bedeutung der verwendeteten Elemente außer der Kontextualisierung eigentlich auch eine Terminologisierung der jeweiligen Neubildung nötig, denn mit dem jeweils für einen konkreten Zusammenhang gewählten lat. od. griech. Ausdruck wird immer nur der jeweils gesuchte Inhalt entlehnt, also ein Inhalt von vielen, die mit ein- und demselben Ausdruck/Morphem eine lexikalische Einheit²³ bilden können.

Die spezifische Bedeutung wenig frequenter gelehrter Wörter ist also entweder in fachinternen Terminologien zu suchen (was allerdings für Nichtfachleute wenig erhellend sein kann) oder man muss, wie im vorliegenden Fall, anhand von Vorkommnissen in verfügbaren Textquellen selbständig eine Bedeutungsbeschreibung herausarbeiten. Beides kann sicherlich kein Garant für die absolute Erfassung des ganzen gebrauchsbasierten Bedeutungsspektrums sein, aber dies ist keine Eigenart gelehrter Wörter, sondern betrifft alle Elemente der langue, deren ‚Leben‘ in der parole immer nur in Stichproben und Momentaufnahmen erfassbar bleibt. Andererseits ist man auch auf der metasprachlichen Suche selbst Sprecher und verfügt dadurch über eine leistungsfähige, aus Erfahrung gespeiste Intuition, wenn es darum geht, Sprachgebrauch hinsichtlich seiner formalen und semantischen ‚Festigkeit‘ einzuschätzen, v.a., wenn der Kontext des vorgefundenen Vorkommnisses größtenteils einem vertrauten Diskurs entspricht.

Eine Stichwortsuche („Die Divulgation“) bei google ergibt rd. 250 Treffer²⁴, wobei nur ein Teil davon auf Vorkommnisse in verschiedenen Quellen verweist²⁵. Die entsprechenden Kontexte deuten an, dass u.U. neben den Bedeutungsangaben im Duden zum nomen agentis auch noch etwas anderes im nomen actionis mitschwingt:

Divulgation ‚(mediales) Verbreiten/einer (breiten) Öffentlichkeit zugänglich machen‘ (z.T. i.S.v. Enthüllen v. Geheimwissen, vertraulichen Dokumenten usw.);
(?) Divulgation ’sprachlich für das Allgemeinverständnis aufbereiten‘ (ähnlich dem Sinn von frz. vulgarisation).

Auf den ersten Blick scheinen die beiden (unterstellten) Bedeutungen in einem kausalen metonymischen Verhältnis zu stehen: um Verbreitung zu finden, muss etwas für die Rezipienten handhabbar sein bzw. gemacht werden, was wiederum nur sinnvoll ist, wenn für die entsprechenden Informationen ein Bedarf vorhanden ist. Andererseits kann man sagen, dass die Filiation auf Ähnlichkeit beruht, weil das eine in der materiellen Welt gedacht ist (räumlich für eine Allgemeinheit verfügbar machen), das andere hingegen auf der kognitiven Ebene (mental für eine Allgemeinheit verfügbar machen).

Die Suche nach einer Klärung beim Ursprung der gelehrten Entlehnung ergibt, dass lat. divulgare *kein* sprachlich-epistemisches Kompetenzgefälle andeutet. Vielmehr ist damit das konkrete Verbreiten von (neuem, den ‚Empfängern‘ noch nicht bekanntem) Wissen gemeint, was zwar faktisch einem Wissenszuwachs bei denen gleichkommt, die sie als Neuigkeit aufnehmen, aber per se keine grundsätzliche, diasystematische Vertikalität von (Sprach-)Wissen impliziert: Die wissensmäßige Unterlegenheit der Empfänger ‚vor der‘ Divulgation ist im Lateinischen nicht allgemeiner Natur, sondern lediglich auf den Einzelfall beschränkt. Sieht man dt. Divulgation also als direkt entlehnt (< divulgatio) an, hat es (jedenfalls für sich allein genommen) nicht die (Mit-)Bedeutung einer Vereinfachung (und damit Transformation) von komplexen Sprach- und Wissensgegenständen (auch wenn die massenhafte mediale Verbreitung die allg. Verständlichkeit voraussetzt).

Wird Divulgation im Deutschen nun dennoch im Sinn einer populärwissenschaftlichen bzw. pädagogisch-vereinfachenden Aufbereitung verwendet (vgl. dt. vulgarisieren ‚in unzulässiger Weise vereinfachen‘), liefert die Bedeutung von lat. vulgus einen Erklärungsansatz: einerseits meint es eine große Anzahl von Individuen bzw. die Mehrheit des Volkes (bzw. das Volk ganz allgemein), und andererseits jenen (Bevölkerungs-)Anteil mit niedrigem sozialem (Wissens-)Stand (bzw. gemeines Volk), welcher jedoch im alten Rom mit dem der Mehrheit der Bürger zusammenfiel. Da gemein und allgemein dieselben Referenten hatte, ist die lat. Filiation zwischen den Bedeutungen transparent und beruht auf Kontiguität.

Ich gehe davon aus, dass der lexikalische Wandel, der schlussendlich zu dt. Divulgation geführt hat oder derzeit dazu führt, nicht ausschließlich auf lat. divulgare/divulgatio, sondern teilweise auch auf lat. vulgus bzw. das schon früher entlehnte bildungssprachliche dt. vulgo ‚gemeinhin, im Volksmund genannt‘ zurückgeht; nämlich in jener Verwendung, die ein Kompetenzgefälle der Kommunikationsteilnehmer impliziert.

Zwischenfazit: Der dt. Ausdruck Divulgation hat in der Gegenwartssprache bisher keine große Verbreitung gefunden und seine Bedeutung scheint sehr weit gefasst bzw. für spezifische Verwendungen wenig gefestigt zu sein. Setzt man einen Ausdruck mit solch instabilem Status als Autor ein, um ein Konzept prägnant zu bezeichnen, bewegt man sich in einem Bereich des lexikalischen Wandels zwischen ad-hoc-Innovation²⁶ und Neologismus. Man wirkt also, indem man Divulgation verwendet – je nach Rezeption des betroffenen Textes mehr oder weniger stark – an der Bildung einer oder mehrerer lexikalischer Einheiten mit, die der Ausdruck mit den durch konkrete Kontextualisierung demonstrierten Inhalten bilden kann.

Durch den Nexus divulgativer Diskurs im Arbeitstitel wird gerade diese semantische und referentielle Offenheit eher zum Vorteil, da gleichzeitig zwei Aspekte der in der Tagespresse anzutreffenden Versprachlichungen angesprochen sind: 1. (massenmediale) Verbreitung und 2. bestimmte damit korrelierende Versprachlichungseigenschaften. Der zweitgenannte Aspekt wird bestätigt und konkretisiert durch den Zusatz am Beispiel Dieselmotor: Wo fachspezifische Elemente für den Alltagsgebrauch bzw. für das Tagesgespräch einer (Medien-)Gesellschaft aufgrund lebensweltlicher Vorgänge (Kontingenz) operationalisiert werden sollen, greift die zweite Bedeutungsnuance des ‚Herunterbrechens‘ komplexer Sachverhalte i.S. eines Anschlusses an die Basiskategorien des Standard-Wortschatzes der Adressaten (vgl. Keller 1995, 75).

2.1.3. Exkurs: Fachsprache vs. Gemeinsprache

Linguistische Arbeiten, die sich mit der gemeinsprachlichen und allgemeinwissens-adäquaten Vermittlung von Inhalten innerhalb eines bestimmten Kommunikationshaushaltes (vgl. Luckmann 1997) befassen, gehen i.d.R. ausführlich auf das Verhältnis zwischen Fach- u. Gemeinsprache bzw. auf ihre Klassifizierung anhand soziolinguistischer Domänen ein. Bei der Lektüre fällt immer wieder auf, dass Hinweise auf den ausgesprochenen Modellcharakter der gängigen Beschreibungen dieser Beziehungen meist fehlen oder kaum ausgeführt werden.

Man findet in der einschlägigen Literatur (im Französischen oft unter dem Stichwort vulgarisation, s.u..) durchweg die Vorstellung einer Vertikalität des (Sprach-)Wissens, die sich als Kontinuum od. Gradatum von maximal spezifisch-abstrakt bis maximal alltäglich-konkret erstreckt. Ebenso wird anscheinend davon ausgegangen, dass es grundsätzlich Fach*texte* sind, die als Grundlage und Ausgangspunkt für die gemeinsprachliche bzw. populärwissenschaftliche Aufbereitung dienen²⁷.Vergegenwärtigt man sich die makro- und mikrostrukturelle Präsenz populärwissenschaftlicher Divulgation v. a. in den Massenmedien, kann diese Vorstellung kaum aufrecht erhalten werden: Bereits die Selektion von Themen macht aufgrund der völlig unterschiedlichen Relevanz (v.a. auch hinsichtlich ihres zeitliches Auftretens) und Kontextualisierung für Fach- und Alltagswelt deutlich, dass sich z.B. journalistische Ressourcen nicht auf einzelne Fachtexte beschränken können, sondern aus verschiedenen Quellen herausgefiltert werden muss, was für den beabsichtigten divulgativen Beitrag notwendig ist. Sind die Journalisten nicht selbst vom Fach, sind sie dabei ihrerseits auf existierende ‚Mittlertexte‘ oder ‚-instanzen‘ angewiesen. Selbst von Wissenschaftlern stammende und für die Divulgation bzw. Weitergabe an Journalisten gedachte Texte können den Bedarf an Expliziertheit, den die kontinuierliche journalistische Aufbereitung voraussetzt, nicht in der Breite abdecken. Die Einsicht, dass populärwissenschaftliche Divulgation nicht ausschließlich von Spezialisten geleistet werden kann, ergibt sich auch ohne entsprechende statistische Untermauerung aus der Tatsache, dass die geringe Zahl von ‚Mehrfachspezialisten‘ – welche neben der journalistischen also mindestens eine weitere Berufsrichtung gründlich beherrschen – in keiner Relation zum massenmedialen Bedarf an der Divulgation verschiedenster Fachinhalte steht.

Dazu kommt, dass, wenn man schon von einem Gefälle zwischen Spezial- und Alltagswissen ausgeht, nicht nur die akademisch institutionalisierten Fachgebiete an der Spitze eines solchen stehen, sondern viele weitere schwer zugängliche Wissensbereiche. Dass gleichzeitig der Abstraktionsgrad als hierarchisierend angenommen wird, ist daher m.E. problematisch, zumal die Abstraktionsfähigkeit bzw. -anforderung nicht in direktem Zusammenhang mit Bildungsstand und institutionellem Status der Kommunikationsteilnehmer steht.

Welchen Stellenwert die hier angemeldeten und sicherlich nicht neuen Zweifel in der Fachsprachenforschung tatsächlich haben, vermag ich nicht einzuschätzen. In jedem Fall sollten sie nicht außer Acht gelassen werden, gerade wenn man Fach- und Allgemeinsprache aus variationslinguistischer Sicht erforscht²⁸. Für die hier beabsichtigte diskurslinguistische Untersuchung journalistischer Erzeugnisse führen jedenfalls Modelle nach dem Muster Text₁→ Text₂nicht weiter. Vielmehr sind es ganze Netzwerke von Texten, die in ihrer diskurstraditionellen Bezogenheit eine abstrakte Ebene preisgeben sollen, was im ersten Schritt durch das Herausarbeiten statistisch beobachtbarer Kategorien – unter minimaler präanalytischer Lenkung – geschehen soll. Erst in einer zweiten Phase kommen deduktive Überlegungen zum Tragen.

2.1.4. Frz. vulgarisation

Für den französischen Begriff vulgariser ‚vereinfachend darstellen‘ existiert im Deutschen keine Simplex-Übersetzung. Je nach Kontext kommt ihm z.B. im Zusammenhang mit dem Ergebnis der damit gemeinten Vorgänge dt. populärwissenschaftlich nahe. In anderen Fällen bieten sich Umschreibungen an, die das lexikalische Potential der Dichotomie Laie vs. Spezialist usw. nutzen. Die Wortfamilie rund um frz. /vulgaris-/ gehört eindeutig zum frz. Standard und wird auch in der gesprochenen (wenn auch eher distanzsprachlich markierten) Sprache gebraucht.

Im PR ist als sens courant folgendes angegeben:

vulgarisation scientifique: le fait d‘adapter un ensemble de connaissances techniques, scientifiques, de manière à les rendre accessibles à un lecteur non spécialiste.

Diasystematisch und inhaltlich decken also frz. vulgarisation (scientifique) und dt. Divulgation unterschiedliche Bereiche ab, möglicherweise mit einer geringen Schnittmenge im Bedeutungsbereich des ‚Populärwissenschaftlichen‘.

Folgende Stelle aus Mortureux 1982c, 3 zeigt, dass ohne den Zusatz scientifique nicht automatisch ein Zusammenhang mit naturwissenschaftlichen Inhalten hergestellt wird:

„‚Vulgarisation‘ tout court […] – ce sens fut-il donné par le Petit Robert comme ‚vieilli ou littéraire‘ – c’est la diffusion de recherches et de théories en général, et non de connaissances exclusivement ’scientifiques‘ […] ainsi, la ‚popularisation‘ d’analyses et propositions politiques est-elle visée, au départ, aussi bien que la vulgarisation de la biologie, de l’économie…“

Man sieht, dass auch im Französischen die für gelehrte Wörter übereinzelsprachlich verwendeteten Morpheme z.T. eher zufällig bzw. kontextuell eingesetzt werden und man auch aus dem Sprachgebrauch keine klar abgegrenzten Definitionen ableiten kann. Vulgarisation, popularisation, divulgation usw. bilden, solange sie ohne konkreten Kontext bzw. ohne Bedeutungseingrenzung durch Attribute stehen, zunächst ein generisches Paradigma, das – entsprechend produktiv – erst durch Anwendung eine eindeutige referentielle Zuordnung erlaubt.

(Ait El Hadj/Albertini 1985, 9) weisen auf die innere Differenziertheit des Begriffs hin:

„Parler de la vulgarisation aujourd’hui, c’est d’abord rendre compte d’une diversité de pratiques. Car la vulgarisation scientifique n’est […] ni une technique spécifique, ni un discours homogène […] Ces pratiques ont en commun de vouloir instaurer […] une communication entre spécialistes et non-spécialistes, portant sur les questions scientifiques et technologiques. Elles sont le fait de ‚médiateurs‘, professionnels qui ont fait de la vulgarisation leur domaine privilégié de compétence. Les opinions au sujet de ces pratiques, que ce soit à propos de leurs objectifs, de leures procédés ou leur efficacité, sont partagées.“

Der Gebrauch von vulgarisation zeigt gerade in diesem Zitat im Vergleich mit dem von Mortureux, wie kontext- und autorenbhängig die isolierte Verwendung im Einzelfall ist. Welche lexikalische ‚Standardbedeutung‘ jeweils angenommen werden kann, hängt auch von der zeitgenössischen Bedeutung bestimmter Wissensbereiche in der Gesellschaft ab. Heute sind es primär naturwissenschaftliche bzw. technologische Themen, die der Allgemeinheit näher gebracht werden sollen, daher wird vulgarisation oftmals unmissverständlich als Synonym für vulgarisation scientifique verwendet, wenn es um die Zeit seit der Aufklärung bzw. der industriellen Revolution geht.

2.1.5. Frz. divulgation

Im TLFi liest man unter dem Lemma divulgation:

A.− Action de divulguer. Divulgation de secrets militaires, d’un secret professionnel. Synon. propagation, publication, révélation. Sa Majesté trouve peu royale la divulgation officielle de ses bonnes œuvres (Balzac, C. Birotteau,1837, p. 398). Cela touche à la divulgation de secrets intéressant la Défense nationale (Romains, Hommes bonne vol.,Verdun, 1938, p. 156):
1. … mes indiscrétions ne sont pas des divulgations de la vie privée, mais tout bonnement des divulgations de la pensée et des idées de mes contemporains, … Goncourt, Journal, 1890, p. 1251.
− [L’accent est mis sur l’étendue du milieu recevant l’information] Il [M. le Tourneux] avait entrepris sur une grande échelle la divulgation gallicane et très-chrétienne de l’Évangile (Sainte-Beuve, Port-Royal,t. 5, 1859, p. 84).
− Spéc., DR. En matière de brevets d’invention, fait de rendre publique une découverte avant le dépôt de la demande de brevet, ce qui détruit le caractère de nouveauté et rend nul le brevet (d’apr. CIDA 1973).
B.− Fait d’être divulgué, état de ce qui est divulgué. Le besoin de la confidence étant chez lui plus fort que la crainte de la divulgation (Proust, Prisonn.,1922, p. 302):
2. … ouvrage excellent en soi [l’Art impressionniste de G. Lecomte], mais édité luxueusement à très petit nombre et par conséquent incapable de divulgation dans le public. Mauclair, Les Maîtres de l’impressionnisme,1904, p. 5. (ATILF) (Link)

Dieser Eintrag deutet an, dass das Bedeutungsspektrum von frz. divulgation v.a. auf die (medial bzw. materiell bedingte) Verbreitung (Dissemination bzw. diffusion) von Informationen hinausläuft und den vertikalen Wissenstransfer bzw. ein Wissensgefälle nicht mit einschließt. Dies ist wenig erstaunlich, zumal frz. vulgarisation dies umso klarer und gründlicher zu tun scheint.

Im FEW-Eintrag zu lat. divulgare (vgl. ATILF b, 110 bzw. von Wartburg 1949) steht wiederum:

„bekannt machen, daraus entlehnt fr. divulguer ‚porter à la connaissance d’un grand nombre de personnes‘ […] Ablt. Nfr. divulgateur ‚vulgarisateur‘ […] Ebenso aus lat. divulgatio entlehnt mfr. nfr. entlehnt divulgation ‚action de divulguer‘.

Interessant ist nun die genauere Untersuchung eines besonders oft aufgelisteten Treffers der o.g. google-Suche nach dt. Divulgation: Es handelt sich um den Buchtitel Linguaggio medico – online: Die Divulgation medizinischen Wissens im Internet (Merkt-Wagner 2003). Die Autorin verwendet den Ausdruck (wie mir nach kursorischer Durchsicht des Werks scheint) ausschließlich im Titel, während danach jeweils von Popularisierung oder auch populärwissenschaftlich die Rede ist. Wenn ihr letztere Optionen systematisch passender erschienen als dt. Divulgation/divulgativ, fragt sich, warum dann im Titel nicht auch Popularisierung verwendet wurde. Die unmittelbare Nachbarschaft des deutschen Untertitels zum italienisch verfassten Titel mag diese eigentlich erstaunliche Diskrepanz z.T. erklären: it. divulgazione ist wie frz. divulgation eher auf die (gesellschaftliche) Verbreitung an sich bezogen, und wenn man sich die verschiedenen lexikographischen Beschreibungen dazu ansieht und insbesondere mit it. volgarizzamento vergleicht, erkennt man, dass erst zusammen mit Ergänzungen wie scientifica allgemeinverständliches Formulieren i.S.v. frz. vulgarisation bezeichnet wird. Verwirrend ist, dass volgarizzamento ‚Übersetzen von lateinischen Quellen in die (ital.) Volkssprache‘ bedeutet, während das Verb volgarizzare zusätzlich die diasystematische Bedeutung v. frz. vulgariser zu haben scheint, also einen entsprechenden Bedeutungswandel erfahren hat oder überhaupt erst viel später gebildet wurde.

Wie dem auch sei – die Gesamtschau dieser sprachübergreifenden Unschärfen führt zu dem vorläufigen Schluss, dass dt. Divulgation für sich allein nicht unbedingt eine Experten-Laien-Dichotomie impliziert, sondern schlicht eine große Verbreitung von Informationen meint. Gleichzeitig scheint das Lexem quasi eine semantische Leerstelle (vgl. gramm. Valenz/slot) zu eröffnen für Ergänzungen, die das o.g. genannte Wissensgefälle stärker in den Fokus rücken, ohne dass der quantitative Verbreitungsaspekt dabei in den Hintergrund treten muss.

2.1.5.1. Fazit/Terminologie in dieser Arbeit

Divulgativer Diskurs ist derjenige Diskurs, der sich an eine breite Öffentlichkeit richtet. Zunächst und für sich genommen, impliziert divulgativ noch keine Vereinfachung abstrakter Inhalte. Da jede Information bzw. jeder Inhalt theoretisch hohe und niedrige Abstraktionsstufen der Darstellung kennt, geht es in variationeller Hinsicht lediglich um eine sprachliche Gestaltung in Zentrumsnähe des als Standard wahrgenommenen/beschreibbaren Sprach- und Weltwissens. Dies bedeutet aber nicht automatisch eine diasystematische Anpassung ‘nach unten’, sondern die zentrumsnahe Darstellung kann ebensogut mit der Abstraktionsstufe der Fachkommunikation zusammenfallen bzw. darüber liegen. Um divulgativ, also für die Allgemeinheit angemessen zu sein, ist ein weitgehend als neutral empfundener Diskurs gefragt, der keinen Vergleich, kein topologisch fixiertes Verhältnis zu nicht-divulgativen Diskursen nahegelegt – divulgativ impliziert keine Hierarchie, sondern zeichnet sich gerade durch niedrige diasystematische Markiertheit und nur soviel Distanzsprachlichkeit wie nötig aus, um die neutrale Wirkung und damit die Rezeption zu fördern.

Daraus folgt, dass divulgativ und populärwissenschaflich/frz. vulgarisation keine Synonyme sind, sondern lediglich semantische Überschneidungen aufweisen: zwar erfüllen beide als Textcharakteristika die Bedingung, der für die Allgemeinheit fasslichen Darstellung, aber nur populärwissenschaftlicher Diskurs²⁹ impliziert den Prozess des Vereinfachens komplexer, abstrakter Beschreibungen; außerdem muss ein populärwissenschaftlicher Text noch lange keine große Verbreitung finden (er ist lediglich durch seine Konzeption dafür geeignet); divulgativ hingegen ist ein Text auch ohne ein abstraktes, höheres Vorbild, sobald seine tatsächliche mediale Verbreitung gegeben ist und er somit deren Bedinungung erfüllt: was auch immer nötig war, um den Text für öffentlichen Gebrauch passend zu gestalten, hat der divulgative Text durchlaufen. Der populärwissenschaftliche Text wird aktiv und i.w.S. pädagogisch/didaktisch motiviert von Lesern und Wissensvermittlern ausgewählt, der divulgative Text betrifft die allgemeine Leserschaft von einflussreichen Medienformaten, er ’spricht‘ gewissermaßen zu einem ‚kontingenten‘ Publikum³⁰.

Wenn es um Aspekte der Vertikalität von Wissen und die entsprechenden sprachlichen Tatbestände geht (tatsächliche Dichotomie Spezialist vs. Laie), greife ich ggf. auf Ausdrücke wie populärwissenschaftlich, Aufklärung, gemeinsprachlich, explizierend, erläuternd, transparent, fasslich/Fasslichkeit, plausibel usw. zurück. Ausgeschlossen ist hierfür im Deutschen die Verwendung von vulgarisieren aufgrund der eindeutig pejorativen Markierung (vgl. Duden-Eintrag).

2.2. Diskurs

Laut Becker 2015, 152 ist die Verwendung des Diskursbegriffs in den Geisteswissenschaften nicht denkbar ohne Foucaults fundamentales Werk L’ordre du discours (Foucault 1971). Darin geht er v.a. auf die gesellschaftliche und institutionelle Dimension ein:

„Der Diskurs ist seinem Wesen nach ein gesellschaftlich und institutionell reguliertes Sprechen, das festgelegten Prozeduren unterworfen ist […]“ (Becker 2015, 153)

„[…] procédures qui ont pour rôle d’en conjurer les pouvoirs et les dangers, d’en maîtriser l’événement aléatoire, d’en esquiver la lourde, la redoutable matérialité.“ (Foucault 1971) (Link)

Becker 2015, 149 spricht auch von kohärentem Sprechen über Themen und Gegenstände, die von der jeweiligen Gesellschaft/Gruppe als relevant angesehen werden; eda.:

„Ein grundlegendes Wesensmerkmal von Diskursen ist es, dass sie in vielfältiger Weise reguliert sind, sich also gewissermaßen innerhalb einer ‚Ordnung des Sprechens‘ konstituieren.“

Die Regulative betreffen die Teilnahmeberechtigung, die inhaltlich-thematische Gestaltung, Schlüsselkonzepte und Lesarten, argumentative Grundlagen sowie sprachliche Authentifizierungsmerkmale.

2.2.1. Ein unspezifischer Annäherungsversuch

Diskurs m. ‚Abhandlung, Unterhaltung, Erklärung‘, sondersprachl. Entlehnt aus 1. discursus ‚Erörterung, Mitteilung‘ (wörtlich: Unterlaufen, Auseinanderlaufen), zu 1. discurrere (discursum) ‚auseinanderlaufen, ausbreiten, mitteilen, erörtern‘, zu 1. currere ‚laufen, rennen‘ (s. auch dis-). (Kluge/Seebold 2015, 146)

Nach vielseitigen vergleichenden Beobachtungen und Lektüren drängt sich mir zunächst die Ansicht auf, dass Diskurs eine Struktur ist bzw. als solche aufgefasst werden kann. Aber was ist eigentlich eine Struktur?

Struktur f. ‚innere Gliederung, Aufbau‘. Im l8. Jh. entlehnt aus 1. strūctūra ‛Bauart, Zusammenfügung, Ordnung’, zu l. struere (strūctum) ‛aneinanderfügen, schichten, zubereiten, ordnen’. […] Verweis auf konstruieren. (Kluge/Seebold 2011)

Die Verbindung zu Konstruiertheit passt zu meinem Eindruck, dass es sich bei Diskursen bzw. Diskurstraditionen um Gewebe (Strukturen) handelt wie sie Geertz 1973 für den Kulturbegriff angenommen hat (semiotischer Kulturbegriff: Kultur als Gewebe, in das der Mensch ‚verstrickt‘ ist und das von ihm/dem Kollektiv selbst erschaffen und erhalten wird.

2.2.2. Linguistische Begriffsbildung

Ein allgemein akzeptierter Diskursbegriff existiert in der Sprachwissenschaft nicht. Dies ist nicht verwunderlich, wenn man bedenkt, dass der Ausdruck für sich genommen ähnlich vielfältige Kontextualisierungsmöglichkeiten eröffnet wie etwa Rede. Mit dem Ausdruck Diskurs sind Inhalte verknüpfbar, die von sehr generischen bis zu sehr spezifischen reichen. Entsprechend vielfältig sind die Erkenntnisinteressen existierender sprachwissenschaftlicher Arbeiten im Zusammenhang mit Diskursen.

Innerhalb der disparaten Begriffsbildung rund um Diskurse lassen sich aber auch Gemeinsamkeiten der verschiedenen Richtungen feststellen, z.B. darin, dass die Untersuchung von Diskursen im Unterschied zur Textlinguistik über die Grenzen des Einzeltextes hinausgeht und anhand eines ganzen Korpus stattfindet (vgl. Niehr 2014, 29).

Auch darüber, dass Diskurse in fast belibig viele Teildiskurse und -ebenen unterteilbar sind, dürfte weitgehender Konsens herrschen (vgl. z.B. Würfelmodell von Jung/Wengeler in Niehr 2014, 37).

Um einen für einzelsprachliche Diskursanalysen möglichst operablen Begriff herauszuarbeiten, ist der Schritt von der synchronen und der universellen Ebene der Sprache hin zur historischen Ebene äußerst hilfreich. Im folgenden Abschnitt wird daher das Konzept der Diskurstradition(en) vorgestellt.

2.2.2.1. Diskurstraditionen

Den Begriff der Diskurstradition haben Romanisten der Tübinger Schule geprägt und weiterentwickelt, allen voran Brigitte Schlieben-Lange (vgl. Schlieben-Lange 1983) Wulf Oesterreicher (vgl. Oesterreicher 1988) und Peter Koch (vgl. Koch 1997), die unter Berufung auf Coserius drei Ebenen der Sprache (vgl. Koch 1997, 43) die Diskurstraditionen dort verorteten, wo auch das einzelsprachliche System zu sehen ist, nämlich auf der historischen Ebene. In der Folge wurde der Begriff in der Romanistik sehr fruchtbar gemacht – wesentlich weniger in der sonst so am Diskursbegriff interessierten Germanistik – und hat seinen festen Platz v.a. in Untersuchungen, die diachron vorgehen bzw. historische Befunde synchronisch ins Auge fassen.

Koch 1997, 45f beschreibt das Verhältnis zwischen einzelsprachlichen Regeln (langue) und den Diskurstraditionen so:

„Neben oder besser gesagt: quer zu den einzelsprachlichen Traditionen bzw. Normen sind hier die Texttraditionen oder – wie ich es nenne – die Diskurstraditionen bzw. Diskursregeln anzusetzen.“

Zur Historizität der Diskurstraditionen verweist Koch 1997, 60 auf Wittgensteins Begriff der Familienähnlichkeit, welcher in der Tat eine inhärente Dualität von Traditionen passend veranschaulicht: einerseits knüpfen Diskurse an gängige Konventionen an, andererseits „gehen sie immer über das Gegebene hinaus“ (Koch 1997, 59).

Koch stellt eda. fest:

„Entscheidend ist folgendes: wir müssen damit rechnen, dass am Ende einer Filiation eine erheblich andere diskurstraditionelle Realität steht […] als am Anfang, obwohl die historische Kontinuität über den ganzen Zeitraum […] wirksam war.“

Es handelt sich also bei den Diskurstraditionen um ein System, das dem Spannungsverhältnis zwischen Konservatismus und Dynamik ausgesetzt ist und von ihm lebt (wie die Einzelsprache als langue) (vgl. Koch 1997, 61).

Oesterreicher 1997 arbeitet den Begriff d. Diskurstradition minutiös heraus. Hier einige daraus entnommene Feststellungen (in sinngemäßer Zusammenfassung):

Diskurse folgen neben einzelsprachlichen Regeln *notwendig* ganz bestimmten Textmustern, -schemata oder -modellen und damit Diskurstraditionen. Diskurstraditionelle Kennzeichen sind zunächst „normative, die Diskursproduktion und -rezeption steuernde, konventionalisierte Muster der sprachlichen Sinnvermittlung“. Dass dieser Punkt aus linguistischer Sicht wichtig ist, zeigt sich etwa daran, dass man die massiv deiktische Beschreibung im Diskurstyp Wegauskunft kaum als defektiv bezeichnen und ebensowenig in der Transkription eines Prüfungsgesprächs typische Sprachformen der Mündlichkeit vermissen würde. Festzuhalten ist also, dass Diskurstraditionen nicht mit literarischen Gattungen oder Stilrichtungen gleichzusetzen sind (vgl. Oesterreicher 1997, 20).
Die in Diskurstraditionen sichtbaren Profile könnten […] sinnvollerweise zwischen extremen Nähediskursen und extremen Distanzdiskursen skaliert werden.
Kommunikativ-konzeptionelle Kriterien (Konstellationen von Nähe-/Distanz-Parametern und Verbalisierungsstrategien) konstituieren die Grundstrukturen von Diskurstraditionen eindeutig mit, liefern aber für sich genommen noch nicht deren Definition.
Diskurstraditionen sind aus bestimmten kommunikativ fundierten Prozessen hervorgegangene Abstraktionen. Auf- und Ausbau diskurstraditioneller Muster (und damit des Wissens darüber) gleicht zwar strukturell dem Erwerb von Wissensbeständen überhaupt, aber die Definition als Abstraktion impliziert kulturspezifische Varianz (vgl. Oesterreicher 1997, 24). Die Definition von Diskurstraditionen ist also zu erweitern: Sie sind „konventionalisierte Kristallisationskerne“ nicht nur von bestimmten Nähe/Distanz-Parametern und Versprachlichungsmustern, sondern auch von „gesellschaftlich determinierten inhaltlich-thematischen Wissenskomplexen“³¹.
„Diskurstraditionen müssen von den Mitgleidern einer Sprachgemeinschaft erworben werden; sie fungieren als Muster für Sinngebungen […] Es versteht sich von selbst, dass diese Wissensbestände aber nur teilweise den Status von explitzitem Wissen haben; vergleichbar der sprachlichen Kompetenz, handelt es sich in der Regel um ein zwar bestimmtes, aber nicht explizierbares Wissen.“ (Oesterreicher 1997, 25).
In der (von „gesellschaftlichen Relevanzstrukturen gesteuerten“) Kommunikation sind Wissensvorräte der sog. Alltagswelt und solche „spezialisierter Subsinnwelten in ihrer strukturalen, thematischen und funktionalen Eigengesetzlichkeit zu berücksichtigen.“ (Oesterreicher 1997, 26). Nicht-alltagsweltliches diskurstraditionelles Wissen kann nicht von der gesamten Sprachgemeinschaft erwartet werden, auch wenn Rückwirkungen auf die alltagsweltlichen Formen nicht ausbleiben. Das heißt auch, dass das NDK nicht linear auf die lebensweltlich bedingt heterogenen sog. Diskursuniversen abgebildet werden kann.
Im Zusammenhang mit bestimmten „gesellschaftlich zentrale[n] Sinnkerne[n]“ ergeben sich Institutionalisierungsprozesse und Diskurstaditionen mit starker formaler und semantischer Fixierung. Damit einher gehen „Selektions- und Kanonisierungsprozesse“, deren soziale Kontrolle „Ausdruck von Macht und Gewalt“ ist: „Derartiges Diskurswissen ist immer auch Herrschaftswissen“. Oesterreicher verweist dabei auf Gehrke 1994 sowie auf Assmann 1992c, 316f., der das „kulturelle Gedächtnis“ und dessen entsprechende ‚Pflege‘ der „Kompetenz exklusiver Wissensbevollmächtigter“ (Barden, Schamanen, Kleriker usw.) überantwortet sieht. Andererseits existiert (lt. Assmann 1992c, 316f.) ein „kommunikatives Gedächtnis“ bzw. Alltagsgedächtnis, das „sozial diffus“ ist. Hinter dieser Trennung stehen Konzeptualisierungen wie profan, interaktionell, operativ VS heilig, identitätsstiftend, normativ. Zwischen den Polen existiert, so Assmann, allerdings ein Kontinuum, das sich z.T. aus grundlegenden alltagspraktischen Erinnerungsformen (diachron) herleitet.
Aber nicht nur in den institutionalisierten Wissensformen und entsprechenden Diskurstraditionen werden „Werte definiert, Lösungen ausgehandelt, Konflikte ausgetragen, wird Identität gestiftet, kurz: Gesellschaft konstruiert und konstituiert“, sondern auch in den „alltagsweltlichen Diskurstypen“ (vgl. Oesterreicher 1997, 27).
Obwohl Diskurstraditionen modell- und mehr oder weniger regelhaft sind, zeichnen sie sich mitunter gerade durch die „Forderung nach Nutzung von Freiräumen“ aus; d.h. „diskursive Varianzphänomene [können] durch die Befolgung der Diskursregeln entstehen“, variatio delectat gilt nicht nur bei literarischen Diskursen (vgl. Oesterreicher 1997, 30).
Diskurstraditionen unterliegen einer Dynamik: die Verwendungskontexte (vgl. Nähe/Distanz-Parameter) spielen dabei (meine Interpretation) die Rolle eines Motors – es kommt zu einem (teilw. zyklischen) Austausch von diskurstraditionellen Elementen (meine Wortwahl). Vgl. Oesterreicher 1997, 30.

2.2.2.2. Zwischenfazit Diskursbegriff

Mein Diskursbegriff in dieser Arbeit ist vorläufig folgender: 1. Diskurs ist typisches (‚eingebürgertes‘), beobachtbares Sprechen, das dennoch flexibel ist und die Ausnutzung von Spielräumen nicht nur erlaubt, sondern verlangt; 2. Diskurs ist Sprechen in Korrelation zu Kontexten, Kotexten, Kommunikationssituation, Diskurstraditionen, einzelsprachlichen Normen usw.; 3. Diskurs formiert sich als kollektive sprachl. Handlungsstruktur in Form von einzelnen ‚Texterzeugnissen‘ in einem zeitgenössichen Kontext.

2.2.2.3. Diskursformationen

Diskursformationen werden i.w.S. definiert als untereinander verwandte, ähnliche Diskurstaditionen (DT), die also etwas gemeinsam haben (vgl. Quelle); i.S.v. Foucaults Frühwerk handelt es sich um gesellschaftlich u. institutionell normierte Prämissen der Einordnung v. Diskursen³².

2.2.2.4. Textsorten

Lebsanft 2001, 294 stellt im Zusammenhang mit massenmedialen Textsorten fest:

„Der Begriff der Textsorte hat in stärker durch die Germanistik geprägten textlinguistischen Untersuchungen zur Massenkommunikation […] ihren festen Platz […] auch wenn das nicht überall in der Romanistik zur Kenntnis genommen wird […] In kritischem Anschluss an Lüger fasse ich massenmediale Textsorten als Arten komplexer Sprechhandlungen auf, die Textintentionstypen durch Textmuster realisieren, d.h. durch Bündel von traditionellen, im wesentlichen übereinzelsprachlichen Verfahren, nach denen einzelne Textexemplare verfasst werden.“

2.3. Semiotische Gesichtspunkte von Texten

2.3.1. Bedeutung und Sinn

Laut Coseriu 1981b, 48ff lassen sich Texte nicht allein aufgrund ihrer semantischen Elemente erschließen:

„Bezeichnung und Bedeutung, d.h. das, was die sprachlichen Zeichen benennen und das, was sie durch eine Einzelsprache allein bedeuten, bilden – zusammengenommen – im Text den Ausdruck für eine Inhaltseinheit höherer, komplexerer Art, eben für den Sinn. Analog zur Saussureschen Unterscheidung zwischen signifiant und signifié, die für das sprachliche Zeichen gilt, wollen wir beim Textzeichen ebenfalls […] unterscheiden: Bedeutung und Bezeichnung konstituieren zusammen das signifiant, der Sinn hingegen das signifié des Textzeichens […] Was in einem Text […] bezeichnet wird, ist […] Ausdruck, Symbol für einen bestimmen Sinn. Alles, was in einem Text geschieht, was als Geschehenes geschildert wird, hat einen ‚Sinn‘, der in der Regel nicht unmittelbar mit dem Geschilderten selbst zusammenfällt, sondern den man erst herausfinden muß. Die sprachlichen Zeichen […] schildern mittels ihrer Bedeutungen einen bestimmten Sachverhalt, der seinerseits interpretationsbedürftig ist […] Es ist also in Texten ein doppeltes semiotisches Verhältnis festzustellen: Die sprachlichen Zeichen, die den Text konstituieren, bedeuten und bezeichnen zunächst etwas, was wir als Kenner dieser Zeichen und der Regeln für ihre Verwendung verstehen […] Es ist theoretisch möglich, daß man auf [dieser] ersten semiotischen Ebene alles versteht, ohne das Geringste auf der zweiten [interpretatorischen] semiotischen Ebene zu begreifen.“ (Coseriu 1981b, 48f)

2.3.2. Bedeutung/Semantik und Referenz

Bedeutung bezieht sich auf Sprachliches, Referenz auf Außersprachliches³³.

Referieren hat zwei Aspekte³⁴:

Konzept (prototypisch, nicht an Einzelsprache gebunden) → Klasse (vgl. ‚Lemma‘ i.S.v. Grundform) → abstrakt
Einzelne Sache (individueller Tisch, auf den man zeigen kann) → Instanz (vgl. Token, Ausprägung) → konkret

Auch Bedeutung hat einen abstrakten und einen konkreten Aspekt:

Inhalt von einzesprachlichem Ausdruck als Teil der langue (vgl. Semanalye, Pottiers Stühle mit Lehnen usw.) → abstakt
individueller, aktueller Sinn (Gemeintsein) im Kontext → konkret

2.3.3. Roland Barthes sémiologie des Textes

Auf R. Barthes gehe ich an dieser Stelle näher ein, weil die Lektüre insbesondere von Barthes 1970 mein Verständnis von und meine Herangehens-Weise an Text nachhaltig geprägt hat. Nicht zuletzt Barthes Sicht auf die Teilhabe des Lesers als einem Akteur, der ‚Arbeit am Text verrichtet‘³⁵ sowie das Konzept der im konkreten Text vorhandenen, aber ‚ausgeblendeten Stimmen‘ bzw. Codes³⁶ rücken m.E. zentrale Fragen hinsichtlich des Funktionierens von Textproduktion und -rezeption ins Blickfeld, ohne dabei die analytische Begegnung mit Texten mit schwerfälligen, allzu statischen und hierarchisierenden Klassifizierungen zu belasten.

2.3.3.1. connotation

Barthes 1970, 13ff erklärt den Begriff der Konnotation folgendermaßen:

„Qu’est-ce que donc une connotation? Définitionnellement, c’est une détermination, une relation, une anaphore, un trait qui a le pouvoir de se rapporter à des mentions antérieures, ultérieures ou extérieures, à d’autres lieux du texte (ou d’un autre texte): il ne faut restraindre en rien cette relation, qui peut être nommée diversement (fonction ou indice, par exemple), sauf seulement à ne pas confondre la connotation et l’association d’idées: celle-ci renvoie au système d’un sujet; celle-là est une corrélation immanente au texte, aux textes; ou encore, si l’on veut, c’est une association opérée par le texte-sujet à l’intérieur de son propre système. Topiquement, les connotations sont des sens qui ne sont pas dans le dictionnaire, ni dans la grammaire de la langue dont est écrit un texte […] Analytiquement, la connotation se détermine à travers deux espaces: un espace séquentiel, suite d’ordre, espace soumis à la successivité des phrases, le long desquelles le sens prolifère par marcottage³⁷, et un espace agglomératif, certains lieux du texte corrélant d’autres sens extérieurs au texte matériel et formant avec eux des sortes de nébuleuses de signifiés. Topologiquement, la connotation assure une dissémination (limitée) des sens, répandue comme une poussière d’or sur la surface apparente du texte (le sens est l’or). Sémiologiquement, toute connotation est le départ d’un code […], l’articulation d’une voix qui est tissée dans le texte. Dynamiquement, c’est une subjugation à laquelle le texte est soumis, c’est la possibilité de cette subjugation (le sens est une force). Historiquement, en induisant des sens apparemment repérables (même s’il ne sont pas lexicaux), la connotation fonde une Littérature […] du Signifié. Fonctionnellement, la connotation, engendrant par principe le double sens, altère la pureté de la communication: c’est un ‚bruit‘, volontaire, soigneusement élaboré, introduit dans le dialogue fictif de l’auteur et du lecteur, bref une contre-communication […] Structuralement, l’existence de deux systèmes réputés différents, la dénotation et la connotation, permet au texte de fonctionner comme un jeu, chaque système renvoyant à l’autre selon les besoins d’une certaine illusion. Idéologiquement enfin, ce jeu assure avantageusement au texte classique une certaine innocence: des deux systèmes, dénotatif et connotatif, l’un se retourne et se marque: celui de la dénotation; la dénotation n’est pas le premier des sens, mais elle feint de l’être; sous cette illusion, elle n’est finalement que la dernière des connotations (celle qui semble à la fois fonder et clore la lecture), le mythe supérieur grâce auquel le texte feint de se retourner à la nature du langage, libère, postérieurement, semble-t-il, à son énoncé, n’a-t-elle pas l’air de nous dire quelque chose de simple, de littéral, de primitif […] la dénotation [est] préposée à représenter l’innocence collective du langage.“

2.3.3.2. codes

Barthes 1970, 23ff stellt fünf codes vor, die in seiner exemplarischen semiologischen Leküre von Balzacs Novelle Sarrazine systematisch zum Einsatz kommen, um jede sog. lexie³⁸ nach dem in ihr dominierenden Aspekt (intra- u. intertextuell) zu verorten. Es handelt sich um folgendes Instrumentarium:

code herméneutique (HER)
code sémantique (SEM)
code symbolique (SYM)
code proaïrétique (ACT)
code culturel (référentiel) (REF)

Die fünf codes bilden ein Netz, durch welches ein Text nicht nur geprägt ist, sondern kraft dessen er erst zum Text wird. Bei dieser Betrachtungsweise wird nicht von auffindbaren Strukturen ausgegangen, vielmehr wird eine Strukturierung versucht, stellt ein code eine Perpektive, eine Fluchtlinie dar: man erkennt nur seine ‚Ergebnisse‘, die mit vielen anderen einen virtuellen Katalog bilden, den Abglanz von immer schon Dagewesenem, Geschriebenem, Gelesenem. Die codes sind ‚Stimmen‘, die je der Empirie (ACT/Voix de l’Empirie – les proaïrétismes), der Person (SEM/Voix de la Personne – les sémes), der Wissenschaft (REF/Voix de la Science – les codes culturels), der Wahrheit (HER/Voix de la Vérité – les herméneutismes) und der Symbole (SYM/Voix du Symbole) angehören (vgl. Barthes 1970, 25).

Der erste Satz aus Balzacs Sarrazine – „Minuit venait de sonner à l’horloge de l’Élysée-Borbon.“ – wird von (Barthes 1970, 25) z.B. folgendermaßen mithilfe von codes ‚bearbeitet‘:

„Une logique métonymique conduit de l’Élysée-Bourbon au sème de Richesse, puisque le faubourg Saint-Honoré est un quartier riche. Cette richesse est elle-même connotée: quartier de nouveaux riches, le faubourg Saint-Honoré renvoie par synectoque au Paris de la Restauration, lieu mythique des fortunes brusques, aux origines douteuses; où l’or surgit diaboliquement sans origine (c’est la définition symbolique de la spéculation) (SEM. Richesse).“

Der klassische³⁹ ‚Textraum‘⁴⁰, in dem die fünf codes, die fünf Stimmen, manifest sind, wird mit einer (klassischen) Partitur verglichen: SEM, REF und SYM entsprechen den auffälligen, beeindruckenden Elementen eines Stücks (meist von Blechinstrumenten u. Perkussion ausgeführt), während HER dem sich durch das ganze Stück ziehenden Thema (Melodie, die meist von Holzblasinstrumenten gespielt wird) und ACT dem alles harmonisierenden, regelmäßigen Gewebe der Streicher (vgl. Barthes 1970, 32f) entspricht. Barthes entwirft anhand dieser Analogie eine Matrix, in der die codes das senkrechte Paradigma bilden und die indivuell nummerierten lexies das horizontale Syntagma:

Lexies	1	2	3	4	5
HER		♪
ACT
SEM	♪
SYM				♫	♫
REF		♫

(Graphik nicht direkt aus Original entnommen, eigene Darstellung des erläuterten Prinzips)

Wichtig ist an Barthes Analogie für die hier gesuchten Einsichten, dass der ‚klassische‘ (ich übertrage das Prinzip eigenmächtig auf typische Gebrauchstexte, die weitgehend etablierten, weithin bekannten Diskurstraditionen folgen, d.h. auch auf die Presseartikel des hier untersuchten Korpus) Text tabellarisch und nicht linear sei, wobei die tabellarische Eigenschaft vektorieller Natur sei und einer zeitlich-logischen Ordnung gehorche (vgl. Barthes 1970, 33).

Ein weiteres anschauliches Beispiel etwa für den offensichtlich vorhandenen REF-code liefert folgender von Barthes als lexie Nr. 289 festgehaltener Satz:

Parler de danger à un amoureux, n’est-ce pas lui vendre des plaisirs? (REF. Code proverbial) (Barthes 1970, 130)

2.3.3.3. Fazit zu Barthes fünf codes

Ob und in welchem Maß die o.g., auf narrative Texte bezogenen, Perspektiven in der Ob und in welchem Maß qualitativen Analyse von Pressediskursen bzw. Gebrauchstexten überhaupt weiterhelfen, muss sich in der Praxis zeigen. Als (freilich sehr punktuelles) Hintergrundwissen und Hinweis auf die möglicherweise notwendige Öffnung für literaturwissenschaftliches Handwerkszeug bei der linguistischen Beschäftigung mit der Größe Text erscheint mir gerade dieses Werk (Barthes 1970) mit seiner ‚workshopartigen‘ Aufmachung in Kombination mit der theoretischen Stringenz und Dichte zumindest als Denkanstoß geeignet.

2.3.4. Rhetorische Begriffe

Wenn schon von literaturwissenchaftlichen Hilfsmitteln und Theorien die Rede ist, kann ein Name und ein Werk sicher an dieser Stelle nicht übergangen werden, nämlich Elemente der literarischen Rhetorik von Heinrich Lausberg⁴¹ (Lausberg 1971). Die darin enthaltenen, sehr kompakten und abstrakten Definitionen von „Rede überhaupt“, „Verbrauchsrede“ und „Wiedergebrauchsrede“ lassen sich leichter ‚verdauen‘, wenn man Autoren fragt, die mit konkreten Beispielen an diese Begriffe herangegangen sind.

Fix 2013, 90 kommt im Zusammenhang mit sog. Mustertexten zuhilfe: Verbrauchsrede bezeichnet alle jene Texte, die zwar einzelne, formal mehr oder weniger starre Muster enthalten, aber bei denen die Auffüllung der Lücken zwischen diesen Elementen allein dem Sprecher bzw. Textproduzenten zukommen (Bsp. Hiermit teile ich Ihnen mit ist ein Musterbaustein, aber was die eröffnete ‚Lücke‘ inhaltlich füllt, ist individuell). Diese Mustertexte, bei denen nicht die formale Beständigkeit im Vordergrund steht, sondern die Sprecherfähigkeit, einen „typischen Text herzustellen“, machen die Mehrzahl der Texte aus, mit denen wir im Alltag zu tun haben. Wiedergebrauchsrede bezeichnet hingegen Texte, die formal fixiert sind und ist somit zitierend; sie kommt bspw. im rituellen, kultischen Kontext zum Tragen (vgl. Fix 2013, 22 und Lausberg 1971, 16f).

Lausberg 1971, 13f liefert außerdem folgende nützliche Definition:

„Die Rhetorik ist ein mehr oder minder ausgebautes System gedanklicher und sprachlicher Formen, die dem Zweck der vom Redenden in der Situation beabsichtigten Wirkung […] dienen können. Diese Formen können von einem Schulrhetoriker […] erkannt und auch terminologisch benannt werden. So ist z.B. der Gebrauch des gleichen Wortes zu Beginn aufeinanderfolgender Wortgruppen eine ‚Anapher‘ […] ebenso wie in der Grammatik die Form ‚den Schüler‘ ein ‚Akkusativ‘ ist.“

Lt. Lausberg (eda.) haben die rhetorischen Formen mit den grammatischen zweierlei gemeinsam:

1) „Die gleiche Form des Systems kann in der Aktualisierung mit den verschiedensten, wenn auch nicht völlig willkürlichen Inhalten gefüllt werden […] Es ist geradezu die Funktion eines Formensystems, Formen für verschiedene, wenn auch in ihrer Verschiedenheit nicht völlig willkürliche Aktualisierungen bereitzuhalten.“

2) „Derjenige, der eine Form des Systems verwendet, braucht nicht bewusst und aktuell daran zu denken, dass er jetzt diese Form verwendet, ebensowenig wie ein Kraftfahrer bewusst und aktuell daran zu denken braucht, wieviel Zylinder der Motor hat und wie dieser funktioniert. Die Aktualisierung des Systems wird ‚mechanisiert‘ und gestattet so eine erlebnismäßige ‚Unmittelbarkeit‘ der redenden Äußerung.“

Interessant im Zusammenhang mit der Diskursanalyse, insbesondere mit Berücksichtigung der Diskurstraditionen, sind seine Ausführungen zum empirischen Erlernen der Rhetorik:

„Das Erlernen der (Mutter-)Sprache erfolgt normalerweise ohne bewussten Einblick in die grammatische und lexikalische Struktur der betreffenden Sprache, also auf dem Wege der Empirie. Ebenso erfolgt das für jeden aktiv am sozialen Leben beteiligten Menschen notwendige Erlernen der (’natürlichen‘) Rhetorik […] ohne bewussten Einblick in die Struktur der Rhetorik […] Beide Tatsachen sprechen aber nicht gegen die (wenn auch latente) Tatsächlichkeit der sprachlichen und der rhetorischen Strukturen selbst. Sprachwissenschaft und Schulrhetorik haben eben die Erkenntnis dieser für das Bewusstsein der Redenden und Zuhörenden meist nur latenten Tatsächlichkeiten zum Ziel.“ (Lausberg 1971, 13f)

Er weist weiter auf die wichtige Tatsache hin, dass rhetorische Formen nur „Gefäße des situationsmäßig relevanten Inhalts“ seien, indem sie durch die aktuelle Intention (voluntas) des Redenden möglichst zielführend aufgefüllt werden.

In Lausberg 1971, 63ff finden sich Beschreibungen zu allen Tropen und Figuren. Zum jeweiligen Oberbegriff schreibt er:

„Der tropus […] ist die ‚Wendung‘ […] des semantischen Zeichen-Pfeiles eines Wortkörpers vom ursprünglichen Wortinhalt weg zu einem anderen Wortinhalt. Die Hauptfunktion der Tropen ist die dem ornatus funktionell zukommende Verfremdung.“ (Lausberg 1971, 63)

„Die figurae sind ein Phänomen der dispositio […], die das Rohmaterial der inventio […] und der elocutio […] formt. Es werden somit die von Haus aus der inventio zugehörenden Gedankenfiguren […] von den zentral der elocutio zugehörenden Wortfiguren […] unterschieden […]“ (Lausberg 1971, 79)

2.4. Dieselmotoren

2.4.1. Funktionsweise

„Dieselmotor wie Ottomotor sind prinzipiell Energiewandler, die im Kraftstoff chemisch gebundene Energie in mechanische Energie (Nutzarbeit) wandeln, indem sie die im Motor durch Verbrennung freigesetzte Wärme einem thermodynamischen Kreisprozess zuführen und als Druck-Volumen-Arbeit nutzen.“ (Tschöke u.a. 2018, 13)

„Im Gegensatz zum Ottomotor […] erfolgt beim Dieselmotor (benannt nach seinem Erfinder Rudolf Diesel, 1858-1913) die Bildung des Kraftstoff-Luft-Gemisches erst im Zylinder. Dort wird reine Luft angesaugt, die weit höher verdichtet (30-55 bar) und dabei auf etwa 700-900 °C erhitzt wird. In die verdichtete, heiße Luft wird Kraftstoff eingespritzt, der sich mit der Luft vermischt und verdampft. Die Temperatur im Zylinder reicht aus, um das Gemisch dann zur Selbstzündung zu bringen (keine Zündkerzen, eventuell aber Glühkerzen⁴² notwendig). Die Zeit zwischen dem Einspritzbeginn und der Selbstzündung wird Zündverzug genannt und beträgt ca. ¹/₁₀₀₀Sekunde. Falls sich als Folge eines zu langen Zündverzuges eine große Kraftstoffmenge im Zylinder ansammelt, entzündet sich das Kraftstoff-Luft-Gemisch sehr schnell und verbrennt schlagartig: der Motor „nagelt“. Dieselmotoren arbeiten ebenso wie Ottomotoren nach dem Zwei- oder Viertaktverfahren […]“ (Kilian 2011, 104ff, FN v. Verf. ergänzt)

Wie der Kraftstoff in die Brennkammer gelangt, entscheidet das Einspritzverfahren: Bei Dieselmotoren hat sich die Direkteinspritzung durchgesetzt; bis in die späten 1980er Jahre verfügten nur LKW-Motoren über Direkteinspritzung (→ nur eine einzige Brennkammer nötig), während bei PKW indirekte Einspritzverfahren verbreitet waren (→ Brennkammer in eine Vorkammer und einen Hauptbrennraum aufgeteilt). Nachdem sich in den 1990er Jahren die Direkteinspritzung (mit starker Luftverwirbelung für gute Verbrennung) auch für PKW durchgesetzt hatte, kam 1997 ein neues System für LKW und PKW auf den Markt, das sog. Common-Rail-System:

„Im Unterschied zu herkömmlichen Dieselmotoren mit Direkteinspritzung wird beim Common-Rail-System der Kraftstoff nicht in separaten Leitungen zu jedem Zylinder geführt, sondern von einer Hochdruckpumpe in einer zentralen Speicherleiste unter Druck (ca. 1300 bar) gesetzt. Der Aufbau des Einspritzdrucks in der Kraftstoffpumpe ist also unabhängig von der Einspritzfolge, sodass permanent ein hoher Druck zur Verfügung steht. Die Motorelektronik steuert Magnetventile elektronisch an, um den Kraftstoff zum richtigen Zeitpunkt und in der richtigen Dosierung in den Brennpunkt zu schießen. Sinkender Verbrauch, optimierte Emissionswerte und höhere Laufruhe sind das Ergebnis der Common-Rail-Technik.“ (Kilian 2011, 104)

Der Dieselmotor hat (dank geringer Verluste bei Auspuffgasen) einen höheren Wirkungsgrad und bei guter Verbrennung günstige Abgaswerte. Aufgrund des hohen Drucks, der für die Selbstzündung nötig ist, müssen Dieselmotoren stärker (→ schwerer) gebaut werden und haben eine höhere Lebensdauer als Benzinmotoren (vgl. Kilian 2011, 104).

2.4.2. Turbolader (Aufladung, Turbomotor)

Leistung und Drehmomentverlauf⁴³ können bei Verbrennungsmotoren durch verschiedene Aufladeverfahren genutzt werden.

„Das Prinzip: Durch Verdichtung der zur Verbrennung des Kraftstoffes notwendigen Luft wird der Luftdurchsatz im Zylinder gesteigert, was bei gleicher Motordrehzahl und gleichem Hubraum zu einer höheren Leistungsabgabe durch eine bessere Kraftstoffverbrennung führt.“ (Kilian 2011, 108)

Es gibt 1. mechanische Lader, bei denen ein Kompressor durch die Motorleistung angetrieben und somit einen Teil seiner selbst erzeugten Energie verbraucht wird – diese Art kommt heute vereinzelt zum Einsatz; 2. Abgasturbolader, bei denen die Abgase auf eine Abgasturbine treffen, die dadurch zum Rotieren gebracht wird (> 100’000 Umdrehungen pro Minute) – so werden die ohnehin anfallenden Abgase für die Luftverdichtung genutzt⁴⁴; 3. Druckwellenlader, bei dem der Rotor, durch den die Luft verdichtet wird, durch die Kurbelwelle angetrieben wird – dieses System ist am verschleißärmsten und verbraucht wenig Antriebsenergie (vgl. Kilian 2011, 108).

2.5. Französische Sprache

2.5.1. Allgemeines

Das Französische ist (wie das Deutsche und die meisten ‚großen‘ Sprachen) eine plurizentrische Sprache, da es mehrere Standardvarietäten kennt (→ Francophonie) (vgl. Bossong 2008). Die französische Sprache ist aus der/den ursprünglich nur in Nordgallien verbreiteten langue(s) d’oïl hervorgegangen⁴⁵.

Die vorliegende Untersuchung geht aufgrund des hexagonalen Ursprungs des gesamten Korpus von einem Standard aus, wie er in und für den Sprachgebrauch in Frankreich zur Anwendung kommt bzw. als Korrekturmodell dient (vgl. Kolboom u.a. 2008).

2.5.2. Exkurs: Französischer Varietätenraum

Obwohl die im Folgenden dargestellten Sachverhalte zum romanistischen Basiswissen gehörten, werden sie an dieser Stelle überblicksmäßig aufgegriffen: Als Hintergrund für den standardfranzösischen Pressediskurs sind sie besonders im Zusammenhang mit dem Begriffspaar ‚Macht und Massenmedien‘ zu zentral, um übergangen zu werden. Folgende Ausführungen wurden anhand von Koch/Oesterreicher 2011e, 142ff zusammegestellt:

Aus der fränkischen Besiedlung Nordgalliens im Früh- u. Hochmittelalter und dem daraus resultierenden Sprachkontakt ergab sich eine deutliche sprachliche Abgrenzung zu Südgallien⁴⁶. Bereits um 800 n.Chr. hatten sich die volkssprachlichen Idiome stark vom Mittellatein entfernt – eine Kluft, die durch die Karolingische Reform noch vertieft wurde und schließlich von einer anfänglichen Diglossie in Bilinguismus umschlug. Die Bemühungen, mit der correctio die ‚Reinheit‘ des klassischen Lateins wiederherzustellen, die dem ‚volksnahen‘ Merowingerlatein nach Meinung der Reformatoren abhanden gekommen war, und das dadurch enstandene ‚Vakuum‘ im profanen bzw. nicht sakralen⁴⁷ Distanzbereich führte zur Ausbildung enstprechender volkssprachlicher Texttraditionen in Bereichen, die zuvor dem Latein vorbehalten waren (vgl. Koch/Oesterreicher 2011e, 143), was wiederum in einen Wettstreit unter den romanischen Idiomen um die legitime Nachfolge (vgl. translatio) als Hoch- und Distanzsprache mündete, von dessen Ausgang das künftige machtpolitische Gefüge in Gallien und der gesamten Romania (mit) abhing. Neben der Predigt und geistlicher Dichtung wurden juristische Texte zunehmend volkssprachlich verfasst (als erstes (alt)französisches bzw. nordgalloromanisches Schriftzeugnis gelten die Serments de Strasbourg), aber auch neue Bereiche wie die Heldenepik (chanson de geste) oder der Artusroman entwickelt, die keine Vorläufer im lateinischen Gattungssystem hatten. Während dieser Zeit entwickelten sich Zentren der volkssprachlichen Verschriflichung und durch den überregionalen Schriftverkehr entsprechende überregionale scriptae. Es handelte sich also zunächst um einen plurizentrischen, dispersen volkssprachlichen Ausbau – wobei der pikardisch-wallonische sowie der (anglo-)normannische Raum besonders produktiv waren -, der sich in engem Kontakt mit dem Latein und unter kontinuierlichen einzelsprachlichen Anleihen vollzog (vgl. Koch/Oesterreicher 2011e, 143).

Zentralisierungstendenzen und die Notwendigkeit der Selektion kamen mit der Etablierung des Königshofs in Paris auf, wobei das Franzische als überregional relativ bedeutungslose Varietät des Schmelztigels Île de France v.a. deswegen ‚das Rennen machte‘, weil die politische, wirtschaftliche und kulturelle Bedeutung dieser Region u.a. im Zuge der massiven Zuwanderung so groß geworden war. Zudem verlor das Normannische durch Auseinandersetzungen der Könige mit England den Anschluss an die prestigiöse anglo-normannische Varietät, während das Pikardische aufgrund der wirtschaftlichen Schwächung der Region an Einfluss verlor. Interessant ist, dass ausgerechnet der Ursprung des in der späteren Entwicklung so ausschließlich distanzsprachlich verankerten französischen Standards möglicherweise im Nähebereich liegt⁴⁸, welcher durch die demographischen Veränderungen im Pariser Raum des Spätmittelalters und der frühen Neuzeit geprägt war. Mitte des 15.Jh., nach dem Hundertjährigen Krieg, war die Selektion des Franzischen unangefochten: der Name françois bezeichnete nunmehr den nationalen bzw. ‚königreichsweiten‘ hoch- und distanzsprachlichen Standard (analog zu den ‚Gleichsetzungen‘ toscano/italiano und castellano/español). Man darf sich aber v.a. die extensive Standardisierung nicht homogen und linear vorstellen, denn sie vollzog sich je nach Region und Diskurstradition unterschiedlich schnell und gründlich (z.B. schneller in der Literatursprache und im geographischen Zentrum als in der Urkundensprache und der Peripherie)⁴⁹. Im französischen Sprachraum hatte die Erfindung des Buchdrucks im Zuge der Reformationsbewegung (Calvin) und entsprechender volkssprachlicher Bibelübersetzungen mehr Bedeutung für den volkssprachlichen Ausbau als etwa in Italien und Spanien, was (wie die meisten Ausbauprozesse) v.a. der diatopischen, weniger der diastratischen Extension (über die Grenzen der gehobenen Gesellschaft hinaus) zugute kam (vgl. Koch/Oesterreicher 2011e, 145).

Der Hundertjährige Krieg (1337-1453) hatte nicht nur das Einheitsbewusstsein gefördert, sondern gleichzeitig auch den Eingang nähesprachlicher Innovationen in den Distanzbereich. Gegen letztere Tendenz wurde ab Anfang des 17.Jh. im Rahmen einer regelrechten ‚Restandardisierung‘ systematisch sprachpolitisch vorgegangen. Durch die von Descartes im 17.Jh. in françois statt Latein verfassten philosophischen Schriften und die untrennbare Verbindung der französischen Sprache mit der Aufklärung avancierte das Französische über die Grenzen hinaus zur internationalen Wissenschaftssprache (vgl. Koch/Oesterreicher 2011e, 145).

Die Bemühungen der Puristen, die, angefangen mit Malherbe, ab dem 17.Jh. den französischen Standard durch tiefgreifende und kontinuierliche (diatopische sowie diastratische) Restriktionen in eine extrem distanzsprachliche Form ‚zu bannen‘ versuchten, wurden in der rigiden Kodifizierung der präskriptiven Norm weitergeführt: für Jahrhunderte etablierte sich das français classique als absolute Referenz für distanzsprachlichen Standard, was sich letztlich auch während und nach der Französischen Revolution nicht nachhaltig änderte. Der Nähebereich fristete indes im Schatten des deontischen Sprachelitismus ein diastratisch und diatopisch extrem niedrig markiertes Dasein (regionale Varietäten werden z.T. bis heute unter dem, zumindest in der Grundbedeutung, pejorativen Sammelbegriff patois zusammengefasst), insbesondere nach der Französischen Revolution, die sich bekanntlich die Gleichsetzung une nation – une langue auf die Fahnen geschrieben hatte, welche spätestens mit der allgemeinen Schul- und Wehrpflicht auch konkret umgesetzt wurde. Als Folge der äußerst starren Kodifizierung des Distanz-Standards entfernte sich die Nähesprache, die sich natürlich weiterhin (als Primat des Sprachwandels) lebendig und dynamisch verhielt, immer weiter davon (vgl. Koch/Oesterreicher 2011e, 147).

Ab dem 19.Jh. verschob sich das Gewicht von diastratischen hin zu diaphasischen Markierungen vieler Abweichungen vom Standard (z.B. français populaire). Das heutige Varietätengefüge des Französischen ist sogar entscheidend dadurch geprägt, dass Abweichungen ganz ihre Markierung verlieren und „nurmehr direkt an die Kommunikationsbedingungen der Nähe gebunden sind“ (Koch/Oesterreicher 2011e, 152), was am Beispiel des Gebrauchs des passé simple illustriert wird, dessen systematisches Fehlen in der Nähesprache nur unzureichend mit diasystematischen Kategorien fassbar ist, sondern „am adäquadesten auf den Nenner ‚gesprochen‘ gebracht werden kann“ (Koch/Oesterreicher 2011e, 153).

Nähe- und Distanzbereich drifteten in ganz Frankreich im Lauf der Zeit so weit auseinander, dass man von einer „extremen[n] Bipolarität zwischen den beiden Varietäten ‚gesprochen‘ und ‚geschrieben'“ (Koch/Oesterreicher 2011e, 153) sprechen kann, die durchaus an die Diglossie der vorkarolingischen Konstellation (Volkssprache/Nähe vs. Latein/Distanz) erinnert. Auf dieser unübersehbaren Diskrepanz beruhen auch bis heute die Schlagworte sowohl des puristisch-segregativen als auch des progressiv-integrativen Lagers wie crise du français, défense de la langue française oder le français langue morte. Koch/Oesterreicher 2011e, 153 resümieren, dass sich bei nüchterner Betrachtung eben nicht das Ideal der Französischen Revolution (Vereinheitlichung, ‚Demokratisierung‘ eines gemeinsamen Standards) durchgesetzt hat, sondern, dass sich gleichzeitig die „Bipolarität von Nähesprache (‚gesprochen‘) und Distanzsprache (‚geschrieben‘) generalisiert hat, wie sie sich seit dem siècle classique in Paris herausgebildet hatte.“. Sie konstatieren aber auch, dass sich diese Situation⁵⁰ trotz der traditionell öffentlich stattfindenden Sprach- aber auch (Sprach-)Normkritik, „trotz aller konservativ-nostalgischen Sprachpflege und allen programmatischen Rufen nach Ablösung der bestehenden präskriptiven Norm“ als relativ stabil herausgestellt hat.

2.6. Französische Presse

2.6.1. Historischer Abriss

Den Rahmen für die Verbreitung und Durchsetzung der Presse als echtes Massenmedium zwischen dem 17. und 19. Jh. bildete in Frankreich die Politik- und Bildungsgeschichte. In den Vorläufern der französischen Presse – im Mittelalter unregelmäßig erscheinende Flugschriften⁵¹ und ab dem 17. Jh. die gazettes⁵² – sieht Osthus 2008, 1283f zwei „Traditionsstränge“, die aber erst nach der Französischen Revolution in die Form der populären Presse übergingen:

„Die Träger der Revolution nutzten intensiv das neue Medium der Presse aus, wobei im politischen Kampf sich bis dato unbekannte Diskursformen entwickelten. Charakteristisch ist das Überschreiten der engen Grenzen bürgerlicher Elitenkultur. Revolutionäre Ideologie wird […] auch einer größtenteils analphabetischen Landbevölkerung vermittelt, etwa durch öffentliches Vorlesen […] Die Straße ersetzt den Salon […] Ein z. T. intendierter Nebeneffekt […] war die Durchsetzung einer zentralfranzösischen Norm […] Dabei kommt es auch, zumindest in den ersten Revolutionsjahren, zu einer Integration populärsprachlicher Elemente, mit deren Hilfe affektive Stimmungen […] erzeugt werden […] In der Tat steht die revolutionäre Presse am Beginn einer durch Medien vermittelten Massen- und Populärkultur, die einerseits Elemente der frühbürgerlichen Elitenkultur aufnimmt, andererseits diese massenverträglich transformiert und um spezifisch Populäres anreichert.“ (Osthus 2008, 1284)

Die Entwicklung der Presse zum modernen Massenmedium nimmt an Fahrt auf, nachdem in der Drucktechnik ab 1867 die Rotationspresse zum Einsatz kommt und in den 1890er Jahren erstmals Millionenauflagen erreicht werden. Osthus weist im Zusammenhang mit der Verbreitung auf zwei wichtige Punkte hin: 1. nicht nur technische Faktoren, sondern auch die flächendeckende Scholarisierung dürfte für die zunehmende Markttätigkeit der Presse ausschlaggebend gewesen sein, 2. eine höhere Auflagenzahl bedeutet nicht unbedingt eine analoge Vermehrung der Titel: Pressebüros und Agenturen förderten die inhaltliche (später auch technische) Zentralisierung der Zeitungsproduktion.

„Die bis ca. 1900 abgeschlossene Entwicklung einer Massenpresse bildet einen wichtigen Hintergrund zur Schaffung einer panfranzösischen, eindeutig an die französische Nationalsprache gebundenen Massen-Kommunikationsgesellschaft.“ (Osthus 2008, 1286)

2.6.2. Vorgeschichte bis zum modernen Massenmedium – detaillierte Darstellung

Die nachfolgenden Ausführungen stützen sich auf Albert 2008, Eveno 2004, Eveno 2012 sowie auf einschlägige eurotopics– u. Wiki-Artikel.

2.6.2.1. Antike bis Renaissance

In der Antike wurde der Informationsaustausch durch Kuriere und in den urbanen Gebieten durch Plakatanschläge bewerkstelligt und betraf v.a. gerichtliche, steuerliche und militärische Bekanntmachungen. Im Zuge des römischen Straßenbaus entstand ein Postdienst, der u.a. die sog. Acta Diurna (Tagesgeschehen), welche meistens an Mauern angeschlagen wurden, im Reich verbreitete.

Im Mittelalter war in Italien der avviso (in Form v. Plakatanschlägen; in Frankreich später avis) ähnlich wie die antiken Acta Diurna für die offizielle Bekanntgabe von Gerichtsurteilen üblich, im Unterschied dazu aber auch für Meinungsäußerungen von Privatpersonen, wobei zu betonen ist, dass auch diese Nachrichtenform zensiert war.

Nach der Erfindung des Buchdrucks im 15. Jh. dauerte es noch bis Anfang des 17. Jh., bis gedruckte Bekanntmachungen in Form von sporadischen Flugblättern verbreitet wurden, die auch aus mehreren gehefteten Seiten bestehen konnten.

2.6.2.2. Zeitungen von Louis XIV bis zur Revolution

Eine der ersten Zeitungen in Frankreich war die aus vier Seiten bestehende Gazette, die unter dem Ancien Régime und Richelieus Schirmherrschaft immer samstags erschien und sowohl über Neues innerhalb Frankreichs und vom Königshof als auch aus anderen Ländern berichtete: Sie erschien immerhin in rd. 8000-facher Auflage in Paris und der Provinz. Der Analphabetismus sowie die hohen Druckkosten stellten aber noch ein großes Hindernis für die weitere Verbreitung dar.

2.6.2.3. Revolution bis IIIe République

Gedruckte und handschriftliche Zeitungsformen hatten koexistiert, bis es im 19. Jh. gelang, die Kosten für den Druck hoher Auflagen deutlich zu verringern. In der Folge wurden die bis dahin noch sehr vitalen älteren Vermittlungsformen stärker zurückgedrängt. Faktoren wie der stark angestiegene Wissensdurst einer breiten Öffentlichkeit angesichts der sich rapide wandelnden Lebenswirklichkeit in der 2. Hälfte des 19. Jh., Urbanisierung bzw. Landflucht im Zuge der industriellen Revolution sowie das republikanische Ideal einer Demokratisierung des Wissens verhalfen dem Medium Presse zu einem großen Aufschwung. Waren Zeitungen lange aus den Buchdruckereien gekommen, wurden nun Zeitungsdruckereien gegründet, die sich im Pariser Viertel République du Croissant am rechten Seine-Ufer ansiedelten, das auch Einrichtungen wie die Börse oder die Post beherbergte (während die Buchdrucker traditionell auf der linken, künstlerisch geprägten Seite ansässig waren – eine Aufteilung, die sich z.T. bis heute hält.).

1881 wurde die Pressefreiheit im Grundgesetz verankert und in den Jahren bis 1914 erschienen in Frankreich 80-90 Tageszeitungen regelmäßig. Neben der verbesserten Drucktechnik und einem Zuwachs an Druckereien ermöglichten v.a. der Ausbau des Eisenbahnnetzes und die flächendeckende Alphabetisierung dank Schul- und Wehrpflicht die beispiellose Konjunktur der Pressebranche in dieser Zeit.

2.6.2.4. Weltkriege und Nachkriegszeit

In Kriegszeiten wurden die Zeitungen zu Propagandazwecken missbraucht, was ab 1914 von Regime-Gegnern in dem bekannten Ausdruck bourrage de crâne angeprangert und in der ‘Gegenzeitung’ Le canard enchaîné kritisiert wurde – mit kodierten Formulierungen, um der Zensur zu entgehen.

Ab 1918 bemühten sich die journalistischen Gewerkschaften und Verbände um die Formulierung und Fixierung einer déontologie du journalisme (Berufsethik), die 1938 in Form einer Charte des devoirs professionnels des journalistes festgeschrieben wurde.

Im zweiten Weltkrieg wurden die meisten französischen Zeitungen durch den Zensur-Apparat kontrolliert, auch was die Verfügbarkeit des rar gewordenen Papiers betraf. Im Untergrund entstanden verschiedene Zeitungen der Résistance. An ihnen orientierten sich die Verordnungen zur Pressefreiheit, im Zuge derer 1944 alle Zeitungen aufgelöst wurden, die als kollaborativ eingestuft wurden.

In den Jahren unmittelbar nach Kriegsende herrschte akute Papierknappheit, weshalb sich die Zeitungen z.T. auf eine einzige beidseitig bedruckte Seite beschränkten. In der späteren Nachkriegszeit expandierte erstmals die Regionalpresse und Anfang der 1950er Jahre erreichten einzelne Zeitungen Auflagen von über einer Million, zugleich waren sie aber z.T. mit finanziellen Schwierigkeiten konfrontiert.

2.6.2.5. 2. Hälfte des 20. Jh. bis heute

Ab 1968 gewannen in der französischen (Tages-)Presse neben Politik auch verstärkt Kultur und Sport an thematischem Terrain.

Nach der Wirtschaftskrise in den 1970er Jahren erlebte die Presse in den 1980er Jahren (zusammen mit der Börse) einen markanten Aufschwung, vor allem im Bereich der Wirtschafts- und Finanzzeitungen und -Zeitschriften.

In den 1990er Jahren setzte sich die erfolgreiche, stabile Zeit zunächst fort, aber nach der Jahrtausendwende war die traditionelle Presse zunehmend mit neuen Herausforderungen konfrontiert, die auch zu wirtschaftlichen Transformationen und stärkerer Monopolisierung führten.

Eine drastische Verschlechterung der Arbeitsbedingungen für Journalisten wurde schon im Jahr 2000 konstatiert. Bis heute profitiert die französische Presselandschaft von staatlichen Subventionen, zugleich ist sie in den letzten Jahrzehnten zunehmend abhängig von mächtigen Medienkonzernen, was sich nicht zuletzt in einer weniger stark differenzierten Diskurslandschaft niederschlägt.

3. Forschungsüberblick

Der folgende Forschungsüberblick umfasst auch, aber nicht nur Arbeiten, die sich explizit mit Diskursen befassen. Die Fülle existierender Arbeiten mit diesem ‚Label‘ sowie die generische Grundbedeutung von Diskurs lässt es sinnvoll erscheinen, einen Überblick über diejenigen Arbeiten zu geben, die

mit meinem konkreten Untersuchungsgegenstand zu tun haben (frz. Pressesprache bzw. -texte aus linguistischer Sicht)
korpuslinguistische Untersuchungen vorstellen, die von einem ähnlichen Erkenntnisinteresse angetrieben sind und verwandte Methoden anwenden (diskurslinguistische Fragestellung u. korpuslinguistische Empirie)
Texte unter Berücksichtigung der drei Ebenen des Sprachlichen (Coseriu) und des Konzepts der Diskurstraditionen (Schlieben-Lange, Koch, Oesterreicher) betrachten.

Auf rein methodologische Werke (Diskurslinguistik, Korpuslinguistik) wird im Kap. Methode verwiesen.

3.1. Pressesprache und -texte aus kommunikations-/medienwissenschaftlicher und diskursanalytischer Sicht

Burger/Luginbühl 2014 stellen in ihrer Einführung zur Mediensprache anhand der äußeren Eigenschaften von Massenkommunikation die kommunikativen Gründe vor, die auch für „medienspezifische Verwendungen von Sprache“ verantwortlich seien. Im Massenkommunikationsprozess werden Inhalte vorwiegend für den kurzfristigen Verbrauch hergestellt und einer Vielzahl von Menschen angeboten, die für den Verfasser anonym sind; die Erzeugung erfolgt mit einer gewissen Periodizität und Kontinuität (vgl. Burger/Luginbühl 2014, 1). Das Konzept der Masse wie es in Massenmedien enthalten ist, wird zwar zunehmend vom differenzierenden Konzept eines Geflechts aus vielen, selektiv agierenden Teilpublika verdrängt, ist aber dennoch relevant, insofern z.B. eine Tageszeitung im Gegensatz zu einem Buch periodisch, kostengünstig (oder gratis) und in großer Zahl angeboten und unter einer *Vielzahl* von Menschen verbreitet wird (vgl. Burger/Luginbühl 2014, 2). Hinsichtlich der in den 1990er Jahren beginnenden Internetpräsenz von Tageszeitungen (vgl. Burger/Luginbühl 2014, 451f) stellen die Autoren fest, dass die Online-Formate vor allem in neuerer Zeit meist Dienste anbieten, die die Printausgaben nicht enthalten oder leisten können (interaktive Inhalte, Archive, z.T. größerer Textumfang pro Ausgabe etc.) und fassen die Spezifika der Online-Ausgaben von Tageszeitungen als multimodal, nonlinear, interaktiv und virtuell (vgl. Burger/Luginbühl 2014, 452). Die Autoren verweisen u.a. auf Lüger 1995b, demzufolge Pressetexte fünf verschiedenen Textklassen zugeordnet werden können (die wiederum jeweils zu bestimmten Textsorten in Beziehung stehen); sie werden gebildet von informationsbetonten, meinungsbetonten, auffordernden, instruierend-anweisenden und kontaktorientierten Texten (vgl. Burger/Luginbühl 2014, 222). Allerdings stellen sie auch fest, dass mit einer Typologie auf dieser Ebene aus textlinguistischer Sicht noch nicht viel gewonnen ist und weitere, spezifische Differenzierungen nötig sind.

Für Lünenborg 2008 ist Journalismus ein Deutungssystem, das in seinen vielfältigen Ausprägungen fortlaufend Entwürfe der gesellschaftlichen Wirklichkeit liefert – Deutungsentwürfe, die sich in ständigem Widerstreit mit denen anderer medialer Angebote (wie PR, Propaganda, fiktionale Formate) befinden. Dabei könne Journalismus keinen Anspruch erheben „exklusiv Aussagen über gesellschaftliche Wirklichkeit zu treffen“ (Lünenborg 2008, 287); es sei gerade die mediale und diskursive Kompetenz der Leser, die seine kulturellen Leistungen ständig neu bestimme und gleichzeitig seine Erzeugnisse als kulturell geformte Erzählung von Wirklichkeit erkennbar mache.

Zum Begriffskomplex ‚Medien als Institution(en)‘ schreibt Donges 2008, dass Institutionen 1. Sets von Systemen geteilter Bedeutungen darstellen, welche den Akteuren als objektiv und äußerlich gegenwärtig erscheinen, 2. normative Vermittlungsinstanzen sind, die Werte und Normen verbindlich machen, und 3. Regelsysteme, die Handlungsmöglichkeiten von Akteuren begrenzen. Es seien also nicht nur die Handlungen von Akteuren, sondern auch ihre Wahrnehmung und ihre (legitimierten) Präferenzen, die durch Institutionen moduliert würden. Akteure seien demnach grundsätzlich institutionell konstituiert (vgl. Donges 2008, 335f). Interessant ist der Hinweis, dass die Wirkung von Medien auf Akteure aus dem Verständnis hervorgeht, das letztere von ersteren haben: gerade aus der kulturellen Selbstverständlichkeit heraus können Medien ihre Wirkung entfalten, d.h. dank der ‚in Fleisch und Blut übergegangenen‘ Medienlogik, mit der wahrgenommen, interpretiert und gehandelt wird. Donges gelangt zu der Feststellung, dass die Rolle der Medien auf drei Ebenen zu sehen ist: 1. Medien als Teilsysteme der Gesellschaft mit Handlungsorientierungs-Charakter, 2. Medien als Institutionen, die diese Handlungsorientierung in Regeln konkretisieren, und 3. Medien als Akteure, die in konkrete Akteurskonstellationen eingebunden sind, wobei das rekursive Zusammenwirken der drei Ebenen wiederum zu gesellschaftlicher Strukturierung führe. Hiermit ist im Prinzip etwas Ähnliches angesprochen wie mit Coserius drei Ebenen des Sprachlichen, die es erlauben, (kausale) Zusammenhänge zwischen universalen und historisch bedingten Regelsystemen und deren Aktualisierung in konkreten Kommunikationssituationen zu untersuchen und erklären.

Kött 2005 stellt die Überlegung an, dass im journalistischen Text die Wahl von Varietäten nicht allein vom Gegenstand abhängt, sondern auch von der Textsorte – die Entscheidung für eine bestimmte sprachliche Darstellungsform delimitiere gleichzeitig die für den jeweiligen Text zur Verfügung stehenden Ausdrucksmöglichkeiten. Die Anbindung an konventionalisierte Textmodelle und die damit erreichte ‚Signalstärke‘ steht also in umgekehrt proportionalem Verhältnis zu den formalen Freiheiten des Sprechens (vgl. Kött 2005, 279f). Die verschiedenen journalistischen Textsorten unterscheiden sich durch ganze „Bündel von sprachlichen und außersprachlichen Merkmalen“, die für Kött die Frage aufwerfen, welche Rolle dabei varietätenlinguistische Aspekte spielen bzw. inwiefern sich „der Gebrauch sprachlicher Variation als textsortenspezifisches Merkmal festmachen“ lässt (Kött 2005, 280). Er stellt anhand französischer Zeitungsinterviews und -reportagen fest, dass diese mitunter durch nähesprachliche Authentifizierungsmerkmale das Varietätenspektrum stärker ausschöpfen als etwa der stärker an distanzsprachliche Formen gebundene Bericht. Seine Beobachtung, dass nicht nur Elemente spontaner Mündlichkeit, sondern auch fachsprachliche Ausdrücke gezielt als „O-Töne“ eingestreut werden, deutet darauf hin, dass auch prinzipiell durch Standardsprache geprägte Zeitungstexte auf variationelle Stilmittel zurückgreifen (vgl. Kött 2005, 289f). Allerdings ist in beiden Fällen m.E. zu berücksichtigen, dass solche ‚Abweichungen‘ von der Standardnorm bzw. vom Grundprofil des Textstils auch integraler Bestandteil der reinen Berichterstattung sein können und nicht in jedem Fall als ‚Verkaufsargument‘ für die Glaubwürdigkeit oder ‚Nähe‘ zum Gegenstand dienen müssen (z.B. wenn ein Zitat oder ein Fachwort selbst der Gegenstand ist). Als rhetorisches Instrumentarium werden sie, so Kött, jedenfalls eingesetzt, um „Spuren“ zu legen, die beim Leser den Eindruck von Unmittelbarkeit erwecken sollen; auch hier zeigt sich, dass der Preis für diese Wirkung einen Verlust an „Klarheit der Rede“ im Griceschen Sinn bedeutet, wenn die „Dosis“ der verwendeten Abweichungen nicht „homöopathisch“ gering gehalten wird (vgl. Kött 2005, 289f): Dem Authentizitätspostulat steht ein anderes entgegen, nämlich der journalistische Auftrag „zu universeller und allgemein verständlicher Information an ein disperses Publikum“, was grundsätzlich distanzsprachlich und innerhalb der Standardnorm geschieht. Die Erkenntnis, dass sprachliche Variation in journalistischen Texten eine wichtige Funktion erfüllt, erweitert lt. Kött die vorwiegend pragmatisch ausgerichtete Perspektive der Textlinguistik um die wertvolle Möglichkeit, anhand varietätenlinguistischer Methoden die „Qualität und Funktion sprachlicher Varianten […] präzise zu erfassen“ (Kött 2005, 290)⁵³.

Bucher/Straßner 1991 befassen sich mit den Implikaturen, die Pressemitteilungen (sowohl hinsichtlich der Selektion von Themen als auch deren Aufbereitung) ebenso wie unser Alltagshandeln mitbestimmen, indem sie kommunikative Zwecke verfolgen, „die über das Informieren und Kommentieren hinausgehen“. Selbst ein Urteil des Bundesverfassungsgerichts stellt fest:

„Soll der Bürger politische Entscheidungen treffen, muß er umfassend informiert sein, aber auch die Meinungen kennen und gegeneinander abwägen können, die andere sich gebildet haben. Die Presse hält diese ständige Diskussion in Gang; sie beschafft die Informationen, nimmt selbst dazu Stellung und wirkt damit als orientierende Kraft in der öffentlichen Auseinandersetzung.“ (Bucher/Straßner 1991, 6)

Dem strategischen Aspekt der Presseberichterstattung steht die Pressekritik gegenüber, die die Wirkungsentfaltung meinungsbildender Veröffentlichungen bremst bzw. zu bremsen versucht (vgl. Bucher/Straßner 1991, 7). Zu bedenken ist, dass Pressekritik fallbezogenes Wissen voraussetzt und dieses u.U. selbst auf subjektive Darstellungen zurückgeht:

„Da der Kritiker in den seltensten Fällen über Hintergrundwissen verfügt, das ihn direkt zu den strategischen Absichten einer Zeitung führt, eröffnet der Vergleich verschiedener Darstellungen desselben Ereignisses […] einen methodischen Ausweg.“ (Bucher/Straßner 1991, 9)

Ob ein solches Vergleichen allerdings tatsächlich Aussagen über Implikaturen zulässt, hängt m.E. davon ab, ob diskurstraditionelle Aspekte einbezogen werden, denn sowohl in der nationalen Presse als Gesamtgebilde als auch in den einzelnen Redaktionen, die ja jeweils auf eine eigene Geschichte zurückblicken, ist das Erzeugen aktueller Texte von Traditionen geprägt und nur vor diesem Hintergrund wirklich auf Faktualität hin interpretierbar.

Immer wieder werden die Medien selbst zum Objekt von Prinzipienkonflikten, insbesondere im Zusammenhang mit „-Skandalen“, „-Affären“ „-Fällen“ oder „-gates“ (vgl. aktuell Dieselgate). Bucher/Straßner 1991, 11 zufolge resultiert dies aus dem Widerspruch, den die journalistischen Prinzipien laut Bucher/Schumacher 2008 von Haus aus bilden: 1. äußere Prinzipien, nach denen die Presse interagiert, als (Kommunikations-)Institution mit anderen Institutionen (Politik, Verwaltung, Rechtsprechung) und gleichzeitig mit Individuen. Dass dieses Interagieren nicht Selbstzweck bleibt, schafft ständig Konfliktpotential; 2. innere Prinzipien bzw. die eigentlichen journalistischen Prinzipien (Pressekodex⁵⁴), die sich vordergründig wie die Griceschen Maximen (Wahrheit, Relevanz, Informativität, Klarheit) lesen. Zu den Pflichten, die der Presse daraus erwachsen, gehört die Überprüfung von Quellen, die Darstellung der Meinungsvielfalt sowie die Orientierung an der Aktualität.

Die Tageszeitung als Produzent und Produkt von Diskursen beschreibt Knox 2007 in einer vergleichenden Untersuchung zur makrostrukturellen Aufmachung von Online-Zeitungsausgaben:

„Each edition of a newspaper presents the institution’s version of what is important to communicate on a given day. Over time, a cumulative store of knowledge of events, of important individuals and groups and their typical actions, is shared among the writers and readers of the newspaper. From this point of view, a newspaper may be viewed as an ongoing discourse […] a text in its own right. […] In Bakhtin’s (1986) terms, each news text may be considered one utterance, or one turn in this ongoing dialogue […] (Knox 2007, 21)

3.1.1. Noah Bubenhofer: Sprachgebrauchsmuster – Korpuslinguistik als Methode der Diskurs- und Kulturanalyse

Bubenhofer 2009 (Link) liegt sowohl thematisch als auch methodisch der vorliegenden Arbeit besonders nahe. Bubenhofer entwickelt in seiner Dissertation am Beispiel eines diachron und synchron betrachteten Zeitungskorpus⁵⁵ ein für diskursanalytische Zwecke geeignetes korpuslinguistisches Begriffs- und Methodengerüst, auf das ich im Kap. Methode näher eingehe, soweit ich selbst bei der Methodenentwicklung bzw. -umsetzung darauf zurückgegriffen habe. Dabei verfolgt er das Ziel sog. Sprachgebrauchsmuster aufzuspüren:

„Diese Muster werden auf unterschiedlichen Ebenen zwischen Wort, Satz und Text auftauchen, und sie werden sowohl in einer synchronen als auch diachronen Perspektive betrachtet. Zudem werden die Sprachgebrauchsmuster sowohl thematisch/inhaltlich gefüllt (z. B. Kampf gegen den Terrorismus), als auch unabhängiger von bestimmten Themen sein, da sie thematisch/inhaltlich nicht gefüllt sind (z. B. nicht nur . . . sondern . . . auch). Die zu entwickelnde Methode nenne ich ‚korpuslinguistische Diskursanalyse‘.“ (Bubenhofer 2009, 6)

Kurz gesagt zeigt Bubenhofer 2009 auf, wie man mithilfe geeigneter Grundüberlegungen und technischer Hilfsmittel Sprachgebrauchsmuster aus einem Korpus extrahieren kann, deren Gestalt im Vorfeld nicht streng definiert ist, und wie man aus den so gewonnenen korpuslinguistischen Befunden unter Berücksichtigung kulturanthropologischer Aspekte (i.w.S.) mehr als nur ‚tote‘ Befunde ableiten kann.

3.2. Romania und Massenmedien

Lebsanft 2001, 292f unterscheidet drei Aspekte bei Fragestellungen zu „Sprache und Massenkommunikation“: 1. die sprachliche Erfassung von Massenkommunikation, 2. den Gebrauch sprachlicher Mittel überhaupt unter massenmedialen Bedingungen, 3. massenmediale Sprache i.e.S., d.h. Texte, wie sie für Zwecke der Massenkommunikation spezifisch verfertigt werden. Der erste Aspekt betrifft die Terminologie der Massenkommunikation, der zweite „gilt gemein- und fachsprachlichen Fakten, welche in massenmedialen Korpora dokumentiert werden und dort unter Umständen in besonderer Weise auftreten“, der dritte „zielt auf massenmediale Textsorten“. Letzteres stehe in engem Zusammenhang mit dem „primären Zweck von Massenkommunikation“: der „simultanen Mitteilung von Nachrichten an eine große Zahl von (dispersen) Rezipienten“.

„Das Wesen der Nachricht wiederum liegt in ihrer Neuigkeit, in der Mitteilung eines für die Lebenszusammenhänge einer Vielzahl von Rezipienten belangvollen, unbekannten und daher in Erfahrung zu bringenden Wissens.“ (Lebsanft 2001, 293)

In massenmedialen Textsorten lasse sich die Rolle erfassen, die die Sprache in den Massenmedien (als ‚Ort‘) spiele, wobei die sog. journalistischen Darstellungsformen (d.h. Textsorten bzw. Diskurstraditionen) nichts anderes seien als der sprachliche Ausdruck des Massenmedialen – weswegen die linguistische Untersuchung von Massenkommunikation in erster Linie mit Textsorten befasst sei (vgl. Lebsanft 2001, 293).

Es gelte, die „sprachlichen Merkmale dieser Textsorten“ in einen Produktions- und Rezeptionszusammenhang zu stellen, mit der Prämisse, dass sprachliche Äußerungen das „Ergebnis der Auswahl von ‚Versprachlichungsstrategien‘ in Abhängigkeit von außersprachlichen Kommunikationsbedingungen“ darstellten.

Unter der Annahme, dass Massenkommunikation als prototypische Form von Anrede und Erwiderung zu begreifen ist⁵⁶, lassen sich, so Lebsanft, die für sie charakteristischen Unterschiede zu face-to-face Gesprächen zwischen zwei Personen bestimmen (Auswahl):

raum-zeitlich: die Überbrückung der Distanz ist an materiell-mediale Hilfsmittel gebunden;
beteiligte Personen: eine relativ geringe Zahl von Kommunikatoren steht einer nahezu unbegrenzten Zahl von Rezipienten gegenüber⁵⁷;
Öffentlichkeit: für die massenmediale Äußerung gibt es ‚Zeugen‘ und die Grundlage, Kommunikatoren dafür sozial und rechtlich zur Rechenschaft zu ziehen;
soziologische und pragmatische Asymmetrie: das Verhältnis Kommunikator-Rezipient ist eines von Anbieter u. Kunde „einer ganz spezifischen Form von Ware“; der ‚Anbieter‘ kennt sich notwendigerweise besser mit der Warenbeschaffung u. -vermittlung aus als der ‚Kunde‘, dessen Kenntnisstand fakultativer Natur ist. Zudem bleiben Rezipienten im Gegensatz zu den Kommunikatoren i.d.R. anonym.

Als Variablen, die bei der Untersuchung von sprachlicher Massenkommunikation zu berücksichtigen seien, nennt Lebsanft 2001, 297 folgende:

Der Kommunikator agiert institutionsgebunden. Das bedeutet auch, dass neben der selbständigen Versprachlichung die Übernahme von Formulierungen der Nachrichtenagenturen und PR-Abteilungen eine Rolle spielt. Außerdem kommt die Übernahme bzw. der Austausch über Medien- u. Sprachgrenzen hinweg dazu.
Der Rezipient nimmt auch eine aktive Rolle ein, indem er „auswählt, prüft, verwirft“, er „verwertet“ die bereitgestellte Information individuell. Nicht zuletzt das Agieren der Rezipienten untereinader unterstreicht diesen Teilhabe-Aspekt.

Lebsanft 2001, 299:

„Die wichtigsten Textsorten der nicht nur romanischen Druckmedien sind Nachricht, Reportage, Bericht, Interview, Kommentar und Leitartikel […] Die Nachricht wird im allgemeinen dem (objektiven) ‚Informieren‘, Reportage, Bericht und Interview dem ‚Analysieren‘, Kommentar und Leitartikel dem (subjektiven) ‚Meinung äußern‘ […] zugeordnet.“

Lebsanft 2001, 301:

„Die syntaktische und lexikalische Gestaltung der massenmedialen Textexemplare wird wesentlich von der jeweiligen Textsorte bestimmt. […] Um einem Typ von Textintention wirkungsvollen Ausdruck zu verleihen, wählt der Kommunikator nach dem alten Prinzip des aptum aus den Möglichkeiten einer Sprache bestimmte Mittel aus.“

Arnaldos 2001, 289f stellt fest, dass der immer stärker werdende Einfluss der Massenmedien auf den Sprachgebrauch diesen „cada vez más repetitivo, mecánico y estandardizado“ werden lässt und zu einer „acusada pérdida de contenido“ und „pobreza textual“ führe. Wie bereits oben gesehen, sind verschiedene wirkungssteigerne sprachliche Strategien also quasi gegenläufig: ein stetiges Ausbalancieren – zwischen Konformität und Expressivität, zwischen Universalität und Identität (bzw. Alleinstellung) sowie zwischen Transparenz und Rhetorik – scheint integraler Bestandteil der massenmedialen Textproduktion zu sein.

3.3. Französische Sprache und Massenmedien

In Osthus 2008 findet sich ein Überblick über die Entwicklung der Massenmedien im Spiegel der galloromanischen Sprachgeschichte. Die zunehmende „Entgrenzung von Kommunikationszirkeln“ (Osthus 2008, 1281) durch Massenkommunikation über große räumliche Distanzen spielt für die Galloromania z.B. hinsichtlich der postkolonialen Medienpolitik Frankreichs außerhalb Europas eine Rolle, aber auch im Hinblick auf Sprachwandel: Wenn auch selten ein direkter Zusammenhang zwischen massenmedialer Kommunikation und „Verschiebungen im funktionalen Systemgefüge von Sprache“ (Osthus 2008, 1281) nachgewiesen werden kann, sind doch

“ […] mit dem Auftreten der Massenkommunikation in ihren unterschiedlichen Ausprägungen, Schlieben-Lange folgend, ‚Veränderungen der Konstitutionsbedingungen des Sprechens […] als Überbegriff für Sprechen und Schreiben […]‘ anzunehmen.“ (Osthus 2008, 1281)

Schröder 1984 geht in ihrer texttypologischen Untersuchung auf den Status der Zeitung Le Monde als das (damals anscheinend unumstritten) wichtigste Presseorgan in Frankreich ein: „un journal indispensable dans la presse française et à bien des égards un journal exemplaire“ (Schröder 1984, 8). Sie betrachtet Zeitungsartikel in ihrer Gesamtheit mit besonderem Augenmerk auf der Einbettung in eine konkrete Kommunikationssituation: „Damit aber erhält jeder Text eine bestimmte Funktion, die von der Intention des Senders abhängt, wie er selbigen verstanden wissen will.“ (Schröder 1984, 16). Solche im einzelnen Zeitungsartikel dominanten Textfunktionen legt sie für deren Zuordnung zu bestimmten Textklassen zugrunde, die sich wiederum am Bühlerschen Organon-Modell orientieren (informationsbetont = Darstellungsfunktion; meinungsbetont-persuasiv = Ausdrucksfunktion; instruierend-anweisend = Appellfunktion) (vgl. Schröder 1984, 17). Zur Feststellung der jeweils dominierenden Funktion können sprachliche und nichtsprachliche Kriterien als Erkennungsmerkmal festgemacht werden. Die Makrostruktur von Zeitungstexten, bestehend aus Teiltexten und deren formaler und inhaltlicher Struktur, bildet den Mittelpunkt der Untersuchung mit dem Ziel „zu den Bauplänen zu gelangen, die für die verschiedenen Textsorten konstituierend sind“ (Schröder 1984, 26).

3.4. Französische Presse und science populaire/vulgarisation

In Bensaude-Vincent/Rasmussen 1997, 265 stellt P.-M. Fayard (in einem Interview zum Stand des Wissenschaftsjournalismus in Europa) fest, dass seit den 1990er Jahren im Zuge der in den Vordergrund gerückten Umweltdebatten auch eine verstärkte Präsenz wissenschaftlicher Inhalte in der Presse zu verzeichnen ist: Aus sporadischen Beiträgen zu wissenschaftlichen Themen vom „journaliste scientifique polyvalent“ (Bensaude-Vincent/Rasmussen 1997, 265) sind ganze, von hochspezialisierten Journalisten betreute, Rubriken geworden. Die thematische Ausdifferenzierung ging und geht einher mit der internen Spezialisierung des europäischen Journalismus bzw. der Professionalisierung (und breiten Anerkennung) des Wissenschaftsjournalismus als vollwertige Berufsaussrichtung.

Jacobi 1986, 115f nennt als Beispiel einen Viehzucht-Skandal, der in der französischen Presse die Verbreitung eines ansonsten kaum für die Öffentlichkeit relevanten Fachwissens rund um eine Chemikalie namens D.E.S. zur Folge hatte:

„La vulgarisation du D.E.S. réunit ainsi und multitude d’écrits faits non seulement par des journalistes (vulg.[arisateurs, Verf.] professionnels) mais aussi par des chercheurs et des savants, les uns utilisant les autres ou se faisant référence.“ (Adamzik 2004, 115)

Jacobi fragt sich zum einen, wie sich Experten und Laien in solchen Situationen ergänzen können und macht die Beobachtung, dass im interdiscours – „j’appelle interdicours ou intertexte l’ensemble des articles scientifiques et de V.S. s’intéressant au D.E.S. pendant une période donnée“⁵⁸ – der Gegenstand der Diskussion bzw. das „produit à problèmes“, hier die Chemikalie D.E.S., auf vielfältige Weise aufgegriffen wird. Dies sei so, weil ihre Einsatzgebiete vielfältig seien und entsprechend auch die gesellschaftlichen Interessen, denen ihr Status als Problemstoff entgegensteht. Neben der heterogenen Bezeichnungspraxis im Umgang mit den einschlägigen Konzepten weist sich die Textproduktion der acitivité de vulgarisation aber auch durch interne Gemeinsamkeiten aus. Diese „activité de traduction et de reformulation“ (Jacobi 1986, 117) greife hauptsächlich auf zwei Verfahren zurück: 1. Subsituierung (von Termini) durch Synonyme, 2. Paraphrasierung. Nach Jacobis Auffassung hinterlassen solche Verfahren gewisse Spuren, indem sie zwangsläufig nie ganz neutrale 1:1-Entsprechungen zeitigen können, sondern Transformation, Verformung bedeuten – es entsteht ein Spiel zwischen „le même et l’autre“ (Jacobi 1986, 117).

3.5. vulgarisation allgemein

Mortureux 1985 führt in die linguistischen Aspekte der vulgarisation und ihre Untersuchbarkeit ein. Die weit verbreitete Ansicht, wissenschaftliche Texte würden dabei in allgemein verständliche übersetzt wie von einer Einzelsprache in eine andere, hat zur Folge, dass man Gemeinsprache und Wissenschaftssprache einander als (funktionale) Entitäten gegenüberstellt. Auch wenn es offensichtlich ist, dass auch der wissenschaftliche Text das einzelsprachliche System nutzt und kein davon unabhängiges entwickelt hat, haben die existierenden Parallelen zur eigentlichen Übersetzertätigkeit dazu geführt, den vulgarisateur als eine dritte Instanz („le troisième homme“) wahrzunehmen.

Der texte vulgarisateur sehe sich zwei Zielen verpflichtet: erstens, aus wissenschaftlicher Sicht nichts Falsches und zweitens, aus Laiensicht nichts Unverständliches auszusagen. Dies führe unweigerlich zu einem „discours double“, wenn man davon ausgehe, dass die Verbreitung von Fachwissen ohne Verwendung der dazugehörigen Termini nicht möglich sei. Der „discours second“ führt nämlich zusätzlich zu den Termini des „discours source“ gemeinsprachliche Entsprechungen und Annäherungen ein, was zu einer für die vulgarisation typischen juxtaposition bzw. superposition von Diskursen führe (vgl. Mortureux 1985, 828).

Diese doppelte Struktur lasse sich u.a. an der Attribuierung von Aussagen erkennen (marques d’énonciation), die sich im texte vulgarisateur klar von dem im wissenschaftlichen Text unterscheide: das exklusive nous des wissenschaftlichen Textes wird zum eux, während das nous im texte vulgarisateur dessen Autor (troisième homme) und die Leser einschließt und die Experteninstanz ausschließt. Die Stellung des vulgarisateur und seiner Äußerungen werde in zwei gegensätzlichen Bildern dargestellt: einerseits als ‚heile Welt‘ einer pädagogischen Wissensvermittlung, bei der vulgarisateur und laienhafter Leser zusammenarbeiten, und andererseits als eine nie wirklich mögliche Vermittlungsleistung, die den vulgarisateur in eine von Grund auf prekäre Situation bringt: „missionaire toujours au bord de l’échec ou du sacrilège“ (Mortureux 1985, 829).

Die pädagogischen Ziele des zu vermittelnden Texts führen zu einer je nach individuellem Wissensstand mehr oder weniger starken Redundanz, die aber durch stetes Variieren zwischen Fach- und Laienvokabular auf der sprachlichen Ebene nicht auffallen muss bzw. soll. Die implizite ‚Verdoppelung‘ bzw. „equivalence implicite“ ist entsprechend häufiger anzutreffen als ein explizites Nebeneinanderstellen, das die Kluft zwischen den zwei ‚Wissenswelten‘ ja betonen würde. In einem scheinbar unsystematischen „va-et-vient“ sucht der texte vulgarisateur stets das Gleichgewicht, um weder dem Diskurs der ‚Eingeweihten‘ noch dem der ‚Ahnungslosen‘ jemals ganz das Feld zu überlassen (vgl. Mortureux 1985, 830).

Das semantische Verhältnis zwischen Fachtermini und ihren Paraphrasierungen für den Laiengebrauch lässt sich lt. Mortureux 1985, 830ff diskursanalytisch anhand bestimmter Kategorien untersuchen:

a) juxtaposition bzw. Aneinanderreihung wie in „une transformation (métabolisation) de la molécule“

b) Koordination wie in „output, c’est-à-dire sortie…“

c) metasprachlich durch bestimmte Verben wie in „une phase particulière du sommeil appelée …“

Wie problematisch die handliche und deshalb wohl so weitverbreitete Gleichsetzung von vulgarisation und traduction sein kann, bringt Mortureux 1985, 841f auf den Punkt:

„Enfin, l’on ne saurait réduire la vulgarisation à cette mise en contact de deux vocabulaires différents, position naïve qui se fonde sur l’illusion que seule la terminologie empêcherait tout un chacun d’accéder à la Science⁵⁹. Outre que toute traduction opère un réénonciation, on peut rappeler, à l’encontre de cette illusion, que si même un terme scientifique supporte plusieurs définitions […] il désigne un concept, une configuration abstraite, destiné(e) à relier, en une représentation unifiée et structurée, des phénomènes a priori hétérogènes, disparates pour le non-spécialiste; ne pas comprendre un terme, c’est être plus ou moins étranger à la démarche d’élaboration du concept correspondant, et par conséquent à la démarche scientifique elle-même; d’où il suit qu’il ne suffit pas d’employer des termes […] en les paraphrasant de façon ’satisfaisante‘, pour rendre savants ses lecteurs […]⁶⁰“ (FN v. Verf.)

4. Präsentation des Korpus

4.1. Zielsetzung der Datenerhebung

Das Korpus sollte die Möglichkeit bieten, Textmerkmale divulgativer Diskurse mithilfe geeigneter korpuslinguistischer Hilfsmittel zu erfassen, zu evaluieren und zu interpretieren. Die Inhalte der meistgelesenen Tageszeitungen Frankreichs boten sich als Quelle für ein hinreichend homogenes Korpus an, da diese allein durch ihre starke Rezeption in der Sprechergemeinschaft ein Paradebeispiel für Divulgation i.S.v. massenhafter Vermittlung und zudem in hohem Maße der digitalen Datensammlung zugänglich sind. Desweiteren bilden diese Medien einen wichtigen ‚Marktplatz‘, an dem täglich neu sprachliche und diskursive Traditionen verhandelt werden. Beide Aspekte lassen sich im Rahmen der korpuslinguistischen Diskursanalyse optimal nutzen, indem umfangreiches, in digitaler Form vorliegendes Korpusmaterial mit adäquaten ‚Messverfahren‘⁶¹ untersucht wird.

Ein wichtiger konzeptueller Punkt der damit verbundenen Prozeduren ist, dass trotz der notwendigen ‚Zerstückelung‘⁶² der Originalstruktur, diese nur ’suspendiert‘, nicht aber dauerhaft zerstört wird. Jederzeit ist es auch ohne Zugriff auf die Quelle möglich, aus den aufbereiteten (in Tabellen gespeicherten) ‚Tokenlisten‘ die ursprüngliche Form des untersuchten Textes abzuleiten bzw. wiederherzustellen.

Das Thema Dieselmotor als Auswahlkriterium für das Korpusmaterial ergab sich wie oben erwähnt aus der Tatsache, dass es sich um ein Thema handelt, das seit Jahren immer wieder große Mengen von journalistischen Beiträgen beschäftigt und dadurch die Bedingung für eine quantitativ aussagekräftige Datenerhebung erfüllt ist, auf die sich die anschließende qualitative Analyse stützen kann. Jacobi 1984, 45 zu den Vorteilen einer an viel diskutierten, polarisierenden Themen orientierten Korpusauswahl:

„L’observateur dispose ainsi […] d’une masse considérable d’échanges linguistiques, corpus gigantesque et diversifié qui témoigne de la vie de la langue (et d’un terme scientifique en particulier) […] une situation extrêmement propice: les spécialistes sont invités à (ou constraints de) s’adresser simultanément non seulement à leur pairs mais aussi à des chercheurs et savants (appartenant à d’autres domaines de recherche), à des praticiens ([…] techniciens […]) et même aux lecteurs de revues comme La Recherche, de journaux comme Le Monde, ou de publications des associations de défense des consommateurs.“⁶³

Die Tatsache, dass die reformulation bzw. vulgarisation fachspezifischer Inhalte nicht nur Raum für rein objektive, darstellende Vermittlung bietet, sondern auch für implizite Meinungsäußerungen bis hin zur Propaganda (vgl. Jacobi 1984, 46), ist ein weiterer guter Grund, große massenmedial stattfindende Debatten für die Textauswahl zu nutzen: nur auf der Basis einigermaßen großer Datenmengen können zu diesem auch für andere linguistische Untersuchungsbereiche so zentralen Punkt konkrete, die Theoriebildung stützende Aussagen gemacht werden.

4.2. Korpuseigenschaften

Für den Aufbau des Korpus wurden die beiden (auch) online erscheinenden französischen Tageszeitungen Le Monde (lemonde.fr) und Le Figaro (lefigaro.fr) herangezogen. Beide Online-Ausgaben sind zwar größtenteils kostenlos zugänglich, bieten aber nur Abonnenten die Recherche im Archiv und vollen Zugang zu allen Inhalten. Für Abonnenten reservierte Inhalte sind jedoch im Ausgangsmaterial als solche gekennzeichnet und konnten somit bei der Korpus-Aufbereitung (DB) entsprechend etikettiert werden.

Lemonde.fr und lefigaro.fr verfügen als Quellen über hinreichende Gemeinsamkeiten, um als Teilkorpora eines Gesamtkorpus zusammen untersucht und untereinander verglichen zu werden:

Online erschienen seit (mind.) 2007: Die Suche nach Schlagwörtern wurde zeitlich eingegrenzt auf 31.10.2007-31.10.2018. Dadurch wurde nichts berücksichtigt, was nicht (auch) online erschienen ist.
Es sind die zwei am meisten gelesenen (abonnierbaren/z.T. kostenpflichtigen) Tageszeitungen in Frankreich⁶⁴.
Beides sind genuin französische (hexagonale) Produkte mit einer langen und gut dokumentierten Geschichte; letztere stellt z.B. für diskurstraditionelle Erklärungsansätze eine wichtige Größe dar.

4.3. Porträts der verwendeten Tageszeitungen

Die folgenden Ausführungen stützen sich auf Eveno 2004 sowie einschlägige Wikipedia- u. eurotopics-Einträge (s. Kap. Internetquellen).

4.3.1. Le Monde

Die Zeitung Le Monde wurde 1944 während der Libération als Nachfolgerin von Le Temps gegründet⁶⁵. Charles de Gaulle sorgte dafür, dass ein Mitglied der Résistance erster Chefredakteur wurde, und wünschte sich ein intellektuelles Medium der Eliten mit internationaler Repräsentationskraft. Wenn auch alles andere als Gaullismus die Triebfeder ihrer journalistischen Zukunft war, galt und gilt Le Monde doch als Zeitung der intellektuellen Oberschicht und kann gegenüber seinen Konkurrenten bis heute die größte internationale Ausstrahlung vorweisen.

Heute ist Le Monde als gemäßigt links einzuordnen und eine der wichtigsten meinungsbildenden Tageszeitungen Frankreichs. Bis 2010 war die Zeitung als AG in den Händen ihrer eigenen Mitarbeiter⁶⁶, wurde dann aber durch Entscheid der Aktionäre verkauft, wobei genau jene Käufer den Zuschlag erhielten, die N. Sarkozy aus dem Rennen haben wollte⁶⁷. Durch ihre ganze bisherige Geschichte hindurch positonierte sich die Zeitung bisweilen sehr kritisch gegenüber konservativen Entscheidungsträgern und musste sich zuweilen auch den Vorwurf gefallen lassen regierungsfeindlich zu agieren.

4.3.2. Le Figaro

Le Figaro ist Frankreichs älteste heute noch veröffentliche Tageszeitung. Sie überstand unter der Führung von P. Brisson die épuration Frankreichs von den collaborateurs des Vichy-Regimes im Zuge der Libération (1944).

War sie schon im 19.Jh. Konkurrent von Le Temps, gilt die Zeitung auch heute noch als wichtigster konservativer Gegenspieler von Le Monde.

Im Gegensatz zu Le Monde positionierte sich Le Figaro beispielsweise eher Sarkozy-freundlich. Seit der Übernahme durch den Rüstungskonzern Dassault (2004) werden immer wieder Zweifel an der redaktionellen Unabhängigkeit des Figaro laut.

4.4. Korpusgewinnung

Mit der Online-Suchfunktion von lemonde.fr und lefigaro.fr wurden zunächst alle Artikel als Treffer festgehalten, die sowohl diesel als auch moteur enthalten⁶⁸ und im Zeitraum zwischen Anfang Nov. 2007 und Ende Okt. 2018 erschienen sind. Die beiden Trefferlisten enthielten zusammen rd. 2300 Artikel, was bedeutete, dass nur ein Teil des rd. 10-jährigen Zeitraums manuell in Korpusdateien festgehalten werden konnte (vgl. Textdatei, die die Suchhistorie dokumentiert und Aufschluss über das grundlegende Konzept der Korpusgewinnung gibt⁶⁹).

Als die Bearbeitung des jüngsten Zeitabschnitts abgeschlossen war, d.h. in Form von 247 Textdateien vorlag, war angesichts der dazu bereits benötigten Zeit klar, dass nur noch *ein* weiterer Zeitabschnitt dazugenommen werden konnte. Ich entschied mich für den ältesten Abschnitt, zumal sich mit der 2007 in Kraft getrenen EU-Abgasnorm eine markante kontingente Begründung für den Beginn einer diachronen Betrachtung bot und durch die volle Ausnutzung der Spanne von rd. zehn Jahren zwischen der ältesten und der jüngsten Teilzeitspanne die signifikantesten Entwicklungen des Sprachgebrauchs entlang der Dieselthematik hervortreten würden.

Die Gesamtzahl der Dateien, die das Korpus am Ende bildeten, beträgt 416 (einige fälschlicherweise aufgenomme Dateien wurden entweder vor der Überführung in die DB verworfen od. nachträglich die entsprechenden DS aus den Tab. gelöscht).

Nach entsprechender Aufbereitung (vgl. nächstes Kap.) ergaben die 416 Zeitungsartikel (319 aus Le Figaro u. 97 aus Le Monde, was jeweils 77% und 23% der Gesamtartikelzahl entspricht) in tokenisierter Form 372275 Datensätze in der DB-Tab. tokens, was einer für den Rahmen der vorliegenden Arbeit absolut ausreichenden Grundlage entspricht. Noch größere Datenmengen hätten sogar die Umsetzung des geplanten Abfragekatalogs beeinträchtigen können, weil komplexe SQL-Abfragen in Kombination mit sehr großen Datenmengen zu extremen Verzögerungen der Datenverarbeitung und zum Abbruch der Übertragung durch den Browser führen können.

5. Methode

5.1. Theorie

5.1.1. Korpuslinguistik

Die Korpuslinguistik (KL) „leitet aus einer bestimmten Zahl gegebener Texte sprachliche Eigenarten ab, um diese zu deuten“ (Gleßgen 2005, 207). Abgesehen von der quantifizierbaren Beobachtung sprachlicher Grundmuster hat die KL den Vorteil, deren methodische Deutungsmöglichkeiten dank der hohen Formalisierung der Datenstruktur klar herauszuarbeiten (vgl. Gleßgen 2005, 207).

Als Beitrag zur sprachwissenschaftlichen Methodik kann auch der Vorteil der KL gelten, dass Quantifizierung und Formalisierung der Daten nicht etwa Intuition und Erwägungen des Sprachwissenschaftlers bei der Deutung ersetzen, sondern sie auf eine höhere Abstraktionsstufe bringen, indem sie „die systematische Betrachtung der Phänomene fördern.“ (Gleßgen 2005, 207).

Lücke u.a. 2017 (KIT) führen in die Eigenschaften und Einsatzmöglichkeiten besonders wichtiger und bewährter Software-Tools für die computergestützte und darüber hinaus betriebssystemunabhängige Strukturierung und Auswertung korpuslinguistischer Daten ein. Es werden verschiedene, grundsätzlich für jedes korpuslinguistische Vorhaben nötige Strukturierungsmaßnahmen erläutert und deren konkrete Umsetzung mithilfe geeigneter Programme und (Programmier-)Sprachen Schritt für Schritt, vom korrekt kodierten Fließtext über die Tokenisierung (Erzeugung v. vertikalem Text bzw. v. ‚Wortlisten‘) bis zur Speicherung in einer relationalen Datenbank (vgl. Lücke u.a. 2017, 146ff), vorgestellt.

5.1.2. Induktive, abduktive und dekuktive Methoden

Der korpuslinguistische (datengeleitete bzw. corpus-driven⁷⁰) Ansatz ist induktiv bzw. abduktiv⁷¹. Man geht an Fragen des Spachgebrauchs heran, indem man unter weitgehender Vermeidung vorkonstruierter Fragestellungen nach Strukturen von ‚Oberflächen-Phänomenen‘ innerhalb des Korpus fragt, die abstrakte Kategorien darstellen könnten und deren substantielle, individuelle ‚Füllung‘ nicht vorweggenommen wird (vgl. Bubenhofer 2009, 6). Die aus den angetroffenen Sachverhalten gewonnenen Hinweise auf abstrakte, allgemeinere Formen können dann in Form falsifizierbarer Thesen zur Diskussion gestellt werden.

Es liegt auf der Hand, dass die Auswahlkriterien für ein bestimmtes Korpus eine subjektive Größe darstellen und somit eine korpuslinguistische Arbeit wie jede andere wissenschaftliche Untersuchung nicht ohne a priori Eingrenzungen auskommt. Der entscheidende Unterschied zu deduktiven Methoden, die auf Korpora als Belegmaterial für konkrete Annahmen zurückgreifen, ist, dass die induktive⁷² Methode, sobald das Korpus definiert ist, keine konkreten, eng definierten Merkmale mehr im Korpus ins Visier nimmt⁷³, sondern vielmehr (für das Erkenntnisinteresse vielversprechende) formale Strukturen, die in Texten (ggf. auch jenseits der Satzgrenzen) grundsätzlich anzutreffen sind, in ihren konkreten quantitativen und qualitativen Erscheinungsformen untersucht. Diese Strukturen stellen zunächst funktionale Gebilde mit Leerstellen dar, deren konkrete ‚Besetzung‘ bei der Korpusauswertung inventarisiert wird⁷⁴. Es werden also im Unterschied zur deduktiven Untersuchung von Texten nicht nur Phänomene und Kategorien berücksichtigt, die einer vorangestellten Hypothese entsprechen (oder widersprechen), sondern auch solche, die in keine bekannte Kategorie passen. Dieser Ansatz führt zwar für sich genommen noch nicht zur Begründung neuer Theorien, aber er ermöglicht einen Blick auf und eine Interpretation von sprachlichen Praktiken, auf die sprachphilosophische Überlegungen und die linguistische Theoriebildung ganz allgemein angewiesen sind, um sich organisch weiterzuentwickeln. Aus dem Gesagten ergibt sich, das es bei der abduktiven Analyse von Sprachdaten nicht primär darum gehen kann, aufgrund von Phänomenen innerhalb eines immer begrenzten Textkorpus Rückschlüsse auf systematischer Ebene zu ziehen⁷⁵ (vgl. Gleßgen 2005, 208).

5.1.2.1. Fazit

Hier soll nicht versucht werden, aufgrund empirischer Erhebungen möglichst stark zu verallgemeinern. Der korpuslinguistische Ansatz begünstigt m.E. vielmehr die Rücknahme der wissenschaftlichen Deskription i.S.v. ‚Festnageln‘ allgemeiner Wahrheiten zugunsten eines explizit perspektivenabhängigen ‚Schauens‘ und der Formulierung von lediglich unter bestimmten Bedingungen schlüssigen und damit nicht allgemein determinierenden Schlussfolgerungen⁷⁶. Die abduktive Folgerung will individuell verstehen und nimmt eher Bezug auf ‚ihresgleichen‘ statt auf die großen, zwar unabdingbaren, aber nicht allein empirisch begründbaren Theorien⁷⁷.

5.1.3. Wissenschaftsgeschichtlicher Exkurs: Positivistische Vorwürfe an die Korpuslinguistik

Immer wieder gibt es Kritik an korpuslinguistischen Methoden wegen ihrem grundsätzlich materialistisch-deterministischen Auslegungspotenzial. Sicherlich sind die jeweils angemeldeten Bedenken oftmals nachvollziehbar – schließlich war es für die Sprachwissenschaft ein grundlegender Prozess, sich vom positivistischen Wissenschaftlichkeitsdogma des 19. und beginnenden 20.Jh. zu emanzipieren: auf dem Ergebnis dieses Prozesses gründet ja schlechthin die moderne Sprachwissenschaft, deren Anfänge Ferdinand de Saussure (mit dem CLG) und seinen strukturalistischen Nachfolgern zuzuschreiben sind. Die damalige Abkehr von der parole und phänomenologischen Betrachtungen ganz allgemein war eine nachvollziehbare Gegenbewegung, die das Verständnis der langue stark und nachhaltig vorantrieb, indem man die Systemhaftigkeit zum eigentlichen Gegenstand der Linguistik machte und die Realität der konkreten sprachlichen Äußerung lediglich als dem System untergeordnetes Produkt sah, in welchem das System nur unvollständig umgesetzt wird. Unter dem Stichwort Linguistic Turn (auch Pragmatic Turn) fasst man wiederum eine zweite Gegenbewegung zusammen, deren wichtigste Vertreter u.a. J.L. Austin und Ludwig Wittgenstein in seinem Spätwerk waren (Quelle, vgl. auch Bubenhofer 2009, 15). Letzterer versuchte anhand des Konzepts des Sprachspiels zu zeigen, dass jede sprachliche Äußerung untrennbar mit einer menschlichen Praxis verbunden ist und „deren Regeln nur durch gesellschaftlich vermittelte Erfahrung, nicht aber durch Reduktion auf eine logische Essenz begriffen werden könnten“ (Quelle). Austin „wendet sich in ähnlicher Weise von der Betrachtung logischer Sprachideale [ab] hin zur Untersuchung der Aussageweisen alltäglicher Sprache als Ausdruck menschlicher Tätigkeit und gesellschaftlicher Praxis. Im Allgemeinen verliert ein Text nach dieser Auffassung seine ‚unilineare Korrelierbarkeit mit einer bestimmten Bedeutung‘; diese wird vielmehr in den gesellschaftlich determinierten Prozessen von Produktion, Reproduktion und Rezeption verhandelt und bleibt vieldeutig bzw. ‚multivalent'“ (Quelle).

Nach meiner Auffassung sind (wie oben im Zusammenhang mit induktiven und deduktiven Methoden angesprochen) beide Perspektiven, die systemhaft-abstrakte und die pragmatisch-individuelle, essentiell, sie können aber einzeln keine integralen Lösungen für alle (ihrerseits essentiellen) Fragen des Sprachlichen (Aufgabe der Sprachwissenschaft) liefern. Trotzdem muss man sie im Einzelnen streng trennen, um zu wissenschaftlich haltbaren Aussagen und v.a. zu einem befriedigenden Verständnis der gemachten Beobachtungen zu gelangen. Dementsprechend ergänzen sie sich heute in der Sprachwissenschaft zwar insgesamt unweigerlich, treten aber meist nicht gleichberechtigt in ein und derselben Untersuchung auf⁷⁸.

Als Beispiel dafür, dass in korpuslinguistischen Ansätzen mitunter die Gefahr einer ‚linguistischen Verdinglichung‘ gesehen und wie dazu argumentiert wird, sei ein Handbuchartikel von Suzanne Allaire näher vorgestellt:

Allaire 1990 beleuchtet aus synchronischer Sicht das Zusammenspiel von französischen Massenmedien und französischer Sprache und die Methoden, mit denen ihm sprachwissenschaftlich Rechnung getragen wird. Der mittlerweile über 25 Jahre alte Text thematisiert die methodischen Konflikte, die die Einbeziehung der parole als Gegenstand der Linguistik – neben großen Fortschritten – mit sich brachte, zumal sich für den induktiven Weg zentrale Begriffe wie Kommunikation und Information einer klar umrissen Terminologie bzw. terminologischen Nutzbarmachung zu entziehen scheinen. Die Folgen der Unschärfe an der Basis der Begriffsbildung zeigen sich laut Allaire 1990, 212 an der inkonsistenten Bezugnahme auf unterschiedliche kognitive Ebenen bei der Beschreibung massenmedialer Phänomene bzw. an der z.T. nicht klar getroffenen Unterscheidung rein technischer (universaler) Aspekte des Sprachlichen von sozialen (historischen) Faktoren der individuellen Textproduktion und -verbreitung. Die Gewichtung empirischer Daten aus korpuslinguistischen Analysen als Grundlage für Abstraktionen, die schließlich diskursive Modelle ‚freilegen‘, sieht Allaire insofern kritisch, als dabei Gesetzmäßigkeiten kommunikativer Produktion von Sinn lediglich auf der Basis ‚mechanistischer‘ Verallgemeinerungen abstrahiert werden, statt ausgehend von einer integrativen Theoriebildung, die die anthropologisch-soziale Konstitution von Sinn ins Zentrum stellt⁷⁹ (vgl. Allaire 1990, 212). Die Gefahr eines ‚positivistischen Rückfalls‘ sieht sie ganz konkret in den Entwicklungen der französischen Medienwissenschaft, wobei sie einräumt, dass der dabei in Kauf genommenen „réification du problème posé“ (Allaire 1990, 212) und dem tendenziellen Verzicht auf differenziertes Verstehen zugrunde liegender sozialer Faktoren ein Zugewinn hinsichtlich der quantitativen Beobachtung sprachlicher Interaktion gegenübersteht.

Sie schreibt weiter, dass der Grund für die mangelnde terminologische Klarheit in der oft fehlenden Unterscheidung zweier Ebenen liege, auf die sich Textphänomene zurückführen lassen: 1. „ce qui est, par le filtre de l’abstraction grammaticale, imputable au langage [wohl i.S.v. langue gemeint, Verf.), und 2. „ce qui, par la technicisation de la parole, relève de la machine, et, par le jeu des forces de divergence et de convergence à l’œuvre dans l’interaction, de la société […]

Die Gefahr in positivistisch verkürzte Dogmen ‚zurückzufallen‘ erläutert sie folgendermaßen:

„C’est donc sur un terrain miné, à tout le moins menacé par le retour en force du positivisme et de son pouvoir d’enfermement de la pensée, que s’est instaurée en France l’étude des médias […] Que la recherche sur la langue, par réification du problème posé, à oblitérer la théorie qui le pose, qu’elle se prive, par fascination de la variété performantielle des réalisations médiatiques, de comprendre l’identité instancielle des processus sociaux sous-jacents à la communication […] Mais s’il y a perte du côté de la problématique, il y a gain dans l’exploration des donnés et apport aujourd’hui d’une masse d’informations sur les comportements verbaux des locuteurs […]“ (Allaire 1990, 212)

In der Tat scheint für viele Verfasser von korpuslinguistisch basierten Arbeiten die gewissenhafte und ausführliche Qualifizierung der Befunde eher fakultatives Beiwerk als methodische Verpflichtung zu sein. Aus der fehlenden Abrundung durch umfassende und schlüssige Verortung der empirischen Ergebnisse ergibt sich aber auch ein entsprechend geringes methodologisches Potential derselben, was wiederum den Befürchtungen eines reaktionären Positivismus *innerhalb* der Sprachwissenschaft aufgrund zunehmender Beschäftigung mit Korpora den Boden entzieht. Positivistisch i.S. der in der vorstrukturalistischen Philologie vorherrschenden Methoden sind ja nicht die Empirie und ihre Ergebnisse per se, sondern normative, programmatische Schlussfolgerungen, die sie begleiten und durch die Verortung ihrer Grundlagen ausschließlich außerhalb der historischen Ebene des Sprachlichen (vgl. Coseriu 1988, 254) den Blick auf das Abstrakte der Sprache methodologisch zu verdrängen und entwerten versuchen.

Diejenigen Sprachwissenschaftler, die etwa in der Germanistik wegweisende Beiträge zu einer Methodologie der Diskursanalyse geleistet haben (Busse, Teubert, Warnke, Bubenhofer u.a.), haben es in ihren Arbeiten nicht versäumt, die – auch wissenschaftsgeschichtliche – Verpflichtung der Qualifizierung quantitativer Erhebungen hervorzuheben. Bubenhofer/Scharloth 2012, 14⁸⁰ weisen auf die Differenzierung und gegenseitige Ergänzung von quantitativen und qualitativen Analysen hin:

„Einerseits […] eine datenintensive quantitative Diskursanalyse, die die Ergebnisse statistischer Verfahren ernst nimmt und nicht nur als Inspirationsquelle für die Hypothesenbildung betrachtet […] andererseits […] eine qualitative, die auf die Lektüre und präzise Analyse von Texten setzt.“

Bubenhofer/Scharloth 2012, 15 zufolge

„bietet ein korpuslinguistischer Zugang die Chance, Daten auch induktiv zu analysieren und sich mit möglichst offenen Hypothesen dem Untersuchungsgegenstand zu nähern. Datengeleite Analysen dieser Art können zu neuen Hypothesen führen, die vorher nicht im Bewusstsein des Forschers oder der Forscherin waren. Noch wichtiger ist aber die Möglichkeit, große Datenmengen mit avancierten, statistischen, korpus- und computerlinguistischen Methoden analysieren zu können. Die daraus resultierenden Ergebnisse und neuen Hypothesen fußen auf ausreichend vielen Beobachtungen, und die Methode, wie sie erreicht worden sind, ist transparent und reproduzierbar […].“

Solange die Potenz datengeleiteter, quantitativer Methoden vor dem Hintergrund wichtiger interpretativer bzw. qualifikativer Prämissen geschätzt und genutzt wird, kann die durch sie steigende Zahl verfügbarer ‚Beobachtungsdaten‘ dem deskriptiven Auftrag der Sprachwissenschaften m.E. nur zugute kommen. Zentrale Arbeitsgrundlagen fassen Bubenhofer/Scharloth 2012, 1 prägnant mit Spitzmüller/Warnke 2011b zusammen:

Ein Diskurs wird nicht zwingend durch ein Korpus mit einer Anzahl von Texten repräsentiert. Diskurse sind vielmehr als Aussagensysteme zu begreifen, die quer zu Texten liegen.
Diskurse sind multimodal und nicht auf schriftliche Texte beschränkt. Korpuslinguistische Verfahren weisen deshalb einen blinden Fleck auf, wenn sie andere Medien außer Acht lassen.
Korpuslinguistische Methoden arbeiten frequenzorientiert. Doch nicht alles, was diskurslinguistisch relevant ist, ist in einem Korpus frequent. Deshalb müssen quantitative Ansätze durch qualitative Analysemethoden ergänzt werden.

Dass sich diese Qualifizierung an den zeitgenössisch etablierten sprachwissenschaftlichen Standards orientieren muss, um Gültigkeit beanspruchen zu können, versteht sich von selbst, weswegen innerhalb der Sprachwissenschaft ein ‚Rückfall‘ in die Methoden des 19. Jh. kaum möglich wäre. Wie allerdings die Erzeugnisse wissenschaftlicher Aktivitäten in der Öffentlichkeit präsentiert und instrumentalisiert werden, steht auf einem anderen Blatt⁸¹ – und gerade der öffentliche, divulgative Diskurs ist ein geeigneter Ort, an dem durch korpuslinguistische Untersuchungen Tendenzen früh aufgezeigt werden können, die weder aus synchronischen Einzelbetrachtungen noch durch rein deduktive Angangsweisen sichtbar werden: gerade das ‚Blinde‘ an einer echten, d.h. auf Transparenz und Reproduzierbarkeit bedachten, Korpuslingusitik ist von Vorteil, um induktive Beiträge zu einer soziolinguistischen aber auch interdisziplinären Theoriebildung zu Sprache und Gesellschaft, die ja jeweils unbestritten einem ständigen Wandel unterliegen, zu leisten – einer Theoriebildung und auch einer Methodologie, die der modernen Gesellschaft in ihrer massenmedialen Durchdringung gerecht werden.

Abschließend zu diesem Exkurs seien noch folgende Überlegungen angefügt:

Gerade wenn man sich klar macht, unter welchen kontingenten Bedingungen die positivistische Strömung in den Wissenschaften des 19. Jh. ihren Aufschwung erfuhr – u.a. aufgrund der durch die Industrialisierung in Gang gesetzten rapiden sozioökonomischen u. politischen Restrukturierung einer ganzen Kultur und des damit einhergehenden Bedarfs an ‚anschaulichem‘ Wissen bzw. des entsprechenden Prestiges in den Reihen des ‚explodierenden‘ Bürgertums – ist es für die Sprachwissenschaft des 21.Jh. auch im eigenen Interesse größtmöglicher Unabhängigkeit von ökonomischen und politischen Interessengruppen (in die sich die Gesellschaft auf der Ebene der Individuen ja gewissermaßen restlos aufteilt) unabdingbar, ihr korpus- und diskurslinguistisches Instrumentarium dezidiert einzusetzen, aber auch zu verbessern, in Frage zu stellen und transparent zu machen. Die systematische linguistische Untersuchung öffentlicher Diskurse ist bei effizientem und selbstkritischen Einsatz der heute verfügbaren, bereits sehr leistungsfähigen korpuslinguistischen Werkzeuge, ganz entgegen den oben aus Allaire 1990 zitierten Befürchtungen, durchaus in der Lage, wichtige (wissenschafts-)soziologische und kulturanthropologische Beiträge zu leisten, die in ihrer Explizierbarkeit keineswegs einer wie auch immer motivierten Willkür anheimgestellt sind.

Aber auch, wenn ein positivistischer Pauschalvorwurf an die in der Sprachwissenschaft in den letzten zwei bis drei Jahrzenten so virulente Beschäftigung mit konkreten Texten nicht haltbar ist, lohnt es sich, die von Allaire in den 1990er Jahren angeführten Argumente gegen eine ‚bequeme Verdinglichung‘ des Sprachlichen auch aus aktueller Sicht immer wieder prüfend in quantitative Untersuchungen am Text miteinzubeziehen: Die Paradigmen der demokratischen Gesellschaften zeigen sich heute angesichts beschleunigter sozioökonomischer Umwälzungen wieder als angreifbar bis prekär, je nachdem aus welcher individuellen Situation heraus sie betrachtet werden. Akteure des wissenschaftlichen Diskurses, insbesondere jene mit potentieller Ausstrahlung über den unmittelbaren Kreis der peers hinaus, ist es daher abzuverlangen, jederzeit selbstkritisch und vor allen Dingen der größtmöglichen Transparenz verpflichtet vorzugehen. Diese Art von Selbstreflexion der (Sprach-)Wissenschaft als Synergie aus bewusster Produktion und Rezeption setzt nicht zuletzt eine gute Vernetzung voraus, welche wiederum (unweigerlich) zur Überwindung methodischer ‚Misskommunikation‘ und zu einer besseren theoretischen wie praktischen Ausschöpfung bereits existierender Ansätze beiträgt.

5.1.4. Diskursanalyse/Diskurslinguistik

5.1.4.1. Linguistische Diskursanalyse

Mit einem programmatischen Aufsatz begründeten 1994 Dietrich Busse und Wolfgang Teubert eine Begriffsbildung, die Diskurse, ausgehend von Michel Foucaults Arbeiten (vgl. Foucault 1971), für die (germanistische) Linguistik verfügbar machen sollte (vgl. Niehr 2014, 30).

Der Foucaultsche Diskursbegriff ist untrennbar verbunden mit dem der Episteme (Gesamtheit des gesellschaftlichen Wissens). Dieses Wissen ist die Ebene, auf der sich die Analyse von Diskursen (als nicht nur sprachliche Phänomene) mit der von Sprache verbindet. Als dafür geeignetes Instrument schlägt Busse 2018, 3 die Frame-Theorie vor⁸²; mit ihrer Hilfe lassen sich die von Foucault geprägten Begriffe énoncé ‚Wissenskern‘ (historische Ebene des Sprachlichen) und énonciation ‚einzelne Manifestation des Wissenskerns‘ (aktuelle/individuelle Ebene des Spachlichen) in Beziehung setzen. Entscheidend ist bei Foucault, dass einzeln auftretende Aussagen-Phänomene immer im gesamten Feld des Wissens (Episteme) gesehen werden müssen und dadurch ihren Platz in einem „Netz diskursiver Beziehungen einnehmen“ (Busse 2018, 4). Daraus erklärt sich auch die eminente Bedeutung der Frage „[…] was es [für die gesagten Dinge] heißt, erschienen zu sein und dass keine anderen an ihrer Stelle erschienen sind.“ (Foucault-Zitat in Busse 2018, 4). Foucault (1967) an anderer Stelle (vgl. Busse 2018, 5):

„Mein Gegenstand ist […] nicht die Sprache, sondern das Archiv, das heißt die Existenz von zusammengetragenen Diskursen. Die Archäologie, so wie ich sie verstehe, […] ist die Analyse des Diskurses in seiner Form als Archiv.“

Busse 2018, 5 hebt deshalb hervor, dass eine linguistische Diskursanalyse ’nach Foucault‘ den Begriff des Wissens theoretisch und methodisch einbinden muss. Er nennt folgende Aspekte, unter denen der Wissensbegriff reflektiert werden sollte (Busse 2018, 8f) :

Wissen ist sprachlich geprägt
Wissen ist rezeptiv und aktiv zugleich, sozial und individuell zugleich
Wissen ist bewusst und/oder unbewusst; schematisch, prototypisch; Wissen, das auf das semantische Gedächtnis zurückgreift vs. Wissen, das auf das episodische Gedächtnis zurückgreift (d.h. mit vs. ohne Beteiligung des Erinnerers⁸³)
Wissen ist differenziert:
- typologisch und funktional-operational
- graduell (nach Gewissheitsgraden)
- polar (grob-fein; type-token; bedetungsverleihendes vs. bedeutungserfüllendes Wissen i.S.v. Husserl⁸⁴)

Im Zuge der Foucault-Rezeption im deutschsprachigen Raum wurden Diskurse, Texte und Zeichen zunächst nicht für sich, sondern v.a. in ihrer Funktion der ‚gesellschaftlichen Wissensbündelung‘ betrachtet, was auch entscheidenden Einfluss auf die kulturanalytisch orientierte Semantik der modernen Linguistik hatte.

„Da Sprachverstehen und verstehensrelevantes Wissen am ehesten im Kontext der (linguistischen) Semantik in den Blick geraten, kann man auch vom bedeutungsrelevanten Wissen sprechen.“ Busse 2018, 6

Der Begriff des verstehensrelevanten Wissens erlaubt es, die Trennung von lexikalischem und enzyklopädischem Wissen bei der Untersuchung konkreter Äußerungen aufzuheben. Das heißt natürlich nicht, dass beide Perspektiven konzeptuell gleichgesetzt werden können, sondern nur, dass bei der Untersuchung von Äußerungen bzw. Texten zu berücksichtigen ist, dass sich zwischen den verschiedenen kognitiven Bedingungen für ad hoc rekrutiertes Wissen auf der aktuellen Ebene des Sprachlichen keine ‚physische‘ Grenzlinie abzeichnet bzw. dass die kognitiven Hilfsmittel, die eine Kommunikationssituation begleiten, keine metasprachlichen bzw. metaepistemischen Informationen in der sprachlichen Realisierung (parole) hinterlassen müssen (was sie eben in der langue und in den Diskurstraditionen sehr wohl tun, vgl. Foucaults „Archiv“)⁸⁵.

5.1.5. Korpuslinguistische Diskursanalyse

Bubenhofer 2009 (Link) legt eine Methode vor, die m.E. die Vorteile der Korpuslinguistik und der linguistischen Diskursanalyse optimal verschränkt, indem sie nicht wissenssoziologische, sondern ‚genuin linguistische‘, formalisierbare Kriterien zum Ausgangspunkt macht, und der Gefahr einer allzu ‚materialistischen‘ Sicht auf operationalisierbare Sprachdaten, wie sie ein exklusiv datengeleiteter Ansatz mit sich bringt, durch zusätzliche deduktive bzw. datenbasierte Qualifizierung von Befunden aus dem Weg geht.

Bubenhofer entwirft ein methodisches Instrumentarium, um Sprachgebrauchsmustser korpuslinguistisch zu untersuchen und zeigt dessen Anwendung exemplarisch anhand von in der Schweizer Tageszeitung NZZ über verschiedene Zeiträume hinweg erschienenen Artikeln (im Zusammenhang mit dem Wortfeld Terror). Er verwendet ein zufällig ausgewähltes Korpus aus rd. 45000 Artikeln⁸⁶. Zunächst scheint ein Überblick über die für meine Überlegungen besonders wichtigen Inhalte dieser Arbeit angebracht:

Im ersten Teil geht Bubenhofer 2009 auf die theoretischen Grundlagen von musterhaftem Sprachgebrauch und dessen Untersuchbarkeit durch quantitative, textgrenzenüberschreitende Verfahren ein. Letztere erlaubten, induktiv aus größeren Datenmengen Strukturen als Basis für potentielle Kategorien herauszuarbeiten, die durch konventionelles Lesen von Texten aufgrund des Umfangs, aber auch der dabei wirkenden interpretativen Selektion, nicht in gleichem Maß sichtbar würden.

5.1.5.1. Musterbegriff

Ein Muster (wie es in Sprachgebrauchsmuster vorkommt) ist lt. Bubenhofer 2009, 23

„[…] eine Wortform, eine Verbindung von Wortformen oder eine Kombination von Wortformen und nichtsprachlichen Elementen, also ein Zeichenkomplex, […] der als Vorlage für die Produktion weiterer Zeichenkomplexe dient, […] dabei aber von gleicher Materialität ist, wie die daraus entstehenden Zeichenkomplexe.“

Er betont, dass Zeichenkomplexe die kontextabhängige Funktion von Mustern haben können, aber keine ontologische Musterhaftigkeit besitzen. Am Beispiel der unterschiedlichen Beschreibungsebenen, auf denen die Felder eines Schachbretts beschrieben werden können, wird klar, was den Unterschied zwischen einem Ensemble und einem Muster ist:

„Der Unterschied der beiden Beschreibungen liegt im Wissen um die Existenz eines Musters […] Wenn man die Position und Funktion der Ensemblestücke in Bezug auf das Ensemble erklären möchte, bewegt man sich auf einer anderen Beschreibungsebene, wie wenn dies in Bezug auf das Muster gemacht wird. So würde man im Zusammenhang mit dem Muster ‚Schachbrett‘ einmal von ‚(Schachbrett-)Feldern‘ sprechen, aus denen das Muster besteht, ein anderes Mal von ‚Quadraten‘, die das Ensemble ausmachen.“ (Bubenhofer 2009, 26) (Link).

Anhand des Konzepts der „Ensemblestücke“ wird erläutert, dass ein Komplex wie Krieg gegen den Terrorismus erst dann als Muster erkannt wird, „wenn ihm die Funktion eines Musters als Vorbild zuerkannt wird“ (Bubenhofer 2009, 27), was wiederum vom (sprachlichen wie außersprachlichen) Kontext abhängt.

Abschließend zur Beschreibung seines Musterbegriffs merkt Bubenhofer 2009, 30 an:

„Es ist nicht notwendig, eine abstrakte, kognitive oder tiefensemantische Kategorie ‚Muster‘ zu denken. ‚Musterhaftigkeit‘ lässt sich als Phänomen der Textoberfläche denken, als Phänomen rekurrenten, für bestimmte Kontexte typischen Sprachgebrauchs. Oder, um Wittgensteins Diktum […] zu bemühen, das Muster liegt – also: definiert sich, entsteht – im Gebrauch.“

Dementsprechend weist er (eda.) auch darauf hin, dass der Musterbegriff besser geeignet ist als etwa Modell, Schema, Schablone oder Regel, wenn es um eine Analyse gehe, die auf der materiellen Textoberfläche ansetzt.

5.1.5.2. Korpuslinguistische Diskursanalyse als Methode

Von der traditionellen linguistischen Diskursanalyse⁸⁷ unterscheidet sich lt. Bubenhofer 2009, 36 die als korpuslinguistisch bezeichnete Diskursanalyse darin, dass ihr Fokus nicht primär auf Themen, Wissenskomplexen und Konzepten und deren intertextuellen Zusammenhängen liegt, sondern auf der Frage, mit welchem Sprachgebrauch solche Zusammenhänge geschaffen werden: „Was (an Inhalten) ist im Diskurs typischerweise wie (durch welche Sprechweisen) ausgestaltet auffindbar?“ (Bubenhofer 2009, 36). Man konzentriert sich also darauf, welche untereinander ähnlichen Sprachgebrauchsmuster (Textmerkmale) über ein ganzes Korpus hinweg auftreten, und versucht an der Gesamtstruktur all dieser Manifestationen bestimmte Diskurstraditionen bzw. typische Korrelationen zwischen Aussagen und Sprachgebrauchsmustern abzulesen. Die Möglichkeit der Korpuslinguistik, systematisch und quantitativ nach solchen ausdrucksseitigen Mustern zu suchen, wird lt. Bubenhofer 2009, 38 insbesodere auch der Foucaultschen Vorstellung gerecht, dass sich Diskurse in thematisch heterogenen Kontexten zeigen.

Bubenhofer 2009, 39ff widmet sich der Annäherung an einen diskurslinguistisch integrierbaren Kulturbegriff und geht dabei u.a. auf die Vorstellung von Kultur als einem Bedeutungsgewebe ein, wie sie von Geertz 1973 geprägt wurde: Der Mensch ist in selbstgesponnene Bedeutungsgewebe verstrickt, welche Geertz der Kultur gleichsetzt. Darum kann die Untersuchung von Kultur nicht experimentell nach Gesetzen, sondern muss interpretativ nach Bedeutungen zunächst rätselhafter gesellschaftlicher Ausdrucksformen suchen. Wenn das Bedeutungsgewebe, das Kultur ist, gesellschaftliches Handeln bedingt und gleichzeitig durch es bedingt ist, dann sieht Bubenhofer 2009, 41 es als naheliegend an, dass „bestimmte Formen und Muster des Sprachgebrauchs […] als konstituierend für Kultur zu verstehen“ sind. Insgesamt sieht er in einem so gefassten Kulturbegriff eine Ergänzung auf der formalen Ebene, wo die klassische, semantisch-thematisch und intertextuell ausgerichtete Diskursanalyse Lücken aufweist. Das Verhältnis von „Sprachgebrauch und Kulturalität“ stehe in einem wechselseitigen Verhältnis: Sprache sei kulturell bedingt, Kultur aber auch sprachlich bedingt (vgl. Bubenhofer 2009, 49).

Bubenhofer 2009, 99ff legt sein methodisches Konzept für die korpuslinguistisch operationalisierbare Diskursanalyse dar. Obwohl Korpora grundsätzlich auch als ‚Nachschlagewerke‘ für Belege bestimmter Phänomene verwendet werden könnten (corpus-based), sei es gerade der corpus-driven Ansatz, der die Korpuslinguistik besonders ineressant mache, da er vorsehe, sichtbar gemachte Strukturen erst im Nachhinein zu kategorisieren. Er vertritt die Meinung, dass es unumgänglich sei, corpus-driven zu beginnen, wenn musterhafte, für die Diskursanalyse relevante Strukturen in Korpora ausfindig gemacht werden sollen. Die aus diesen Evidenzen gewonnenen Hypothesen dann in einem Zusammenspiel mit corpus-based Verfahren zu prüfen sei wiederum nützlich, um die Evidenzen deskriptiv zu reflektieren und ggf. Verallgemeinerungen i.S.v. Regeln bzw. Diskurstraditionen festzumachen. Eine systematische Verbindung von Induktion und Deduktion bildet demnach die beste Herangehensweise (vgl. Bubenhofer 2009, 99ff):

„Im ersten Schritt werden aus dem Korpus Kandidaten für musterhafte Strukturen gewonnen, ohne den Fokus bereits auf bestimmte Muster einzuschränken. Nachgelagerte Prozesse der Kontrastierung der Muster gruppieren diese nach unterschiedlichen Kriterien entweder auf diachroner oder synchroner Achse. Dadurch entsteht eine leichter handhabbare Menge an Mustern, die interpretiert werden kann. Der interpretative Schritt stellt das Scharnier zwischen den beiden Perspektiven corpus-driven und corpus-based dar. Neben dem Wechsel zwischen corpus-driven und corpus-based bewegt sich die Heuristik auch zwischen quantitativen und qualitativen Methoden. Die Entscheidung darüber, welche der berechneten Mehrworteinheiten weiter verfolgt werden, wie die Belege im Korpus gewichtet werden, um die Sprachgebrauchsmuster abzuleiten und letztlich wie die weitere Abstrahierung der Befunde zu einer Diskursbeschreibung erfolgt, sind qualitativ-interpretative Akte. Allerdings beruhen sie auf einer empirischen Basis. Wie bereits oben erwähnt, verläuft der Prozess zirkulär, da die Beschreibung laufend überprüft wird und der Prozess mit Berechnungen, z. B. mittels veränderter Parameter, neu gestartet werden kann. Neue Interpretationen auf Basis des Korpus führen so zu Korrekturen der Beschreibung.“ (Bubenhofer 2009, 104f)

Die grundlegende Frage, anhand welcher „Kristallisationskerne“ Diskurse (bzw. DT) aus den Sprachgebrauchsmustern eines gegebenen Korpus abgeleitet werden sollen, beantwortet Bubenhofer 2009, 318f anhand dreier möglicher Strategien:

Der Diskurs wird in einem hermeneutischen, subjektiven Akt definiert;
Die Reliabilität der Diskursdefinition wird durch a priori Festlegung der Existenzkriterien gesichert;
Es wird versucht, die Reliabilität durch a priori Festlegung der Kristallisationskerne von Diskursen zu erreichen: diese werden induktiv im Korpus sichtbar gemacht und anschließend deduktiv (hermeneutisch) kategorisiert, um die Eckpfeiler des beschriebenen Diskurses zu bilden.

Bubenhofer wählt für seine Arbeit den dritten Lösungsweg, der die beiden ersten miteinander kombiniert. Die von ihm zugrundegelegten Kristallisationskerne sind formal operationalisierbare Sprachgebrauchsmuster.

Bubenhofer 2009, 318f plädiert dafür, Diskursanalysen mit dem für die Korpuslingustik typischen Einsatz großer Datenmengen zu betreiben, ohne damit eine Abkehr von qualitativen Analysekomponenten zu verbinden: Als induktiver Startpunkt liefert der corpus-driven Analyseschritt unvorhersehbare Kategorien, die sich mit den bekannten Kategorien aus dem deduktiven corpus-based Analyseschritt zu einem Mehrwert verbinden können. Gerade jene Varianz des Sprachgebrauchs, die so gering oder unscheinbar sei, dass sie der normalen Leseraufmerksamkeit entgeht, könne statistisch in großen Datenmengen dennoch signifikant sein. Man kommt durch die *Einbeziehung* der quantitativen Korpuslinguistik somit der unsichtbaren Hand des ‚massenhaften‘ Sprachgebrauchs u.U. näher als mit jeder anderen Methode, denn: „Diskursive Kräfte können ihre Wirkung auf das Sagbare und auf die Sprechweise auf subtile Art entfalten – die Wirkung ist deshalb nicht weniger stark.“ (Bubenhofer 2009, 321)

Aber Bubenhofer schränkt auch ein, was die ‚Unschuld‘ des korpusgeleiteten Zugangs betrifft: „Auch wenn eine korpuslinguistische Diskursanalyse induktiv vorgeht, vorurteilslos tut sie es nicht.“ (Bubenhofer 2009, 321). Mit der Setzung rekurrenter lexikalischer Elemente als Ausgangspunkt sei bereits eine starke Hypothese als Prämisse gesetzt. Die „getönte Brille“, mit der man auch hier auf Diskurse blicke, sei allerdings weniger stark getönt als deduktiv und primär hermeneutisch vorgehende Methoden, was die Chance mit sich bringe, bei der Analyse weniger leicht selbst „Opfer des Diskurses“ zu werden.

Die Feststellung, dass die klassische linguistische Diskursanalyse tendentiell themengebunden vorgeht, während die kulturanalytische DA ihre Korpora eher themenunabhänig strukturiert, entnehme ich, dass meine eigene Herangehensweise eine maximale Verschränkung beider Interessen anstrebt: Die Auswahl des Korpusmaterials anhand des ausdrucksseitigen Vorkommens von (moteur) diesel bringt zwar theoretisch keine umfassende thematische Ausrichtung mit sich, nähert die Ausgangssituation aber faktisch stärker der klassischen Variante an. Diese Korpusstruktur induktiv zu untersuchen bleibt allerdings ebenso möglich, wie wenn ein anderes, nicht thematisches Ausgangskriterium gewählt worden wäre, denn die Kategorien, die sich etwa aus der Art und Verteilung rekurrenter Elemente in der näheren und weiteren Textumgebung dieses lexikalischen Ausgangskriteriums ergeben, sind nicht a priori bekannt. So, wie das Auftreten bestimmter formaler Grundstrukturen (z.B. Sätze mit mehr als einem Wort, Grammatikalität usw.) für Texte überhaupt typisch ist, wird das Merkmal (moteur) diesel für mein Korpus als typisch vorausgesetzt und macht es innerhalb der Untersuchung zur Referenzgröße ‚alle Texte‘.

5.2. Praxis

Während der Erstellung der vorliegenden Arbeit besuchte ich die von Dr. Christian Riepl und Dr. Stephan Lücke geleitete Lehrveranstaltung Strukturierung und Analyse linguistischer Korpusdaten⁸⁸, in deren Verlauf die Inhalte von Lücke u.a. 2017 in der praktischen Anwendung einführend vorgestellt und eingeübt wurden. Da die vielfältigen Techniken der Datenstrukturierung und -aufbereitung sowie die korrekte Darstellung in einer Datenbank für Informatik-Novizen nicht innerhalb weniger Wochen erlernbar, geschweige denn selbständig anwendbar sind, war es nur dank dem Erfahrungsschatz und der engagierten Unterstützung durch die Kursleiter möglich, die Daten, die der v.A. zugrunde liegen, innerhalb des vorgegebenen zeitlichen Rahmens in einer Weise zu strukturieren, dass sie der systematischen Analyse anhand der Abfragesprache SQL⁸⁹ zugänglich waren⁹⁰.

5.2.1. Testphase

Bevor Korpusdaten in großem Umfang gesammelt werden konnten, war es für eine sinnvolle computergestützte linguistische Untersuchung der Daten nötig, zunächst mit einem kleinen Testkorpus ein geeignetes Verfahren zu entwickeln, das es erlauben sollte, in der zweiten Phase das gesamte Material in eine konsistente Form zu bringen – eine Hauptvoraussetzung für die algorithmische Überführung von Fließtext in die angestrebte annotierte ‚Liste‘ wie sie in einer DB-Tabelle vorliegt.

Gewisse Schritte wie die Tokenisierung (Umwandlung von Fließtext in Vertikaltext aus einzelnen Tokens) und Lemmatisierung (Annotierung der Tokens mit der jeweiligen Grundform, z.B. dem Infinitif) des Ausgangstexts gehören zum Grundstock der im Zusammenhang mit korpuslinguistischen Untersuchungen durchzuführenden Maßnahmen und wurden für das vorliegende Korpus mithilfe von geeigneten Softwaretools, wie sie das DHV-Lab bzw. die ITG zur Verfügung stellt, auf der Basis von bereits in anderen Untersuchungen bewährten Algorithmen problemlos umgesetzt.

Da jedes Korpus spezifische formale und systematische Problemstellungen (einzelsprachliche Besonderheiten, inkonsistente Kodierung von Quelltexten usw.) mit sich bringt und ausgehend vom Erkenntnisinteresse möglichst sinnvoll strukturiert werden sollte, müssen die Parameter, nach denen die einzelnen Schritte der Gesamtprozedur arbeiten, für den spezifischen Einsatz angepasst werden. Dies bedeutete im vorliegenden Fall, dass folgende, in sich weiter untergliederte bzw. sich mehrmals wiederholende Einzelschritte am ‚Testkorpus‘ durchgeführt und immer weiter optimiert wurden; die Abfolge der Schritte kann man insgesamt als Datenstrukturierungs-Prozedur bezeichnen:

Erstellen einer einzelnen Korpusdatei durch Kopieren (von der Website in eine reine Textdatei) eines formal beispielhaften Zeitungsartikels z.B. aus Le Monde. Das Ziel war, den Aufbau dieser Korpusdatei so zu gestalten, dass sich daraus ein Template (s. Datei u. Darstellung in Kap. Datenerhebung) für das gesamte Korpus ergibt und vor der Datenüberführung in die DB für alle Zeitungsartikel analog strukturierte Korpusdateien vorliegen (als Fließtext, der in einem definierten Bereich algorithmisch tokenisierbar ist).
- Diese Korpusdatei beginnt nicht mit dem eigentlichen Korpustext, sondern mit einem sog. Metablock, d.h. mit einer Reihe von Zeilen, die am Zeilenanfang eindeutig als Metadaten-Zeilen gekennzeichnet sind und dementsprechend nicht tokenisiert werden sollen⁹¹.
- An den Metablock schließt sich der eigentliche Korpustext an: ab hier soll der Datei-Inhalt tokenisiert werden, d.h. aus dem Fließtext (von hier bis zum Dateiende) soll Vertikaltext (im Prinzip eine einspaltige Tabelle, die in jeder Zeile ein Token bzw. Wort od. auch Satzzeichen usw. enthält) werden.
Öffnet man diese Datei im vim-Editor (s. Lücke u.a. 2017, 35ff (KIT)), kann durch den Kommandozeilen-Befehl :[Zeilennummer]$/ /\r/gc alles unterhalb des Metablocks in eine einspaltige Tabelle umgewandelt werden (= Tokenisierung). Sollen mehrere bzw. sehr viele Dateien analog umgeformt werden, verwendet man ein sog. sed-Script (vgl. Lücke u.a. 2017, 73f (KIT)).
Mithilfe eines entsprechenden Scripts konnte nun über die Shell (vgl. Lücke u.a. 2017, 58ff (KIT) → virtueller Desktop des DHVLab) der Befehl erteilt werden, eine im Prinzip beliebige Zahl solcher *gleichartiger* Dateien in einem einzigen Schritt umzuformen⁹².
Als nächstes kam die Software TreeTagger (angepasst für französischen Text) zum Einsatz: die einzelnen Tokens der durch Tokenisierung entstandenen ‚Liste‘ wurden dabei automatisch lemmatisiert und ihrer jeweiligen gramm. Kategorie, Position innerhalb von Text, Satz, Phrase usw. zugeordnet. Durch dieses Tagging erhielt die bisher einspaltige Tabelle weitere Spalten (z.B. mit dem Feldnamen `wortart, `line` usw.).
Im Anschluss daran wurde in mehreren Schritten mithilfe von Scripts in der Programmiersprache awk (vgl. Lücke u.a. 2017, 67ff (KIT)) dafür gesorgt, dass bei Kodierungsfehlern u. Inkongruenzen die entsprechenden Stellen im Text ersetzt bzw. korrigiert wurden⁹³; die algorithmische Ersetzung in allen betroffenen Dateien des tatsächlichen Korpus (hier wurde ja immer noch am kleinen Testkoprus experimentiert) wurde durch entsprechende sed-Scripts (vgl. Lücke u.a. 2017, 75) sichergestellt, da man ab einem bestimmten Datenaufkommen auf keinen Fall mehr manuell vorgehen kann.
Entsprechend der gewünschten Festlegungen bezüglich der strukturellen Darstellung der Korpusdateien innerhalb der DB (z.B. Kennzeichnung von Zwischenüberschriften in einer eigenen Spalte) wurden weitere, über die Shell auf alle Dateien anwendbare, Scripts angefertigt.
Parallel zu diesen Aufbereitungsschritten, die dazu dienten, die Daten sozusagen für die Darstellung in der Datenbank ‚fit zu machen‘, wurde in der SQL-DB eine Tabelle namens tokens erstellt (wahlweise über die Shell od. direkt in PMA möglich), die schlussendlich die Tokens mit allen dazu gehörenden Etikettierungen inkl. einer automatisch fortlaufenden (auto-increment) ID (Identifikationsnummer) in jeweils einer Spalte enthalten sollte. Eine weitere Tabelle namens meta wurde erstellt, die nicht für tokenisierte Korpusdaten, sondern für Metadaten (z.B. Autorname, Suchkriterien, Suchdatum usw.) vorgesehen war und über den Primärschlüssel (ID) der tokens-Tab. mit letzterer in Beziehung gesetzt wurde.
Mit der bzw. mehreren Testdatei(en), den Scripts und den DB-Tabellen wurde solange experimentiert und optimiert, bis keine ‚Stolpersteine‘ mehr auftauchten und man mit den Analyse-Möglichkeiten, die das exemplarische Ergebnis in der Datenbank bot, zufrieden sein konnte. Nun lag das nötige Setup vor, um beliebig viele Korpusdateien nach dem festgelegten Schema zusammenzustellen und die entprechenden Korpus- u. Metadaten korrekt in die Datenbank zu überführen, wo sie mit der Abfragesprache SQL in vielfältiger Weise analysiert (u. ggf. modifiziert) werden konnten.

5.2.2. Datenerhebung

Das oben erwähnte Datei-Template wurde nun für jeden einzelnen Zeitungsartikel, der einem Treffer der gezielten Archiv-Suche in lemonde.fr und lefigaro.fr entsprach, verwendet. Folgende Struktur wurde dabei konsequent für das gesamte Korpusmaterial eingehalten:

#Titel:
#Untertitel:
#Untertitel2:
#Autor:
#Ressort:
#SeiteURL:
#Anmerkung:
#Zugriffsdatum: YYYYMMDD
#Suchkriterien: SW(Suchwort(e)), SB(Suchbereich), SZ(Suchzeitraum)
#SuchURL:
—–

–Titel–
–Untertitel–
–Untertitel2–

Der Kopf der Datei, dessen Zeilen jeweils mit # beginnen, entspricht wie gesagt dem Metablock; die hier jeweils nach dem Doppelpunkt eingetragenen Daten werden nicht als Teil des Korpus behandelt und somit auch nicht tokenisiert (für die algorithmische Tokenisierung muss deshalb der zu tokenisierende Teil der Datei klar von nicht zu tokenisierenden Teilen unterscheidbar sein, was in diesem Fall durch # geschieht). Im Metablock werden alle wichtigen Metadaten zum jeweiligen Treffer bzw. Zeitungsartikel festgehalten (Erscheinungsdatum, Autor(en), Rubrik, URL des Treffers, URL der Suche usw.); auch Titel und Untertitel des Artikels werden hier eingetragen, wobei diese gleichzeitig zum Korpustext gehören und im tokenisierbaren Teil unterhalb ebenfalls erscheinen.

Alle nach diesem Muster erstellten Dateien wurden für d.v.A. einheitlich mit UTF-8 (ohne BOM) kodiert und im txt-Format abgespeichert („nur Text“, dafür eignet sich z.B. notepad++ oder der vim-Editor; *nicht* geeignet sind sämtliche Windows-Anwendungen).

Der Korpusaufbau anhand einer Filtersuche in den Online-Ausgaben der beiden Zeitungen, nämlich nach Artikeln

in denen mind. einmal diesel sowie mind. einmal moteur vorkommt und
die außerdem innerhalb der beiden Zeiträume 1.11.2007-31.10.2008 und 1.11.2017-31.10.2018 erschienen sind⁹⁴

ergab 416 Dateien (aus 416 Zeitungsartikeln), die in tokenisierter Form in der DB 372275 Datensätzen entsprechen.

5.2.3. Korpusanalyse

Auf die Überführung der beiden Teilkorpora (→ Artikel aus Le Monde/Le Figaro) in die Datenbank des DHV-Labs folgte eine intensive Abfragephase anhand der vielfältigen Formulierungsoptionen, die die structured query language (SQL, s. Lücke u.a. 2017, 146 (KIT)) ermöglicht. Die Abfragemöglichkeiten waren aufgrund der vielen, kombinierbaren Abfragekriterien fast unbegrenzt, allerdings eignet man sich fundierte SQL-Kenntnisse (ebenso wie den Umgang mit den anderen bisher beschriebenen korpuslinguistisch einsetzbaren Tools) erst mit der Zeit und viel Übung an. Somit waren der Ausschöpfung der technisch gegebenen analytischen Möglichkeiten gewisse Grenzen gesetzt⁹⁵.

5.2.3.1. Verlässlichkeit von Befunden

Da es bei einem Sprachkorpus um reale Gegebenheiten und nicht um idealisierte Verhältnisse geht, stößt man bei seiner empirischen Untersuchung zwangsläufig immer wieder auf (unvorhersehbare) Phänomene, die sich dem unmittelbaren Verständnis und den Abfragestrategien innerhalb der erarbeiteten ‚Versuchsanordnung‘ u.U. entziehen. Obwohl dies aus forschungspraktischer Sicht frustrierend sein kann, ist klar, dass genau diese Momente auftreten *müssen*, wenn man eine Fragestellung wirklich bottom-up angeht – sie sind fast schon der Beweis dafür.

Es ist aber umgekehrt auch nicht so, dass aus dem Nichtauffinden (z.B. schwer zu operationalisierender Phänomene) geschlossen werden kann, dass sie nicht im Korpus vorhanden seien. Die quantitative Analyse macht es schlicht unmöglich, alle Tatbestände des Korpus im Einzelnen zu kennen. Somit bleibt immer ein Unsicherheitsfaktor, was den Geltungsbereich von Aussagen über seine Merkmale betrifft. Der Vorteil der Arbeit mit großen Korpora (in ideeller Analogie zu *dem* ‚Korpus‘ schlechthin, der Gesamtheit des überhaupt stattfindenden und stattgefundenen Sprachgebrauchs) liegt darin, dass die schiere Masse an Belegen den Befunden ein empirisches Gewicht verleiht, das rein qualitative Analysen nicht leisten können – vorausgesetzt, die Daten sind authentisch und nicht fehlerhaft strukturiert und/oder kodiert, was natürlich genau das Gegenteil zur Folge hätte. Solange Fehler oder formale Defizite im Korpus konsistenter Natur sind, können sie mit eigens dafür formulierten, ’strategischen‘ Suchkriterien relativ leicht aufgedeckt und nötigenfalls algorithmisch beseitigt werden. Als blinder Fleck bleiben freilich alle nicht konsistenten, nicht operationalisierbaren Bereiche, die dann aber, solange sie nicht übermäßig zahlreich sind, wiederum grundsätzlich kein großes Verzerrungspotential auf Befunde haben, die ungleich größere Korpusbereiche betreffen. Selbst in dem unwahrscheinlichen Fall, dass ein Korpus zur Anwendung kommt, das voller Inkonsistenzen ist, würde die Dichte der Fehler bei quantitativen Untersuchungen zutage treten und somit keine unbemerkte Verzerrung bewirken.

Wichtig scheint mir hinsichtlich der Reliabilität und Validität sowohl der Daten als auch der angewendeten Analysen, dass der Faktor Zeit, d.h. die Dauer der empirischen Auseinandersetzung mit einem Korpus, ein wichtige Rolle spielen kann: Die Wahrscheinlichkeit, dass problematische Aspekte in beiden Bereichen entdeckt werden, steigt mit der Intensität bzw. Dauer der systematischen Analyse des Materials. Dies ist ein weiterer Hinweis darauf, dass ein einmal erarbeiteter korpuslinguistischer Untersuchungs(gegen)stand (gründliche Dokumentation und Explikation vorausgesetzt) ab diesem Zeitpunkt nur noch an wissenschaftlichem Wert gewinnen kann.

5.2.3.2. Abfragestruktur

Die Analyse der Daten anhand von SQL-Abfragen sollte einer nachvollziehbaren, sinnvollen, am Erkenntnisinteresse orientierten Struktur folgen, um ebensolche Ergebnisse und Interpretationsmöglichkeiten zu liefern. Das hieß für die v.A. konkret, dass die Abfragestruktur es erlauben sollte, die allgemeinen quantitativen Eigenschaften des Korpus (→ Tokenzahlen je Korpusbereich) zu bestimmen als auch systematisch tokenspezifische Frequenzen und Sprachgebrauchsmuster daraus zu extrahieren und quantifizieren, die v.a. im Zusammenhang mit dem Vorkommnis diesel beobachtbar sind.

Mit Bubenhofer 2009, 6 gehe ich davon aus, dass

1. Sprachgebrauchsmuster Indikatoren für Diskurse (bzw. DT) sind;

2. sich aus der Extraktion von musterhaftem Sprachgebrauch induktive (bzw. abduktive) Diskursbeschreibungen ableiten lassen;

3. der Verzicht auf eine durchgehend substantielle a priori Definition der Muster zugunsten von mitunter abstrakten Formulierungen einen breiteren Begriff von Musterhaftigkeit erlaubt und damit neben konkreten Sprechinhalten auch Sprechweisen (und damit überzeinzelsprachlich-historische Aspekte des Sprechens) erfassbar macht.

Bubenhofer 2009, 103 beschreibt die Schritte der kombinierten corpus-driven und corpus-based Datenauswertung⁹⁶:

1. Es wird ein Korpus in Kombination mit einem oder mehreren Referenzkorpora definiert, wobei auch Teile des Untersuchungskorpus als Referenzkorpus dienen können.

2. Aus dem Korpus und den Referenzkorpora werden corpus-driven Listen von Mehrworteinheiten berechnet.

3. Durch Kontrastierungen der Listen untereinander können die für bestimmte Teilkorpora typischen Mehrworteinheiten berechnet werden.

4. Nun erfolgt unter corpus-based-Rückgriffen ins Korpus die Interpretation der Mehrworteinheiten, um aus ihnen abstraktere Sprachgebrauchsmuster abzuleiten.

5. Die weitere Analyse der Verwendung dieser Sprachgebrauchsmuster – ebenfalls corpus-based – führt zu einer Diskursbeschreibung.

6. Die Diskursbeschreibung muss aufgrund der Korpusdaten auf ihre Plausibilität hin geprüft werden. Dabei ist es sinnvoll, die Daten auch mit alternativen Methoden auszuwerten, um die Diskursbeschreibung einer erweiterten Prüfung zu unterziehen.

In der vorliegenden Arbeit habe ich in Anlehnung an o.g. Vorgehensweise das im Folgenden beschriebene Szenario für die Auswertung des in der DB gespeicherten Korpusmaterials zugrunde gelegt (vgl. dazu v.a. Bubenhofer 2009). Ein systematisches Ganzes aus induktiven und deduktiven Schritten sollte dabei ein möglichst breites Spektrum für empirische wie theoretische Anknüpfungspunkte eröffnen und gleichzeitig einen in sich schlüssigen Untersuchungs- und Interpretationsablauf sichern.

I Vorüberlungen (deduktive top-down-Perspektive)

Man geht von theoretischen Überlegungen (langue, abstrakte Vorstellungen) aus und versucht, die unterschiedlichen Typen musterhaften Sprachgebrauchs mit linguistischen Konzepten zu beschreiben.

„Bei jedem dieser Konzepte ist zu fragen, ob sie über die Analyse musterhaften Sprachgebrauchs erfasst und als Phänomen der Textoberfläche operationalisiert werden können. Denn das ist die Voraussetzung, um sie für korpuslinguistische Methoden nutzbar zu machen.“ (Bubenhofer 2009, 6)

Entwicklung eines Paradigmas der möglichen Arten wie sich sprachliche Muster bzw. typischer Sprachgebrauch an der Textoberfläche manifestieren können (lexikalisch, grammatikalisch, syntaktisch usw.)⁹⁷.
Benennung der für die Fragestellung bzw. auf 1. bezogenen zentralen Suchbereiche/Bereichskriterien anhand der Spalten der DB-Tab., die das Korpus enthält (z.B. Zeitbereiche, Textbereiche, gramm. Kategorien, Phrasenpositionen usw.)

II Corpus-driven (induktive bottom-up-Perspektive)

Die Sprachdaten werden nicht substantiell u. manuell strukturiert, sondern maschinell anhand der Formalisierung der abstrakten Vorüberlegungen (I), dadurch ist keine subjektive Lenkung der Ergebnisse möglich.

Globale Abfragen zu abstrakten Strukturen des Gesamtkorpus;
diese werden mit feineren Filterkriterien modifziert, um Teilkorpora zu erfassen.
Die Ergebnisse zu den einzelnen Teilkorpora werden teilkorpusintern evaluiert (Berechnung rel. Anteile von Phänomenen) und darauf basierend mit Ergebnissen zu anderen Teilkorpora bzw. zum Gesamtkorpus verglichen; im Rahmen von Signifkanztests werden die erwarteten Werte den tatsächlichen Werten gegenübergestellt und so die statistische Signifikanz von Verteilungen (auf zwei Korpusbereiche) festgestellt⁹⁸.
Die Abfragen werden fortlaufend als ein wachsender SQL-Abfragekatalog gespeichert⁹⁹, zusammen mit der jeweiligen natürlichsprachlichen Beschreibung und etwaigen Bemerkungen, z.B. best. Probleme betreffend oder auf andere Abfragen verweisend. Dank der oft analog wiederkehrenden Logik von Fragestellungen können einzelne dort gespeicherte Abfragen durch punktuelle Anpassungen und Erweiterungen bzw. Verbindung mit anderen Abfragen oft ganze Serien von Fragen abdecken, ohne dass man die Logik der Bestandteile jedesmal bis ins Detail durchdenken muss.

Parallel zu II werden mögliche, nicht vorgefasste Kategorien in den Raum gestellt, die den konkreten Sprachgebrauch bzw. Diskurs auszeichnen. Der corpus-driven Fahrplan wird aber ungeachtet solcher Beobachtungen rigoros beibehalten.

III Corpus-based (deduktive Qualifizierung → Stichproben, neue Abfragereihen)

Der Blick auf die Tatbestände der beobachteten parole wird nun von langue- (u. Welt-)Wissen und den in Phase II postulierten Kategorien geleitet. Besonders prominente in der corpus-driven Phase extrahierte Lemmata werden in den Quelltexten kontextualisiert, mit dem Ziel, mögliche Diskursmuster zu identifizieren, beschreiben und benennen. In einem weiteren Schritt kann auf der Basis der beobachteten Indizien mithilfe geeigneter SQL-Abfragen das Auftreten von Kategorien und Mustern quantifiziert werden.

6. Korpusanalyse I : Einleitung

Im Folgenden werden zunächst die Rahmenbedingungen der anhand der SQL-DB labuser_sschwedlerstngl erfolgten Korpusanalyse erläutert. Die Gegebenheiten der DB (Tabellenstruktur) werden erklärt und die Struktur der verschiedenen Abfragereihen dargelegt. Eine Datenbank- bzw. korpuslinguistische Terminologie findet sich in Kap. Terminologie, aber auch innerhalb dieses u. der folgenden Kap. (Korpusanalyse II – VII) werden z.T. Begriffe u. Abkürzungen erläutert.

Es ist unvermeidbar, dass auch in die Beschreibungen der Abfragen und Abfrage-Ergebnisse methodische Überlegungen einfließen, aber der Schwerpunkt liegt nun klar beim Korpustext als Untersuchungsobjekt.

6.1. Nachvollziehbarkeit der Abfragen und Ergebnisse

Weil die Ergebnistabellen aus den SQL-Abfragen z.T. sehr viele Datensätze enthalten und auch aufgrund ihrer großen Anzahl innerhalb d.v.A. nicht vollständig visualisiert werden können, wird jeder Abfrage-/Ergebnis-Besprechung die zugrundeliegende SQL-Abfrage vorangestellt sowie ein Link zur DB, wo die Abfrage durch den Leser ggf. selbst durchgeführt werden kann; bei komplexeren Abfragen wird meist zusätzlich die entsprechende eindeutige Abfrage-ID (z.B. queries_id 26) in der Tab. queries beigefügt, welche wiederum über den DB-Link zugänglich ist¹⁰⁰.

6.1.1. Ausgangslage in der Datenbank labuser_sschwedlerstngl

Die Datenbank enthält folgende für die v.A. relevanten Tabellen:

tokens: enthält den tokenisierten Bereich des gesamten Korpusmaterials (alle Zeitungsartikel, ohne die im Quelltext vorhandenen Metadaten) und bildet das eigentliche Objekt der empirischen Untersuchung;
meta: enthält Metadaten zu jedem verwendeten Zeitungsartikel; sie steht mit tokens über einen Primärschlüssel so in Beziehung, dass jede tokens-ID einem der 416 Datensätze der Tab. meta eindeutig zugeordnet werden kann. Die in meta enthaltenen Daten sind nicht tokenisiert. Dies gilt auch für die Artikel(unter)überschriften, die zwar zum Zeitungsartikel gehören, aber auch als Metainformation sinnvoll sind. Deshalb kommen die (Unter-)Überschriften jedes Artikels sowohl in meta als auch (tokenisiert) in tokens vor.

Die Tab. tokens und meta bilden nach dem Befüllen der Tabellen mit dem gesamten Korpusmaterial den abgeschlossenen ‚Objektbereich‘ der DB, d.h. das Korpus ist in der Tabelle tokens festgehalten und wird in der Tabelle meta ontologisch ‚verortet‘¹⁰¹. Um die in den folgenden Kap. vorgestellten Ergebnisse zu ermitteln, wurde demnach in erster Linie die Tabelle tokens befragt. Eine weitere Tab. wurde in derselben DB manuell erstellt und ist nicht abgeschlossen:

queries: enthält eine Sammlung von SQL-Abfragen mit zugehörigen Beschreibungen und Bemerkungen; sie dient also als methodischer Werkzeugkasten für die Abfragephase.
tags: gibt Auskunft über die TreeTagger-Terminologie wie sie in der Tab. tokens erscheint (Abk. f. Wortarten)

6.1.1.1. Eigenschaften der Tabelle tokens

Ausschnitt (erste 7 Datensätze)

Einige der Spalten wurden automatisch, einige manuell anhand der gewünschten Abfragemöglichkeiten erstellt. Sie haben folgende Eigenschaften:

`ID` hat als Feldeigenschaft „auto increment“, die Feldwerte wurden also von PMA automatisch aufsteigend für jeden Datensatz vergeben und garantieren die eindeutige Identifikation aller zu einem best. DS gehörenden Zellinhalte (jede ID ist in der Tab. einzigartig, die Reihenfolge entspricht der Abfolge der tokenisierten Elemente des Quelltextes);
`datei`enthält alle Dateinamen der Ausgangs-Textdateien, die über Zeitungsnamen und Erscheinungsdatum Auskunft geben (die letzten zwei Ziffern dienen dazu, mehrere am selben Datum erschienene Artikel voneinander zu unterscheiden);
`zeitung`: als Feldwerte kommen nur die zwei Kürzel fgo und mde in Frage;
`datum` enthält das Erscheinungsdatum des Artikels, zu welchem der Datensatz gehört;
`artnr` (nicht verwendet)
`linenr` (nicht verwendet)
`poslinenr` (nicht verwendet)
`sentnr`gibt an, in welchem Satz das Token steht¹⁰²;
`possentnr` bestimmt die Position des Tokens innerhalb eines Satzes;
`zwue` (ursprünglich für „ZWischenUEberschrift“) kennzeichnet mit den Ziffern 0-4 verschiedene Textgliederungsebenen (0 = Haupttext, 1 = Überschrift (Titel d. Zeitungsart.), 2 = Untertitel (Aufhänger), 3 = Untertitel 2 (sehr selten), 4 = Zwischenüberschrift oder anderes in den Haupttext eingeschobenes Textelement höherer Ebene (z.B. auch seitlich in den Haupttext ragende, hervorgehobene Einschübe¹⁰³);
`token` enthält alle Tokens, die aus der Tokenisierung der Ausgangs-Textdateien hevorgingen;
`wortart` gibt die von TreeTagger identifizierte Wortart des jeweiligen Tokens an¹⁰⁴;
`lemma` erfasst das zum Token gehörende Lemma (die konventionelle Grundform, z.B. den Infinitiv, wenn das Token ein finites Verb ist, oder die mask.-Sing.-Form v. Adjektiven usw.)¹⁰⁵;
`chunk` (nicht verwendet);
`chunknr` (nicht verwendet).

6.2. Abfragestruktur

6.2.1. Vorüberlegungen

Folgende grundlegenden Fragen waren zu beantworten, bevor ein Plan für die SQL-Abfragereihe aufgestellt werden konnte:

Welche sprachlichen Phänomene kann und möchte ich konkret operationalisieren und aus dem Korpusmaterial extrahieren (quantitative Analyse)?
Wie möchte ich diese Phänomene evaluieren (qualitative Analyse)?

Die erste Frage wird weiter unten beantwortet, die Antwort auf die zweite Frage ist: Da es bei der Fragestellung dieser Arbeit um textgrenzenüberschreitende und diachrone Diskursivität von Äußerungsmerkmalen geht und das Korpus auch entsprechend aufgebaut ist, kam eine rein textlinguistische bzw. strukturalistische Interpretation der empirischen Beobachtungen nicht in Frage¹⁰⁶. Vielmehr musste es darum gehen, neben den sprachsystematischen auch die diskurstraditionellen u. außersprachlichen Bedingungen mit dem Auftreten der einzelnen Phänomene in Beziehung zu setzen, um so den angetroffenen Sprachgebrauch synchron und diachron möglichst ganzheitilich einzuordnen.

6.2.2. Korpusbereiche

Das Korpus enthält ausschließlich Zeitungsartikel mit dem jeweils mind. einmaligen Vorkommnen von moteur und diesel¹⁰⁷, somit war der Vergleich mit Zeitungsartikeln ohne dieses Merkmal nicht möglich und auch nicht vorgesehen.

Für die Korpusauswertung wurden neben dem Gesamtkorpus (= Referenzkorpus) folgende Teilkorpora definiert, in die sich das Gesamtkorpus restlos aufteilt¹⁰⁸:

Le Figaro (Abk.: fgo¹⁰⁹)
Le Monde (Abk.: mde¹¹⁰)
Zeitraum A (1.11.2007-31.10.2008, Abk.: zrA¹¹¹)
Zeitraum B (1.11.2017-31.10.2018, Abk.: zrB¹¹²)

Die genannten Teilkorpora sind textextern definiert (nach zeitlicher u. redaktioneller Zuordnung der Datensätze). Auf einer weiteren Ebene werden (einzel-)textinterne Teilkorpora definiert:

Titel (Abk.: zwue1¹¹³)
Untertitel (Abk.: zwue2¹¹⁴)
Zwischenüberschriften und Einschübe (Abk.: zwue4¹¹⁵)

Diese Teilkorpora¹¹⁶ können anhand von SQL-Abfragen vielfältig miteinander kombiniert und aufeinander bezogen werden.

Die für die Extraktion teilkorpusbezogener Daten relevanten Spaltennamen sind also: `zeitung` (Feldwert ‚fgo‘ od. ‚mde‘), `datum` (unter `datei` ist jeweils beides, Zeitungsname u. Datum, vereint) und `zwue` (1, 2 od. 4).

6.2.3. Operationalisierbare sprachliche Merkmale an der Textoberfläche

Technische Voraussetzung für die Formalisierung sprachlicher Strukturen war im vorliegenden Fall die ‚Übersetzbarkeit‘ der jeweiligen abstrakten Beschreibung in ein fehlerfreies SQL-Statement, d.h. deren Operationalisierbarkeit im Rahmen der SQL-Syntax.

Grundsätzlich lässt sich ein riesiges Spektrum an textuellen Oberflächenmerkmalen für die Korpusanalyse mit SQL operationalisieren. Da das Interesse der vorliegenden Arbeit dem Diskurs bzw. den Sprechweisen im Zusammenhang mit dem ausdrucksseitigen Auftreten der Dieselthematik und damit v.a. den semantischen und pragmatischen Implikationen dieser Phänomene galt, wurden folgende Schwerpunkte für die Abfragelogik gesetzt:

Frequenzen von Elementen
Kollokationen von Elementen
Kookkurrenzen von Elementen

Für jede dieser Merkmalsklassen gibt es eine einfachste Aussageform (niedrigster Abstraktionsgrad, globalste Perspektive) und davon ausgehend komplexere Aussageformen (wie oft oder wo? → wie oft und wo?). Das Schema der entsprechenden Abfragen kann jeweils für verschiedene Korpusbereiche angepasst werden, wenn sie auf der Basis derselben Aussageform untersucht werden sollen.

Damit ist auch die Frage geklärt, welche Phänomene i.d.v.A. für die corpus-driven Analyse formalisiert werden sollten bzw. wie konkret versucht wurde, dem ‚Dieseldiskurs‘ – in zwei französischen Zeitungen synchron und diachron – mithilfe von SQL-Abfragen auf den Grund zu gehen: Durch Operationalisierung von drei *grundsäztlich in allen* im Korpus enthaltenen Texten vorhandenen, abstrakten Strukturen an der Textoberfläche (Frequenzen v. diesel, Kollokationen mit diesel, Kookkurrenzen mit diesel) wurden ‚materielle Schauplätze‘¹¹⁷ wie ein Bühnenbild für konkrete Manifestationen aufgestellt, welche in ihrer Summe möglicherweise Rückschlüsse auf Kategorien erlauben – insbesondere inbezug auf Bedeutungsstrukturen, kommunikative Praktiken und gesellschaftliche Kontingenz. Die Evidenz der dank quantitativen Vorgehens sehr zahlreich ‚rekrutierbaren‘ Fälle für bestimmte formale Szenarien versprach ein besonders breites Spektrum all dieser Aspekte abzudecken; der corpus-driven Ansatz birgt aber aufgrund der weitgehenden Vermeidung v. a priori Kategorisierungen auch das Risiko, dass keine dem Erkenntnisinteresse entsprechenden Kategorien aufgespürt werden.

Forschungspraktische Grenzen setzte auch die Kompetenz im Umgang mit SQL: Die Komplexität der Syntax nimmt stark zu, sobald eine Abfrage sich auf Korpusbereiche bezieht, die ihrerseits durch Abfragen (subtables) definiert sind – nicht selten ist es eine zeitraubende Aufgabe, den Fehler in einer ’noch nicht funktionierenden‘ Abfrage ausfindig zu machen.

Neben der ‚Machbarkeit‘ spielte bei meiner Auswahl der in die Auswertung eingehenden Abfragen eine wichtige Rolle, wie gut sich das jeweilige Ergebnis beurteilen bzw. gewichten lässt. Einer der Vorteile großer korpuslinguistisch aufbereiteter Datenmegen – das empirische ‚Gewicht‘ der Ergebnisse dank der Möglichkeit, Operationen, die aufgrund der Anzahl nötiger Arbeitsschritte od. der Komplexität manuell/mental nicht mehr (zuverlässig) zu bewältigen wären, algorithmisch durchzuführen – impliziert ja auch, dass menschliche Instanzen des wissenschaftlichen Prozesses nicht mehr umfassendend kontrollieren können, worauf die (zwar nach ihren, aber in der ‚Sprache der Maschine‘ formulierten Maßgaben) maschinell erzeugten ‚Antworten‘ im Einzelnen beruhen. Wo sich also nicht aus den äußeren Bedingungen der ‚Versuchsanordnung‘ mit nahezu huntertprozentiger Sicherheit ableiten lässt, ob ein Ergebnis ’sein kann‘ bzw. korrekt/falsch sein muss, ist es umso wichtiger, die Logik der Ausgangsfrage und die Datenstruktur des Korpus genau zu verstehen, d.h. die Syntax der verwendeten Befehle und die (strukturale) Bedeutung der Daten-Kategorien (vgl. Spalten d. DB-Tabellen). Fehlendes ’substantielles‘ Wissen über das Korpusmaterial¹¹⁸ muss also ‚ersetzt‘ werden durch besonders sorgfältige Überprüfung der verwendeten Parameter. Diese Grundskepsis hinsichtlich der Validität u. Reliabilität der aus SQL-Abfragen gewonnenen Ergebnisse ließ mich auf Aussagen verzichten, die in dieser Hinsicht nicht hinlänglich abgesichert waren.

6.2.4. Corpus-driven Abfragen

In den folgenden Kap. Korpusanalyse II-V werden anhand o.g. Prinzipien verschiedene Bereiche des Korpus *maschinell* gefiltert¹¹⁹.

Da das primordiale Erkenntnisinteresse d.v.A. sprachlichen Oberflächen-Phänomenen gilt, die zusammen mit den Konzepten dieselmotor, dieselfahrzeug, dieselkraftstoff usw. auftreten und diese im Französischen weitgehend einheitlich mit der Verwendung von (moteur) diesel versprachlicht bzw. in Zusammenhang gebracht werden, ging es darum, für die quantitative Analyse SQL-Abfragen zu formulieren, die v.a. über folgende Tatbestände Auskunft geben:

Wie oft/ wo kommt das Token diesel (in zweiter Linie auch diesels und gazole) vor? → Frequenz
Was kommt unmittelbar zusammen mit dem Token diesel (u. den beiden anderen ) vor? → Kollokation
Was kommt in einem Satz mit diesel (u. den beiden anderen) vor? → Kookkurrenz

Im Vorfeld waren außerdem grundlegende Erhebungen ohne Einbezug des Korpuselementes diesel nötig, damit für spätere Verhältnis- u. Signifikanzberechnungen ein quantitativ gut dokumentierter Rahmen zur Verfügung stand (s. Kap. Korpusanalyse II).

6.2.4.1. Grundlegende SQL-Syntax

Die Grundform der hier verwendeten SQL-Abfragen folgt dem Schema:

SELECT * [...] FROM tokens WHERE [...] LIKE '[...]' (AND) [...] (NOT) LIKE [...]

Ggf. wird noch der Zusatz GROUP BY […] angefügt, wenn die ausgegebenen Datensätze nach den Werten einer bestimmten Spalte der Ergebnistab. gruppiert werden sollen.

Jede Abfrage kann selbst wieder in eine übergeordnete Abfrage integriert werden. Dazu werden solche sog. subtables wiederum mit einer FROM-Klausel ‚eingefasst‘ und dadurch gefiltert oder durch die Funktion JOIN mit anderen Tab. od. subtables verbunden.

Neben Filterkriterien können auch mathematische Operationen eingebunden werden. Für die v.A. wurde hauptsächlich die COUNT()-Fkt. genutzt, um Token-Frequenzen zu berechnen; in Verbindung mit dieser lassen sich auch ohne weiteres Quotienten in einer Spalte der Ergebnistab. ausgeben.

In der Praxis waren es die Werte der Spalten `token`¹²⁰, `zeitung`, `datum`, `datei`, `wortart`, `sentnr` und `id`, für die am häufigsten Bedingungen formuliert wurden, um Frequenzen, Kollokationen und Kookkurrenzen in den einzelnen Teilkorpora abzufragen.

Die Abfragen der Kap. Korpusanalyse II-V sind i.d.R. nach folgender Reihenfolge geordnet:

Gesamtkorpus → Teilkorpora (mde/fgo → zrA/zrB → zwue1/zwue2/zwue4)

Geringfügige Abweichungen ergaben stellenweise aufgrund verkürzter Darstellungen einzelner Bereiche.

7. Korpusanalyse II: Quantitative Rahmenuntersuchung

Die folgende SQL-Abfragereihe dient der Bestimmung der quantitativen Eckdaten des verwendeten Korpus in seinen verschiedenen Dimensionen (Gesamtkorpus u. Teilkorpora).

Es schadet nicht, sich nochmals zu vergegenwärtigen, dass die Anzahl Datensätze (372275), die die Tab. tokens enthält, der Anzahl Tokens enspricht, die die Tokenisierung von 416 Zeitungsartikeln ergab. Die Tokens sind in der Spalte `token` aufgelistet, exakt in der Reihenfolge wie sie im Quellext vorkommen. Alle anderen (14) Spalten (= Felder) der Tab. enthalten Annotationen, die das Token einer jeden Zeile hinsichtlich Wortart, Position im Text, Quelldatei usw. näher bestimmen. Die Inhalte aller Zellen einer Zeile (Token + Annotationen) bilden einen Datensatz (DS). Jedes Token bzw. jeder `token`-Feldwert ist über eine ID eindeutig mit den anderen Feldwerten desselben Datensatzes identifiziert (sowie mit dem jeweiligen DS der Tab. meta in Beziehung gesetzt).

Die folgenden Erläuterungen zu den durchgeführten Abfragen sind im Präsens geschrieben, weil Durchführung und Dokumentation sehr nahe beieinanderlagen bzw. oft zeitgleich stattfanden.

Zur Erinnerung nochmals die Bedeutung d. Teilkorpus-Bezeichnungen:

Zeitraum A (zrA) = 1.11.2007-31.10.2008

Zeitraum B (zrB) = 1.11.2017-31.10.2018;

mde = Le Monde

fgo = Le Figaro

zwue1 = Titel

zwue2 = Untertitel

zwue4 = Zwischenüberschrift/Einschub

Grau hinterlegt sind die SQL-Statements wiedergegeben, deren Sinn und Zweck jeweils natürlichsprachlich kommentiert wird. Die Abfrage-Ergebnisse werden entweder im Text zusammengefasst od. i.F.v. Ausgabetabellen(ausschnitten) veranschaulicht.

Am Ende des Kap. findet sich eine Zusammenfassung der Befunde.

7.1. Eckdaten zu einzelnen Korpusbereichen

7.1.1. Alle Tokens des Gesamtkorpus

SELECT * FROM tokens

Diese Abfrage entspricht der Grundansicht, die angezeigt wird, wenn man in der DB die Tab. tokens auswählt.

Die Tab. tokens wird vollständig ausgegeben:

horizontal alle 15 Spalten, weil nach SELECT keine Einschränkung/Spezifizierung auf (eine od. mehrere) einzelne Spalte(n) erfolgt (* = alle Spalten);
vertikal alle 372275 Datensätze, weil keine Bedingungen für die Auswahl bestimmter Zeilen (= DS = Tupel) formuliert sind.

Die Anzahl aller Datensätze dieser Tab. entpricht der Anzahl aller Tokens des Gesamtkorpus, das demnach 372275 Tokens enthält.

7.1.2. Anzahl der Tokens je Zeitung (mde/fgo)

SELECT * FROM
(SELECT COUNT(*) as anz_tok_ges FROM tokens)a JOIN
(SELECT COUNT(*) as anz_tok_fgo FROM tokens WHERE zeitung = 'fgo')b JOIN
(SELECT COUNT(*) as anz_tok_mde FROM tokens WHERE zeitung = 'mde')c

(queries_id 183)

Man gelangt zu allen in diesem und den folgenden Kap. mit einer queries_id versehenen Abfragen, indem man in der SQL-DB die Tab. queries auswählt und dort nach der angegebenen queries_id sucht; der entsprechende DS enthält neben der Abfrage auch eine Beschreibung ihrer Aussage sowie ggf. Bemerkungen. Um z.B. den DS zur o.g. Abfrage zu selektieren, verwendet man folgenden SQL-Befehl¹²¹:

SELECT * FROM `queries` WHERE id_queries = 183

Übersicht über die Token- (bzw. Datensatz-)Anzahl insgesamt und je Zeitung:

anz_tok_ges	anz_tok_fgo	anz_tok_mde
372275	273103	99172

Welchen Anteil (in %) die Teilkorpus-Tokens am Gesamtkorpus ausmachen, ermitteln folgende Abfragen:

SELECT *, anz_tokens_fgo / anz_tokens_ges * 100 as anteil_fgo FROM 
(SELECT COUNT(*) AS anz_tokens_fgo FROM tokens WHERE zeitung = 'fgo')a 
JOIN (SELECT COUNT(*) AS anz_tokens_ges FROM tokens)b

anz_tokens_fgo	anz_tokens_ges	anteil_fgo
273103	372275	73.3606

SELECT *, anz_tokens_mde / anz_tokens_ges * 100 as anteil_mde FROM 
(SELECT COUNT(*) AS anz_tokens_mde FROM tokens WHERE zeitung = 'mde')a 
JOIN (SELECT COUNT(*) AS anz_tokens_ges FROM tokens)b

anz_tokens_mde	anz_tokens_ges	anteil_mde
99172	372275	26.6394

7.1.3. Anzahl der Tokens aus Zeitraum A und Zeitraum B

SELECT * FROM
(SELECT COUNT(*) as anz_tok_ges FROM tokens)a JOIN
(SELECT COUNT(*) as anz_tok_zr1 FROM tokens WHERE datum BETWEEN '20071101' AND '20081031')b JOIN
(SELECT COUNT(*) as anz_tok_zr2 FROM tokens WHERE datum BETWEEN '20171101' AND '20181031')c

(queries_id 184)

Übersicht der Token-(bzw. DS-)Anzahl insgesamt und je Zeitabschnitt:

anz_tok_ges	anz_tok_zr1	anz_tok_zr2
372275	127656	244619

(zr1¹²² = Zeitraum A = 1.11.2007-31.10.2008; zr2 = Zeitraum A = 1.11.2017-31.10.2018)

Den prozentualen Anteil der Tokens jedes Zeitabschnitts an allen Tokens des Gesamtkorpus ermittelt folgende Abfrage (unter Austausch der Datumsgrenzen für die zweite Berechnung):

SELECT *, anz_tokens_zr1 / anz_tokens_ges * 100 as Anteil FROM
(SELECT COUNT(*) AS anz_tokens_zr1 FROM tokens WHERE datum BETWEEN 20071101 AND 20081031)a JOIN
(SELECT COUNT(*) AS anz_tokens_ges FROM tokens)b

anz_tokens_zr1	anz_tokens_ges	Anteil
127656	372275	34.2908

anz_tokens_zr2	anz_tokens_ges	Anteil
244619	372275	65.7092

Man sieht, dass die Tokenverhältnisse von jeweils mde und Zeitraum A sowie fgo und Zeitraum B ähnliche Größenordnungen aufweisen. Stark vereinfachend gesagt wurden im gesamten untersuchten Zeitraum von Le Figaro einschlägige Artikel (d.h. mit mind. einmaligen Vorkommen von diesel sowie moteur) in ähnlichem Tokenumfang produziert wie von beiden Zeitungen zusammen in Zeitraum B, während alle im Zeitraum A erschienenen Artikel in beiden Zeitungen größenordnungsmäßig dem Tokenumfang entsprechen, den Le Monde insgesamt produziert hat.

Auf den jüngeren Zeitabschnitt entfallen jedenfalls wesentlich mehr Tokens. Damit ist aber nicht eindeutig ausgesagt, dass die Zahl der Zeitungsartikel in gleichem Maß zugenommen hat, theoretisch kann sich neben der Tokenzahl auch die durchschnittl. Länge der Artikel verändert haben. Das Wissen bzw. die Ermittlung der Tatsache, dass auf Zeitaum A und B jeweils 172 bzw. 246 Zeitungsartikel entfallen, lässt aber erkennen, dass die Anzahl einen wesentlich größeren Einfluss hatte als die Länge der einzelnen Artikel. Eine einfache Rechnung ergibt den Anteil der Zeitungsartikel je Zeitraum an allen Zeitungsartikeln: 172 (Zeitraum A) = 41% von 416, 246 (Zeitraum B) = 59% von 416. Da der prozentuale Unterschied zwischen Tokens- u. Artikelanteil am Ganzen von 7% auf 6% gesunken ist, muss die durschnittliche Länge der im Korpus enthaltenen Zeitungsartikel um 1% gestiegen sein.

7.1.4. Type-Token-Ratio (TTR) in Gesamtorpus, mde und fgo, Zeitraum A und B

TTR-Berechnungen dienen dem Ermitteln der lexikalischen Vielfalt¹²³ von Texten.

Die TTR errechnet sich mit der Formel¹²⁴: (Types* 100)/Tokens = TTR → Für das Bsp. eines Textes mit 2000 Tokens und 350 Types: 35000/2000 = 17,5.

Je länger ein Text ist, umso ‚ärmer‘ wird er an Types (Zipf-Kurve), weil insbesondere die hochfrequenten Types ab einer gewissen Textlänge alle schon einmal vorgekommen sind. Dies hat zur Folge, dass man nur die TTR von gleich großen (Teil-)Korpora vergleichen darf.

Da der Einfluss der Korpusgröße den der lexikalischen Vielfalt überlagert, greift man in der Korpuslinguistik häufig auf den STTR-Wert (standardized type-token-ratio) zurück: Dabei wird das (Teil-)Korpus in lauter gleich große Abschnitte (der Länge L) segmentiert (z.B. in Abschnitte von je 1000 Tokens) und für jeden Abschnitt separat die TTR berechnet. Der Durchschnittswert all dieser Einzel-TTR entspricht dann der ’standardisierten‘ TTR des Ganzen¹²⁵. Dieses Verfahren behandelt das betrachtete (Teil-)Korpus als einen einzigen Text, weil die gleich großen Segmente rein numerisch gewählt werden.

Ein noch besser an korpuslinguistische Bedürfnisse angepasstes Verfahren stellt die Ermittlung des MTLD-Wertes (measure of textual lexical diversity) dar: Anstatt gleich groß ist die Segmentlänge abhängig von einem vorher fixierten TTR-Schwellenwert t. Das Segment endet dort, wo dieser Wert *unterschritten* wird, und danach beginnt die ‚Auszählung‘ wieder von vorne (d.h. der ‚Verdünnungseffekt‘ steigender Textlänge wird ganz ausgeschaltet). Aus den so entstandenen Segmenten wird mit einer mathematischen Formel der MTLD-Wert berechnet.

Letzteres Verfahren scheint zukunftsträchtig zu sein, aber der Versuch seiner komplizierten Anwendung würde den Rahmen dieser Analyse sprengen. Außerdem ist der Wert, der dabei herauskommt, im Gegensatz zum (S)TTR-Wert (den man als „Anteil verschiedener Tokens aller Tokens“ fassen kann) nicht mehr intuitiv charakterisierbar (vgl. Quelle).

Folgende Abfrage und die Kombination ihrer Abwandlungen ergeben die TTR für das Gesamtkorpus und das fgo- bzw. mde-Teilkorpus, sowie für die Zeiträume A und B:

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS global_ttr FROM
(SELECT COUNT(DISTINCT token) as types FROM tokens)a
JOIN (SELECT COUNT(token) as tokens FROM tokens)b

(queries_id 123)

SELECT * FROM
(SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS global_ttr FROM
(SELECT COUNT(DISTINCT token) as types FROM tokens)a JOIN (SELECT COUNT(token) as tokens FROM tokens)b)aa
JOIN (SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS mde_ttr FROM (SELECT COUNT(DISTINCT token) as types FROM tokens WHERE zeitung = 'mde')a JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE zeitung = 'mde')b)bb
JOIN (SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS fgo_ttr FROM (SELECT COUNT(DISTINCT token) as types FROM tokens WHERE zeitung = 'fgo')a JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE zeitung = 'fgo')b)cc

(queries_id 127)

types	tokens	global_ttr	types	tokens	mde_ttr	types	tokens	fgo_ttr
23651	372275	6.3531	11172	99172	11.2653	20212	273103	7.4009

Wichtiger Hinweis: PMA verwendet das anglo-amerikanische Format f. Dezimalzahlen, d.h. der Punkt ist immer als Komma zu lesen (Bsp.: 6.3531 = 6,3531).

Wie sich die TTR in den Zeiträumen A und B verhält, liefert:

SELECT * FROM
(SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS zr1_ttr FROM (SELECT COUNT(DISTINCT token) as types FROM tokens WHERE datum BETWEEN 20071101 AND 20081031)a JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE datum BETWEEN 20071101 AND 20081031)b)aa
JOIN 
(SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS zr2_ttr FROM (SELECT COUNT(DISTINCT token) as types FROM tokens WHERE datum BETWEEN 20171101 AND 20181031)a JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE datum BETWEEN 20171101 AND 20181031)b)bb

types	tokens	zr1_ttr	types	tokens	zr2_ttr
13191	127656	10.3332	18486	244619	7.5571

Die Ergebnisse der beiden Abfragen spiegeln die oben erläuterte Auswirkung der Textlänge auf die TTR (vgl. Perkuhn u.a. 2012, E6-3) wider, denn von den größeren zu den kleineren Teilkorpora nimmt diese jeweils zu:

TTR global < TTR fgo < TTR mde bzw. TTR Zeitraum B < TTR Zeitraum A

Zu bedenken ist bei der TTR-Berechnung, dass sämtliche Types zugrundegelegt werden, also auch Satzzeichen und Funktionswörter. Hinsichtlich der semantischen Fokussierung auf die lexikalische Vielfalt könnte eine Einschränkung auf autosemantische Types u. Tokens vielleicht einen Unterschied machen:

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS global_autosem_ttr FROM 
(SELECT COUNT(DISTINCT token) as types FROM tokens WHERE wortart NOT IN('ABR%','DET%','INT%','KON%','NAM','NUM%','PRO%','PRP%','PUN%','SENT%','SYM%'))a 
JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE wortart NOT IN('ABR%','DET%','INT%','KON%','NAM','NUM%','PRO%','PRP%','PUN%','SENT%','SYM%'))b

(queries_id 198)

types	tokens	global_autosem_ttr
21016	355189	5.9168

Das Ergebnis unterscheidet sich nicht auffällig vom Ergebnis der o. durchgeführten, neutralen TTR-Abfrage. Dass sie bei niedrigerer Tokenzahl nicht über der neutralen TTR liegt, dürfte am Ausschluss von Namen (‚NAM‘), Zahlen (‚NUM‘) u. Abkürzungen (‚ABR‘) liegen. Dies bestätigt die entspr. Abwandlung:

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS global_autosem2_ttr FROM 
(SELECT COUNT(DISTINCT token) as types FROM tokens WHERE wortart NOT IN('DET%','INT%','KON%','NUM%','PRO%','PRP%','PUN%','SENT%','SYM%'))a 
JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE wortart NOT IN('DET%','INT%','KON%','NUM%','PRO%','PRP%','PUN%','SENT%','SYM%'))b

types	tokens	global_autosem2_ttr
23651	372275	6.3531

Weiterhin könnte auch die lexikalische Vielfalt bestimmter Wortarten interessant sein, folgende Abfrage beschränkt die TTR-Berechnung auf Adjektive:

SELECT * FROM
(SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS global_ttr_adj FROM
(SELECT COUNT(DISTINCT token) as types FROM tokens WHERE wortart LIKE 'ADJ')a JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE wortart LIKE 'ADJ')b)aa
JOIN (SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS mde_ttr_adj FROM (SELECT COUNT(DISTINCT token) as types FROM tokens WHERE zeitung = 'mde' AND wortart LIKE 'ADJ')a JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE zeitung = 'mde' AND wortart LIKE 'ADJ')b)bb
JOIN (SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS fgo_ttr_adj FROM (SELECT COUNT(DISTINCT token) as types FROM tokens WHERE zeitung = 'fgo' AND wortart LIKE 'ADJ')a JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE zeitung = 'fgo' AND wortart LIKE 'ADJ')b)cc

Das Ergebnis dieser Abfrage bestätigt die Verhältnismäßigkeiten der undifferenzierten TTR-Berechnungen ebenfalls:

types	tokens	global_ttr_adj	types	tokens	mde_ttr_adj	types	tokens	fgo_ttr_adj
4078	27108	15.0435	1955	7496	26.0806	3409	19612	17.3822

7.1.4.1. Exkurs: Gewichtung von TTR-Messungen

Folgende Erklärung zeigt anschaulich, welchen Einfluss die thematische Progression innerhalb eines gegebenen Korpus auf die TTR-Verteilung haben kann:

„TTR und STTR sind jeweils ziemlich grobe Messungen, obwohl oft angenommen wird, dass dadurch ‚lexikalische Dichte‘ ausgedrückt werden kann. Angenommen Sie haben einen Text, der 1.000 Wörter lang von ELEFANT, LÖWE, TIGER, etc. handelt; die nächsten 1.000 Wörter von MADONNA, ELVIS, etc. und wiederum die nächsten 1.000 Wörter von WOLKE, REGEN, SONNENSCHEIN. Wenn der n-Wert bei STTR auf 1.000 festgelegt wird, und Sie einen STTR-Wert von 48% erhalten, enthält die Statistik keine Informationen darüber, dass im Text Veränderungen von Afrika zu Musik und schließlich zum Wetter stattgefunden haben. Liegt die Textgrenze (n-Wert) zwischen Afrika und Musik bei 650 Wörtern statt 1.000, schlägt sich dieser Unterschied nicht in der Statistik nieder. Wodurch würde dann ein Unterschied entstehen? In einem Text, der von Wolken handelt und von einer Person geschrieben wurde, die zwischen verschiedenen Wolkenarten unterscheidet, würden auch Wörter vorkommen wie NEBEL, DUNST, KUMULUS, KUMULONIMBUS. Der STTR-Wert wäre also höher als bei einem Text von einem Kind, das häufig das Wort WOLKE verwendet, und dieses mit Adjektiven wie HOCH, NIEDRIG, SCHWER, DUNKEL, DÜNN, SEHR DÜNN beschreiben würde […] und dazu die Adjektive DUNKEL, DÜNN, etc. häufig wiederholt. (Anm.: Shakespeare ist dafür bekannt, dass er, wenn man von diesen Messungen ausgeht, einen ziemlich begrenzten Wortschatz verwendet hat!).“ (Quelle)

Diese Ausführungen sind gerade im Zusammenhang mit dem divulgativen Ziel journalistischer Texterzeugnisse interessant: Es ist keine allzu hohe TTR zu erwarten in aufgrund von diesel-Vorkommen ausgewählten Artikeln großer Tageszeitungen. In der Fachliteratur würden die gleichen Korpusauswahl-Kriterien möglicherweise weniger TTR-mindernd wirken (wie im Bsp. mit den Wolkenarten). Auch die witzig gemeinte Anmerkung zu Shakespeare ist in meinem Kontext nicht uninteressant: das Kind oder der Poet sprechen allgemeinverständlich in der Art, dass Raum bleibt für emotionale Effekte des Gesagten. Pressesprache muss ja auch dieses Ziel immer verfolgen: den Leser emotional anzusprechen, sein affektives Interesse am Artikel zu wecken und aufrechtzuerhalten.

Obwohl eine ‚echte‘ STTR-Berechnung i.d.v.A. nicht geleistet werden kann, soll doch wenigstens anhand von Stichproben gezeigt werden, wie die rel. TTR der Teilkorpora tendentiell ausgeprägt ist. Dafür wird zufällig jeweils ein Ausschnitt von 1000 Tokens genommen und auf dieser Basis die TTR ermittelt:

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS global_rand_ttr FROM 
(SELECT COUNT(DISTINCT token) as types FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c)a 
JOIN (SELECT COUNT(token) as tokens FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c)b

Für die 1000 zufällig ausgewählten Tokens des Gesamtkorpus ergibt sich:

types	tokens	global_rand_ttr
496	1000	49.6000

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS fgo_rand_ttr FROM 
(SELECT COUNT(DISTINCT token) as types FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE zeitung = 'fgo')a 
JOIN (SELECT COUNT(token) as tokens FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE zeitung = 'fgo')b

Für 1000 zufällige fgo-Tokens:

types	tokens	fgo_rand_ttr
379	729	51.9890

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS mde_rand_ttr FROM 
(SELECT COUNT(DISTINCT token) as types FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE zeitung = 'mde')a 
JOIN (SELECT COUNT(token) as tokens FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE zeitung = 'mde')b

Für 1000 zufällige mde-Tokens:

types	tokens	mde_rand_ttr
158	268	58.9552

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS zr1_rand_ttr FROM 
(SELECT COUNT(DISTINCT token) as types FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE datum BETWEEN 20071101 AND 20081031)a 
JOIN (SELECT COUNT(token) as tokens FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE datum BETWEEN 20071101 AND 20081031)b

Für 1000 zufällige Tokens des Zeitraums A:

types	tokens	zr1_rand_ttr
201	340	59.1176

SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS zr2_rand_ttr FROM 
(SELECT COUNT(DISTINCT token) as types FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE datum BETWEEN 20171101 AND 20181031)a 
JOIN (SELECT COUNT(token) as tokens FROM (SELECT * FROM `tokens` ORDER BY RAND() LIMIT 1000)c WHERE datum BETWEEN 20171101 AND 20181031)b

Für 1000 zufällige Tokens des Zeitraum B:

types	tokens	zr2_rand_ttr
328	674	48.6647

Die Zahlen dieser nur sehr ungenauen Überprüfung geben zumindet eine Vorstellung von dem Bereich, in dem sich die STTR bewegen könnte. Verlässliche Rückschlüsse daraus zu ziehen ist allerdings nicht möglich, dies bleibt weiteren Untersuchungen mit den beschriebenen Methoden der STTR- bzw. MTLD-Berechnung vorbehalten¹²⁶. (Ende des Exkurses)

Eine weitere hinsichtlich des vorliegenden Korpus grundsätzlich interessante Abfragemöglichkeit zur TTR sei noch erwähnt, welche nur die Überschriften herausgreift (entspricht i.u. stehender SQL-Abfrage der Bedingung „zwue = 1“):

SELECT * FROM
(SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS global_ttr_zwue1 FROM
(SELECT COUNT(DISTINCT token) as types FROM tokens WHERE zwue = 1)a
JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE zwue = 1)b)aa
JOIN
(SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS fgo_ttr_zwue1 FROM
(SELECT COUNT(DISTINCT token) as types FROM tokens WHERE zwue = 1 AND zeitung = 'fgo')a
JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE zwue = 1 AND zeitung = 'fgo')b)bb
JOIN
(SELECT a.types, b.tokens, (a.types * 100)/b.tokens AS mde_ttr_zwue1 FROM
(SELECT COUNT(DISTINCT token) as types FROM tokens WHERE zwue = 1 AND zeitung = 'mde')a
JOIN (SELECT COUNT(token) as tokens FROM tokens WHERE zwue = 1 AND zeitung = 'mde')b)cc

Es ergibt sich:

types	tokens	global_ttr_zwue1	types	tokens	fgo_ttr_zwue1	types	tokens	mde_ttr_zwue1
1334	3715	35.9085	1093	2740	39.8905	431	975	44.2051

Die insgesamt im Vgl. zu den bisherigen Berechnungen hohen TTR-Werte erklären sich durch die geringe Tokenzahl, die die Überschriften generell enthalten; ebenfalls darauf zurückzuführen ist, dass die Werte rel. wenig voneinander abweichen, obwohl die Anzahl der Überschriften pro Teilkorpus stark variiert (319 fgo-Artikel vs. 97 mde-Artikel, d.h. 77% der Artikel bzw. Überschriften stammen aus Le Figaro und 23% aus Le Monde.¹²⁷).

7.1.4.2. Fazit

TTR-Auswertungen scheinen innerhalb eines Korpus, dessen Einzeltexte einer oder mehreren sehr nah verwandten Textsorte(n) angehören und zudem ausdrucksseitig (u. damit auch thematisch) vorselektioniert wurden wie im vorliegenden Fall, wenig Möglichkeiten für Aussagen über die lexikalische Vielfalt zu bieten. Dennoch gehört ihre Berechnung auch in diesem Rahmen dazu, damit der Anschluss für vergleichende Untersuchungen geschaffen ist, die auf existierende Korpusanalysen zurückgreifen. Gerade für die Vernetzung existierender und entstehender korpuslinguistischer Untersuchungen könnten konsistent durchgeführte (S)TTR-Messungen von besonderem Nutzen sein, um textsortenübergreifend Vergleiche anzustellen.

7.1.5. Autoren zu jedem Datensatz

SELECT a.*, b.autor FROM `tokens` a JOIN meta b using(datei)

Die Abfrage zeigt aus der Tab. tokens alles an und zusätzlich eine Spalte mit den Autornamen, die zu jedem Datensatz gehören (die Spalte `autor` aus der Tab. meta wird einfach rechts an die Tab. tokens angefügt). Diese Abfrage hat im Verlauf der quantitativen Analyse zunächst wenig Bedeutung, könnte aber bei den corpus-based Untersuchungen nützlich werden.

SELECT DISTINCT autor FROM meta ORDER BY autor

… ergibt eine 112 DS enthaltende Liste der Autorennamen in der Tab. meta, wobei auch „k.A.“ als Autorname geführt ist. Deshalb:

SELECT * FROM meta WHERE autor LIKE 'k.A.' ORDER BY Datei

Diese Ergebnistab. hat 52 DS, d.h. dass mind. 416-52 sprich 364 Zeitungsartikel von den 111 verschiedenen Autoren stammen, die namentlich genannt sind (mind. deshalb, weil unter „k.A.“ theoretisch (und sehr wahrscheinlich) auch Autoren sind, die bei anderen Artikeln namentlich genannt werden).

7.2. Zusammenfassung quantitative Rahmenuntersuchung

Die bisherige Untersuchung der Korpusdaten anhand von SQL-Abfragen hat folgende weiterführende Befunde geliefert:

7.2.1. Tokenzahlen

Tokens gesamt: 372275
Tokens fgo: 273103 → 73% v. gesamt
Tokens mde: 99172 → 27% v. gesamt
Tokens Zeitraum A: 127656 → 34% v. gesamt
Tokens Zeitraum B: 244619 → 66% v. gesamt

7.2.2. Type-Token-Ratio (TTR)

Die für Korpora unterschiedlichen Umfangs typischen TTR-Unterschiede haben sich bestätigt, indem die größeren Korpusbereiche stets niedrigere Werte ergaben. Relative TTR als Basis für Aussagen über die lexikalische Vielfalt wurden aufgrund des methodischen Aufwands nicht ermittelt. Eine auf zufälligen Korpusausschnitten beruhende Abfragereihe ergab TTR-Werte zwischen 49 und 59, was aber keine zuverlässigen Aussagen erlaubt, da die durch Zufallsauswahl betroffenen Korpusbereiche theoretisch eine verzerrende Wirkung haben können.

7.2.3. Autoren

Von den 416 Zeitungsart. wurden 366 v. 111 versch. namentlich genannten Autoren verfasst; in 52 Artikeln wird kein Autorname genannt, wobei davon auszugehen ist, dass sich auch dahinter hauptsächlich die anderswo namentl. genannten verbergen¹²⁸.

8. Korpusanalyse III: Frequenz von diesel & Co

Eine Übersicht über die Befunde dieses Kapitels findet sich unter Zusammenfassung.

8.1. Vorkommen von diesel in einzelnen Korpusbereichen

8.1.1. diesel(s) im Gesamtkorpus

Zunächst einmal wird ermittelt wie oft die Zeichenfolge /diesel/ vorkommt:

SELECT COUNT(*) as anz_zfolge_diesel FROM `tokens` WHERE token LIKE '%diesel%'

anz_zfolge_diesel
1419

Nun interessiert, welche Types hinter diesen Vorkommnissen stecken:

SELECT token as dieseltypes, COUNT(*) AS anzahl  FROM `tokens` WHERE token LIKE '%diesel%' group by token

Von den aufgeführten Formen sind vier zum Lexem diesel zu zählen: diesel, diesels und diesel… (bei dem die drei Punkte nicht vom Token getrennt tokenisiert wurden), außerdem die einmaligen Formen dieseld, welche einem fehlenden Leerzeichen im Quelltext zuzuschreiben ist¹²⁹. Dass am Ende der Liste noch einmal diesel mit zwei Vorkommnissen auftritt, muss wohl mit der Kodierung im Quelltext o.ä. zusammenhängen, in jedem Fall sind diese zwei Fälle der Frequenz des Lexems zuzurechnen. Wie oft Formen des Lexems diesel im Korpus auftreten, errechnet sich demnach wie folgt:

1156 (diesel) + 1 (dieseld) + 1 (diesel…) + 2 (diesel) + 109 (diesels) = 1265

Weil die vier ‚Sonderfälle‘ für die Lexem-Frequenz quantitativ nicht ins Gewicht fallen, genügt folgende Abfrage zur Bestimmung der Frequenz von diesel sowie diesels im Gesamtkorpus:

SELECT count(*)as anzahl, token FROM `tokens` WHERE token LIKE 'diesel' or token LIKE 'diesels' GROUP BY token

diesel-électrique, diesel/électrique¹³⁰, tout-diesel und anti-diesel bilden jeweils ein eigenes Lexem und sind der Frequenz des Lexems diesel nicht zuzurechnen, geben aber trotz ihrer niedrigen Frequenz den wertvollen Hinweis, dass v.a. aus semantischer Sicht neben den eigentlichen Kollokationen auch Komposita und Syntagmen (anhand der Zeichenfolgen /diesel-/, /-diesel/ und /diesel) grundsätzlich zu berücksichtigen sind. Auch die Wortbildungen dieselcrash und dieselgate (Calque-Entlehnung?¹³¹) sowie diésélisation und diesélisé¹³² (Derivation) bilden eigenständige Lexeme bzw. Innovationen¹³³. Von diesen anderen, mit dem Stamm /diesel/ gebildeten Lexemen fallen nur dieselgate und turbodiesel quantitativ ins Gewicht.

8.1.1.1. Kategorien

Man kann anhand o. dargestellter Tab. erste Kategorien von Domänen erkennen, mit denen diesel so eng in Verbindung gebracht wird, dass beides in einer formalen Einhheit ‚verpackt‘ auftritt: Technik, (Umwelt-)Politik, Wirtschaft(sbetrug), …: Diese Einheiten treten einerseits als lexikalisierte Formen (oder zumindest uneingeschränkt funktionale Komposita oder Derivationen auf der Basis von lexikaliserten Einheiten wie diésélisé) und andererseits als ad-hoc-Innovationen bzw. als auf solchen basierende Innovationen kurz vor der Lexikalisierung¹³⁴ auf.

In den corpus-based Untersuchungen¹³⁵ könnte die hier extrahierte Liste von diesel-Wortbildungen einen guten Ausgangspunkt darstellen, wenn es um die Qualifizierung der quantitativen Befunde geht. Zunächst soll aber mit der corpus-driven Abfragereihe fortgefahren werden.

8.1.2. diesel in den beiden Zeitungen

Nachdem das Gesamtkorpus hinsichtlich der diesel(s)-Vorkommnisse analysiert wurde, sollen nun nach analogem Schema die beiden Teilkorpora mde (Le Monde) und fgo (Le Figaro) daraufhin untersucht werden.

Leider hat sich herausgestellt, dass die o. verwendete SQL-Aussage

WHERE token LIKE 'diesel' OR token LIKE 'diesels'

sich nicht ohne weiteres in die Abfragen zu den Teilkorpora integrieren lässt, da dadurch offensichtlich anders gezählt wird – jedenfalls kommen insgesamt zu viele Treffer zusammen, wenn man die Ergebnisse der beiden folgenden Abfragen addiert:

SELECT COUNT(*) as anz_dieselS_mde FROM tokens WHERE token LIKE 'diesel' OR token like 'diesels' AND zeitung = 'mde'

SELECT COUNT(*) as anz_dieselS_mde FROM tokens WHERE token LIKE 'diesel' OR token like 'diesels' AND zeitung = 'fgo'

anz_dieselS_mde	anz_dieselS_fgo
1174	1247

Wie demnach zu erwarten war, ergibt sich z.B. aus den beiden folgenden Abfragen zum mde-Korpus zusammengenommen eine völlig andere mde-Frequenz von diesel(s):

SELECT count(*)AS anz_diesel_mde FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'mde'

bzw.

SELECT count(*) AS anz_diesels_mde FROM `tokens` WHERE token LIKE 'diesels' AND zeitung = 'mde'

anz_diesel_mde	anz_diesels_mde	Summe
374	18	392

In Ermangelung einer besseren Lösung für dieses Problem beim Erfassen aller Tokens diesel *und* diesels in einem SQL-Statement, wird aufgrund der gut zehnfachen Frequenz von diesel gegnüber diesels¹³⁶ im Gesamtkorpus so weitergefahren, dass im ‚Hauptstrang‘ der Abfragereihe nur diesel berücksichtigt wird, während auf diesels in verkürzter Form eingegangen wird.

Der nächste Schritt ist also die Bestimmung der Frequenz von diesel im fgo-Korpus:

SELECT count(*) AS anz_diesel_fgo FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'fgo'

Zusammen mit obigem Ergebnis für mde ergibt sich:

anz_diesel_mde	anz_diesel_fgo
374	782

Wieviel diese Werte vom diesel-Aufkommen im Gesamtkorpus ausmachen, zeigt

SELECT anz_diesel_mde, anz_diesel_ges , anz_diesel_mde/anz_diesel_ges * 100 AS Anteil FROM
(SELECT COUNT(*) AS anz_diesel_mde FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'mde')a
JOIN (SELECT COUNT(*)AS anz_diesel_ges FROM `tokens` WHERE token LIKE 'diesel')b

anz_diesel_mde	anz_diesel_ges	Anteil
374	1156	32.3529

anz_diesel_fgo	anz_diesel_ges	Anteil
782	1156	67.6471

Allerdings sagt dies angesichts der ungleich großen Teilkopora noch wenig aus. Die absoluten Werte müssen zu den jeweiligen Teilkorpus-Tokenzahlen in Relation gesetzt werden¹³⁷. Weiter oben wurde ja bereits die Tokenzahl jedes Korpusbereichs berechnet:

anz_tok_ges	anz_tok_fgo	anz_tok_fgo
372275	273103	99172

Folgende Anteile haben die diesel-Vorkommnisse an allen Tokens des *jeweiligen* Teilkorpus¹³⁸:

Gesamtkorpus 0,31% , fgo 0,28%, mde 0,38%.

Daran lässt sich die Tendenz ablesen, dass im mde-Teilkorpus die Frequenz von diesel im Vergleich zum Gesamtkorpus eher überdurchschnittlich, im Fall von fgo eher unterdurchschnittlich ist.

Ob diese Verteilung als zufällig oder signifkant (überzufällig) einzustufen ist, lässt sich anhand eines Signifikanztests feststellen – ein solcher Test wird weiter unten auch im Zusammenhang mit der Frequenz-Verteilung auf die beiden Zeiträume durchgeführt und dort detailliert beschrieben.

Das Testergebnis (vgl. Datei) lautet: mit 99,7%-iger Wahrscheinlichkeit ist die Verteilung siginifikant und die Frequenz von diesel in den untersuchten Zeitungsartikeln aus Le Monde überzufällig höher als im fgo-Teilkorpus. Das Ergebnis besagt, dass es in den mde-Artikeln im Allgemeinen eher zu einer (mind. einmaligen) Wiederholung (bzw. zur mind. zweimaligen Verwendung) des Ausdrucks diesel kommt als in den fgo-Artikeln.

Dies könnte ein Indiz dafür sein, dass im mde-Teilkorpus der Anteil an Zeitungsartikeln, die diesel eher problematisieren bzw. kontroverse Aspekte thematisieren, höher ist als im fgo-Teilkorpus. Diese Vermutung wird zusätzlich gestützt durch die Tatsache, dass in eher tabuisierenden Texten die explizite Nennung des ‚corpus delicti‘ normalerweise eher geringer ausfällt. Die liberal-konservative Ausrichtung, die Le Figaro im Allgemeinen attestiert wird (vgl. Porträts der verwendeten Zeitungen) würde dies untermauern. Auf die Frage, ob und inwiefern ein solcher Zusammenhang besteht, kann erst in corpus-based Anschlussuntersuchung eingegangen werden.

8.1.3. diesel in den beiden Zeiträumen

Als weitere grundlegende Korpusbereiche werden Zeitraum A (1.11.2007-31.10.2008) und Zeitraum B (1.11.2017-31.10.2018) auf die diesel-Vorkommnen hin untersucht. Folgende zwei Abfragen ergeben alle entsprechenden Datensätze (DS) je Teilkorpus:

SELECT * FROM `tokens` WHERE `datum` BETWEEN 20071101 AND 20081031 AND `token` LIKE 'diesel'

(queries_id 76)

SELECT * FROM `tokens` WHERE `datum` BETWEEN 20171101 AND 20181031 AND `token` LIKE 'diesel'

(queries_id 78)

Eine Übersicht, wie oft diesel jeweils auftritt gibt

SELECT a.anzahl as anz_diesel_zr1, b. anzahl as anz_diesel_zr2 FROM (SELECT COUNT(*) as anzahl FROM `tokens` WHERE `datum` BETWEEN 20071101 AND 20081031 AND `token` LIKE 'diesel')a JOIN (SELECT COUNT(*) as anzahl FROM `tokens` WHERE `datum` BETWEEN 20171101 AND 20181031 AND `token` LIKE 'diesel')b

Mehrmaliges Nachprüfen hat bestätigt, dass die identische diesel-Frequenz jeweils in fgo u. Zeitraum B (782) sowie in mde und Zeitraum A (374) korrekt ist und das Zusammenfallen der Werte zuällig sein muss.

Welchen Anteil machen nun die diesel-Okkurrenzen an der Gesamt-Tokenzahl des jeweiligen Teilkorpus aus? Dies ermittelt folgende Abfrageform (queries_id 192):

SELECT *, Anzahl_Tks_Diesel / Anzahl_Tks_gesamt * 100 as Anteil FROM
(SELECT COUNT(*) AS Anzahl_Tks_Diesel, MIN(datum) mindatum, MAX(datum) maxdatum FROM (SELECT token, datum FROM tokens WHERE token LIKE 'diesel' AND datum BETWEEN 20071101 AND 20081031)a)a JOIN
(SELECT COUNT(*) AS Anzahl_Tks_gesamt, MIN(datum) mindatum, MAX(datum) maxdatum FROM (SELECT token, datum FROM tokens WHERE datum BETWEEN 20071101 AND 20081031)a)b
USING(mindatum,maxdatum)

mindatum	maxdatum	Anzahl_Tks_Diesel	Anzahl_Tks_gesamt	Anteil
20071103	20081031	374	127656	0.2930

Das Aufkommen von diesel im Zeitraum A macht also 0,29% aller auf diesen Zeitraum entfallenden Tokens aus. Wie man übrigens sieht, gibt die Ergebnistabelle jeweils nicht die Grenzen des durchsuchten Zeitraums aus, sondern das jeweils äußerste Datum, an dem ein Artikel des jeweiligen Korpusbereichs tatsächlich erschienen ist. Führt man diese Abfrage in modifizierter Form für den Zeitraum B aus, erhält man:

mindatum	maxdatum	Anzahl_Tks_Diesel	Anzahl_Tks_gesamt	Anteil
20171101	20181029	782	244619	0.3197

Im Zeitraum B hat also diesel einen geringfügig höheren Anteil an dessen Gesamt-Tokenzahl, nämlich 0,32% (gegenüber 0,29% in Zeitraum A). Um zu ermitteln ob die Verteilung als signifikant einzustufen ist (und nicht nur zufälligen Charakter hat), eignet sich der bereits erwähnte Signifikanztest, der an dieser Stelle näher erläutert werden soll.

8.1.3.1. Exkurs: Ermittlung der Signifikanz von Verteilungen

Die folgenden Ausführungen basieren auf den Erklärungen und praktischen Anleitungen auf der Webseite von N. Bubenhofer.

Hat man wie im obigen Beispiel eine bestimmte Verteilung von Werten (wie die Steigerung der relativen Frequenz von diesel zwischen zwei Zeiträumen), liegen zwei Prozentsätze vor, die verglichen werden können – aber es stellt sich immer noch die Frage:

„Kann mit genügend grosser Sicherheit angenommen werden, dass der Frequenzunterschied von [Token, Verf.] in den beiden Korpora nicht zufällig zustande gekommen ist? Ist die Korrelation zwischen der Frequenz von [Token, Verf.] und dem jeweiligen Korpus signifikant? […] Oder umgekehrt gefragt stellen wir eine sog. Nullhypothese (H₀) auf, die behauptet: Die Korrelation ist zufällig. Unsere Hypothese (H) lautet aber: Die Korrelation ist nicht zufällig. Der Signifikanztest prüft nun: Kann die Nullhypothese mit genügend grosser Wahrscheinlichkeit verworfen werden?“ (N. Bubenhofer hier, Original-Hervorhebungen wurden entfernt, Verf.)

Als Grundlage für den Signifikanztest, der diese Frage beantworten soll, muss zunächst eine sog. Kontingenztabelle erstellt werden:

„Um unsere Hypothese zu prüfen fragen wir uns, welche Frequenzen wir denn erwarten würden, wenn wir davon ausgehen, dass die Frequenz von [Token, Verf.] gleichmässig in den Korpora verteilt wäre. Das sind die erwarteten Werte. Die Werte, die wir aber tatsächlich haben, sind die beobachteten Werte. Es muss also bloss gemessen werden, wie gross der Abstand zwischen den beobachteten und den erwarteten Werten ist.“ (Bubenhofer hier, Original-Hervorhebungen wurden entfernt, Verf.)

Die Kontingenztabelle dient als Grundlage für den sog. Chi-Quadrat-Test bzw. x²-Test. Die dafür verwendete Formel ermittelt den Wert von x²(die beobachteten Werte werden mit O (observed) und die erwarteten Werte mit E (expected) ausgedrückt) als Summe aller einzeln für alle Werte der Kontingenztabelle berechneten Ergebnisse aus (O-E)²/E (vgl. die anschauliche Beschreibung hier). Zum Glück muss man diese Rechenoperation nicht manuell durchführen, sondern kann die entsprechende Funktion in Excel dafür nutzen (die vollständige Prozedur ist in der Excel-Datei nachvollziehbar).

Um den resultierenden Wert von x² hinsichtlich seiner Signifikanz-Aussage einordnen zu können, bezieht man sich auf die sog. kritischen Werte, die statistisch festgelegt wurden (und zum Bsp. hier¹³⁹ nachgeschlagen werden können bzw. mithilfe der Internetsuche nach „Chi-square-table“ o.ä.).

Hat man diese Schritte hinter sich gebracht bzw. die konkret zu gewichtenden Werte¹⁴⁰ in eine vorgefertigte Excel-Tab. eingetragen (vgl. Datei), sind alle Voraussetzungen für die Bestimmung der Wahrscheinlichkeit für Signifikanz einer bestimmten Verteilung erfüllt.

Im vorliegenden Fall sehen die in Excel – durch entsprechende abgespeicherte Funktionen – automatisch vervollständigten Tabellen so aus:

1. Beobachtete Werte
	Korpus A	Korpus B	Total
Frequenz von diesel	374	782	1156
Alle anderen Wörter	127282	243837	371119
Total	127656	244619	372275

2. Erwartete Werte
	Korpus A	Korpus B	Total
erwartete Frequenz von diesel	396,4014129	759,5985871	1156
Alle anderen Wörter	127259,5986	243859,4014	371119
Total	127656	244619	372275

Dreisatz-Berechnung erwartete Werte
Wenn			Dann	erw. F. A
372275	1156	0,0031052	127656	396,401413

Wenn			Dann	erw. F. B
372275	1156	0,0031052	244619	759,598587

Total				1156

Für die o.g. Frequenzverteilung von diesel auf die zwei verschiedenen Zeiträume ergab der Chi-Quadrat-Test den Wert 1,98. Dies genügt nicht, um Signifikanz mit mind. 95%-iger Sicherheit festzustellen (der Mindestwert dafür läge bei 3,84); die Wahrscheinlichkeit für Signifikanz liegt dementsprechend nur bei 68,9%.

Aus den beiden bisher durchgeführten Signifikanztests¹⁴¹ lässt sich ableiten, dass das Auftreten von diesel im Gesamtkorpus eher von der Zeitung als vom Zeitraum abhängt.

8.1.3.2. Vorkommen von diesel an bestimmten Wochentagen

Mit folgender Abfrage und ihren Erweiterungen lässt sich herausfinden, an welchen Wochentagen diesel global, in mde und fgo durchschnittlich wie häufig vorkam:

SELECT dayname(str_to_date(datum, '%Y%m%d')) AS tag, COUNT(*) AS anzahl_global
FROM `tokens` WHERE token LIKE '%diesel%'
GROUP BY tag ORDER BY anzahl_global desc

tag	anzahl_global	tag	anzahl_fgo	tag	anzahl_mde
Monday	352	Friday	281	Monday	151
Friday	305	Monday	201	Tuesday	99
Wednesday	234	Wednesday	142	Wednesday	92
Tuesday	228	Tuesday	129	Sunday	29
Thursday	122	Thursday	97	Thursday	25
Sunday	103	Sunday	74	Friday	24
Saturday	75	Saturday	54	Saturday	21

Analog ergibt sich die Verteilung auf die Zeiträume A und B:

SELECT dayname(str_to_date(datum, '%Y%m%d')) AS tag_zr1, COUNT(*) AS anzahl_zr1 FROM `tokens`
WHERE token LIKE '%diesel%' AND str_to_date(datum, '%Y%m%d') BETWEEN '2007-11-01' AND '2008-10-31'
GROUP BY tag_zr1 ORDER BY anzahl_zr1 desc

SELECT dayname(str_to_date(datum, '%Y%m%d')) AS tag_zr2, COUNT(*) AS anzahl_zr2 FROM `tokens`
WHERE token LIKE '%diesel%' AND str_to_date(datum, '%Y%m%d') BETWEEN '2017-11-01' AND '2018-10-31'
GROUP BY tag_zr2 ORDER BY anzahl_zr2 desc

tag_zr1	anzahl_zr1	tag_zr2	anzahl_zr2
Friday	186	Monday	236
Monday	116	Wednesday	212
Saturday	50	Tuesday	186
Tuesday	42	Friday	119
Thursday	30	Sunday	103
Wednesday	22	Thursday	92
		Saturday	25

Die sofort ins Auge stechende Tatsache, dass anscheinend im Zeitraum A kein einziger Zeitungsartikel mit mind. einer diesel-Okkurrenz an einem Sonntag erschienen ist, fällt umso mehr auf, wenn man dies mit den immerhin 103 Okkurrenzen an diesem Wochentag im Zeitraum B vergleicht. Ganz plausibel scheint diese extreme Verteilung nicht zu sein. Bevor weitere Berechnungen auf Basis dieser Abfrage-Ergebnisse erfolgen, ist es ratsam, nochmals die zuvor ermittelten diesel-Frequenzen je Zeitraum vergleichend heranzuziehen:

SELECT a.anzahl as anz_diesel_zr1, b. anzahl as anz_diesel_zr2 FROM (SELECT COUNT(*) as anzahl FROM `tokens` WHERE `datum` BETWEEN 20071101 AND 20081031 AND `token` LIKE 'diesel')a JOIN (SELECT COUNT(*) as anzahl FROM `tokens` WHERE `datum` BETWEEN 20171101 AND 20181031 AND `token` LIKE 'diesel')b

anz_diesel_zr1	anz_diesel_zr2
374	782

Im Vergleich dazu beträgt die Summe der Werte, die in obiger Tab. dem Zeitraum A entsprechen, 466, und analog für Zeitruam B 973. Leider weichen die Werte beider Berechnungsvarianten signifikant voneinander ab. Da von der Zählung von Feldwerten in der Spalte `token` eine höhere Validität zu erwarten ist¹⁴² als von der Zählung abgeleiteter (prozeduraler) Werte (aus den Datumsbereichen ermittelte Wochentage), ist bei der Verwertung der Ergebnisse der ersten der Vorzug zu geben.

Aus diesem Grund wird trotz der reizvollen Aussicht auf Salienzen hinsichtlich wochentagsabhängiger diesel-Thematisierung auf die Berechnung der prozentualen Anteile je Wochentag und Teilkorpus verzichtet. Die festgestellten Diskrepanzen geben in jedem Fall Anlass für eine Abklärung der Ursachen, die jedoch im Rahmen d.v.A. nicht stattfinden kann.

8.1.4. Vorkommen von diesels (Pluralform)

Wie bereits weiter oben berechnet, gibt es 109 globale und 18 mde-Vorkommnisse:

SELECT id, datei, token FROM `tokens` WHERE token LIKE 'diesels'

SELECT id, datei, token FROM `tokens` WHERE token LIKE 'diesels' AND zeitung = 'mde'

Den Frequenzen von diesels entsprechen 0,03 (global) und 0,02% (mde) der Tokens des jeweiligen Korpusbereichs.

Nun sollen die Vorkommnisse der Pluralform in den drei anderen Teilkorpora bestimmt werden:

Das fgo-Korpus enthält 91 diesels-Vorkommnisse:

SELECT id, datei, token AS diesels_fgo FROM `tokens` WHERE token LIKE 'diesels' AND zeitung = 'fgo'

Die Anzahl entspricht 0,03% aller fgo-Tokens. Somit liegt fgo im durchschnittlichen Bereich und mde darunter. Allerdings ist zu bedenken, dass es sich generell um sehr niedrige Werte handelt und daher wenig daraus abzuleiten ist.

Im Zeitaum A tritt diesels 30 mal auf:

SELECT id, datei, token AS diesels_zr1 FROM `tokens` WHERE token LIKE 'diesels' AND datum BETWEEN 20071101 AND 20081031

Und in Zeitraum B 79 mal:

SELECT id, datei, token AS diesels_zr2 FROM `tokens` WHERE token LIKE 'diesels' AND datum BETWEEN 20171101 AND 20181031

Im Zeitraum A hatte somit die Pluralform einen Anteil v. 0,02% und im Zeitraum B von 0,03% an den jeweiligen Tokens. Wie bereits mehrmals im Laufe der Abfragen, stellt sich auch hier das Verhältnis zwischen den Teilkorpora mde/fgo ähnlich dar wie das Verhältnis Zeitraum A/Zeitraum B, oder anders ausgedrückt: mde und Zeitraum A bzw. fgo und Zeitraum B scheinen hinsichtlich der relativen Häufigkeiten annähernd proportional zu sein.

8.1.5. Vorkommen von gazole

8.1.5.1. gazole im Gesamtkorpus

Neben diesel findet das (Teil-)Synonym gazole ebenfalls einige Verwendung, um das Konzept diesel zu bezeichnen. Wie verbreitet es im Gesamtkorpus ist, ermittelt die Abfrage

SELECT id, datei, token FROM `tokens` WHERE token LIKE 'gazole'

bzw.

SELECT COUNT(*) as anz_gazole_global FROM tokens WHERE token LIKE 'gazole'

anz_gazole_global
83

Das bedeutet, dass gazole und diesel im Gesamtkorpus in einem Frequenzverhältnis von 83:1156 stehen; die gazole-Vorkommnisse machen also rd. 7% der Bezeichnungen für das Konzept diesel aus¹⁴³.

8.1.5.2. gazole in Zeitraum A und Zeitraum B

Die Frequenz von gazole im Zeitabschnitt 1.11.2007 bis 31.10.2008 (A) wird ermittelt mit

SELECT COUNT(*) as anz_gazole_zr1 FROM tokens WHERE token LIKE 'gazole' AND datum BETWEEN 20071101 AND 20081031

anz_gazole_zr1
41

Daraus errechnet sich – zusammen mit der diesel-Frequenz im selben Zeitraum (374), dass in Zeitraum A (1.11.2007 – 31.10.2008) das Konzept diesel in rd. 10% der Fälle mit gazole bezeichnet wurde¹⁴⁴.

Für den jüngeren Zeitabschnitt von 1.11.2017 bis 31.10.2018 ergibt sich nach analoger Abfrage:

anz_gazole_zr2
42

Dies entspricht einer Verwendungsfrequenz von gazole für das Konzept diesel von nurmehr 5%.

8.1.5.3. gazole in den beiden Zeitungen

SELECT COUNT(*) as anz_gazole_fgo FROM tokens WHERE token LIKE 'gazole' and zeitung = 'fgo'

… ermittelt die Frequenz von gazole im fgo-Teilkorpus:

anz_gazole_fgo
65

Das entspricht rd. 8%¹⁴⁵ der fgo-internen Bezeichnungen für das Konzept diesel, also 1% höher als im Gesamtkorpus.

Analog dazu für das mde-Teilkorpus:

anz_gazole_mde
18

Dass die Frequenz von gazole bei mde identisch mit derjenigen der Pluralform diesels ist, kann wieder nur Zufall sein (es wurde gründlich nachgeprüft).

Im mde-Korpus liegt der Anteil der Fälle, in denen das Konzept mit gazole bezeichnet wird, demnach bei knapp 5%¹⁴⁶ und damit deutlich unter dem Anteil bei Le Figaro und im Gesamtkorpus.

Die relative Frequenz von gazole als Bezeichnung für das Konzept diesel zeigt also folgende Abstufungen zwischen den Teilkorpora:

fgo 8% > Gesamtkorpus 7% > mde 5%

Nun interessiert noch, wie sich beide Zeitungs-Teilkorpora diachron verhalten haben. Dies wird durch folgendes Abfrageschema gezeigt:

SELECT * FROM
(SELECT COUNT(*) as anz_gazole_fgo_zr1 FROM tokens WHERE token LIKE 'gazole' and zeitung = 'fgo' and datum BETWEEN 20071101 AND 20081031)a
JOIN
(SELECT COUNT(*) as anz_gazole_mde_zr1_ FROM tokens WHERE token LIKE 'gazole' and zeitung = 'mde' and datum BETWEEN 20071101 AND 20081031)b

anz_gazole_fgo_zr1	anz_gazole_mde_zr1_
32	9

anz_gazole_fgo_zr2	anz_gazole_mde_zr2_
33	9

Die absolute Verteilung hat sich also zwischen den beiden Zeiträumen nicht verändert.

Der oben festgestellte diachrone globale Rückgang der Verwendung von gazole gegenüber diesel ist auf die diachrone zeitungsspezifische Entwicklung zurückzuführen:

Die 9 Verwendungen von gazole im Zeitraum A bedeuten, dass im mde-Korpus des älteren Zeitraums noch in knapp 10% der Fälle das Konzept diesel mit gazole bezeichnet wurde¹⁴⁷.

Angesichts der gestiegenen absoluten Frequenz von diesel im mde-Korpus im Zeitraum B (290 im Vgl. zu nur 84 im Zeitraum A) bedeuten die 9 Vorkommnisse von gazole im jüngeren Zeitraum, dass in den entsprechenden mde-Artikeln nur noch in 3% der Fälle das Konzept diesel mit gazole bezeichnet wurde.

Analog errechnen sich die Prozentsätze für die fgo-Artikel der beiden Zeiträume:

In Zeitraum A wurde gazole hier ebefalls in 10% der Fälle verwendet, während es im Zeitraum B immer noch gut 6% waren. Daraus ergibt sich, dass die mde-Artikel deutlich mehr Anteil am globalen Rückgang der Verwendung von gazole hatten als die fgo-Artikel.

Das Ergebnis war aufrund der ‚Untauglichkeit‘ der mittlerweile eher nostalgisch konnotierten Bezeichnung gazole im Zusammenhang mit umweltpolitscher Sensibilisierung durch die Presse, die eher von Le Monde betont wird, zu erwarten. Le Figaro steht der liberal-konservativen Politik näher und hat dementsprechend stärker an der Bezeichnung festgehalten, was gleichzeitig bedeutet, dass auch der Anteil von Artikeln, die dem Wirtschaftsressort zugeordnet sind¹⁴⁸, im fgo-Korpus höher sein könnten als im mde-Korpus, oder, dass gazole im Figaro generell eingesetzt wurde, um das Konzept positiv zu besetzen. Ob diese Vermutungen sich erhärten lassen, könnten entsprechende corpus-based Abfragen zeigen.

Hinsichtlich der Selektion von gazole anstelle von diesel ist weiter interessant, dass gazole Traditionsbewusstsein und das ‚goldene Zeitalter‘ der ungebremsten Motorisierung, vielleicht auch des ungehemmten wirtschaftlichen Wachstums eher mitschwingen lässt als das ‚emotionslose‘ Wort diesel, das bei genauerem Hinsehen ja sogar als Antonomasie gewisse Rivalitäten mit der deutschen Automobilindustrie/Ingenieurskunst usw. od. die französisch-deutsche Geschichte an sich konnotiert¹⁴⁹. Überhaupt ist das Klingen von Ausdrücken, in bestimmten Kontexten aber auch für sich genommen, ein nicht zu unterschätzender Faktor für seine Selektion, und zwar auch in Texten, die nicht für das laute Vortragen vorgesehen sind. Gazole klingt gleichzeitig französischer und nach (aus konservativer Sicht) besseren Zeiten als diesel. Damit wird auch ersichtlich, dass die Bezeichnungspraxis bzw. die Selektion aus Paradigmen von (Teil-)Synonymen tiefgehende und subtile rhetorische Aspekte hat: in bestimmten Kontexten wird in der Verwendung von gazole sozusagen das Konzept frankreich mit dem Konzept gut (und früher) verbunden¹⁵⁰.

8.1.6. Vorkommen von diesel in einzelnen Textbereichen

8.1.6.1. diesel in der Überschrift

Das Vorkommen von diesel im Titel von Zeitungsartikeln wird nacheinander global, je Zeitung und im diachronen Vergleich ermittelt:

SELECT * FROM `tokens` WHERE token LIKE 'diesel' and zwue = 1

(queries_id 74)

SELECT COUNT(*) as anz_titel_diesel FROM `tokens` WHERE token LIKE 'diesel' and zwue = 1

anz_titel_diesel
40

Von den insgesamt 416 Titeln des Korpus enthalten also knapp 10% den Ausdruck diesel. Wenn man die 40 Vorkommnisse mit der Tokenzahl aller Titel des Gesamtkorpus verrechnet ((40/3715) * 100), ehält man einen Anteil von 1%:

SELECT COUNT(*) as tok_titel FROM `tokens` WHERE zwue = 1

tok_titel
3715

Wie teilen sich die 40 Okkurrenzen auf fgo- u. mde-Teilkorpus auf?

SELECT * FROM
(SELECT COUNT(*) as anz_titel_diesel_fgo FROM `tokens` WHERE token LIKE 'diesel' and zwue = 1 and zeitung = 'fgo')a
JOIN (SELECT COUNT(*) as anz_titel_diesel_mde FROM `tokens` WHERE token LIKE 'diesel' and zwue = 1 and zeitung = 'mde')b

anz_titel_diesel_fgo	anz_titel_diesel_mde
25	15

Dies entspricht einem jeweiligen Anteil an den globalen Titel-Okkurrenzen von diesel von 62,5% und 37,5%. Diese Prozentsätze weichen nur gering von den globalen Teilkorpus-Ergebnissen für die diesel-Frequenz ab (vgl. hier), somit besteht in dieser Hinsicht kein Unterschied, was die diesel-Frequenz-Verteilung auf mde u. fgo angeht.

Um den Prozentsatz zu erfahren, den die diesel-Vorkommnisse an allen Titeltokens *der jeweiligen Zeitung* haben, wird die Gesamtzahl der jeweils im Titel vorkommenden Tokens benötigt:

anz_tok_titel_ges	anz_tok_titel_fgo	anz_tok_titel_mde
3715	2740	975

Die 25 diesel-Vorkommen in den fgo-Titeln entsprechen 0,9% der Tokens in fgo-Titeln. Die 15 diesel-Vorkommen in den mde-Titeln entsprechen 1,5% der Tokens in mde-Titeln. Somit umfasst der relative Anteil der Titel, in denen Le Monde den Ausdruck diesel verwendete, über ein Drittel mehr als bei Le Figaro.

Dieser Befund passt zu demjenigen zu der stärkeren (generellen) Verwendung von gazole im fgo-Korpus: Das tendentiell/potentiell stigmatisierende diesel wird im Umkehrschluss möglicherweise nur in bestimmten Fällen bzw. Kontexten hervorgehoben, um die (Stamm-)Leserschaft ‚am Ball zu halten‘. Welchen sprachlichen Umgebungen diese Tendenz konkret entspricht, wird im Kap. Korpusanalyse VII (Corpus-based Anschlussuntersuchung) erörtert. Dort wird außerdem deutlich, dass auch gazole durchaus im Zusammenhang mit Negativbewertungen selektiert wird.

Der Signifikanztest zu dieser Verteilung fällt zwar nicht grundsätzlich bejahend aus (es wird nur ein Chi-Quadrat-Wert von 2,64 erreicht und 3,84 wäre das Minimum für ≥ 95%-ige Wahrscheinlichkeit f. Signifikanz, vgl. Datei), aber immerhin liegt die Wahrscheinlichkeit für Signifikanz bei rd. 75%.

Um die diachrone relative Verteilung der diesel-Frequenz in den Überschriften, je auf mde- u. fgo-Korpus bezogen, geht es in den nächsten Abfragen.

Die globale diesel-Frequenz im Titel je Zeitraum:

anz_titel_diesel_zr1	anz_titel_diesel_zr2
12	28

SELECT * FROM 
(SELECT COUNT(*) as anz_tok_titel_zr1 FROM `tokens` WHERE zwue = 1 AND datum BETWEEN 20071101 AND 20081031)a
JOIN (SELECT COUNT(*) as anz_tok_titel_zr2 FROM `tokens` WHERE zwue = 1 AND datum BETWEEN 20171101 AND 20181031)b

Die globale Tokenzahl der Titel je Zeitraum:

anz_tok_titel_zr1	anz_tok_titel_zr2
1243	2472

Die Okkurrenzen von diesel im Titel betrugen in beiden Zeiträumen rd. 1% an der jeweiligen Gesamt-Tokenzahl der Titel¹⁵¹.

Die Frequenz von diesel in den fgo- u. mde-Überschriften verteilt sich bezogen auf die beiden Zeiträume folgendermaßen:

SELECT * FROM
(SELECT COUNT(*) as anz_titel_diesel_fgo_zr1 FROM `tokens` WHERE token LIKE 'diesel' and zwue = 1 and zeitung = 'fgo' AND datum BETWEEN 20071101 AND 20081031)a
JOIN (SELECT COUNT(*) as anz_titel_diesel_fgo_zr2 FROM `tokens` WHERE token LIKE 'diesel' and zwue = 1 and zeitung = 'fgo' AND datum BETWEEN 20171101 AND 20181031)b

anz_titel_diesel_fgo_zr1	anz_titel_diesel_fgo_zr2
8	17

anz_titel_diesel_mde_zr1	anz_titel_diesel_mde_zr2
4	11

Absolut gesehen machten im Zeitraum A die fgo-diesel-Vorkommnisse im Titel 0,6% des entsprechenden Gesamtaufkommens aus; diejenigen von mde nur 0,3%. Für den Zeitraum B ergeben sich analog 0,7% bei fgo und 0,4% bei mde.

Der relative diesel-Anteil an der Überschrift je Zeitung auf die Zeiträume verteilt ergibt sich aus obigen Zahlen zusammen mit:

SELECT * FROM
(SELECT COUNT(*) AS anz_tok_zwue1_zr1 FROM `tokens` WHERE zwue = 1 AND datum BETWEEN 20071101 AND 20081031)a
JOIN (SELECT COUNT(*) AS anz_tok_zwue1_fgo_zr1 FROM `tokens` WHERE zwue = 1 AND zeitung = 'fgo' AND datum BETWEEN 20071101 AND 20081031)b
JOIN (SELECT COUNT(*) AS anz_tok_zwue1_mde_zr1 FROM `tokens` WHERE zwue = 1 AND zeitung = 'mde' AND datum BETWEEN 20071101 AND 20081031)c

anz_tok_zwue1_zr1	anz_tok_zwue1_fgo_zr1	anz_tok_zwue1_mde_zr1
1243	961	282

anz_tok_zwue1_zr2	anz_tok_zwue2_fgo_zr1	anz_tok_zwue2_mde_zr1
2472	1779	693

Die relative Frequenz von diesel in fgo und mde entspricht also für Zeitraum A:

0,8% (fgo), 1,4% (mde)

Für Zeitraum B:

1% (fgo), 1,6% (mde)

In beiden Zeiträumen hat also die Verwendung von diesel im Titel in beiden Zeitungen parallel um ca. 0,02% zugenommen.

Ob diesel in einer Artikel-Überschrift vorkommt, hängt also stärker von der Zeitung als vom Zeitraum ab.

Exkurs: Sicherstellen der DB-Konsistenz

Manchmal stößt man per Zufall auf Inkonsistenzen in der DB, was zwar insofern erfreulich ist, als man Fehler überhaupt entdeckt, die die Qualtität der Analyse möglicherweise beeinträchtigen könnten, z.T. aber langwieriges Suchen nach der Ursache nach sich zieht. Es empfiehlt sich deshalb, Dateninkonsistenz bereits zu Beginn systematisch auszuschließen, indem man die DB mit geeigneten Abfragen ‚abtastet‘, um ggf. Korrekturen vorzunehemen, *bevor* mit der konkreten Korpusauswertung begonnen wird. Um (wie im vorliegenden Fall) auszuschließen, dass sich z.B. Dateien bzw. Artikel mit Erscheinungsdaten außerhalb des intendierten Zeitraums befinden (was durch Fehler bei der Korpusgewinnung passieren kann), ist folgendes Abfrageschema geeignet:

SELECT * FROM
(SELECT MIN(datum) mindatum, MAX(datum) maxdatum FROM (SELECT * FROM tokens WHERE datum BETWEEN 20070101 AND 20071031)a)a JOIN
(SELECT MIN(datum) mindatum, MAX(datum) maxdatum FROM (SELECT * FROM tokens WHERE datum BETWEEN 20081101 AND 20081231)a)b JOIN
(SELECT MIN(datum) mindatum, MAX(datum) maxdatum FROM (SELECT * FROM tokens WHERE datum BETWEEN 20170101 AND 20171031)a)c JOIN
(SELECT MIN(datum) mindatum, MAX(datum) maxdatum FROM (SELECT * FROM tokens WHERE datum BETWEEN 20181101 AND 20181231)a)d

Das Ergebnis bestätigt, dass in der DB ausschließlich Zeitungsartikel bzw. Datensätze aus den definierten Zeiträumen A und B in der DB gespeichert sind:

mindatum	maxdatum	mindatum	maxdatum	mindatum	maxdatum	mindatum	maxdatum
NULL	NULL	NULL	NULL	NULL	NULL	NULL	NULL

8.1.6.2. diesel in der Unterüberschrift

Neben dem Titel (= Überschrift) ist auch der Aufhänger (= Unterüberschrift) als Textbereich bzw. Korpusdimension von (korpus-)linguistischem Interesse, da sich in diesen Bereichen entscheidet, ob ein Artikel vom Leser ‚in Angriff genommen wird‘ oder nicht.

Die Unterüberschrift wird in beiden untersuchten Zeitungen grundsätzlich zu Beginn des Haupttextes wortwörtlich wiederholt (daher endet der Untertitel meist als unvollendeter Satz mit „…“¹⁵²). Das heißt, dass die Portionen des tokenisierten Textes, die als Tokens nacheinander (mit aufeinaderfolgenden IDs) in der Tab. vorkommen und in der Spalte `zwue`den Wert 2 haben, im Anschluss daran nochmals in der genau gleichen Reihenfolge mit dem `zwue`-Wert 0 (= Haupttext) vorkommen.

Zunächst werden wieder die Frequenzen bezogen auf das Gesamtkorpus ermittelt:

SELECT * FROM `tokens` WHERE token LIKE 'diesel' and zwue = 2

(queries_id 104)

SELECT COUNT(*) as anz_diesel_zwue2 FROM `tokens` WHERE token LIKE 'diesel' and zwue = 2

anz_diesel_zwue2
61

Mit der Anzahl aller in Unterüberschriften enthaltenen Tokens verrechnet:

SELECT COUNT(*) as anz_tok_zwue2 FROM `tokens` WHERE zwue = 2

anz_tok_zwue2
13403

Es zeigt sich, dass die 61 Fälle knapp 0,5% aller Untertitel-Tokens ausmachen.

Da das Korpus 416 Zeitungsartikel umfasst, kommt im Mittel in 14,5% der Untertitel diesel vor.

Nun soll berechnet werden wie die 61 globalen diesel-Vorkommen im Aufhänger auf die beiden Zeitungen verteilt sind:

SELECT * FROM
(SELECT COUNT(*) as anz_diesel_zwue2_mde FROM `tokens` WHERE token LIKE 'diesel' and zwue = 2 AND zeitung = 'mde')a
JOIN (SELECT COUNT(*) as anz_diesel_zwue2_fgo FROM `tokens` WHERE token LIKE 'diesel' and zwue = 2 AND zeitung = 'fgo')b

anz_diesel_zwue2_mde	anz_diesel_zwue2_fgo
11	50

Um die relative Häufigkeit je Teilkorpus zu berechnen, wird wieder die jeweilige Gesamttokenzahl von mde- u. fgo-Untertiteln hinzugezogen:

SELECT * FROM
(SELECT COUNT(*) as anz_tok_zwue2_mde FROM `tokens` WHERE zwue = 2 AND zeitung = 'mde')a
JOIN (SELECT COUNT(*) as anz_tok_zwue2_fgo FROM `tokens` WHERE zwue = 2 AND zeitung = 'fgo')b

anz_tok_zwue2_mde	anz_tok_zwue2_fgo
2736	10667

In den mde-Untertiteln macht diesel 0,4% der Tokens aus, bei fgo sind es 0,5%. Das Verhältnis ist also bei beiden Zeitungen ähnlich und entspricht auch dem globalen Verhältnis zwischen diesel und anderen Tokens im Untertitel.

Die Anzahl der Zeitungsartikel, die keinen Untertitel haben, beträgt insgesamt nur 3, wie aus folgender, an die Tab. meta gestellte Abfrage ergibt:

SELECT * FROM `meta` WHERE Untertitel LIKE ''

Die hohe Anzahl der Tokens in fgo-Untertiteln hängt also direkt mit dem fgo-Anteil von 319 an den 416 Zeitungsartikeln zusammen:

SELECT COUNT(*) FROM `meta` WHERE Datei LIKE 'fgo%'

Diese entsprechen 77% aller Artikel, was durch analoge Abfrage mit mde bestätigt wird, die 97 mde-Artikel ausgibt, was 23% aller Artikel entspricht.

Die 10667 fgo-Untertitel-Tokens verteilen sich auf 319 Artikel, die 2736 mde-Pendants auf 97 Artikel, d.h. auf jeden fgo-Untertitel entfallen durchschnittlich 33,5 Untertitel-Tokens, auf jeden mde-Untertitel durschchnittlich 28. Die mde-Untertitel sind also durchschnittlich um 5,5 Tokens kürzer als die fgo-Untertitel. Dies bedeutet, dass die Aufhänger im mde-Korpus im Schnitt 18%¹⁵³ kürzer ausfallen als im fgo-Korpus.

Diachron hat sich die diesel-Frequenz in den Unterüberschriften so entwickelt:

SELECT * FROM
(SELECT COUNT(*) as anz_diesel_zwue2_zr1 FROM `tokens` WHERE token LIKE 'diesel' and zwue = 2 AND datum BETWEEN 20071101 AND 20081031)a
JOIN (SELECT COUNT(*) as anz_diesel_zwue2_zr1 FROM `tokens` WHERE token LIKE 'diesel' and zwue = 2 AND datum BETWEEN 20171101 AND 20181031)b

anz_diesel_zwue2_zr1	anz_diesel_zwue2_zr2
23	38

Die Gesamt-Tokenzahl der Untertitel je Zeitaum:

SELECT * FROM
(SELECT COUNT(*) as anz_tok_zwue2_zr1 FROM `tokens` WHERE zwue = 2 AND datum BETWEEN 20071101 AND 20081031)a
JOIN (SELECT COUNT(*) as anz_diesel_zwue2_zr2 FROM `tokens` WHERE zwue = 2 AND datum BETWEEN 20171101 AND 20181031)b

anz_tok_zwue2_zr1	anz_diesel_zwue2_zr2
5226	8177

Im Zeitraum A beträgt der Anteil der diesel-Vorkommnisse demnach 0,4% der entsprechenden Untertitel-Token, im Zeitraum B geringfügig mehr mit 0,5%. Das heißt, die relative Präsenz von diesel in den Untertiteln hat insgesamt kaum zugenommen. Das Verhältnis entspricht dem oben festgestellten Verhätlnis der diesel-Anteile in den mde- und fgo-Untertiteln. Diese ‚Überkreuz-Proportionalität‘ ist auch bei früheren Abfragen und Berechnungen schon aufgefallen und gab immer wieder Anlass, nachzurechnen, doch es bestätigt sich immer wieder, dass die quantitativen Eigenschaften des mde-Korpus denen des Zeitraums A und diejenigen des fgo-Korpus denen des Zeitraums B hinsichtlich diesel-Frequenzen oftmals ähnlich sind. Dies ist zwar nachvollziehbar aufgrund der grundsätzlichen, identischen (!) Frequenzen von diesel jeweils in fgo/Zeitraum B und mde/Zeitraum A, aber die Verteilung in den Textbereichen war davon ausgehend nicht vohersagbar und gerade bei diesel im Titel wurde ja ein recht deutlicher Unterschied zwischen mde und fgo festgestellt.

8.1.6.3. diesel im Haupttext

Nun wird die Frequenz von diesel im Haupttext, also von diesel-Vorkommnissen mit dem `zwue`-Feldwert 0, ermittelt:

SELECT * FROM `tokens` WHERE token LIKE 'diesel' and zwue = 0

(queries_id 83)

SELECT COUNT(*) as diesel_haupttext FROM `tokens` WHERE token LIKE 'diesel' and zwue = 0

diesel_haupttext
1013

Die Tokenzahl aller Haupttexte:

SELECT * FROM
(SELECT COUNT(*) as anz_tok_haupttext_mde FROM `tokens` WHERE zwue = 0 AND zeitung = 'mde')a
JOIN (SELECT COUNT(*) as anz_tok__haupttext_fgo FROM `tokens` WHERE zwue = 0 AND zeitung = 'fgo')b

anz_tok_haupttext
345476

Die 1013 diesel-Vorkommnisse haben einen Anteil von 0,3% an den Haupttexten. Die diesel-Dichte ist somit hier etwas geringer als in Titel und Aufhänger.

Auf mde und fgo-Korpus teilen sie sich folgendermaßen auf:

SELECT * FROM
(SELECT COUNT(*) as diesel_haupttext_mde FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 0 AND zeitung = 'mde')a
JOIN (SELECT COUNT(*) as diesel_haupttext_fgo FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 0 AND zeitung = 'fgo')b

diesel_haupttext_mde	diesel_haupttext_fgo
334	679

Die Haupttext-Tokenzahlen im jeweiligen Teilkorpus:

SELECT * FROM
(SELECT COUNT(*) as anz_tok_haupttext_mde FROM `tokens` WHERE zwue = 0 AND zeitung = 'mde')a
JOIN (SELECT COUNT(*) as anz_tok__haupttext_fgo FROM `tokens` WHERE zwue = 0 AND zeitung = 'fgo')b

anz_tok_haupttext_mde	anz_tok__haupttext_fgo
93364	252112

Im mde-Hauptext macht das Aufkommen von diesel knapp 0,4% aus, im Fall von fgo sind es knapp 0,3%. Auch hier findet sich demnach keine auffällige Verteilung, wobei der fgo-Anteil nahe am Gesamtdurchschnitt liegt und mde etwas darüber (passend zur bereits höheren Dichte in Titel u. Untertiteln).

Wie sieht es bei den Zeiträumen A und B aus?

SELECT * FROM
(SELECT COUNT(*) as diesel_hauttx_zr1 FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 0 AND datum BETWEEN 20071101 AND 20081031)a 
JOIN (SELECT COUNT(*) as diesel_haupttx_zr2 FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 0 AND datum BETWEEN 20171101 AND 20181031)b

diesel_hauttx_zr1	diesel_haupttx_zr2
333	680

SELECT * FROM
(SELECT COUNT(*) AS tok_haupttx_zr1 FROM `tokens` WHERE zwue = 0 AND datum BETWEEN 20071101 AND 20081031)a 
JOIN (SELECT COUNT(*) AS_haupttx_zr2 FROM `tokens` WHERE zwue = 0 AND datum BETWEEN 20171101 AND 20181031)b

tok_haupttx_zr1	AS_haupttx_zr2
119778	225698

Sowohl im Zeitraum A als auch im Zeitraum B hat diesel im Haupttext demnach einen 0,3%-Anteil an der jeweiligen Gesamt-Tokenzahl. Dies entspricht wiederum dem Gesamtdurchschnitt.

8.1.6.4. diesel in der Zwischenüberschrift und in Einschüben

Die Strukturierung der Korpusdaten fasst Unterüberschriften und die für die untersuchten Online-Ausgaben typischen (meist seitlichen) Einschübe, welche texthierarchisch äquivalent zu den klassischen Zwischenüberschriften sind (die entsprechenden Texstellen werden z.B. immer, wenigstens z.T., im nächstgelegenen Absatz ebenfalls wiedergegeben), unter dem `zwue`-Feldwert 4 zusammen. Der Einfachheit halber kürze ich diese Kategorie von Textbereichen als zwue4 ab.

Zur Bestimmung der absoluten und relativen diesel-Frequenz in den Teilkorpora wird wieder nach d. bisherigen Schema abgefragt. Zunächst wird die globale diesel-Frequenz in zwue4 bestimmt. Eine Übersicht über die diesel-Frequenz in zwue4 der Teilkorpora mde u. fgo und die jeweiligen Gesamt-Tokenzahlen:

SELECT * FROM
(SELECT COUNT(*) AS diesel_zwue4 FROM `tokens` WHERE zwue = 4 AND token LIKE 'diesel')a 
JOIN (SELECT COUNT(*) AS diesel_zwue4_fgo FROM `tokens` WHERE zwue = 4 AND token like 'diesel' AND zeitung = 'fgo')b
JOIN (SELECT COUNT(*) AS diesel_zwue4_mde FROM `tokens` WHERE zwue = 4 AND token LIKE 'diesel' AND zeitung = 'mde')c

(queries_id 138)

diesel_zwue4	diesel_zwue4_fgo	diesel_zwue4_mde
42	28	14

SELECT * FROM
(SELECT COUNT(*) AS tok_zwue4 FROM `tokens` WHERE zwue = 4)a
JOIN (SELECT COUNT(*) AS tok_zwue4_fgo FROM `tokens` WHERE zwue = 4 AND zeitung = 'fgo')b
JOIN (SELECT COUNT(*) AS tok_zwue4_mde FROM `tokens` WHERE zwue = 4 AND zeitung = 'mde')c

tok_zwue4	tok_zwue4_fgo	tok_zwue4_mde
9680	7583	2097

Die fgo-Vorkommnisse von diesel in zwue4 haben einen Anteil von 78% am entsprechenden globalen Aufkommen in diesem Textbereich; der entsprechende verbleibende mde-Anteil beträgt 22%.

Die relative Häufigkeit von diesel in zwue4 beträgt im Gesamtkorpus 0,4%, im fgo-Korpus ebenfalls (knapp) 0,4% und im mde-Korpus deutlich höhere 0,7%. Dieser Befund schließt sich an die oben festgestellten höheren diesel-Anteile in mde-Titeln und -Untertiteln an.

Für die Ermittlung der diachronen Verteilung der relativen Häufigkeit werden wieder die jeweiligen diesel-Frequenzen und die jeweiligen Gesamt-Tokenzahlen benötigt:

SELECT * FROM
(SELECT COUNT(*) AS diesel_zwue4_zr1 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031 AND token LIKE 'diesel')a
JOIN (SELECT COUNT(*) AS diesel_zwue4_zr2 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031 AND token LIKE 'diesel')b

diesel_zwue4_zr1	diesel_zwue4_zr2
6	36

SELECT * FROM
(SELECT COUNT(*) AS tok_zwue4_zr1 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031)a
JOIN (SELECT COUNT(*) AS tok_zwue4_zr2 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031)b

tok_zwue4_zr1	tok_zwue4_zr2
1409	8271

Daraus ergibt sich die diachrone zwue4-Verteilung von diesel im Gedamtkorpus von je 0,4% in Zeitraum A und B. Global gesehen hat sich hier also nichts verändert.

Diachron für mde- u. fgo-Korpus:

SELECT * FROM
(SELECT COUNT(*) AS diesel_zwue4_zr1 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031 AND token LIKE 'diesel')a
JOIN (SELECT COUNT(*) AS diesel_zwue4_zr1_fgo FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031 AND token LIKE 'diesel' AND zeitung = 'fgo')b
JOIN (SELECT COUNT(*) AS diesel_zwue4_zr1_mde FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031 AND token LIKE 'diesel' AND zeitung = 'mde')c

diesel_zwue4_zr1	diesel_zwue4_zr1_fgo	diesel_zwue4_zr1_mde
6	6	0

SELECT * FROM 
(SELECT COUNT(*) AS tok_zwue4_zr1 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031)a
JOIN (SELECT COUNT(*) AS tok_zwue4_zr1_fgo FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031 AND zeitung = 'fgo')b 
JOIN (SELECT COUNT(*) AS tok_zwue4_zr1_mde FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20071101 AND 20081031 AND zeitung = 'mde')c

tok_zwue4_zr1	tok_zwue4_zr1_fgo	tok_zwue4_zr1_mde
1409	1201	208

Zeitraum A: ges 0,4%, fgo 0,5%, mde 0% !

SELECT * FROM 
(SELECT COUNT(*) AS diesel_zwue4_zr2 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031 AND token LIKE 'diesel')a
JOIN (SELECT COUNT(*) AS diesel_zwue4_zr2_fgo FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031 AND zeitung = 'fgo' AND token LIKE 'diesel')b 
JOIN (SELECT COUNT(*) AS diesel_zwue4_zr2_mde FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031 AND zeitung = 'mde' AND token LIKE 'diesel')c

diesel_zwue4_zr2	diesel_zwue4_zr2_fgo	diesel_zwue4_zr2_mde
36	22	14

SELECT * FROM
(SELECT COUNT(*) AS tok_zwue4_zr2 FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031)a
JOIN (SELECT COUNT(*) AS tok_zwue4_zr2_fgo FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031 AND zeitung = 'fgo')b
JOIN (SELECT COUNT(*) AS tok_zwue4_zr2_mde FROM `tokens` WHERE zwue = 4 AND datum BETWEEN 20171101 AND 20181031 AND zeitung = 'mde')c

tok_zwue4_zr2	tok_zwue4_zr2_fgo	tok_zwue4_zr2_mde
8271	6382	1889

Zeitraum B: ges 0,4%, fgo 0,3%, mde 0,7%

8.2. Zusammenfassung Frequenz von diesel & Co

Die Frequenz von diesel(s) und gazole ist für das Gesamtkorpus, die 4 übergeordneten Teilkorpora und die 4 Textbereiche umfassend anhand v. SQL-Abgragen untersucht worden. Folgende Befunde sind aus dieser Abfragereihe hervorgangen:

8.2.1. Frequenz von /diesel/ und Erweiterungen in verschiedenen Korpusbereichen

8.2.1.1. Frequenz im Gesamtkorpus

Zeichenfolge /diesel/ gesamt: 1419

Sing. diesel gesamt: 1156 → 0,31% v. Gesamt-Tokenzahl (= relativer Anteil)

Pl. diesels gesamt: 109 → 0,03% v. Gesamt-Tokenzahl

Die Fälle der Bezeichnungen f. das Konzept mit der Pluralform machen rd. 9% aus und wurden aus SQL-methodischen Gründen separat behandelt. Diesels hat auch deshalb eher den methodischen Stellenwert von gazole, weil es nicht in die initialen Suchkriterien (Korpusgewinnung) eingebunden war.

⇒ Lexem diesel: 1265 (0,34 %)

Komposita mit /diesel/: 148; die vorhandenen Komposita könnten als ‚Pseudo-Kollokationen‘ im deduktiven Teil d.v.A. verwertet werden, um Kategorien von Sprachgebrauchsmustern zu finden.

8.2.1.2. Frequenz in den Zeitungen

diesel in fgo: 782 → 68% absoluter Anteil (an 1156 globalen diesel-Vorkommnissen); 0,28% *relativer Anteil* (an fgo-Tokens); Plural: 91 → 0,03% rel. Anteil

diesel in mde: 374 → 32% absoluter Anteil (an 1156 globalen diesel-Vorkommnissen); 0,38% *relativer Anteil* (an fgo-Tokens); Plural: 18 → 0,02% rel. Anteil

⇒ Der relative Anteil der diesel-Vorkommnisse ist bei mde um 10% und damit *signifikant höher* als bei fgo. Der rel. Anteil des Plurals ist bei beiden ähnlich gering¹⁵⁴.

8.2.1.3. Frequenz in den Zeiträumen

diesel in Zeitraum A (2007/08): 374 → 0,29% relativer Anteil (an Tokens im Zeitraum A)

diesel in Zeitraum B (2017/18): 782→ 0,32% relativer Anteil

Dass die Frequenzen von Zeitraum A identisch sind mit denen des mde-Teilkorpus und entsprechend die Frequenzen v. Zeitraum B und fgo-Teilkorpus, ist zwar frappierend, scheint aber Zufall zu sein.

Der vorhandene Unterschied des relativen Anteils ist lt. Signifikanztest *nicht signifikant*.

8.2.1.4. Frequenz in den Textbereichen

diesel im Titel: 40 → 1% relativer Anteil (an 3715 Titel-Tokens); → diesel kommt in 10% bzw. 1 von 10 (der) Titel vor;

im fgo-Titel: 25 → 0,1% relativer Anteil; im mde-Titel: 15 → *1,5% relativer Anteil* jedoch keine Signifikanz nachgewiesen (niedr. Grundwerte);

im Zeitaum A: 12 → 1% r.A.; im Zeitraum B: 28 → 1% r.A.

⇒ Anhand der zeitungsspezifischen Titel-Frequenzen je Zeitraum (d.h der jeweiligen diachronen Entwicklung) wurde ermittelt, dass es stärker von der Zeitung als vom Zeitraum abhängt, ob diesel in einem Titel auftaucht oder nicht.

diesel im Untertitel: 61 → 0,5% rel. Anteil (an Untertitel-Tokens); → diesel kommt in 14,5% d. Untertitel vor;

im fgo-Untertitel: 50 → 0,5% r.A.; im mde-Untertitel: 11 → 0,4% r.A.; durchschnittl. Untertitel-Länge fgo 33,5 vs. mde 28 (*5,5 Tokens mehr* bei fgo bzw. 18%);

im Zeitraum A: 23 → 0,4% r.A.; im Zeitraum B: 38 → 0,5% r.A.

diesel im Haupttext: 1013 → 0,3% r.A.

im fgo-Haupttext: 679 → 0,3% r.A.; im mde-Haupttext: 334 → 0,4%

im Zeitraum A: 333 → 0,3% r.A.; im Zeitraum B: 680 → 0,3% r.A.

diesel in Zwischenüberschriften/Einschüben: 42 → 0,4% r.A.

fgo: 28 → 0,4%; *mde: 14 → 0,7%*

Zeitraum A: 6 → 0,4%; Zeitraum B: 36 → 0,4%

Anhand der diachronen Frequenzen bei mde u. fgo wurde gezeigt, dass die rel. Präsenz von diesel in Zwischenüberschriften und Einschüben *stark zugenommen* hat (von 0% auf 0,7%), allerdings steht die Signifkanz auf wackligen Beinen, da die Grundwerte so niedrig sind.

8.2.1.5. Frequenz von gazole

Der relative Anteil v. gazole *an den Konzeptbezeichnungen* beträgt global 7%; fgo und Zeitraum A bwz. mde und Zeitruam B verhalten sich ähnlich: fgo 8%/ Zeitraum A 10% VS mde 5%/Zeitraum B 5%.

Diachron wurde ermittelt, dass der rel. Bezeichnungsanteil v. gazole bei mde von 10% auf 3% gesunken ist; bei fgo von 10% auf 6%.

Dies könnte ein Hinweis darauf sein, dass Le Monde hier mehr mit der Zeit gegangen ist (signifikanter Rückgang insgesamt) und Le Figaro eher seinem konservativen Image gerecht wird.

8.2.1.6. Fazit

Die Frequenz von diesel enstpricht über alle Korpus- u. Tetxbereiche gesehen einem typischen relativen Anteil zwischen 0,3% und 0,4% Prozent. Festzhalten ist, dass der r.A. in Le Monde mit 0,38% signifikant höher ist als in Le Figaro (0,28%). Eine entsprechende Tendenz zeigte sich (nicht endeutig signifikant wg. der kleineren Tokenzahlen) auch bei den Titeln und Zwischenüberschriften. Deutlich ist auch geworden, dass die Verwendung von gazole stark abgenommen hat, insbesondere im mde-Korpus.

8.2.1.7. Kategorien und diskursanalytische Indizien

Erste Kategorien (Domänen) sind zu erkennen, mit denen diesel eng in Verbindung steht: Technik, (Umwelt-)Politik, Wirtschaft(sbetrug).

Ferner wurde für die Komposita dieselgate und turbodiesel eine nicht zu vernachlässigende Frequenz festgestellt. Die Frage, ob deren Verwendung mit bestimmten diskursiven Praktiken zusammenhängt bzw. mit welchen, lässt sich ggf. corpus-based sich im Rahmen der Qualifizierung der quantitativen corpus-driven Befunde untersuchen.

Die im Vgl. zum fgo-Teilkorpus signifikant höhere rel. Frequenz von diesel im mde-Teilkorpus könnte ein Indiz dafür sein, dass Le Monde Konzepte der Domäne ‚Dieseltechfahrzeuge‘ eher problematisiert bzw. kontroverse Aspekte stärker fokussiert als dies bei Le Figaro der Fall ist. Die liberal-konservative Ausrichtung des Figaro würde dies untermauern. Auf die Frage, ob und inwiefern ein solcher Zusammenhang besteht, kann ggf. corpus-based näher untersucht werden.

Beobachtungen zur unterscheidlichen Frequenz v. diesel vs. gazole je Teilkorpus legen nahe, dass die Selektion mitunter auf den jeweiligen Konnotationen beruht und gezielt erfolgt, um Bewertungen in vordergründig infomationsbeonte Texte einzubringen.

9. Korpusanalyse IV: Kollokationen

Am Ende des Kap. findet sich eine Zusammenfassung.

9.1. Kollokationen mit diesel in einzelnen Korpusbereichen

9.1.1. Kollokationen mit diesel im Gesamtkorpus

Eine ausführliche Darstellung *aller* Kollokatoren (mit ID und Datei zu jedem Kollokator-Vorkommnis) liefert folgende Abfrage:

SELECT * FROM (SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa

(queries_id 214¹⁵⁵)

Die Logik der Abfrage bestimmt die Lesart für die Ergebnistabelle (s. Datei): Der distanz-Feldwert -1 besagt, dass das Token (b.id) im Zeitungsartikel rechts von bzw. hinter diesel steht (weil dann die ID des Kollokators um einen Zähler höher sein muss als die ID des jeweiligen diesel-Vorkommnisses). Der distanz-Wert 1 bedeutet umgekehrt, dass das Token links von bzw. vor diesel steht (weil die ID des Kollokators abgezogen von der ID des diesel-Vorkommnisses 1 ergibt).

Die Ausgabetabelle enthält 2309 DS, d.h. diesel hat im gesamten Korpus bzw. in allen 416 Zeitungsartikeln zusammengenommen diese Anzahl an direkten Nachbarn.

Davon nur die *links* von bzw. vor diesel stehenden Kollokatoren zu extrahieren, erlaubt eine geringfügige Modifizierung der ersten Abfrage (nur a.id-b.id = 1, ohne OR-Zusatz):

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1

(queries_id 212; Ausgabetab. s. Datei)

Es werden 1153 DS ausgegeben. Wiederholt man die Abfrage für die Position *rechts*, werden 1156 DS ausgegeben:

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a 
JOIN tokens b ON a.datei=b.datei and a.id-b.id=-1

(queries_id 213 für rechts; Ausgabetab. s. Datei)

D.h. 1153 Kollokoatoren stehen links von diesel, 1156 rechts davon. Wie zuvor festgestellt, kommt diesel insgesamt 1156 mal im Korpus vor, d.h. in drei Fällen steht es am Beginn einer Artikelüberschrift (mit der Bedingung a.datei=b.datei wurde ja sichergestellt, dass nur tatsächliche Kollokationen innerhalb jeweils eines Zeitungsartikels erfasst werden). Folgende Abfrage in der Tab. meta bestätigt diese Tatsache:

SELECT * FROM `meta` WHERE Titel LIKE 'diesel%'

Es werden 11 DS ausgebenen, wovon drei in der Spalte Titel nur diesel enthalten, die restlichen 6 dieselgate.

Bei der Betrachtung der Frequenz der Kollokatoren ist zu bedenken, dass diese – entsprechend der Definition f.d.v.A. – im corpus-driven Verfahren lediglich als Zeichenfolge extrahiert werden, die durch ein Leerzeichen von der Textumgebung getrennt ist und als nächsten Nachbarn jenseits der Leerzeichen die ebenfalls durch Leerzeichen begrenzte Zeichenfolge /diesel/ hat.

In einem französichen Korpus hat dies zusammen mit der Tatsache, dass diesel kein gewöhnliches Adjektiv ist, sondern aus einer Antonomasie¹⁵⁶ hervorgegangen ist und stets auf ein übereinzelsprachlich bekanntes Konzept referiert, zur Folge, dass mit der Linksstellung von Kollokatoren vorwiegend Syntagmen gebildet werden (entsprechend der Situation im Deutschen bei Voranstellung in Dieselfahrzeug). Dies führt automatisch zu einer hohen Frequenz der wenigen Kandidaten für solche Verbindungen und relativiert den quantitativen Befund der unabhängig von ihrer Position extrahierten Kollokatoren. Linksstehende K. führen also die globale Rangliste an, weil die geringe Selektionsbreite zu einer Häufung führt; ein weiterer Grund ist, dass selbst im Zusammenhang mit dem Kraftstoff an sich meist (zumindest auch) die Rede von Fahrzeugen ist, die ihn verwenden.

Um zu erfahren, welche Kollokatoren je Position am häufigsten sind, genügt es, obige Abfrage für beide Positionenen entsprechend zu modifizieren:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_diesel FROM 
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel')a 
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa 
GROUP BY token order by klk_diesel desc

(queries_id 324)

Die Rangliste der Kollokatoren *links* v. diesel wird ausgegeben. Hier die ersten 25 DS:

Mit absteigender Frequenz sind folgende als autosemantische bzw. methodisch relevante¹⁵⁷ li-K.¹⁵⁸ fungierende Lemmata als häufig bzw. mind. 5-fach identifiziert worden:

moteur, véhicule, turbo, version, modèle, voiture, hybride, motorisation, technologie, (Rudolf), petit, gamme, litre

Aber auch Kollokatoren, die seltener auftreten, sind für die Korpusanalye von Bedeutung und sollen inventarisiert werden. Sollen K.¹⁵⁹-Frequenzen verschiedener Korpusbereiche verglichen werden, gibt die absolute Frequenz keinen Aufschluss über die Verteilung, daher muss (wie zuvor im Fall der diesel-Frequenzen) für jedes K.-Lemma der *relative Anteil*¹⁶⁰ an allen K. des gewählten Bereichs berechnet werden, um eine Vergleichsbasis zu haben. Da es insgesamt 1153 li-K. gibt, ergeben sich je Lemma folgende relative Anteile¹⁶¹:

moteur (193x) → 16,8%

véhicule (61x) → 5,3%

modèle (22x) → 1,9%

version, motorisation (20x) → 1,7%

turbo (inkl. biturbo), voiture (19x) → 1,6%

cylindre (inkl. bicylindre, 4-cylindres, quatre-cylindres) (16x) → 1,4%

hybride (13x) (inkl. hybridation) → 1,3%

technologie, litre (inkl. 2-litres) (10x) → 0,9%

petit, (Rudolf¹⁶²) (7x) → 0,6%

gamme (6x) → 0,5%

vieux (4x), nouveau (3x) → 0,4%

groupe, parc, citadin(e), luxe, compact, injecteur, mécanique, berline, équivalent, seul, trop, HDi¹⁶³ (2x) → 0,2%

Die Liste der 22 nur 1x als li-K. verwendeten (*relevanten*) Lemmata mit einem r.A. von 0,1% (0,0867%):

alternatif

antipollution

bouillant

bus

côté

coupé

dernier

effet

émanation

éventuel

filière

futur

gros

même

moteur/-rice (Adj.)

offrir

particulier

péniche

solide

tout

voire

zéro

Folgende Variante der Abfrage liefert die Rangliste der Kollokatoren *rechts* v. diesel:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_diesel FROM 
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel')a 
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.id=-1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa 
GROUP BY token order by klk_diesel desc

(queries_id 325)

Die ersten 25 DS daraus:

Da es insgesamt 1156 re-K. gibt, haben die extrahierten Lemmata analog zu oben je folgende rel. Anteile an allen re-K.:

truquer, turbo (inkl. biturbo) (11x) → 1%

consommer, moderne (6x) → 0,5%

émettre, avec (5x) → 0,4%

hybride, représenter, rester (4x) → 0,3% (0,35%)

continuer, mais, coûter, sans, propre, Blue-HDi¹⁶⁴, Bluetec¹⁶⁵, EcoBlue¹⁶⁶ (je 1x, zusammengefasst wg. der Zeichenfolge /blue/¹⁶⁷) (3x) → 0,3% (0,26%)

maison, aujourd[d’hui], bashing, rejeter, comparer, générer, coûter, équivalent/ant, réussir, devenir, équiper, détenir, sans, vanter, non (2x) → 0,2%

Nur 1x kommen folgende 94 Lemmata als re-K. vor, was einem jew. rel. Anteil v. 0,1% (0,087%) entspricht:

adapter

afficher, afin

animer

antérieur

apparaître

arriver

atone

augmenter

autant

baisse

bientôt

briller

cache/r

cependant

chute/r

classique

commercialiser

compter

connaître

conserver

constituer

contre

coûter

CRD¹⁶⁸

dater

DCI¹⁶⁹

débuter/début

deuxième

développer

disparaître

diviser

double

éclater

économique

empêcher

entraîner

éviter

évoluer

fabriquer

faussement

fonctionner

fournir

HDi

issu

jouer

malgré

modifier

montrer

moyen

muni/r

mystique

neutre

nouveauté

obliger

obtenir

paraître

particule

plus

polluant/polluer

prendre

présenter

prévu

produire

progresser

prononcer

provenir

provoquer

récent

recevoir

réglementation

régner

repartir

reposer

respecter/ant

risquer

sacrifier, sans

séduire

sentir

sortir

sous

sportif

subir

subventionner

supposer

survitaminé/r

TDI

tenir

toujours

traverser

trouver

truste

vibrer

vieillir, voire

Damit liegen Kollokator-Paradigmen für beide Kollokationsseiten und die nötigen Referenzwerte vor, um die Kollokator-Frequenzen in den Teilkorpora untereinander zu vergleichen.

Es bietet sich zwar übersichtshalber noch an, die Kollokationen nach Wortarten zu filtern, aber bei Wortart-Abfragen muss man immer bedenken, dass die TreeTagger-Annotierung der Tokens Fehler bzw. Fehlinterpretationen aufweisen kann, etwa wenn das Suffix -eur beides signalisieren kann: Adjektiv, aber auch Nomen (kontextabhängig u. daher nicht zu 100% in der Konfiguration abbildbar!). Nach folgendem Schema kann man sich dennoch einen groben Überblick verschaffen. Anstelle von ‚ADJ%‚ als Filterkriterium kann man auch jeden anderen `wortart`-Feldwert nehmen¹⁷⁰:

SELECT COUNT(*) token FROM 
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a 
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 WHERE b.wortart LIKE 'ADJ')aa

Anmerkung: SQL-Abfragen können direkt aus dem grau unterlegten Feld kopiert u. in PMA ausgeführt werden. Dazu Tab. tokens anklicken → Menüpkt. „Inline bearbeiten“ → Abfrage in das Feld kopieren und mit „OK“ bestätigen.

Für die weitere Untersuchung spielt die Verwendung von `wortart`-Werten nur noch eine Rolle, um nach dem Ausschlussverfahren die Anzahl nicht benötigter Types in den Ausgabetab. zu minimieren (indem eindeutig annotierte Tokens wie Zahlen und Funktionswörter ausgeschlossen werden).

9.1.1.1. Beobachtungen für corpus-based Untersuchungen

Die als diskurslinguistisch relevant gesetzten, aus allen Kollokatoren-Types (queries_id 308) im Gesamtkorpus ausgewählten Lemmata

bilden Kategorien bzw. sind anhand v. *Kategorien* klassifizierbar
können mithilfe der vollständigen Liste der Kollokatoren-Tokens (queries_id 214, s. Datei) im jeweiligen Quellext (über `datei`) gefunden und im Kontext untersucht werden. Zusammen mit darauf aufbauenden Abfragen ermöglicht die Kontextualisierung der Kollokationen die Identifizierung von *diskursiven Mustern*.

9.1.2. Kollokationen mit diesel in den beiden Zeitungen

Alle Kollokatoren von diesel im mde-Korpus:

SELECT aa.datei, aa.token AS klk_diesel_mde, aa.distanz FROM (SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 WHERE b.datei LIKE 'mde%')aa
order by aa.token

(queries_id 31)

(Als Types: queries_id 309)

Die Rangliste der *links* stehenden K. in mde:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_mde FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'mde')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_mde desc

(queries_id 326)

Die Anzahl aller li-K. (und auch der re-K.) im mde-Teilkorpus beträgt 374, wie durch

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zeitung = 'mde')a JOIN tokens b ON a.datei=b.datei and a.id-b.id=-1

schnell überprüft ist.

Davon machen die Frequenzen der extrahierten K.-Lemmata je folgenden Anteil aus¹⁷¹:

moteur (60x) → 16,0%

véhicule (26x) → 7,0%

modèle (14x) → 3,8%

version, motorisation (10x) → 2,7%

litre, voiture, (Rudolf (6x) → 1,6%)

technologie (5x) → 1,3%

hybride (4x) → 1,1%

vieux (3x) → 0,8%

turbo (2x) → 0,5%

antipollution, (bi)cylindre, bus, effet, futur, gros, groupe, HDi¹⁷², parc (1x) → 0,3%

Rangliste der *rechts* stehenden K. im mde -Teilkorpus:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_mde FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'mde')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_mde desc

(queries_id 327)

Folgende rel. Anteile an allen 374 re-K. im mde-Teilkorpus haben die aus der Ausgabetab. manuell extrahierten Lemmata:

truquer (truqué), représenter (3x) → 0,8%

moderne, coûter, équivalent/ant (2x) → 0,5%

die u.st. 37 einmalig vorkommenden K. haben jeweils einen Anteil v. 0,3%.:

antérieur

autant

avec

bashing

cacher

classique

consommer

continuer

contre

CRD

DCI

débuter

détenir

devenir

diviser

éclater

empêcher

équipé/er

fabriquer

HDi

modifier

non

obtenir

polluer/ant

prévu

provoquer

récent

respecter

rester

sacrifier

sans

sentir

subventionné/er

trouver

turbo

Analog werden im fgo-Korpus wieder zuerst die *links*-Kollokatoren festgehalten:

SELECT aa.datei, aa.token AS klk_diesel_fgi, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 WHERE b.datei LIKE 'fgo%')aa
order by aa.token

(queries_id 319; als Types: queries_id 310)

Die Rangliste der li-Kollokatoren bei fgo gibt diese Abfrage aus:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_fgo FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'fgo')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_fgo desc

(queries_id 328)

Wie die folgende Abfrage¹⁷³

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zeitung = 'fgo')a 
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1

zeigt, gibt es im fgo-Teilkorpus 779 li-K., was wieder als Referenzwert für die Berechnung der rel. Anteile dient.

Aus der Rangliste lassen sich folgende lexikalisch relevanten li-K. manuell extrahieren sowie ihr entsprechender relativer Anteil an allen 779 li. stehenden fgo-Kollokatoren:

moteur (133x) → 17,1%

véhicule (35x) → 4,5%

turbo (16x) → 2,1%

cylindre (14x) → 1,8%

voiture (12x) → 1,5%

hybride (inkl. hybridation) (11x) → 1,4%

motorisation, version (10x) → 1,3%

modèle (8x) → 1,0%

petit (7x) → 0,9%

gamme (6x) → 0,8%

litre, technologie (4x) → 0,5%

nouveau (3x) → 0,4%

citadin(e), seul, compact, injecteur, luxe, berline, équivalent/ant, mécanique (2x) → 0,3%

Folgende li-K. 22 kommen nur einmal vor u. haben einen r.A. v. 0,1% (0,128%):

alternative

biturbo

bouillir

côté

coupé

dernier

émanation

éventuel

filière

groupe

HDI

même

moteur/-rice

offrir

parc

particulier

Rudolf , sans

solide

tout

vieux

voire

zéro

Die Rangliste der *rechts*-Kollokatoren bei fgo:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_fgo FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'fgo')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_fgo desc

(queries_id 329)

Die exakte Anzahl re-K. gibt folgende Abfrage aus (782):

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zeitung = 'fgo')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=-1

Durchsucht man die vollständige Rangliste, lassen sich folgende Lemmata u. jew. rel. Anteile (v. 782) herausarbeiten:

turbo (inkl. biturbo) (10x) → 1,3%

truqué (8x) → 1,0%

consommer, émettre (5x) → 0,6%

hybride, moderne, avec (4x) → 0,5%

mais, propre, Blue(-Tec/-HDi/Eco-) (3x) → 0,4%

générer, aujourd[d’hui], maison, trop, rester, rejeter, comparer, continuer, représenter, réussir, trop, sans, vanter (2x) → 0,3%.

Folgende 74 Lexeme treten einmalig als re-Kollokator auf u. haben damit einen rel. Anteil v. 0,1% (0,128%):

adapté/er

afficher

afin

animés

apparaître

arriver

atone

augmenter

baisse

bashing

briller

cependant

chuter

commercialiser

compter

connaître

conserver

constituer

coûter

dater

détenir

développer

devenir

disparaître

double

deuxième

économique

entraîner

équipé/er

éviter

évoluer

faussement

fonctionner

fournir

issu

jouer

malgré

moyen

muni

mystique

neutre

non

nouveauté

obliger

particule

plus

prendre

présenter

produire

progresser

prononcé/er

provenir

recevoir

réglementation

régner

repartir

reposer

risquer

séduire

sortir , sous

sportif

subir

supposé/er

survitaminé/er

TDI

toujours

traverser

truste

vibrer

vieillir

voire

9.1.3. Kollokationen mit diesel in den beiden Zeiträumen

Die Kollokatoren von diesel in Zeitraum A ermittelt:

SELECT aa.datei, aa.token AS klk_diesel_zr1, aa.distanz FROM (SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a 
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 WHERE datum BETWEEN 20071101 AND 20081031)aa
order by aa.token

(queries_id 218; als Types: queries_id 311)

Die Rangliste der Kollokatoren *links* in Zeitraum A:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_zrA FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20071101 AND 20081031)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_zrA desc

(queries_id 330)

Den Referenzwert 374 li-K. in Zeitraum A f. die rel. Anteile berechnet analog zu oben:

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND datum BETWEEN 20071101 AND 20081031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1

Aus der Rangliste wurden folgene Lemmata u. rel. Anteile (d.h. an allen li-K. des Zeitraums) abgeleitet:

moteur (55x) → 14,7%

hybride (inkl. hybridation) (13x) → 3,5%

turbo (11x) → 2,9%

motorisation (10x) → 2,7%

cylindre, modèle (9x) → 2,4%

version (8x) → 2,1%

petit (5x) → 1,3%

litre (4x) → 1,1%

nouveau, gamme (3x) → 0,8%

berline, citadine, technologie, voiture, luxe (2x) → 0,5%

Folgende 14 Lemmata wurden nur 1x links v. diesel verwendet → 0,3% (0,267%)

bouillant

bus

compact

côté

coupé

équivalent

HDi

mécanique

même

moteur/rice

Rudolf

tout

véhicule

voire

Die Rangliste der re-K. in Zeitraum A:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_zr1 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20071101 AND 20081031)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_zr1 desc

(queries_id 331)

Wieder wird zunächst die Anzahl re-K. im Teilkorpus ermittelt (374):

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND datum BETWEEN 20071101 AND 20081031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=-1

Die aus der Rangliste entnommenen Lemmata und ihr rel. Anteil:

turbo (inkl. biturbo) (6x) → 1,6%

émettre (4x) →1,1%

hybride, avec (3x) → 0,8%

maison, mais, équivalent, HDi, rester, réussi/r (2x) → 0,5%

Dazu kommen einzeln vorkommende Lemmata mit einem r.A.v. 0,3% (0,267%):

adapter

animer

atone

augmenter

Blue(tec etc.)

cependant

classique

compter

conserver

consommer

continuer

coûter

CRD

double

économique

équipé/er

évoluer

faussement

fonctionner

fournir

issu

jouer

modifier

muni

mystique

neutre

non

obliger

plus

prendre

présenter

prévu/oir

propre

provenir

provoquer

rejeter

sans

sportif

survitaminé

TDI

trop

vanté/er

vibrer

voire

Zeitraum B:

SELECT aa.datei, aa.token AS klk_diesel_zr2, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a
 JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 WHERE datum BETWEEN 20171101 AND 20181031)aa 
 order by aa.token

(queries_id 219; als Types: queries_id 312)

Rangliste li-Kollokatoren:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_zr2 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_zr2 desc

(queries_id 332)

Die Anzahl der Kollokatoren *links* v. diesel im Zeitraum B beträgt 779:

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1

Aus der Rangliste wurde extrahiert:

moteur (138x) → 17,7%

véhicule (60x) → 7,7%

voiture (16x) → 2,1%

modèle (13x) → 1,7%

version (12x) → 1,5%

turbo (inkl. biturbo) (8x) → 1%

cylindre, technologie (7x) → 0,9%

litre, (Rudolf ) (6x) → 0,8%

vieux (4x) → 0,5%

gamme (3x) → 0,4%

seul, petit, groupe, parc, injecteur (2x) → 0,3%

An einmaligen li-K. wurden folgende 20 entnommen und machen je 0,1% (0,128%):

alternatif

antipollution

bicylindre

compact

dernier

effet

émanation

équivalent

éventuel

filière

futur

gros

HDI

mécanique

offrir

particulier

péniche , sans

solide

zéro

Rangliste der *rechts*-Kollokatoren in Zeitraum B:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_zr2 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_zr2 desc

(queries_id 333)

Die re-K. sind 782 an der Zahl¹⁷⁴, welche als Referenz f. die Anteilsberechnung dient:

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=-1

Folgende Lemmata und rel. Anteile hat die Rangliste ergeben:

truqué (11x) → 1,4%

moderne (6x) → 0,7%

consommer (5x) → 0,6%

turbo (inkl. biturbo), Blue(-) (4x) → 0,5%

représenter, rester (3x) → 0,4%

générer, aujourd[‚hui], propre, continuer, comparer, bashing, coûter, devenir, avec, représenter (2x) → 0,3%

Folgende 72 Lemmata wurden als einmalige re-K. im Zeitraum B identifiziert¹⁷⁵ und entsprechen je 0,1% (0,128%):

affiche

antérieur

apparaître

après

autant

baisse

bientôt

briller

cacher

chuter

commercialisé/er

connaître

conserver

constituer

contre

dater

DCI

débuter

détenir

détient

développer

disparaître

diviser

éclater

émettre

empêcher

entraîner

équipé/er

équivalant

éviter

fabriqué/er

hybride

mais

malgré

moyen

non

nouveauté

obtenir

particule

polluant

produit

progresser

prononcé/er

récent

recevoir

réglementation

régner

rejeter

repartir

respecter

risquer

sacrifier

séduire

sentir

sortir

subir

subventionné/er

supposé/er

toujours

traverser

trop

trouver

truste

vanté/er

vieillir

voire

9.1.4. Kollokationen mit diesel in einzelnen Textbereichen

Anmerkung: Die weiter verfeinerten Abfragen, die im Folgenden für jeden Textbereich zusätzlich erfolgen (Textbereich und Zeitung bzw. Textbereich und Zeitraum kombiniert) bilden eine weitere Ebene, die in der Übersichtstab.. der K.-Lemma-Anteile nicht berücksichtigt wird. Ihre Erfassung erfolgt hier aber, damit ggf. in der corpus-based Phase darauf zurückgegriffen werden kann.

9.1.4.1. Kollokationen mit diesel im Titel

Im Gesamtkorpus:

SELECT aa.datei, aa.token AS klk_diesel_titel, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 WHERE zwue = 1)aa

(queries_id 206)

Die Rangliste der Kollokatoren links:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_zwue1 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 1)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_zwue1 desc

(queries_id 334)

Wie folgende Abfrage zeigt, gibt es 37 K. *links* v. diesel im Titel:

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 1)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1

Daraus wird an Lemmata für die Analyse verwendet:

moteur	6
technologie	1
hybride	1
véhicule	1
Rudolf	1

moteur (6x) → 16,2%

technologie, hybride, véhicule, Rudolf (1x) → 2,7%.

Die Titel-Kollokatoren *rechts*:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_zwue1 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 1)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_zwue1 desc

(queries_id 335)

Es gibt 40 re-Kollokatoren:

SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 1)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=-1

Daran haben die extrahierten Lemmata, von denen keines mehr als einmal vorkommt, je einen Anteil v. 2,5%:

hybride

réglementation

mystique

sportif

particule

bientôt

modifier

diviser

séduire

nouveau(té)

Kollokatoren in fgo-Titeln:

SELECT aa.datei, aa.token AS klk_diesel_titel_fgo, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 1 AND datei LIKE 'fgo%')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa

(queries_id 227)

Es gibt 22 li-K. und 25 re-K., woraus sich die entsprechenden rel. Anteile ergeben.

Entnimmt man jeweils die linken u. rechten Kollokator-Lemmata, erhält man

links: moteur (4x) → 18,2%; véhicule (1x ) → 4,5%

rechts: hybride, mystique, (nouveauté), particule, réglementation, séduire, sportif (1x) → 4%

Kollokatoren in mde-Titeln:

SELECT aa.datei, aa.token AS klk_diesel_titel_mde, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 1 AND datei LIKE 'mde%')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 )aa
 ORDER BY aa.token

(queries_id 226)

Die Frequenzen der Kollokatoren wurden jeweils mit der Anzahl Kollokatoren (je 15) im mde-Korpus verrechnet:

links: moteur (2x) → 13,3%; technologie, hybride, (Rudolf) (1x) → 6,7%

rechts: diviser, modifier (1x → 6,7%)

Und nun die Titel-Kollokationen mit diesel in den beiden Zeiträumen, zuerst Zeitraum A:

SELECT aa.datei, aa.token AS klk_diesel_titel_zr1, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 1 AND datum BETWEEN 20071101 AND 20081031)a
 JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
 ORDER BY aa.token

(queries_id 228)

Analog zu oben (bei je 12 Titel-Kollokationen):

links: moteur (2x) → 16,7%; hybride (1x ) → 8,3%

rechts: modifier, hybride, mystique, sportif (1x) → 8,3%

In Zeitraum B:

SELECT aa.datei, aa.token AS klk_diesel_titel_zr2, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 1 AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 )aa order by aa.token

(queries_id 229)

Es gibt 25 li- u. 28 re-Kollokationen; auf die extrahierten Lemmata bezogen ergibt sich:

links: moteur (4x) → 16%; technologie, véhicule, (Rudolf) (1x) → 4% (3,57%)

rechts: séduire, particule, diviser, réglementation, (nouveauté), (bientôt) (1x) → 4%

9.1.4.2. Kollokationen mit diesel im Untertitel

SELECT aa.datei, aa.token AS klk_diesel_utitel, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 2 )a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1 )aa
order by aa.token

(queries_id 230)

Die li-Kollokatoren nach Häufigkeit:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_zwue2 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 2)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_zwue2 desc

(queries_id 336)

Es gibt je Seite 61 Kollokationen, folgende rel. Anteile wurden für die relevanten Lemmata berechnet, die li-K. sind.

moteur (11x) → 18,0%

véhicule (3x) → 4,9%

voiture, modèle (2x) → 3,3%

futur, nouveau, hybride, émanation, turbo, gamme, vieux, petit, luxe, compact (1x) → 1,6%

Die re-Kollokatoren nach Häufigkeit:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_zwue2 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 2)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_zwue2 desc

(queries_id 337)

Lemmata u. Anteile an 61:

truqué, trop (2x) → 3,3

double, propre, compter, représenter, polluant/polluer, augmenter (1x) → 1,6%

Im mde-Teilkorpus:

SELECT aa.datei, aa.token AS klk_diesel_utitel_mde, aa.distanz FROM 
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 2 AND zeitung = 'mde' )a 
 JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 231)

Im fgo-Teilkorpus:

Es gibt je Position 11 Kollokationen.

links: moteur (2x) → 18,2% , futur, voiture (1x) → 9,1%

rechts: représenter, polluant/polluer (1x) → 9,1%

SELECT aa.datei, aa.token AS klk_diesel_utitel_fgo, aa.distanz FROM 
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 2 AND zeitung = 'fgo' )a 
 JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 232)

In Zeitraum A (Untertitel):

SELECT aa.datei, aa.token AS klk_diesel_utitel_zr1, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 2 AND datum BETWEEN 20071101 AND 20081031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 233)

Es gibt je Position 23 Kollokationen. Die Anteile der Lemmata daran sind :

links: moteur (2x) → 8,7% ; compact, turbo, hybride, moteur, nouveau, gamme, luxe (1x) → 4,3%

rechts: double, compter, trop, augmenter (1x) → 4,3%

In Zeitraum B:

SELECT aa.datei, aa.token AS klk_diesel_utitel_zr2, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 1 AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa

(queries_id 234)

Die Rangliste f. links:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_zwue2 FROM 
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 2 AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa 
GROUP BY token order by klk_re_diesel_zwue2 desc

Es gibt 38 li- und 23 re-Kollokatoren, mit folgendem Ergebnis für die rel. Anteile der Lemmata:

links: moteur (6x (9x)¹⁷⁶) → 15,8% /23,7% (?) ; véhicule (3x) → 7,9% ; modèle, voiture (2x) → 5,3% ; petit, vieux, futur, émanation (1x) → 2,6%

rechts: truqué/er (2x) → 8,7%; propre, polluant, représenter, trop, montrer (1x) → 4,3%

9.1.4.3. Kollokationen mit diesel in Zwischenüberschriften und Einschüben (zwue4)

SELECT aa.datei, aa.token AS klk_diesel_zwue, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 4)a
 JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 313)

Die li-Kollokatoren nach Häufigkeit:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_zwue4 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 4)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_zwue4 desc

(queries_id 338)

Es gibt je 42 zwue4-Kollokationen; für die ausgewählten Lemmata der Ranglisten ergibt sich für links:

moteur (6x¹⁷⁷) → 14,3%

technologie (1x) → 2,4%.

Die re-Kollokatoren nach Häufigkeit:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_zwue4 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 4)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_zwue4 desc

(queries_id 339)

moderne (2x) → 4,8%

malgré, comparer, truste, cependant, rester, toujours, deuxième (1x) → 2,4%

In den mde-Zwischenüberschriften u. -Einschüben:

SELECT aa.datei, aa.token AS klk_diesel_zwue4_mde, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 4 AND zeitung = 'mde')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 320)

links: technologie (1x) → 7,1% (v. 14 Kollokationen); (*nie* moteur!)

rechts: moderne, sentir (1x) → 7,1%

In fgo:

SELECT aa.datei, aa.token AS klk_diesel_zwue4_fgo, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 4 AND zeitung = 'fgo')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 321)

links: moteurs (6x) → 25% (v. 24)

rechts: rester, malgré, comparer, truste, moderne, cependant, toujours, plus (1x) → 4,2%

Zeitraum A:

SELECT aa.datei, aa.token AS klk_diesel_zwue4_zr1, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 4 AND datum BETWEEN 20071101 AND 20081031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 322)

links: moteur (1x) → 16,7% (v. 6)

rechts: cependant, plus (1x) → 16,7%

Zeitraum B:

SELECT aa.datei, aa.token AS klk_diesel_zwue4_zrB, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 4 AND datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 323)

links: moteur (5x) → 13,9% (v. 36 zwue4-li-Kollokationen des Zeitraums), technologie (1x) → 2,8%

rechts: moderne (2x) → 5,6% ; sentir, truste, rester, malgré, comparer, toujours, (1x) → 2,8%

9.1.4.4. Kollokationen mit diesel im Haupttext

Anmerkung: Hierzu wird nur noch die Ebene des Gesamtkorpus wiedergegeben (keine weiter abgestuften Abfragen hinsichtlich des zeitungs- u. zeitabhängigen Haupttext-Teilkorpus).

SELECT aa.datei, aa.token AS klk_diesel_htx, aa.distanz FROM
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'diesel' AND zwue = 0)a
 JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
order by aa.token

(queries_id 235)

Die Rangliste der Kollokatoren links:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_li_diesel_zwue0 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 0)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_li_diesel_zwue0 desc

(queries_id 340)

1013 Kollokationen gibt es je Position. Für links ergibt dies folgende Anteile:

moteur (170x) → 16,8%

véhicule (56x) → 5,2%

version, motorisation, modèle (20x) →2,0%

turbo (ink. biturbo) (18x) → 1,7%

voiture (16x) → 1,6%

hybride (inkl. hybridation) (13x) → 1,3%

cylindre (inkl. bicylindre) (15x) → 1,4%

litre (9x) → 0,9%;

technologie (7x) → 0,7%

gamme (5x) → 0,5%

vieux (3x) → 0,3%

berline, groupe, nouveau, citadine, injecteur, parc, équivalent, mécanique (2x) → 0,2%

Folgende 25 Lemmata wurden als einmalige li-Nachbarn identifiziert (→ 0,1%):

alternative

antipollution

bouillant

bus

compact

côté

coupé

dernier

effet

éventuel

filière

gros

luxe

même

motrice

offrir

particulier

péniche

sans

solide

tout

voire

zéro

Die Rangliste der Kollokatoren rechts:

SELECT aa.token, aa.wortart, aa.anzahl AS klk_re_diesel_zwue0 FROM
(SELECT COUNT(*) AS Anzahl, b.token, b.wortart FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zwue = 0)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = -1 WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa
GROUP BY token order by klk_re_diesel_zwue0 desc

(queries_id 341)

Wieder gilt für die Anteile der Referenzwert 1013:

turbo (inkl. biturbo (11x) → 1,1%

truqué (9x) → 0,9%

avec (5x) → 0,5%

consommer (6x) → 0,6%

moderne (4x) → 0,4

hybride, rester, continuer, émettre, représenter, coûter, mais, Blue(-) (3x) → 0,3%

maison, aujourd[‚hui], bashing, générer, propre, rejeter, non, équipé/er, équivalent/ant, conserver, détenir, devenir, réussi/r, vanté/er, (2x) → 0,2%

Folgende 79 Lemmata traten nur einmal als re-Kollokator auf, (1x) → 0,1%):

adapté/er

afficher

afin

animer

antérieur

apparaître

arriver

atone

autant

baisse

briller

cacher

chuter , cependant¹⁷⁸

classique

commercialisé/er

comparer

connaître

constituer

contre

CRD

dater

DCI

débuter

développant

disparaissant

éclater

économique

empêcher

entraîner

éviter

évoluer

fabriqué/er

faussement

fonctionner

fournir

HDi

issu

jouer

moyen

muni

neutre

obliger

obtenir

prendre

présenter

prévu

produire

progresser

prononcé/er

provenir

provoquer

récent

recevoir

régner

repartir

reposer

respecter

rester

risquer

sacrifié/er

sans

sortir

subir

subventionné/er

supposé/er

survitaminé/er

TDI

traverser

trouver

vibrer

vieillir

voire

9.2. Zusammenführung der Daten zu diesel-Kollokatoren

Es wurden viele Daten gesammelt, die nun nach einer übersichtlichen Zusammenführung verlangen. Diese wird aus praktischen Gründen in einer Excel-Tabelle umgesetzt, in welche sämtliche Lemmata und Teilkorpora über den jeweiligen Anteil (an den jew. Teilkorpus-Kollokatoren) in einer Kreuzklassifikation zusammengeführt werden¹⁷⁹.

Überblick über die Anteile je Lemma an links-Kollokatoren von diesel je Teilkorpus (in %):

li-k	ges	mde	fgo	zrA	zrB	zwue1	zwue2	zwue4	zwue0
alternatif	0,1	0	0,1	0	0,1	0	0	0	0,1
antipollution	0,1	0,3	0	0	0,1	0	0	0	0,1
berline	0,1	0	0,3	0,5	0	0	0	0	0,2
bouillant	0,1	0	0,1	0,3	0	0	0	0	0,1
bus	0,1	0,3	0	0,3	0	0	0	0	0,1
citadin(e)	0,1	0	0,3	0,5	0	0	0	0	0,2
compact	0,1	0	0,3	0,3	0,1	0	1,6	0	0,1
côté	0,1	0	0,1	0,3	0	0	0	0	0,1
coupé	0,1	0	0,1	0,3	0	0	0	0	0,1
cylindre (inkl. bi-)	1,4	0,3	1,8	2,4	0,9	0	0	0	1,4
dernier	0,1	0	0,1	0	0,1	0	0	0	0,1
effet	0,1	0,3	0	0	0,1	0	0	0	0,1
émanation	0,1	0	0,1	0	0,1	0	1,6	0	0,1
équivalent	0,1	0	0	0,3	0,1	0	0	0	0,2
éventuel	0,1	0	0,1	0	0,1	0	0	0	0,1
filière	0,1	0	0,1	0	0,1	0	0	0	0,1
futur	0,1	0,3	0	0	0,1	0	1,6	0	0,1
gamme	0,5	0	0,8	0,8	0,5	0	1,6	0	0,5
gros	0,1	0,3	0	0	0,1	0	0	0	0,1
groupe	0,1	0	0,1	0	0,3	0	0	0	0,2
HDI	0,1	0,3	0,1	0,3	0	0	0	0	0
hybride	1,3	1,1	1,4	3,5	0,1	2,7	1,6	0	1,3
injecteur	0,1	0	0,3	0	0,3	0	0	0	0,2
litre	0,9	1,6	0,5	1,1	0,8	0	0	0	0,9
luxe	0,1	0	0,3	0,5	0	0	1,6	0	0,1
mécanique	0,1	0	0	0,3	0,1	0	0	0	0,2
même	0,1	0	0,1	0,3	0	0	0	0	0,1
modèle	1,9	3,8	1	2,4	1,7	0	3,3	0	2
moteur	16,8	16	17,1	14,7	17,7	16,2	18	14,3	16,8
moteur/-rice (Adj.)	0,1	0	0,1	0,3	0	0	0	0	0,1
motorisation	1,7	2,7	1,3	2,7	0	0	0	0	2
nouveau	0,4	0	0,3	0,8	0	0	1,6	0	0,2
offrir	0,1	0	0,1	0	0,1	0	0	0	0,1
parc	0,1	0,3	0,1	0	0,3	0	0	0	0,2
particulier	0,1	0	0,1	0	0,1	0	0	0	0,1
péniche	0,1	0,1	0	0	0,1	0	0	0	0,1
petit	0,6	0	0,9	1,3	0,3	0	1,6	0	0
sans	0,2	0,3	0,1	0	0,1			0	0,1
seul	0,2	0	0,3	0	0,3	0	0	0	0
Rudolf	0,6	1,6	0,1	0,3	0,8	2,7	0	0	0
solide	0,1	0	0,1	0	0,1	0	0	0	0
technologie	0,9	1,3	0,5	0,5	0,9	2,7	0	2,4	0,7
tout	0,1	0	0,1	0,3	0	0	0	0	0
turbo	1,6	0,5	2,1	2,9	1	0	1,6	0	1,8
véhicule	5,3	7	4,5	0,3	7,7	2,7	4,9	0	5,2
version	1,7	2,7	1,3	2,1	1,5	0	0	0	2
vieux	0,4	0,8	0,1	0	0,5	0	1,6	0	0,3
voire	0,1	0	0,1	0,3	0	0	0	0	0
voiture	1,6	1,6	1,5	0,5	2,1	0	3,3	0	1,6
zéro	0,1	0	0,1	0	0,1	0	0	0	0

Und hier die Übersicht zu den prozentualen Anteilen der ausgewählten Lemmata an allen rechts-Kollokatoren von diesel:

re-k	ges	mde	fgo	zrA	zrB	zwue1	zwue2	zwue4	zwue0
adapter	0,1	0	0,1	0,3	0	0	0	0	0,1
afficher	0,1	0	0,1	0	0,1	0	0	0	0,1
afin	0,1	0	0,1	0	0	0	0	0	0,1
animé/er	0,1	0	0,1	0,3	0,1	0	0	0	0,1
antérieur	0,1	0,3	0	0	0,1	0	0	0	0,1
apparaître	0,1	0	0,1	0	0,1	0	0	0	0,1
arriver	0,1	0	0,1	0	0	0	0	0	0,1
atone	0,1	0	0,1	0,3	0	0	0	0	0,1
augmenter	0,1	0	0,1	0,3	0	0	1,6	0	0,1
ajourd[d’hui]	0,2	0	0,3	0	0,3	0	0	0	0,2
autant	0,1	0,3	0	0	0,1	0	0	0	0,1
avec	0,4	0,3	0,5	0,8	0,3	0	0	0	0,5
baisse	0,1	0	0,1	0	0,1	0	0	0	0,1
bashing	0,2	0,3	0,1	0	0,3	0	0	0	0,2
bientôt	0,1	0	0,1	0	0,1	2,5	0	0	0
Blue-	0,26	0	0,4	0,3	0,5	0	0	0	0,3
briller	0,1	0	0,1	0	0,1	0	0	0	0,1
cacher	0,1	0,3	0	0	0,1	0	0	0	0,1
cependant	0,1	0	0,1	0,3	0,1	0	0	0	0,1
chute/r	0,1	0	0,1	0	0,1	0	0	0	0,1
classique	0,1	0,3	0	0,3	0	0	0	0	0,1
commercialiser	0,1	0	0,1	0	0,1	0	0	0	0,1
comparer	0,2	0		0	0,3	0	0	2,4	0,1
compter	0,1	0	0,1	0,3	0,1	0	1,6	0	0,1
connaître	0,1	0	0,1	0	0,1	0	0	0	0,1
conserver	0,1	0	0,1	0,3	0,1	0	0	0	0,2
consommer	0,5	0,3	0,6	0,3	0,6	0	0	0	0,6
constituer	0,1	0	0,1	0	0,1	0	0	0	0,1
continuer	0,26	0,3	0	0,3	0,3	0	0	0	0,3
contre	0,1	0,3	0	0	0,1	0	0	0	0,1
coûter	0,26	0,5	0,1	0,3	0,1	0	0	0	0,3
CRD	0,1	0,3	0	0,3	0	0	0	0	0,1
dater	0,1	0	0,1	0	0,1	0	0	0	0,1
DCI	0,1	0,3	0	0	0,1	0	0	0	0,1
débuter/début	0,1	0,3	0	0	0,1	0	0	0	0,1
détenir	0,2	0,3	0,1	0	0,1	0	0	0	0,2
deuxième	0,1	0	0,1	0	0	0	0	2,4	0,1
développer	0,1	0	0,1	0	0,1	0	0	0	0,1
devenir	0,2	0,3	0,1	0	0	0	0	0	0,2
disparaître	0,1	0	0,1	0	0,1	0	0	0	0,1
diviser	0,1	0,3	0	0	0,1	2,5	0	0	0
double	0,1	0	0,1	0,3	0	0	1,6	0	0,1
éclater	0,1	0,3	0	0	0,1	0	0	0	0,1
économique	0,1	0	0,1	0,3	0	0	0	0	0,1
émettre	0,4	0	0,6	1,1	0,1	0	0	0	0,3
empêcher	0,1	0,3	0	0	0,1	0	0	0	0,1
entraîner	0,1	0	0,1	0	0,1	0	0	0	0,1
équiper	0,2	0,3	0,1	0,3	0,1	0	0	0	0,2
équivalent/ant	0,2	0,5	0	0,5	0,1	0	0	0	0,2
éviter	0,1	0	0,1	0	0,1	0	0	0	0,1
évoluer	0,1	0	0,1	0,3	0	0	0	0	0,1
fabriquer	0,1	0,3	0	0	0,1	0	0	0	0,1
faussement	0,1	0	0,1	0,3	0,1	0	0	0	0,1
fonctionner	0,1	0	0,1	0,3	0,1	0	0	0	0,1
fournir	0,1	0	0,1	0,3	0,1	0	0	0	0,1
générer	0,2	0	0,3	0	0,3	0	0	0	0,2
HDi	0,1	0,3	0	0,5	0	0	0	0	0,1
hybride	0,35	0	0,5	0,8	0,1	2,5	0	0	0,3
issu	0,1	0	0,1	0,3	0	0	0	0	0,1
jouer	0,1	0	0,1	0,3	0	0	0	0	0,1
mais	0,26	0	0,4	0,5	0,1	0	0	0	0,3
maison	0,2	0	0,3	0,5	0	0	0	0	0,2
malgré	0,1	0	0,1	0	0,1	0	0	0	0,1
moderne	0,5	0,5	0,5	0	0,7	0	0	0	0,4
modifier	0,1	0,3	0	0,3	0	2,5	0	0	0
moyen	0,1	0	0,1	0	0,1	0	0	0	0,1
muni/r	0,1	0	0,1	0,3	0	0	0	0	0,1
mystique	0,1	0	0,1	0,3	0	2,5	0	0	0
neutre	0,1	0	0,1	0,3	0	0	0	0	0,1
non	0,2	0,3	0,1	0,3	0,1	0	0	0	0,2
nouveau(té)	0,1	0	0,1	0	0,1	2,5	0	0	0
obliger	0,1	0	0,1	0,3	0	0	0	0	0,1
obtenir	0,1	0,3	0	0	0,1	0	0	0	0,1
particule	0,1	0	0,1	0	0,1	2,5	0	0	0
plus	0,1	0	0,1	0,3	0,1	0	0	0	0
polluant/polluer	0,1	0,3	0	0	0,1	0	1,6	0	0,1
prendre	0,1	0	0,1	0,3	0	0	0	0	0,1
présenter	0,1	0	0,1	0,3	0	0	0	0	0,1
prévu	0,1	0,3	0	0,3	0	0	0	0	0,1
produire	0,1	0	0,1	0	0,1	0	0	0	0,1
progresser	0,1	0	0,1	0	0,1	0	0	0	0,1
prononcer	0,1	0	0,1	0	0,1	0	0	0	0,1
propre	0,26	0	0,4	0,3	0	0	1,6	0	0,2
provenir	0,1	0	0,1	0,3	0	0	0	0	0,1
provoquer	0,1	0,3	0	0,3	0	0	0	0	0,1
récent	0,1	0,3	0	0	0,1	0	0	0	0,1
recevoir	0,1	0	0,1	0	0,1	0	0	0	0,1
réglementation	0,1	0	0,1	0	0,1	2,5	0	0	0
régner	0,1	0	0,1	0	0,1	0	0	0	0,1
rejeter	0,2	0	0,3	0,3	0,1	0	0	0	0,2
repartir	0,1	0	0,1	0	0,1	0	0	0	0,1
reposer	0,1	0	0,1	0	0	0	0	0	0,1
représenter	0,35	0,8	0,3	0	0	0	1,6	0	0,3
respecter/ant	0,1	0,3	0	0	0,1	0	0	0	0,1
rester	0,35	0,3	0,3	0,5	0	0	0	2,4	0,3
réussir	0,2	0	0,3	0,5	0	0	0	0	0,2
risquer	0,1	0	0,1	0	0,1	0	0	0	0,1
sacrifier	0,1	0,3	0	0	0,1	0	0	0	0,1
sans	0,26	0,3	0,3	0,3	0	0	0	0	0,1
séduire	0,1	0	0,1	0	0,1	2,5	0	0	0
sentir	0,1	0,3	0	0	0,1	0	0	2,4	0,1
sortir	0,1	0	0,1	0	0,1	0	0	0	0,1
sportif	0,1	0	0,1	0,3	0	2,5	0	0	0
subir	0,1	0	0,1	0	0,1	0	0	0	0,1
subventionner	0,1	0,3		0	0,1	0	0	0	0,1
supposer	0,1	0	0,1	0	0,1	0	0	0	0,1
survitaminé/r	0,1	0	0,1	0,3	0	0	0	0	0,1
TDI	0,1	0	0,1	0,3	0	0	0	0	0,1
toujours	0,1	0	0,1	0	0,1	0	0	2,4	0,3
traverser	0,1	0	0,1	0	0,1	0	0	0	0,1
trop	0,2	0	0,3	0,3	0,1	0	3,3	0	0,1
trouver	0,1	0,3	0	0	0,1	0	0	0	0,1
truquer/truqué	1	0,8	1	0	1,4	0	3,3	0	0,9
truste	1	0	0,1	0	0,1	0	0	2,4	0,1
turbo (inkl. biturbo)	0,1	0,3	1,3	1,6	0,5	0	0	0	1,1
vanter	0,2	0	0,3	0,3	0,1	0	0	0	0,2
vibrer	0,1	0	0,1	0,3	0	0	0	0	0,1
vieillir	0,1	0	0,1	0	0,1	0	0	0	0,1
voire	0,1	0	0,1	0,3	0,1	0	0	0	0,1

Die so erstellte Matrix zu jeder Kollokationseite Seite kann verwendet werden für:

quantitativ-vergleichenden Befund
Kategorienbildung für corpus-based Anschlussuntersuchung

Der erste Punkt wird an dieser Stelle erörtert, bevor die noch ausstehende, kurze Auswertung der gazole-Kollokatoren erfolgt. Darauf folgt schließlich die Bearbeitung von Punkt 2.

9.3. Quantitativ-vergleichender Befund

Filtert man obige Excel-Tab. der *links*-Kollokatoren nach absteigenden Werten i.d. Spalte `ges`, erhält man einen besseren quantitativen Zugang als mit der alphabetischen Anordung. Folgende Tatbestände fallen in dieser Ansicht auf:

moteur:

diachron: Zunahme der Frequenz, wobei Zeitraum A weiter vom Referenzwert (= `ges`= Gesamtkorpus) entfernt ist als Zeitraum B
fgo leicht überdurchschnittlich, fast wie zrB (‚progressiv‘)
Textbereich: höchster Anteil in den Untertiteln; Präsenz in zwue4

véhicule:

diachron: extreme Zunahme ausgehend von stark unterdurchschnittlicher Frequenz;
mde überdurschschnittlich u. fast wie zrB (‚progressiv‘)

motorisation:

diachron: Abnahme auf Null
mde wie zrA (‚konservativ‘)

turbo:

diachron: starke Abnahme
fgo zwischen ges und zrA; mde (-) u. fgo (+) diametral v. ges (Ref.durchschnitt) entfernt

voiture:

diachron: starke Zunahme

cylindre:

diachron: ‚Umkehrung‘ von voiture, véhicule u. moteur – starke Abnahme
fgo überdurchschnittlich, mde extrem unterdurchschnittlich

hybride:

diachron: starke Abnahme
mde nur leicht progressiver als fgo

technologie:

diachron: rel. wenig Bewegung
mde 3x so hoch wie fgo
Textbereiche: Präsenz in zwue4 (wie moteur)

nouveau:

diachrone Abnahme, fgo ‚träger‘ als mde

vieux:

diachron das Gegenteil v. nouveau, fgo auch hier träger als mde

antipollution:

von mde allein getragen

berline/citadine/coupé:

von fgo allein getragen

effet/futur: nur mde, injecteur/luxe: nur fgo

usw…

Eine Tendenz ist bis hier klar zu erkennen: Die diachrone Gesamtentwicklung – weg vom Dieselfahrzeug als Konsum- und Statusobjekt, weg vom konnotativen Spaßfaktor leistungsstarker (lauter, rußender) Motoren usw. hin zu einem problematisierten bis stigmatisierten Objekt. Ihre Intensität ist bedingt bzw. begrenzt durch die stärkere fgo-Verwendung von Kollokatoren, die die Domänen Technik, Leistung, neue Modelle etc. bzw. damit verbundene Frames betont bei gleichzeitiger tendenzieller Meidung von Domänen wie Umwelt, klimapolitisches Umdenken usw., also einer eher konservativen Praxis einerseits und durch eine eher progressiven Praxis bei mde, wo mit den von fgo bevorzugten, den Dieselmotor eher positiv od. neutral bewertenden bzw. konnotierenden li-Kollokatoren gespart wird und dafür bereitwilliger solche verwendet werden, die insgesamt eine Distanzierung vom Dieselfahrzeug anzeigen.

Sieht man sich die Tab. der *rechts*-Kollokatoren an, fallen folgende Punkte auf:

truqué:

diachron: es ist klar, dass diese Entwicklung kontingent ist
mde u. fgo verhalten sich ähnlich durchschnittlich, wobei fgo etwas höher liegt als mde u. möglicherweise vehementer ‚anprangert‘

hybride:

die nachgestellte Verwendung hat stark abgenommen, fgo konservativ, mde progressiv

émettre:

starke Abnahme der Verwendung, obwohl vermutlich im Kontext v. Umweltschutz (evtl. durch andere Konstruktion ‚ersetzt‘ worden?)

propre:

entspricht den Beobachtungen zu den li-K.: die positive Bewertung bleibt bei mde u. zrB aus

Blue-…/….Blue:

hat nicht drastisch zugenommen, aber von mde gar nicht verwendet (mögl. Grund: technisch u. prinzipiell ‚pro-Diesel‘, da man mit dem Additiv Dieselmotoren ‚zukunftsfähiger‘ macht bzw. sieht)

coûter:

mde betont die ökonomische Seite mehr (Kosten f. d. Verbraucher)

Es fällt ab diesem Punkt unübersehbar schwer, auf dem induktiven, corpus-driven Pfad zu bleiben: die Interpretation auch aus korpusexternem Wissen und deduktiven Gedankengängen heraus lässt sich kaum zurückhalten, wenn man einmal den Blick auf gewisse Regelmäßigkeiten gerichtet hat. Daher erscheint es sinnvoll, nach dem folgenden kurzen Kap. zu den gazole-Kollokatoren, systematisch vorzugehen, und alle weiter ausholenden Intepretationen in den Bereich der corpus-based Anschlussuntersuchungen zu verlegen.

9.4. Kollokationen mit gazole

9.4.1. Kollokationen mit gazole im Gesamtkorpus

Analog zu den globalen diesel-Kollokationen lassen sich auch jene mit gazole feststellen. Es übersteigt allerdings den Rahmen d.v.A., hier ins Detail zu gehen. Für die corpus-based Anschlussuntersuchung ist aber aufgrund der geringen Frequenz v. gazole rasch ein Überblick gewonnen:

SELECT aa.datei, aa.token AS klk_gazole, aa.distanz FROM 
(SELECT b.datei, b.id, b.token, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'gazole')a 
 JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 OR a.id-b.id=-1)aa
 ORDER BY token

(queries_id 203)

Es fällt auf, dass das mde-Teilkorpus (dessen geringe Verwendung v. gazole ja festgestellt wurde) keinen einzigen autosemantischen Kollokator zu gazole aufweist (also auch keinen allenfalls abwertenden¹⁸⁰).

Die Anzahl der ausgegebenen DS von 166 enspricht der Anzahl aller gazole-Kollokatoren. Wie eine Vergleichsabfrage zeigt, handelt es sich je 83 mal um einen Kollokator, der links bzw. rechts von gazole steht. Gruppiert man sie, um nur die Types zu erhalten:

SELECT b.token, a.id-b.id distanz FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'gazole')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=1
GROUP BY token

(queries_id 205)

… liefert die Ausgabetab. folgende Lemmata als links-Kollokatoren von gazole:

côté, moteur, pompe, sans

Davon ist pompe der einzige Fall, der zusammen mit diesel nicht vorkam.

Folgende Abfrage liefert die rechts-Kollokatoren:

SELECT b.token, a.id-b.id distanz FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token like 'gazole')a
JOIN tokens b ON a.datei=b.datei and a.id-b.id=-1
GROUP BY token

(queries_id 204)

Daraus lassen sich folgende Lemmata extrahieren:

augmenter

désoufré/er

devenir

équipé/er

générer

infecter

obtenir

offrir

rejeter

représenter

risquer

signifier

Die meisten Lemmata decken sich mit denjenigen, die als rechts stehende diesel-Kollokatoren extrahiert wurden, Ausnahmen sind:

désoufré/er, infecter, risquer

9.5. Kategorienbildung zu diesel-Kollokatoren

Die Vielzahl der erfolgten Berechnungen und nicht gerade zum Kernbereich der Sprachwissenschaft gehörenden Überlegungen quantitativer u. statistischer Art sollen nun diskurslinguistisch genutzt werden. Die in Excel erstellten Übersichstabellen führen zu einem der Hauptziele der Analyse: Kategorien zu definieren, die diese unmittelbaren diesel-Nachbarn bilden (könnten).

Als erste Annäherung wird eine Art Übergangs-Matrix angelegt und versucht, zu jedem Kollokator eine (dominante) Kategorie anzugeben. Dann wird die Tab. nach Kategorien(gruppen) gefiltert und daraus eine erste grobe Einteilung gewonnen, wobei manche Lemmata aufgrund mehrfacher Kategorisierung auch mehrfach vorkommen können. Dies stört nicht, da es in diesem Schritt um das Identifizieren der abstrakten Struktur geht. Vorerst wurden folgende Kategorien (= Spaltennamen) identifiziert:

Produktleistung	Neuigkeit	Technik	Umwelt	Wirtsch./Pol.	Entwicklungen	Argument	Betrug	generisch

afficher	arriver	cylindre (inkl. bi-)	antipollution	bashing	adapter	afin	truqué	bus
animé/er	dernier	DCI	effet	commercialiser	ajourd[d’hui]	autant		véhicule
atone	nouveau	développer	émanation	détenir	alternatif	bientôt		voiture
augmenter	nouveau(té)	équiper	émettre	filière	antérieur	cependant		moteur
avec	présenter	fabriquer	particule	groupe	baisse	comparer
berline	récent	fonctionner	polluant/polluer	maison	chute/r	constituer
…	…	…	…	…	…	…	…	…

In einem weiteren Schritt werden, soweit möglich, in den bereits angelegten Tab. (s.o) die Kollokatoren getrennt nach ihrer Position in ein weiter verdichtetes Kategorien-Paradigma eingeordnet. Da es z.T. mehr als eine Möglichkeit gibt, insbesondere ohne Kontext, wurden rechts zusätzliche Spalten f. Zweit- u. Dritt-Filtermöglichkeiten hinzugefügt.

Das Ergebnis f. die linken Kollokatoren sieht folgendermaßen aus:

li-k	ges	mde	fgo	zrA	zrB	zwue1	zwue2	zwue4	zwue0	kat 1	kat 2/Anm.
alternatif	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
antipollution	0,1	0,3	0	0	0,1	0	0	0	0,1	Umwelt
berline	0,1	0	0,3	0,5	0	0	0	0	0,2	Produkttyp
bouillant	0,1	0	0,1	0,3	0	0	0	0	0,1	Produktleistung	familier
bus	0,1	0,3	0	0,3	0	0	0	0	0,1	KFZ allg.
citadin(e)	0,1	0	0,3	0,5	0	0	0	0	0,2	Produkttyp
compact	0,1	0	0,3	0,3	0,1	0	1,6	0	0,1	Produktleistung
côté	0,1	0	0,1	0,3	0	0	0	0	0,1	Argument
coupé	0,1	0	0,1	0,3	0	0	0	0	0,1	Produkttyp
cylindre (inkl. bi-)	1,4	0,3	1,8	2,4	0,9	0	0	0	1,4	Technik	Produktleistung
dernier	0,1	0	0,1	0	0,1	0	0	0	0,1	Neuigkeit
effet	0,1	0,3	0	0	0,1	0	0	0	0,1	Umwelt
émanation	0,1	0	0,1	0	0,1	0	1,6	0	0,1	Argument
équivalent	0,1	0	0	0,3	0,1	0	0	0	0,2	Argument
éventuel	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
filière	0,1	0	0,1	0	0,1	0	0	0	0,1	Wirtsch./Pol.	Industrie
futur	0,1	0,3	0	0	0,1	0	1,6	0	0,1	Entwicklungen
gamme	0,5	0	0,8	0,8	0,5	0	1,6	0	0,5	Produkttyp	Industrie
gros	0,1	0,3	0	0	0,1	0	0	0	0,1	Produktleistung	Maß
groupe	0,1	0	0,1	0	0,3	0	0	0	0,2	Wirtsch./Pol.
HDI	0,1	0,3	0,1	0,3	0	0	0	0	0	Technik	Produktleistung
hybride	1,3	1,1	1,4	3,5	0,1	2,7	1,6	0	1,3	Produktleistung	Umwelt
injecteur	0,1	0	0,3	0	0,3	0	0	0	0,2	Technik
litre	0,9	1,6	0,5	1,1	0,8	0	0	0	0,9	Produktleistung	Technik
luxe	0,1	0	0,3	0,5	0	0	1,6	0	0,1	Produktleistung
mécanique	0,1	0	0	0,3	0,1	0	0	0	0,2	Technik
même	0,1	0	0,1	0,3	0	0	0	0	0,1	Argument
modèle	1,9	3,8	1	2,4	1,7	0	3,3	0	2	Produkttyp
moteur	16,8	16	17,1	14,7	17,7	16,2	18	14,3	16,8	Technik	KFZ allg.
moteur/-rice (Adj.)	0,1	0	0,1	0,3	0	0	0	0	0,1	Technik
motorisation	1,7	2,7	1,3	2,7	0	0	0	0	2	Technik	Umwelt
nouveau	0,4	0	0,3	0,8	0	0	1,6	0	0,2	Neuigkeit
offrir	0,1	0	0,1	0	0,1	0	0	0	0,1	Produktleistung
parc	0,1	0,3	0,1	0	0,3	0	0	0	0,2	Wirtsch./Pol.
particulier	0,1	0	0,1	0	0,1	0	0	0	0,1	Produktleistung
péniche	0,1	0,1	0	0	0,1	0	0	0	0,1	Wirtsch./Pol.	Industrie
petit	0,6	0	0,9	1,3	0,3	0	1,6	0	0	Produktleistung	Maß
sans	0,2	0,3	0,1	0	0,1			0	0,1	Produktleistung	Maß
seul	0,2	0	0,3	0	0,3	0	0	0	0	Produktleistung	Maß
Rudolf	0,6	1,6	0,1	0,3	0,8	2,7	0	0	0	Technik	Geschichte
solide	0,1	0	0,1	0	0,1	0	0	0	0	Produktleistung
technologie	0,9	1,3	0,5	0,5	0,9	2,7	0	2,4	0,7	Technik
tout	0,1	0	0,1	0,3	0	0	0	0	0	Produktleistung	Maß
turbo	1,6	0,5	2,1	2,9	1	0	1,6	0	1,8	Produktleistung	Technik
véhicule	5,3	7	4,5	0,3	7,7	2,7	4,9	0	5,2	KFZ allg.	Alltag
version	1,7	2,7	1,3	2,1	1,5	0	0	0	2	Produkttyp
vieux	0,4	0,8	0,1	0	0,5	0	1,6	0	0,3	Entwicklungen	Umwelt
voire	0,1	0	0,1	0,3	0	0	0	0	0	Argument
voiture	1,6	1,6	1,5	0,5	2,1	0	3,3	0	1,6	KFZ allg.	Alltag
zéro	0,1	0	0,1	0	0,1	0	0	0	0	Umwelt	Maß

Filtert man diese Tab. (s. Datei), ergeben sich folgende Befunde:

Im Gesamtkorpus sind mit den höchsten Prozentsätzen die Kategorien Technik/KFZ sowie Produkttyp u. -leistung vertreten. Umwelt, Entwicklungen u. Wirtschaft fallen wesentlich weniger ins Gewicht. Diese Verteilung scheint sich z.T. sprachintern zu erklären, da das, was diesel vorangestellt ist, i.d.R. durch diesel näher bestimmt wird und dementsprechend ein Produkt od. eine Technologie dahinter steckt. Interessant wäre z.B., in der corpus-based Phase auf die Verwendung von dieselgate einzugehen, da diese Entlehnung eine ganze andere Wirkung hat als ein klassisches Syntagma nach den Regeln des Standardfranzösischen.

Für die rechten Kollokatoren wurde folgende Tabelle zusammengestellt:

re-k	ges	mde	fgo	zrA	zrB	zwue1	zwue2	zwue4	zwue0	kat 1	kat 2/Anm.
adapter	0,1	0	0,1	0,3	0	0	0	0	0,1	Entwicklungen
afficher	0,1	0	0,1	0	0,1	0	0	0	0,1	Produktleistung
afin	0,1	0	0,1	0	0	0	0	0	0,1	Argument
animé/er	0,1	0	0,1	0,3	0,1	0	0	0	0,1	Produktleistung
antérieur	0,1	0,3	0	0	0,1	0	0	0	0,1	Entwicklungen
apparaître	0,1	0	0,1	0	0,1	0	0	0	0,1
arriver	0,1	0	0,1	0	0	0	0	0	0,1	Produktleistung
atone	0,1	0	0,1	0,3	0	0	0	0	0,1	Produktleistung
augmenter	0,1	0	0,1	0,3	0	0	1,6	0	0,1	Produktleistung
ajourd[d’hui]	0,2	0	0,3	0	0,3	0	0	0	0,2	Entwicklungen
autant	0,1	0,3	0	0	0,1	0	0	0	0,1	Argument
avec	0,4	0,3	0,5	0,8	0,3	0	0	0	0,5	Produktleistung
baisse	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
bashing	0,2	0,3	0,1	0	0,3	0	0	0	0,2	Wirtsch./Pol.
bientôt	0,1	0	0,1	0	0,1	2,5	0	0	0	Entwicklungen
Blue-	0,26	0	0,4	0,3	0,5	0	0	0	0,3	Umwelt
briller	0,1	0	0,1	0	0,1	0	0	0	0,1	Produktleistung
cacher	0,1	0,3	0	0	0,1	0	0	0	0,1	Produktleistung
cependant	0,1	0	0,1	0,3	0,1	0	0	0	0,1	Argument
chute/r	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
classique	0,1	0,3	0	0,3	0	0	0	0	0,1	Produktleistung
commercialiser	0,1	0	0,1	0	0,1	0	0	0	0,1	Wirtsch./Pol.
comparer	0,2	0		0	0,3	0	0	2,4	0,1	Argument
compter	0,1	0	0,1	0,3	0,1	0	1,6	0	0,1	Produktleistung
connaître	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
conserver	0,1	0	0,1	0,3	0,1	0	0	0	0,2	Entwicklungen
consommer	0,5	0,3	0,6	0,3	0,6	0	0	0	0,6	Produktleistung
constituer	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
continuer	0,26	0,3	0	0,3	0,3	0	0	0	0,3	Entwicklungen
contre	0,1	0,3	0	0	0,1	0	0	0	0,1	Argument
coûter	0,26	0,5	0,1	0,3	0,1	0	0	0	0,3	Produktleistung
CRD	0,1	0,3	0	0,3	0	0	0	0	0,1	Technik	Produktleistung
dater	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
DCI	0,1	0,3	0	0	0,1	0	0	0	0,1	Technik	Produktleistung
débuter/début	0,1	0,3	0	0	0,1	0	0	0	0,1	Neuigkeit
détenir	0,2	0,3	0,1	0	0,1	0	0	0	0,2	Wirtsch./Pol.
deuxième	0,1	0	0,1	0	0	0	0	2,4	0,1	Entwicklungen	Maß
développer	0,1	0	0,1	0	0,1	0	0	0	0,1	Technik	Entwicklungen
devenir	0,2	0,3	0,1	0	0	0	0	0	0,2	Entwicklungen
disparaître	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
diviser	0,1	0,3	0	0	0,1	2,5	0	0	0	Argument
double	0,1	0	0,1	0,3	0	0	1,6	0	0,1	Maß
éclater	0,1	0,3	0	0	0,1	0	0	0	0,1	Entwicklungen	Wirtsch./Pol.
économique	0,1	0	0,1	0,3	0	0	0	0	0,1	Wirtsch./Pol.
émettre	0,4	0	0,6	1,1	0,1	0	0	0	0,3	Umwelt
empêcher	0,1	0,3	0	0	0,1	0	0	0	0,1	Argument
entraîner	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
équiper	0,2	0,3	0,1	0,3	0,1	0	0	0	0,2	Technik	Produktleistung
équivalent/ant	0,2	0,5	0	0,5	0,1	0	0	0	0,2	Argument	Maß
éviter	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
évoluer	0,1	0	0,1	0,3	0	0	0	0	0,1	Entwicklungen
fabriquer	0,1	0,3	0	0	0,1	0	0	0	0,1	Technik	Industrie
faussement	0,1	0	0,1	0,3	0,1	0	0	0	0,1	Argument
fonctionner	0,1	0	0,1	0,3	0,1	0	0	0	0,1	Technik
fournir	0,1	0	0,1	0,3	0,1	0	0	0	0,1	Produktleistung	Wirtsch./Pol.
générer	0,2	0	0,3	0	0,3	0	0	0	0,2	Produktleistung	Umwelt
HDi	0,1	0,3	0	0,5	0	0	0	0	0,1	Technik	Produktleistung
hybride	0,35	0	0,5	0,8	0,1	2,5	0	0	0,3	Technik	Umwelt
issu	0,1	0	0,1	0,3	0	0	0	0	0,1	Entwicklungen	Industrie
jouer	0,1	0	0,1	0,3	0	0	0	0	0,1	Argument
mais	0,26	0	0,4	0,5	0,1	0	0	0	0,3	Argument
maison	0,2	0	0,3	0,5	0	0	0	0	0,2	Wirtsch./Pol.	Industrie
malgré	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
moderne	0,5	0,5	0,5	0	0,7	0	0	0	0,4	Entwicklungen
modifier	0,1	0,3	0	0,3	0	2,5	0	0	0	Entwicklungen	Betrug
moyen	0,1	0	0,1	0	0,1	0	0	0	0,1	Maß	Argument
muni/r	0,1	0	0,1	0,3	0	0	0	0	0,1	Produktleistung	Technik
mystique	0,1	0	0,1	0,3	0	2,5	0	0	0	Produktleistung
neutre	0,1	0	0,1	0,3	0	0	0	0	0,1	Produktleistung
non	0,2	0,3	0,1	0,3	0,1	0	0	0	0,2	Argument
nouveau(té)	0,1	0	0,1	0	0,1	2,5	0	0	0	Neuigkeit
obliger	0,1	0	0,1	0,3	0	0	0	0	0,1	Argument
obtenir	0,1	0,3	0	0	0,1	0	0	0	0,1
particule	0,1	0	0,1	0	0,1	2,5	0	0	0	Umwelt	Technik
plus	0,1	0	0,1	0,3	0,1	0	0	0	0	Maß	Argument
polluant/polluer	0,1	0,3	0	0	0,1	0	1,6	0	0,1	Umwelt
prendre	0,1	0	0,1	0,3	0	0	0	0	0,1	Entwicklungen
présenter	0,1	0	0,1	0,3	0	0	0	0	0,1	Produktleistung
prévu	0,1	0,3	0	0,3	0	0	0	0	0,1	Neuigkeit	Entwicklungen
produire	0,1	0	0,1	0	0,1	0	0	0	0,1	Umwelt	Industrie
progresser	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
prononcer	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
propre	0,26	0	0,4	0,3	0	0	1,6	0	0,2	Umwelt	Produktleistung
provenir	0,1	0	0,1	0,3	0	0	0	0	0,1	Industrie	Umwelt
provoquer	0,1	0,3	0	0,3	0	0	0	0	0,1	Umwelt	Gesunheit
récent	0,1	0,3	0	0	0,1	0	0	0	0,1	Neuigkeit
recevoir	0,1	0	0,1	0	0,1	0	0	0	0,1	Produktleistung	Technik
réglementation	0,1	0	0,1	0	0,1	2,5	0	0	0	Wirtsch./Pol.
régner	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
rejeter	0,2	0	0,3	0,3	0,1	0	0	0	0,2	Umwelt	Produktleistung
repartir	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
reposer	0,1	0	0,1	0	0	0	0	0	0,1	Argument
représenter	0,35	0,8	0,3	0	0	0	1,6	0	0,3	Argument
respecter/ant	0,1	0,3	0	0	0,1	0	0	0	0,1	Produktleistung	Umwelt
rester	0,35	0,3	0,3	0,5	0	0	0	2,4	0,3	Entwicklungen
réussir	0,2	0	0,3	0,5	0	0	0	0	0,2	Produktleistung	Entwicklungen
risquer	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
sacrifier	0,1	0,3	0	0	0,1	0	0	0	0,1	Argument
sans	0,26	0,3	0,3	0,3	0	0	0	0	0,1	Produktleistung	Maß
séduire	0,1	0	0,1	0	0,1	2,5	0	0	0	Produktleistung
sentir	0,1	0,3	0	0	0,1	0	0	2,4	0,1
sortir	0,1	0	0,1	0	0,1	0	0	0	0,1	Neuigkeit
sportif	0,1	0	0,1	0,3	0	2,5	0	0	0	Produktleistung
subir	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
subventionner	0,1	0,3		0	0,1	0	0	0	0,1	Wirtsch./Pol.
supposer	0,1	0	0,1	0	0,1	0	0	0	0,1	Argument
survitaminé/r	0,1	0	0,1	0,3	0	0	0	0	0,1	Argument	Technik
TDI	0,1	0	0,1	0,3	0	0	0	0	0,1	Technik	Produktleistung
toujours	0,1	0	0,1	0	0,1	0	0	2,4	0,3	Entwicklungen	Argument
traverser	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
trop	0,2	0	0,3	0,3	0,1	0	3,3	0	0,1	Argument	Maß
trouver	0,1	0,3	0	0	0,1	0	0	0	0,1
truquer/truqué	1	0,8	1	0	1,4	0	3,3	0	0,9	Betrug	Wirtsch./Pol.
truste	1	0	0,1	0	0,1	0	0	2,4	0,1	Wirtsch./Pol.	Betrug
turbo (inkl. biturbo)	0,1	0,3	1,3	1,6	0,5	0	0	0	1,1	Technik	Produktleistung
vanter	0,2	0	0,3	0,3	0,1	0	0	0	0,2	Argument
vibrer	0,1	0	0,1	0,3	0	0	0	0	0,1	Technik
vieillir	0,1	0	0,1	0	0,1	0	0	0	0,1	Entwicklungen
voire	0,1	0	0,1	0,3	0,1	0	0	0	0,1	Argument

Filtert man auch diese Tab. wieder (s. Datei) nach absteigenden Werten in der linken Spalte (ges), zeigt sich, dass Betrug, Wirtschaft/Politik und Produktleistung vor Umwelt dominieren; Technik kommt knapp hinter Umwelt. Die starke Präsenz der Kat. Argument ist sprachintern beeinflusst, da die nähere Bestimmung von diesel im Kontext mit dem rechten Kollokator beginnt.

9.6. Zusammenfassung Kollokationen

In diesem Kap. wurden sämtliche Kollokationen mit diesel (u. am Rande auch von gazole) anhand von SQL-Abfragen für das Gesamtkorpus u. alle Teilkorpora erfasst. Daraus wurde ein Paradigma von Lemmata herausgearbeitet, die diskurslinguistisch relevant sind. Deren *relative* Anteile, d.h. an allen jeweiligen teilkorpusspezifischen Kollokationen (je Position) wurden ermittelt, damit ihre Frequenzen gewichtet und verglichen werden konnten. Dank der rel. Anteilsberechnung können die Werte für potentielle Folgestudien auch ohne Nachvollziehen aller Einzelheiten herangezogen werden.

Eine erste Qualifizierung der gewonnen Daten erfolgte in Form einer nicht als geschlossen od. endgültig gedachten Kategorienbildung anhand des Paradigmas aus allen extrahierten Kollokator-Lemmata. Dabei stellte sich heraus, dass deutliche Abgrenzungen möglich sind und man von ca. 6 bis max. 10 Kategorien ausgehen kann, die in der corpus-based Analyse in die Kontextualisierung extrahierter Strukturen anhand v. Stichproben einbezogen u. ggf. modifiziert werden können.

10. Korpusanalyse V: Kookkurrenzen

Am Ende des Kap. erfolgt eine Zusammenfassung.

10.1. Vorbemerkungen

10.1.1. Satzgrenzenerkennung

Während die (für die Bestimmung von Kollokationen grundlegende) ID-Zuweisung in der DB ‚unfehlbar‘ ist, muss man bei der Satzgrenzenerkennung (in der Spalte sentnr) etwas vorsichtiger mit der Gewichtung sein, da nicht alle tatsächlichen Satzgrenzen des vorliegenden Korpusmaterials erkannt wurden¹⁸¹. Es kommt z.B. vor, dass ein „.“ (Punkt) nicht als Satzgrenze erkannt wird, weil es ohne Leerzeichen dasteht und daher als Teil einer Abkürzung gewertet wird. Vgl. dazu folgende Abfrage:

SELECT * FROM tokens WHERE wortart != 'SENT' and token like '%.' ORDER BY token

(queries _id 260)

Die Anzahl dieser Fälle in der Tab. tokens beläuft sich auf 519 DS gegenüber 13541 Fällen, in denen „.“ als Satzgrenze (einzelnes Token) vorhanden ist. Die Fehlerquote liegt also bei max. 4% und ist für quantitative Erhebungen zu verschmerzen. Dennoch lohnt es sich, die 519 DS kursorisch durchzugehen, denn es stellt sich heraus, dass außer Ziffern und einzelnen Großbuchstaben als einzige Lexeme solche auftreten, die auf -f enden (wie in f. für ‚folgende (Seite)). Sollte es in späteren Ergebnissen, v.a. zur Qualifizierung der Befunde, um gerade solche Wörter gehen, ist es gut, auf diese Liste zurückgreifen zu können.

10.1.1.1. Durchschnittliche Anzahl Tokens pro Satz im Gesamtkorpus

Die Abfrage

SELECT SUM(anzahl_ts), COUNT(*), AVG(anzahl_ts) FROM (SELECT datei, sentnr, COUNT(*) AS anzahl_ts, group_concat(token ORDER BY ID)FROM
tokens
GROUP BY datei, sentnr HAVING COUNT(*) > 1) AS sq1

liefert folgendes Ergebnis:

SUM(anzahl_ts)	COUNT(*)	AVG(anzahl_ts)
372063	15921	23.3693

Das Korpus enthält 372275 Tokens, die davon abweichende Zahl i.d. Tab. erschließt sich nicht unmittelbar; der Unterschied von 212 macht nur 0,06% der tatsächlichen Tokenzahl aus und könnte in diesem Fall vernachlässigt werden. Da aber festgestellt wurde, dass bei der automatischen Annotierung der Tokens rd. 500 Satzgrenzen nicht registriert wurden und die 15921 auf 16500 aufgestockt werden müssen, kann auch gleich der tatsächliche Korpusumfang für eine Neuberechnung verwendet werden: 372275/16500 ergibt einen leicht korrigierten Durchschnitt v. rd. 22,6 Tokens pro Satz.

10.1.2. Weiterer Verlauf der Untersuchungen

Ein weiterer zu beachtender Hintergrund für die Kookkurrenz-Abfragen ist, dass in den Kookkurrenzen auch die Kollokationen enthalten sind. Daher werden hier diejenigen Kookurrenzen besonders beachtet, die gerade nicht unter den häufigen Kollokationen sind.

Um das Ausmaß der quantitativen Berechnungen nicht noch weiter i.d. Höhe zu treiben, wird hier auch nicht quantitativ vergleichend vorgegangen, d.h. auf die Berechnung relativer Prozentsätze wird verzichtet. Im Folgenden geht es in erster Linie darum, einen Überblick über die häufig(st)en Kookkurrenzen zu erhalten, um später corpus-based damit arbeiten zu können.

10.2. Kookkurrenzen mit diesel in einzelnen Korpusbereichen

10.2.1. Kookkurrenzen mit diesel im Gesamtkorpus

Um zu ermitteln welche methodisch relevanten Tokens im gleichen Satz wie diesel auftreten und welche davon am häufigsten, eignet sich folgende Abfrage:

SELECT * FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' GROUP BY datei, sentnr)a
 JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR'
GROUP BY token

(queries_id 272)

Es werden 4576 DS ausgegeben. Eine nach absteigender Häufigkeit geordnete Liste liefert folgende Abfrage:

SELECT token, aa.anzahl AS anz_kkr_diesel FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel')a 
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart not like 'NUM' AND wortart not like 'ABR' AND wortart NOT LIKE 'SENT' AND wortart NOT LIKE 'PUN%' AND wortart NOT LIKE 'SYM' GROUP BY token)aa 
ORDER BY anz_kkr_diesel desc

(queries_id 275)

Wie die Ausgabetab. zeigt, sind die häufigsten nominalen Kookkurrenzen die Lemmata¹⁸²

essence, moteur und véhicule

darauf folgen¹⁸³

émission, voiture, vente und électrique, die auch noch mind. 50 mal vorkommen;

mind. 30 mal sind CO2, modèle, électrique, marché, automobile, constructeur, groupe, prix, année, litre, version, baisse, cylindre, version, baisse, technologie und motorisation vertreten;

mind. 20 mal puissance, particules, rapport, consommation, gamme, scandale, ville, million, fin, carburant, gaz, norme, azote, système.

Die Liste der mehr als zehnmal vorkommenden Kookkurrenzen ist sehr lang, darunter sind häufig: marque, coût, cote, avenir, test, automobiliste, mois, polluant, malus, origine, pollution, couple, circulation, santé, cas, industrie, objectif, chute, jour, gouvernement, place, capot, berline, transmission, type …

Die Fälle, in denen Formen wie électrique, hybride, turbo usw. als Substantive vorkommen, ermitteln Abfragen nach folgendem Schema, das Vorkommnisse des Tokens extrahiert, denen jeweils der best. Artikel vorangeht:

SELECT * FROM
(SELECT * FROM `tokens` WHERE token like 'electrique')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 2 AND b.token like 'l' order by b.datei

SELECT * FROM
(SELECT * FROM `tokens` WHERE token like 'turbo')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id-b.ID = 2 AND b.token LIKE 'le' 
ORDER BY b.datei

(queries_id 281 u. 282)

Vgl. dazu die ersten paar DS der beiden Ausgabetab.:

Es zeigt sich an der jeweiligen Anzahl der DS, dass électrique insgesamt (nicht auf diesel-Kookkurrenzen beschränkt) mind. 65 mal (von 518 mal ingesamt) als Substantiv (bzw. Substantiv-Komponente) auftaucht, hybride mind. 8 mal (von 198 mal insges.), turbo mind. 7 mal (von 126 mal insges.), automobile mind. 108 mal (von 453 insges.) und automatique mind. 3 mal (von 152 insges.). Davon ausgehend ist (auch wenn außer im Zusammenhang mit dem best. Artikel noch weitere nominale Verwendungen existieren) die Wahrscheinlichkeit für adjektivische Verwendung bei allen diesen Formen auch dort gegeben, wo sie mit diesel kookkurrieren, umso mehr, da ja diesel selbst in den meisten Fällen, in denen es als nachgestelltes Adjektiv fungiert, dies mit anderen als den aufgeführten Formen tut. Wie die Wortarten auf die jeweiligen Verwendungen auch verteilt sind, es ist v.a. die Häufigkeit der Formen an sich, welche für die Qualifizierung der Daten eine weiterführende Rolle spielt.

Häufigste Partizpien in der Kookkurrenz-Liste, die im Allgemeinen vorwiegend Adjektiv-Funktion haben (direkt nachgesstellt od. mit être) sind: polluant, truqué, équipé, élevé.

Die Rangliste der verbalen Okkurrenzen führt être an, gefolgt von avoir (jeweils über 70 mal), faire (über 40 mal), devoir (über 20 mal) und rester, annoncer, réduire, (équiper, truquer, élever, polluer), pouvoir, sembler (je über 15 mal), rouler, mettre, venir, présenter, bannir, émettre, développer, interdire, vouloir, falloir, décider, préciser, représenter, passer, montrer, expliquer (je mind. 10 mal).

10.2.1.1. Kookkurrenzen mit diesel vs Kookkurrenzen ohne diesel

Um zu vergleichen, wie häufig die gefundenen Kookkurrenzen in Sätzen jeweils mit und ohne das Vorkommnis diesel auftreten, eignet sich folgende Abfrage:

SELECT token, aa.anzahl AS Anzahl_mit_Diesel, bb.anzahl AS Anzahl_ohne_Diesel, aa.anzahl / bb.anzahl Quote FROM 
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel')a 
 JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
 JOIN (SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token NOT LIKE 'diesel')a 
 JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)bb USING(token)
 ORDER BY Anzahl_mit_Diesel desc

(queries_id 31)

Die Quote zeigt das Verhältnis zwischen beiden Kookkurrenz-Arten des jeweiligen Tokens. Führt man die gleiche Abfrage mit `lemma` statt `token` aus, erhält man zwar eine bessere Übersicht, aber der Nachteil ist auch hier, dass die Spalte `lemma` im Prinzip eine maschinelle Ableitung der Spalte `tokens` darstellt, welche untrüglich alle Elemente des Quelltextes wiedergibt. Nun soll aber geklärt werden, wie sich diese Kookkurrenz-Verhältnisse diachron verteilen:

Für Zeitraum A:

SELECT token, aa.anzahl AS Anzahl_mit_Diesel, bb.anzahl AS Anzahl_ohne_Diesel, aa.anzahl / bb.anzahl Quote_zr1 FROM (SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20071101 AND 20081031 )a JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa 
JOIN (SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token NOT LIKE 'diesel' AND datum BETWEEN 20071101 AND 20081031)a JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)bb
USING(token) ORDER BY Anzahl_mit_Diesel desc

(queries_id 285)

Für Zeitraum B:

SELECT token, aa.anzahl AS Anzahl_mit_Diesel, bb.anzahl AS Anzahl_ohne_Diesel, aa.anzahl / bb.anzahl Quote_zr2 FROM (SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20171101 AND 20181031 )a JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa 
JOIN (SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token NOT LIKE 'diesel' AND datum BETWEEN 20171101 AND 20181031)a JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)bb
USING(token) ORDER BY Anzahl_mit_Diesel desc

(queries_id 286)

Greift man sich nur die 2 häufigsten der weiter oben zusammengetragenen autosemantischen Kookkurrenten v. diesel heraus, nämlich essence u. moteur, ergibt sich folgendes diachrones Bild hinsichtlich ihrer relativen Verwendung mit und ohne diesel:

	ges	zrA	zrB	1% v. ges	diff	%
essence	0,0132	0,0134	0,013	0,000132	-0,0004	-3,03030303
moteur	0,0104	0,0099	0,0138	0,000104	0,0039	37,5

Erläuterung:

Je niedriger die Quote in der Ausgabetab., umso mehr Kookkurrenzen bildet das Token *nicht* mit diesel im Vgl. zu den Fällen, wo es dies tut. Man erkennt, dass die Verwendung von essence in Sätzen mit diesel (in Relation zu seiner sonstigen Verwendung) zwischen Zeitraum A und B abgenommen hat: die Abnahme der Quote von 0,0134 auf 0,0130 entspricht einer Verschiebung zugunsten der Verwendung *nicht* mit diesel um rd. 3%. Bei moteur zeigt sich eine ganz andere Entwicklung: hier stieg die Quote um rd. 38%, was einer deutlichen Verschiebung hin zur stärkeren Verwendung des Tokens ins Sätzen mit diesel im Vgl. zu seiner anderweitigen Verwendung entspricht. Diese Beobachtung deckt sich mit derjenigen zu moteur als Kollokator von diesel, wo eine Zunahme v. 14,7 auf 17,7% r.A. festgestellt wurde, wobei die Zunahme nicht ausschließlich auf die Kollokatoren zurückzugehen scheint.

Zwar sind hiermit nur zwei Zeiträume berücksichtigt und alles was dazwischen liegt, ist unbekannt – was ja auch für alle anderen i.d.v.A. angestellten diachronen Vergleiche gilt. Aber gerade im Fall von moteur kann man zweifellos von einer drastischen Verschiebung sprechen.

10.2.2. Kookkurrenzen mit diesel in den beiden Zeitungen

Die Gesamtzahl der Kookkurrenzen teilt sich wie folgt auf mde- und fgo-Korpus auf:

SELECT * FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' GROUP BY datei, sentnr)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR' AND zeitung = 'mde'
GROUP BY token

(queries_id 283)

SELECT * FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' GROUP BY datei, sentnr)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR' AND zeitung = 'fgo'
GROUP BY token

(queries_id 284)

kkr_diesel_ges	kkr_diesel_mde	kkr_diesel_fgo
4576	2441	3446

Wie man in der Übersicht schnell erkennt, ergeben die Abfragen zu den Teilkorpora zusammen mehr als die oben durchgeführte globale Abfrage (queries_id 272). Wie es im Verlauf dieser Abfragereihe nicht ganz selten der Fall ist, erschließt sich mir auch dieses ‚SQL-Rätsel´nicht unmittelbar. Sofern sich im weiteren Verlauf keine Erklärung dafür findet, müssen mögliche quantitative Aussagen mit noch größerer Vorsicht aus den Kookkurrenz-Berechnungen abgeleitet werden. Diese Einschränkung ist kein allzugroßer Verlust, lässt sich doch die in diesem Teil der Abfragephase ermittelte Auswahl der häufigsten bzw. häufigen Lexeme für die corpus-based Anschlussuntersuchuung nutzbar machen. Stehen diese dann im Fokus der Abfragen (z.B. wie oben diesel) wird die Reliabilität der Abfrageergebnisse wieder leichter zu überprüfen bzw. bestätigen sein.

Eine Rangliste der häufigsten Kookkurrenzen im fgo-Koprus liefert:

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'fgo' )a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 289)

Im fgo-Korpus belegen wie im Gesamtkorpus die Lemmata essence, moteur, véhicule, émission und voiture die obersten Plätze. Führt man die Abfrage analog für mde aus:

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND zeitung = 'mde' )a JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 288)

bietet sich ein geringfügig anderes Bild: moteur, véhicule, essence, émission, vente und voiture bilden hier nacheinander die häufigsten (autosemantischen bzw. methodisch interessanten) Kookkurrenzen mit diesel. Jedoch liegen die Frequenzen z.T. nah beieinander: zwischen véhicule (69 mal) und essence (57 mal) und zwischen émission (27), vente (25) und voiture (22) sind die Abstände (v.a. im Vgl. zu fgo, trotz der dort höheren Gesamt-Tokenzahl) rel. gering.

10.2.3. Kookkurrenzen mit diesel in den beiden Zeiträumen

10.2.3.1. Zeitraum A

SELECT * FROM 
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' GROUP BY datei, sentnr)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR' AND datum BETWEEN 20071101 AND 20081031 
ORDER BY token

(queries_id 342)

Nach Häufigkeit gruppiert:

SELECT * FROM (SELECT COUNT(*) AS Anzahl, b.token FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20071101 AND 20081031 )a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR' GROUP BY token)aa
order by anzahl desc

(queries_id 344)

essensce, moteur, hybride, version, modèle, turbo, cylindre, électrique, consommation, gamme, motorisation, litre, émission …

10.2.3.2. Zeitraum B

SELECT * FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' GROUP BY datei, sentnr)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR' AND datum BETWEEN 20171101 AND 20181031
ORDER BY token

(queries_id 343)

Nach Häufigkeit:

SELECT * FROM (SELECT COUNT(*) AS Anzahl, b.token FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' AND datum BETWEEN 20171101 AND 20181031 )a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR' GROUP BY token)aa
order by anzahl desc

(queries_id 345)

essence, moteur, véhicule, émission, voiture, vente, automobile, baisse, électrique, groupe, marché, constructeur, C02, scandale, million, technologie, modèle, litre, nouveau …

10.2.4. Kookkurrenzen mit diesel in einzelen Textbereichen

10.2.4.1. Im Titel

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' and zwue = 1)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 295)

moteur, automobile, véhicule, industrie, boxer, allemand, système, fumer, particule, émission, rouler, gazole, baisse, voiture, tour, auto, zéro, public, prix, origine, abandonner, nouveauté, technologie, pouvoir, afficher, constructeur, équipe, interdiction, ville …

10.2.4.2. Im Untertitel

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' and zwue = 2)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 296)

véhicule, essence, moteur, émission, voiture, constructeur, marché, ville, (premier), vente, équipe, interdire, baisse, nouveau, jour, hausse, circulation, modèle, an, scandale, allemand, automobile, électrique, fois, logiciel, berline, concurrene, dévoiler, turbo, rapport

10.2.4.3. In Zwischenüberschriften/Einschüben

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'diesel' and zwue = 4)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 297)

essence, unité, abandon, million, baisse, véhicule, tendance, particule, rester, technologie, considérer, réduire, série, année, [sonner le] glas, motorisation, émission, développer, mauvais, consommation, maintenir, partout, similaire, attractif, confiance, autonomie, seul, annoncer, directeur, loin, CO2, rouler, recherche, général, toujours, grand, moderne, électrique

10.3. Kookkurrrenzen mit gazole in einzelnen Korpusbereichen

10.3.1. Kookkurrrenzen mit gazole im Gesamtkorpus

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 290)

essence, moteur, prix, carburant, voiture, véhicule, rouler, pompe, émission, fois, consommation, étude und polluant

10.3.2. Kookkurrrenzen mit gazole in den beiden Zeitungen

10.3.2.1. Le Figaro

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole' and zeitung = 'fgo')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 291)

essence, prix, moteur, carburant, polluant, pompe, voiture, rouler, litre, véhicule, émission, étude, particule

10.3.2.2. Le Monde

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole' and zeitung = 'mde')a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 292)

essence, litre, moteur, carburant, fois, voiture, véhicule, rapport, consommation

10.3.3. Kookkurrenzen mit gazole in den beiden Zeiträumen

10.3.3.1. Zeitraum A

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole' and datum BETWEEN 20071101 AND 20081031)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 293)

essence, moteur, prix, carburant, litre, combustion, polluant, émission, sûr, produit, /(euro), auch oben/ voiture, fois, km, diester, augmentation, particule, pompe, consommation, explosion, GPL, produire, demande(r)

10.3.3.2. Zeitraum B

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole' and datum BETWEEN 20171101 AND 20181031)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 294)

diesel, essence, moteur, carburant, prix, véhicule, rouler, voiture, professionnel, alignement, fonctionner, étude, dieselgate, envolée, avantage, litre, gros, taxe, fiscalité, toujours

10.3.4. Kookkurrenzen mit gazole in einzelen Textbereichen

10.3.4.1. Im Titel

SELECT * FROM
(SELECT COUNT(*) AS Anzahl, b.token FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole' and zwue = 1)a
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID GROUP BY token)aa
order by anzahl desc

(queries_id 295):

étude, sale, transport, (Europe), automobile, parc, (français), (bruxellois), environnement, pays

10.3.4.2. Im Untertitel

SELECT * FROM (SELECT COUNT(*) AS Anzahl, b.token FROM
 (SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole' and zwue = 2)a 
  JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID WHERE char_length(token) > 2 AND wortart NOT LIKE 'NUM' AND wortart NOT LIKE 'ABR'
  GROUP BY token)aa order by anzahl desc

(queries_id 314)

10.3.4.3. In Zwischnüberschriften u. Einschüben

SELECT * FROM (SELECT COUNT(*) AS Anzahl, b.token FROM
(SELECT ID, datei, sentnr FROM `tokens` WHERE token LIKE 'gazole' and zwue = 2)a 
JOIN tokens b ON a.datei=b.datei AND a.sentnr=b.sentnr AND a.id!=b.ID
GROUP BY token)aa order by anzahl desc

Null DS.

10.4. Zusammenfassung Kookkurrenzen

Viele der häufigen Kookkurrenz-Types decken sich naturgemäß mit den häufigen Kollokations-Types; der starke Anstieg der Verwendung von moteur in Sätzen mit diesel ist aber nicht nur auf Kollokationen zurückzuführen.

Was sich gerade nicht mit den Kollokations-Lemmata deckt bzw. decken kann, ist das häufig kookkurrierende Lemma émission. Für die abschließende Analyse werden weitere Lemmata ausgewählt, die als Kollokationen nicht od. eher am Rande auftraten:

mit diesel:

électrique, emission, vente, marché, automobile, constructeur, prix, puissance, particule, rapport, scandale, ville, carburant, norme, azote, co2, pollution, capot, couple, bannir, interdire, truquer, polluer, rouler, industrie, technologie, baisse, hausse

mit gazole:

étude, sale, environnement!, pompe

11. Korpusanalyse VI: Corpus-based Empirie anhand von Wortfeldern (Domänen)

Vorbemerkung: Dieses sehr kurze Kap. stellt lediglich ein kleines Kompendium relevanter bisheriger Befunde dar, welches als Ausgangspunkt für eine empirische Anschlussstudie (mit corpus-based Abfragen) zu Korrelationen zwischen den quantitativen Ergebnissen und bestimmten Domänen dienen kann.

Ermittelte Vorkommnisse mit Zeichenfolge /diesel/ vgl. hier

Erste Domänen auszumachen anhand v. /diesel/-Frequenz vgl. hier

Signifikant höhere diesel-Frequenz in mde, Indiz f. ‚progressiv‘, vgl. hier

auch im Titel (nicht klar signifikant, aber deutlich höher), vgl. hier

Niedrigere diesel-Frequenz in Haupttext als in zwue1-zwue4, vgl. hier

Diachroner Rückgang v. gazole, vgl. hier

Selektion diesel vs. gazole: Konnotation, vgl. hier, diachrone/zeitungsspez. Selektion hier/hier

Annähernde Proportionalität diesel-Frequenz mde+zrA/fgo+zrB vgl. hier

Bei gazole umgekehrt (mde+zrB, fgo+zrA)vgl. hier

Zusammenfassung diesel-Frequenzen (Kap. Korpusanalyse III) vgl. hier

Komposita

Rudolf als Hinweis auf hist. Diskurs vgl. hier (FN 162)

Kategorien aus Kollokator-Lemmata vgl. hier

12. Korpusanalyse VII: Corpus-based Anschlussuntersuchung (Lexikologie und Kontextualisierung)

Im Verlauf der corpus-driven Korpusanalyse II-V wurden zahlreiche Befunde gesammelt, von denen hier nur ein Bruchteil qualifiziert und näher diskutiert werden kann. Das übergeordnete Ziel d.v.A. war und ist, diskursive Muster zu identifizieren, die für divulgatives Sprechen i.w.S. und die frz. Tagespresse i.e.S. charakteristisch sind. Die Verfolgung dieses Ziels ist allerdings nicht im ursprünglich erhofften Umfang möglich, da der Aufbau der empirischen ‚Versuchsanordnung‘ für die corpus-driven Analyse und deren Durchführung einen unvermeidlich zentralen Platz einnahm und so selbst zum quantitativen Hauptinhalt der v.A. wurde. Folgende Fragestellung stand am Anfang der Untersuchung:

12.1. Methodischer Fahrplan und Lemma-Auswahl

Bisher wurden in erster Linie einzelne Elemene bzw. Gruppen v. Simplizia extrahiert, die sich im Text in einer bestimmten maximalen Distanz zum Ausdruck diesel (u.a.) befinden. Alle Lemmata der Kollokatoren und Kookkurrenten, die fortlaufend unter diskursanalytischen Gesichtspunkten herausgegriffen wurden, an dieser Stelle aufzugreifen, ist im gegebenen Rahmen nicht möglich. Daher werden nur einige wenige Lemmata aus den verschiedenen Teilbefunden ausgewählt, die für die konkrete Kontenxtualisierung und deduktive Abfragen ergiebig und spannend zu sein versprechen. Natürlich wäre eine ganz andere Auswahl ebenfalls möglich, aber es geht ja darum, nach dem induktiv-abstrahierenden ‚Austesten‘ von textoberflächlichen Schemata, die *nicht* für einen bestimmten Sprachgebrauch determinierend sind, weil sie ein Merkmal von Texten schlechthin sind, nun anhand der konkreten Kristallisationspunkte, die daraus hervorgingen, deduktiv-abstrahierend determinierende bzw. determinierte textoberflächliche Strukturen zu identifizieren.

Ähnlich wie bei grammatischen Konstituententests kann möglicherweise gesehen werden, welcher Art die potentielle Musterhaftigkeit ist, d.h. ob und wie sie sich auf den drei Ebenen Morphosyntax, Semantik und Stratik¹⁸⁴ im Korpus wiederholt. Außerdem interessiert, ob und wie die bisher je Lemma zugeordnete(n) Kategorie(n) bzw. Domäne(n) im Kontext noch aufrechterhalten werden kann bzw. können.

Auch wenn nur eine begrenzte Zahl von Kontextualisierungen erfolgen kann, ist nicht zu vergessen, dass jedes der behandelten Lemmata dank der ‚Herkunft‘ aus der corpus-driven Untersuchung quantitativ ins Gewicht fällt und die Stichproben anhand dieser Lemmata nicht den Beliebigkeitsgrad haben wie wenn im Gesamtkorpus nach dem Zufallsprinzip gesucht würde. Die folgenden Überlegungen können aber in jedem Fall nur Entwürfe von Hypothesen sein – um das Ideal des corpus-driven Ansatzes zu erreichen, nämlich den Kreis von Induktion/Abduktion, Hypothesen, neuen Theorie-Entwürfen und Deduktion wenigstens ansatzweise zu schließen, wäre eine wesentlich ausgedehntere Untersuchung nötig, sowohl corpus-driven als auch u.v.a. corpus-based, sowie die eingehende Überprüfung aller Aussagen hinsichtlich ihrer sprachwissenschaftlichen Implikationen. Im Rahmen d.v.A. muss reduziert vorgegegangen werden, weshalb ich mich im Folgenden auf die lexikalische und kontextuelle Einbettung einiger weniger Lemmata konzentriere. Folgende Hauptschritte erfolgen zu jedem von ihnen:

Lexikologische und empirische Einordnung (anhand v. WB und bisherigem korpuslinguistischem Befund)
Kontextualisierung durch Stichproben der entsprechenden Dateien bzw. Zeitungsartikel¹⁸⁵
ggf. Revidieren/Ergänzen der bisherigen Kategorien-Zuordnung

Corpus-based Abfragen wären in dieser Phase zwar wünschenswert, würden aber im gegebenen Rahmen einen zu hohen Aufwand bedeuten. Auch die Erstellung von Wortfeldern und Frames rund um jedes Lemma wäre aufschlussreich, aber auch darauf wird hier aus praktischen Gründen verzichtet. Außerdem könnte es interessant sein, mögliche Muster mit ‚diskursiven Konstituententests‘ zu erforschen. All dies kann immerhin dank dem Bestand, den die empirische Basis der vorliegenden Untersuchung hat, bei Bedarf in einer Anschlussstudie nachgeholt werden.

Es soll nun lediglich exemplarisch versucht werden, diskursive Muster anhand des Kontextes auszumachen, in denen einige der bisher extrahierten Lemmata auftreten.

Am Ende jeder kleinen Lemma-Abhandlung erfolgt der Versuch, diskurstypologische¹⁸⁶ Schlussfolgerungen i.S.d. Fragestellung zu ziehen.

12.1.1. Lemma-Auswahl

Aus dem Kap. Korpusanalyse IV (Kollokationen) werden aufgenommen:

véhicule, cylindre, truquer (diesel-Kollokationen)
infecter (gazole-Kollokation)

12.2. Analyse

12.2.1. véhicule

12.2.1.1. Lexikologie und empirische Fakten

Bisheriger KL-Befund: zweithäufigste links-Kollokation von diesel im Gesamtkorpus, aber *nur in Zeitraum B*; starke diachrone Zunahme in dieser Funktion; Domänen: KFZ allg, Alltag

Lexikologische Einordnung: n.m., v. lat. vehiculum (FEW Quelle); Hyperonym für Substantive wie „automobile, berline, cabriolet, calèche, carriole, char, chariot, charrette, diligence, tombereau, wagon, etc.“, Synonym f. voiture (TLFi Quelle); admin. („ou pour éviter d’employer un autre mot“) (PR Quelle)

12.2.1.2. Kontextualisierung

Der einzige Artikel des zrA, in dem véhicule als li-K. von diesel auftritt, entspricht der Datei fgo2008062701; der Datensatz mit entspr. URL ist in Tab. meta mit der Abfrage

SELECT * FROM `meta` WHERE Datei = 'fgo2008062701'

ausfindig zu machen:

In dem Artikel v. Juni 2008 geht es um die Konkurrenz, die dem Dieselkraftstoff von GPL bzw. LPG gemacht wird.

Das Lemma kommt im letzten Satz als links-Kollokator von diesel vor: „La diminution prévisible de la valeur en occasion des véhicules diesel, si l’augmentation du brut continue, pourrait donner une indication sur la vitesse et l’ampleur de sa propagation.“

Sonst kommt das Lemma im Artikel noch einmal vor: „Selon le CFBP, « les émissions de CO2 d’un véhicule GPL sont en moyenne inférieures de 16 % à celles d’un moteur à essence et de 11 % à celle d’une motorisation diesel .“

Im PR steht ja, dass véhicule in der admin. Sprache u. als Alternativausdruck für Hyponyme od. Synonyme verwendet wird. Die Tatsache, dass der Ausdruck zuerst in einem Zitat v. offizieller Seite auftaucht, verleiht der Verwendung durch den Autor am Ende des Artikels (allgemeine Aussage über Dieselfahrzeuge) eine kontextuell erhöhte Kredibilität, weil der lexikologische/diasystematische Status (admin. usw.) bzw. die Konnotation ‚offiziell‘ in ein und demselben Text zuvor ‚modelliert‘ wird: [Les émissions] [d’un véhicule GPL] [sont…]. → [La diminution de la valeur] [des véhicules diesel] [pourrait] […]. Folgende Muster können hiernach postuliert werden:

♦ Muster: Allgemeingültigkeit durch Konstruktion [Subjekt = Eigenschaft] [Genitiv/Präpositionalobjekt = (Diesel)Fahrzeugs] [VP];

♣ Muster: Nutzung d. diasystematischen Neutralität d. Ausdrucks (z.B. zur Distanzieurung)

∝ Muster: stilistischer Gebrauch zur Vermeidung v. Redundanz

Nun zu einem Bsp. aus dem frühesten der zahlreichen Art. des jüngeren Zeitraums, in denen véhicule als diesel-Kollokator auftritt (fgo2017112702, URL): „Autre avantage, un véhicule diesel consomme moins.“ Der Artikel zeugt insgesamt von der nach wie vor großen Beliebtheit von Dieselfahrzeugen in Fuhrparks. Die Verwendung von véhicule in diesem Satz macht sich also am ehesten die lexikolog. Eigenschaft des generischen Ausdrucks, v.a. auch aus ökonomischer Sicht, zunutze. Die oben postulierten Muster sind auch im restl. Artikel nicht vorhanden.

In den chronologisch darauf folgenden Artikeln zeigt sich Folgendes:

fgo2017120701 (URL): hier tritt die Kollokation zweimal auf: „Selon des documents de justice, Oliver Schmidt a été informé au printemps 2014 de l’existence d’un logiciel frauduleux installé sur certains véhicules diesel du constructeur allemand depuis des années, pour tromper les tests anti-pollution.“ / „Le parquet de Paris a aussi ouvert en janvier une information judiciaire sur Renault, soupçonné de tromperie sur les émissions polluantes de ses véhicules diesel.“ Manifest ist die Nutzung der ♣ diasystem. Komponente, im zweiten Fall auch als Konstruktion;

fgo2018021201 (URL): „En 2017 dans l’Hexagone, les ventes de véhicules diesel avaient perdu 5 points et ne représentaient plus que 47,3% du marché.“ Hier taucht das ♣ Muster zusammen mit dem ♦ Muster (in abgeschwächter Form, da unbest. Artikel) auf.

fgo2018012901 (URL): „On croyait l’affaire des véhicules truqués, ou Dieselgate, enfin terminée, notamment après les condamnations pénales de ces derniers mois et une facture à plus de 25 milliards d’euros pour le groupe Volkswagen, principal incriminé.“ Das Pronomen on impliziert Allgemeinverständnis und gleichzeitig ein nicht definiertes Kollektiv sowie kommunikative Nähe, truqué als diasystem. markiertes Element (fam.) unterstützt den Effekt; somit zeigt sich ein neues mögl. Muster:

∇ Muster: Nutzung der diasystematischen Markierung bzw. Konstruktion v. kommunikativer Nähe (Gegenspieler von ♣ )

fgo2018021201 (URL): „Avec cet instrument de mesure, on se rend compte que les véhicules diesel ont en moyenne un impact plus néfaste sur l’environnement que les essences. “ Der Nexus véhicules diesel befindet sich im indirekten Aussagesatz: mit on wird die allgemeine Gültigkeit der Aussage inbezug auf das generische Subjekt véhicule im NS beansprucht und gleichzeitig die Verantwortung für die Aussage der konkreten Zuordnung entzogen. ∇ M. + ♦ M.

fgo2018022303 (URL¹⁸⁷: „Enfin, le tableau ne serait pas complet sans le scandale des véhicules diesel“ ♦ Muster, dazu Ironie (Solidarisierung, vgl. ∇ Muster)

fgo2018022701 (URL): „Les constructeurs craignent, surtout, que ces difficultés à circuler pour certains véhicules diesel entraînent une forte perte de valeur pour tout le parc diesel.“ Dieser Fall kommt dem ♦ Muster nahe: die difficultés sind quasi eine Eigenschaft der Fahrzeuge; allerdings ist hier véhicules nicht mit les verallgemeinert, sondern mit certains.

fgo2018022801 (URL): 1) „Dans le viseur du gouvernement français et de la maire de Paris qui souhaite interdire les plus anciens dès l’année prochaine, les véhicules diesel vont aussi être bannis de Rome et sont sur la sellette en Allemagne. Une tendance qui a de quoi inquiéter les propriétaires de voitures roulant au gazole.“ Hier ist v.a. der gegensätzliche Gebrauch von gazole vs diesel auffallend: gazole bezeichnet das ‚geliebte‘ Konzept, diesel hingegen das neutral gesehene od. stigmatisierte. Dass die Verwendung v. gazole diachron drastisch abgenommen hat (vgl. hier), passt zu der kontingenten Mehrverwendung v. auf Negativkonnotion beruhenden od. zumindest distanzierter diesel-Verwendung; 2) „Dans ce contexte, vendre son véhicule diesel est une décision à réfléchir longuement.“ (Infinitivkonstruktion m. Akk.obj., dürfte eher selten sein.); ein weiteres potentielles Diskursmuster geht aus dem ersten Bsp. hervor:

† Muster: Gegenspieler mit gegenteiliger Konnotation

fgo2018030501 (URL): „Pourtant, depuis l’entrée en vigueur de la norme Euro 6, jamais les moteurs diesel n’ont été aussi propres. Et, à preuve du contraire, tant que les pouvoirs publics concentreront leurs efforts sur la diminution des gaz à effet de serre, au détriment des polluants, les véhicules diesel conserveront un avantage indéniable.“ Dieses Bsp. ist aus diasystematischer Perspektive bzw. hinsichtlich des Fachlichkeitsgrades interessant: Es wird das Wissen vorausgesetzt und glechzeitig ohne Verwendung von Fachjargon expliziert, dass je nachdem, was umweltpolitisch als das größere Problem gilt, immer nur ‚einer gewinnen‘ kann: Diesel- oder Benzinfahrzeug, da beim Dieselfahrzeug der Feinstaub- u. beim Benzinfahrzeug der Abgasausstoß im Vordergrund steht. Dass mit Euro 6 die Dieselmotoren ’salonfähig‘ wurden, wird spielerisch ins Feld geführt und weiter unten wird mit „[…] attestant que le bon vieux moteur à combustion interne bénéficie encore de marges de progression.“ wieder ähnlich wie oben Wissen halb vorausgesetzt, halb geliefert: Da zuvor die Rede v. Dieselmotoren war, belehrt diese anaphorische Aussage darüber (od. bestätigt das Wissen), dass Dieselmotoren zur Familie der „moteurs à combustion interne“ gehören. Das entsprechende Muster könnte lauten:

♠ Muster: didaktische Wissensdissemination in Pressetexten

Weitere Artikel, nun aus dem mde-Teilkorpus, ab dem frühesten Erscheinungsdatum:

mde2017120402 (URL): „Ce qui conduit FuelsEurope à soutenir que « remplacer tous les nouveaux véhicules diesel par des voitures zéro émission n’apportera que très peu d’amélioration par rapport au scénario Euro 6d » et à une deuxième conclusion « révolutionnaire » : la voiture, qu’elle soit « zéro émission » ou Euro 6d, ne sera pas (ou plus) la principale source de pollution en ville à l’horizon 2030.“ Hier findet sich die Funktion als generischer Alternativausdruck (Vermeidung von Zweifachverwendung v. voiture): ∝ Muster

mde2018013001 (URL): „« L’analyse montre qu’en Allemagne, sans réparation invasive des véhicules [modification de la mécanique], on ne pourra pas échapper aux interdictions de circuler des véhicules diesel », explique Ferdinand Dudenhöffer, auteur de l’étude.“ ♠ Muster i.F.v. ‚wissenschaftlicher‘ Ergänzung im Zitat (evtl. eine mde-typische, da eher intellektuell konnotierte Art im Vgl. zur oben gesehenen anaphorischen, ‚versteckten Belehrung‘ bei fgo).

mde2018101601 (URL): „En raison des niveaux trop élevés de pollution au NO_X des villes allemandes, plusieurs juges administratifs, dont celui de Berlin, ont ordonné des interdictions de circulation pour les véhicules diesel, provoquant l’inquiétude de nombreux automobilistes potentiellement empêchés de se rendre au travail.“ Das Dieselfahrzeug als Akk.-Obj. bzw. Patiens wird möglicherweise im jüngeren Zeitraum häufiger (was *mit den* Dieselfahrzeugen geschieht); Muster ? Evtl. die Patiens-Rolle, die véhicule diachron od. punktuell gehäuft haben könnte (kontingent bzw. ‚medienkontingent‘ falls das divulgative Sprechen als wirklichkeitskonstruierend verstanden wird¹⁸⁸).

12.2.1.3. Diskurstypologisches Fazit

Allgemein entnehme ich den Untersuchungen am Kontext, dass die Zunahme der Verwendung von véhicule in Verbindung mit diesel offenbar kontingente Gründe hat, da es in den entsprechenden Artikeln thematisch häufig um Problematiken geht, die alle Arten von Dieselfahrzeugen betrifft bzw. in den meinungsbildenden Fällen die ‚Daseinsberechtigung‘ quasi der ganzen ‚Gattung‘ zur Diskussion stellt, während im älteren Zeitraum das Berichten über individuelle Lösungen zur Erfüllung von Euro 6 usw. im Vordergrund stand, welche einzelne Typen von Dieselfahrzeugen u.U. sogar gegenüber Benzinern auszeichneten; im älteren Zeitraum ist in den Artikeln zwar auch die Rede vom Für und Wider der Dieselmotoren, aber es ist keine dauerthafte, eindeutige Stigmatisierung von Diesel- od. anderen Verbrennungsmotoren vorhanden; zeitweise wurde der Dieselmotor sogar noch als Hoffnungsträger gesehen, was im späteren Zeitraum kaum noch aus dem allgemeinen Eindruck der Artikel hervorgeht und sich auch deutlich in der diachronen Entwicklung der Wortwahl niederschlägt. Einige Hinweise darauf, etwa der Rückgang von gazole als positiv konnotierter Bezeichnung, wurden bereits an anderer Stelle erwähnt. Folgende Diskursmuster können aufgrund aller bisher gemachten Beobachtungen vorläufig als relativ deutlich angenommen werden:

♣ Muster: generischer Ausdruck für stigmatisiertes Konzept bzw. Distanzierung durch Nutzung der diasystematischen Neutralität d. Ausdrucks

→ in beiden Zeitungen, aber nur im jüngeren Zeitraum (Kontingenz)

♠ Muster: didaktische Wissensdissemination in Pressetexten

∇ Muster: Nutzung der diasystematischen Markierung bzw. Konstruktion v. kommunikativer Nähe (Gegenspieler von ♣ )

→ in beiden Zeiträumen, aber je nach Zeitung unterschiedlich umgesetzt (‚diasystematische‘ Ausprägungen‘)

∝ Muster: stilistischer Gebrauch zur Vermeidung v. Redundanz

→ generell vorhanden

♦ Muster: Allgemeingültigkeit durch Konstruktion [Subjekt = Eigenschaft] des [Genitiv/Präpositionalobjekt = (Diesel)Fahrzeugs]

→ generell vorhanden

Kategorienbildung:

Die bestehende Kategorisieurung (KFZ allg./Alltag) steht nicht im Widerspruch zu den Befunden der Kontexutalisierung und muss daher nicht revidiert werden. Interessant wäre es, diasystematische, das Nähe/Distanz-Modell nutzende und varietätenlinguistische Größen zu formulieren und so die Sprachgebrauchsmuster mit den Kategorien nach und nach in eine Kreuzklassifikation zu überführen – vielleicht ein Weg in Richtung ‚Typologie des diskursiven Wandels‘¹⁸⁹?

12.2.2. cylindre

12.2.2.1. Lexikologie und empirische Fakten

Bisheriger KL-Befund: achthäufigste links-Kollokation von diesel im Gesamtkorpus, starke diachrone Abnahme der Frequenz; wesentlich besser vertreten im fgo- als im mde-Teilkorpus; Domänen: Technik, Produktleistung

Lexikologische Einordnung: n.m. v. gr. kylindros (FEW Quelle); enveloppe cylindrique dans laquelle se meut le piston d’un moteur à explosion; une six cylindre: une automobile à six cylindres (PR Quelle)

12.2.2.2. Kontextualisierung

Es werden zuerst wieder ältere, dann neuere Zeitungsartikel herausgegriffen. Da das Lemma in mde fast ganz fehlt, gibt es dazu auch nur eine Kontextualisierungs-Möglichkeit innerhalb des Korpus. Zunächst zwei fgo-Artikel aus dem älteren Zeitraum:

fgo2008030301 (URL):“Soldons immédiatement l’autre sujet qui fâche : le petit trois cylindres diesel de 75 ch n’apporte que bruit et fureur pour un surcoût de 1 700 euros que sa sobriété (4,3 l/100 km, 114 g, bonus de 700 €) n’arrivera pas à compenser par rapport au 1,1 l essence de 66 ch.“ Bezeichnung des Fahrzeugtyps über die Anzahl Zylinder (ähnlich wie bei … litres + Subst.); der Artikel trägt den Titel „Hyundai i10: petite coréenne à la sauce indienne“ – eine Produktvorstellung im Ressort Lifestyle von Le Figaro. Die Funktionen der Verwendung von männlichen und weiblichen Formen im Zusammanhang mit Beschreibungen von Automodellen scheint interessant – es fällt immer wieder auf, dass diesbezügliche Variationsmöglichkeiten bewusst Konnotationen bzw. Assoziationen der Leser ansprechen will, woraus wiederum Rückschlüsse auf den ‚impliziten Leser‘ beim Verfassen der Artikel möglich würden; nicht zu vergessen wäre dabei aber auch die phonetische Ästhetik, die vermutlich nicht selten über die Wahl mitentscheidet. In unmittelbarer Nähe zu cylindre liegt aber hier kein solcher Fall vor; die ‚poetische‘ Formulierung („bruit et fureur“) könnte jedoch sehr wohl einem Muster entsprechen, welches technische Gegenstände mit besonders expressiver Sprache kombiniert: die kalte, emotionslose Ebene der Maschine muss gerade für den divulgativen Diskurs ‚belebt‘ werden (ganz im Gegensatz zu einer wissenschaftlichen Beschreibung desselben Gegenstands); diese ‚Ausgleichs-Rhetorik‘ entspricht auch dem textsorten-spezifischen Mittelweg zwischen Fachlichkeit und Unterhaltung, der im Zusammenhang mit populärwissenschaftlichen Darstellungen gewählt wird:

⊕ Muster: Expressivität in Verbindung mit technischer Beschreibung

fgo2007112102 (URL): cylindre kommt nur im Steckbrief (Technique Express) stichwortartig vor, somit lässt sich hieran nichts feststellen (höchstens, dass die Zylinder-Anzahl nicht zwingend im Haupttext der Produktbeschreibungen steht); interessant ist aber auch wieder der Titel „VW Golf SW: un cargo fidèle“, sowie der Untertitel „Un break, un vrai, un grand…Volkswagen met les petits plats dans les grands pour une Golf Break en taille XXL“: Wortspiele scheinen integraler Bestandteil der technischen Produktbeschreibungen, insbesondere im Aufhänger, zu sein. Da das Lemma sozusagen en Garant dafür ist, dass ein Artikel eher technisch-produktbezogen ist, kann man davon ausgehen, dass cylindre, wenn es denn im Fließtext steht, zumindest indirekt vom ⊕Muster betroffen ist.

fgo2018012401 (URL): „En France, pays du malus écologique et de la taxe sur les grosses cylindrées, les gros rouleurs préféreront sans doute le 4 cylindres diesel D300.“; die oben festgestellte Ausschmückung wiederholt sich auch im jüngeren Zeitabschnitt; hier wird im Artikelkopf auf das Wortfeld Familie bzw. Stammbaum zurückgegriffen, um Fahrzeugmodelle in einen traditonellen Kontext zu stellen – auch in unmittelbarer Umgebung von cylindre ist diese Grundmetapher subtil vorhanden; ⊕Muster

mde2018092802 (URL): Der einzige mde-Artikel mit der Zeichenfolge /cylindre/ hat den Titel „En voiture, Simone!“ und behandelt das Thema ‚Autofahrer ohne Führerschein‘; „Le diagnostic du garagiste spécialisé en dirait-il plus sur l’état du conducteur que sur celui de son fardier moteur bicylindre diesel ?“; auch hier ist der technische Ausdruck von auffallend expressivem Sprachgebrauch umgeben; ⊕ Muster

12.2.2.3. Diskurstypologisches Fazit

⊕ Muster: Expressivität in Verbindung mit technischer Beschreibung

→ beide Zeiträume und Zeitungen

Kategorienbildung: keine Anpassung nötig, da das Lemma im tatsächlichen technischen Sinn und in Produktbeschreibungen verwendet wurde.

12.2.3. truquer

12.2.3.1. Lexikologie und empirische Fakten

Bisheriger KL-Befund: häufigster autosemantischer rechts-Kollokator von diesel im Gesamtkorpus, aber *nur in Zeitraum B* (vgl. véhicule!); starke diachrone Zunahme von Null (kontingent, vgl. véhicule); Domänen: Betrug, Wirtsch./Pol.

Lexikologische Einordnung: v.tr. v. frz. truc; changer pour tromper, donner une fausse apparence (truquer les dés) (PR Quelle)

12.2.3.2. Kontextualisierung

Aus mde stammt der älteste Artikel:

mde2017110501(URL): „Voulant faire oublier le scandale de ses tests de diesel truqués, Volkswagen promet de lancer d’ici à 2025 environ trente modèles 100 % électriques, comptant pour un cinquième de ses ventes au moins.“ Das Lemma taucht kontingent bedingt mit scandale und Volkswagen in einem Satz auf; truquer und promettre könnten für eine Isoptopie stehen, die sich im gesamten Korpus im Zusammenhang mit truquer beobachten lässt:

⊗ Muster: Isotopie ‚Schuld und Wiedergutmachung‘ bzw. in umgekehrter Reihenfolge

mde2018042501 (URL): „Bosch lui-même est sous le coup d’une enquête du tribunal de Stuttgart et d’une action de groupe aux Etats-Unis pour son rôle jugé suspect dans l’affaire des moteurs diesel truqués, qui a égratigné sa réputation.“ Abgesehen von der beträchtlichen Enkodierung des Satzbaus ist hier das oben erkannte Muster wieder vorhanden; das Schuldthema wird spät im Satz erwähnt, d.h. zuerst wird die Tatsache, dass für etwas gebüßt wird, erwähnt, dann erst wofür, und dann nochmals ein Aspekt der ‚Bestrafung‘; ⊗ Muster

fgo2018022301 (URL): „L’année passée a été grevée de 3,2 milliards d’euros de charges exceptionnelles, à cause d’un rappel plus compliqué que prévu de ses véhicules aux moteurs Diesel truqués 2-litres aux États-Unis et de risques juridiques plus élevés.“; auch hier trifft man auf einen rel. hohen Dekodierungsaufwand und die Einbettung des Vergehens in seine ‚Bestrafung‘; ⊗ Muster

fgo2018101501 (URL): „Le constructeur allemand Opel, racheté en août 2017 par PSA, est à son tour visé en Allemagne par une enquête sur les moteurs Diesel truqués.“; hier steht truqué am Satzende, aber dafür gehen ihm zwei für den Schuldigen nachteilige Aspekte voraus; ⊗ Muster

12.2.3.3. Diskurstypologisches Fazit

Ein relativ überraschendes Muster hat sich gezeigt, nämlich, dass im Zusammenhang mit dem Dieselskandal im selben Satz ein thematischer Ausgleich geschaffen wird. Die Vermutung liegt nahe, dass es sich um eine Art Eupehmismus handelt, der die Auswirkungen des Betrugs nicht für sich allein stehen lässt, sondern die Wirkung der Erwähnung des zugefügten Schadens dämpft, indem eine Überzahl an Nachteilen für die Schuldigen dazugruppiert wird.

⊗ Muster: Isotopie: ‚Sühne und Schuld‘ (Schuld als Rhema)

→ in beiden Zeitungen nahezu identisch, aber nur in Zeitraum B vorhanden (kontingent)

Kategorienbildung: keine Änderung notwendig

12.2.4. infecter

12.2.4.1. Lexikologie und empirische Fakten

Bisheriger KL-Befund: rechts-Kollokator von gazole

Lexikologische Einordnung: v.tr. v. lat. infectus (FEW Quelle); contaminer, corrompre, gâter, souiller (PR Quelle)

fgo2018092501 (URL): Der Artikel trägt den Titel „Le gazole infecte toujours le parc automobile français“; es geht darin um die Ergebnisse einer Studie, die im Titel möglichst prägnant zusammengefasst wurden; im Haupttext erscheint gazole ein weiteres mal, diesel jedoch nie; an diesem Beispiel in Kollokation mit infecter zeigt gazole sein plakatives Potential, das sich anderwo oft in positiven Darstellungen zeigt, aber eben auch in die andere Richtung verstärken wirken kann;

12.2.4.2. Diskurstypologisches Fazit

‡ Muster: ‚Katalysator-Wirkung‘ auf grundsätzlich plakatives Potential v. gazole durch negativ belegte Begriffe (in Umkehrung der Wirkung durch positiv konnotierte Begleiter)

Kategorienbildung: keine Änderung¹⁹⁰

12.3. Zusammenfassung Corpus-based Anschlussuntersuchung

In diesem kleinen ‚Pilotversuch‘, von den induktiv-korpuslinguistisch gewonnenen Lemmata einerseits und Kontextualisierungen im Quelltext andererseits auf diskursive Muster zu schließen, hat gezeigt, dass dieser Weg relativ eindeutige Merkmale zutage fördert, insbesondere, wenn man zulässt, dass verschiedene linguistische Ebenen in die Betrachtung einfließen: Es wurde z.B. musterhafter Sprachgebrauch auf syntaktischer, semantischer und diasystematischer Ebene identifiziert, wobei die verschiedenen Ebenen z.T. miteinander kombinierbar oder getrennt als Gegenspieler auftreten.

Ingesamt lässt sich an den wenigen untersuchten Belegen ablesen, dass der Pressediskurs, der aus den genannten Gründen nichts anderes als divulgativ sein kann, insgesamt stark von diskursiven Mustern geprägt sein könnte. Während beide untersuchten Zeitungen und auch Zeiträume die entsprechenden beobachteten Merkmale teilen, unterscheiden sie sich in der konkreten Umsetzung und in der Verteilung der jeweiligen Strategien.

12.4. Hypothesen und methodische Schlüsse zu den Ergebnissen

Eine naheliegende Hypothese könnte lauten: Diskurse in großen frz. Tageszeitungen sind in hohem Maße an (bestehenden, emergenten und dem Wandel ausgesetzten) diskursiven Mustern ausgerichtet. In ähnlichem Maß wie die Anzahl entsprechender Belege im Korpus mit zunehmender Beobachtungsdauer bzw. Untersuchungsintensität zunimmt, wächst auch die innere Ausdifferenzierung und die Kategorisierung der Muster; daher ist die Rückführung der gehäuft auftretenden Strukturen auf ein übersichtliches Paradigma von divulgativen Diskursmustern u.U. nicht realistisch.

Eine statische Typologie zu divulgativen Diskursmustern ist auch aufgrund der im Gegensatz zu Sprachsystemen theoretisch unendlichen, ständig wachsenden Zahl sprachlicher Äußerungen nicht ohne weiteres denkbar, aber wie die paar wenigen Kontextualisierungsbeispiele auf der Basis empirischer Daten gezeigt haben, lässt sich zumindest für abgeschlossene Korpora eine gewisse Transparenz herstellen. Die Vernetzung korpus- und diskurslinguistischer Ansätze und Arbeiten kann der dynamischen Komponente des ständigen Wandels und der nur teilweisen Beobachtbarkeit aller Sprachgebrauchsmuster eher Rechnung tragen als der Versuch einer allg. Klassifierung aufgrund von einzelnen begrenzten empirischen Analysen.

13. Synthese der Korpusanalyse-Ergebnisse: Diskursive Bewertungsmuster

Vorbemerkung: Dieses sehr kurze Kap. stellt lediglich einen ersten Entwurf für eine mögliche Anschlussstudie dar.

Es soll eine Matrix entstehen, die es erlaubt

korpusbasiert Elemente (Ausdrücke) des Wortfeldes bzw. des Konzepts diesel und Elemente (Ausdrücke, Syntagmen usw.) des bewertenden (kritischen) Diskurses hinsichtlich dieser (durch das Wortfeld ausgedrückten) Domänen bzw. ihrer Elemente zu erfassen und
diese Elemente einzuordnen hinsichtlich ihrer Position innerhalb der Domäne/des Wortfeldes, ihrer lexikologischen Charakteristika, ihrer Kontextualisierung usw. einerseits (Wortfeld-Tokens) und ihrer Bewertungsaussage u. -intensität anderseits (Prädikate).

Es bietet sich an, diese Matrix in Form einer DB-Tabelle zu konzipieren, damit sie mit einer einzigen Abfrage nach möglichst vielen Bedingungen gefiltert werden kann. Aber auch für eine Lösung mit Excel spricht einiges, da man bei der Umsetzung in einer SQL-DB auch entsprechend mehr Aufwand bei der Formulierung korrekter SQL-Abfragen hat. Idealerweise würde beides parallel verwendet, evtl. auch in Anbindung an R.

Um die geeignetste Methode zu ermitteln, bietet es sich an, zunächst in einer Testphase anhand weniger Tokens sowohl eine DB-Tab. als auch eine Excel-Tab. mit den entsprechenden Eigenschaften zu erstellen und auszuprobieren.

14. Schlussbetrachtungen

Der datengeleitete Ansatz d.v.A. stellte ein Experiment dar, dessen Verlauf und Ausgang nicht voraussagbar waren. Die Entscheidung, mit minimalen a priori Kategorisierungen an Sprachmaterial heranzutreten und – nach seiner gewissenhafter Aufbereitung für die korpuslinguistische Analyse – einmal ‚das Sprechen sprechen zu lassen‘, hatte tiefgreifende Auswirkungen auf die Schwerpunkte der Erstellung.

Der aufregende Aspekt einer solchen Herangehensweise – sich vom tatsächlichen Sprachgebrauch überraschen zu lassen und sich dann erst ‚Sorgen‘ um die Kategorien zu machen, die er tatsächlich preisgibt – birgt für die Forschende naturgemäß das Risiko, am Ende mit leeren Händen oder zumindest mit wenig spektakulären Ergebnissen dazustehen. Ein weiterer Punkt, der die Verwirklichung der corpus-driven Prinzipien außerdem empfindlich treffen kann, sind schlicht und einfach die technischen, eher linguistikfernen Aspekte der Umsetzung – die langwierige Vorbereitung, um konstistente, wohlstrukturierte Daten für die Datenbank zu sammeln, mangelnde Erfahrung mit informatischen und/oder statistischen Zusammenhängen, die ungewohnte Situation, sich nicht nur in das Thema selbst einer sprachwissenschaftlichen Arbeit hineinzudenken und Sekundärliteratur hauptsächlich einer Disziplin zu lesen, sondern parallel dazu in ganz unterschiedliche, wenn auch von den Anwendungsbereichen her verwandte, methodische Domänen einzutauchen. Man bewegt sich häufig an der Schnittstelle zu Nachbardisziplinen wie Informatik bzw. Digitalisierung, aber auch der Diskursanalyse bzw. Diskurlinguistik, die wiederum mind. eine eigene, der klassisch-strukturalistischen Denkweise ferne, Unterdisziplin der Linguistik bilden.

Geht man in einer wissenschaftlichen Arbeit von der langue aus, kann man auf ein festes Fundament von etablierten Theorien bauen und die empirische Überprüfung lässt sich mit Sicherheit auf interessante Weise diskutieren, da man ja von einem bereits existierenden, durchdachten Konzept ausgegangen ist. Ganz anders sieht es aus, wenn man als Fundament ausschließlich Sprachdaten gelten lässt: Auf welcher Basis argumentieren, sobald die Quantifizierung der Daten abgeschlossen ist, wenn man auf a priori Kategorisierung verzichtet hat? Der ‚Preis‘ für die Unvoreingenommenheit kann sein, zu begreifen, welche Leistung und Errungenschaft es ist, wenn es Wissenschaftlern gelingt Theorien zu entwickeln, die der empirischen Überprüfung standhalten. Allein eine solche Erkenntnis ist m.E. ein lohnendes Ziel auf dem sprachwissenschaftlichen Weg, den man auf so vielfältige Weise gehen kann.

Bei allen Herausforderungen und Ungewissheiten, denen man auf dem Weg zu datengeleiteten Analyseergbnissen in der Korpuslinguistik begegnen kann, haben ihre Erträge aber auch grundsätzlichen Wert, weil ihr empirisches Gewicht durch nichts zu ersetzen wäre. Zudem hält die Verwertbarkeit einmal erstellter korpuslinguistischer Datenbestände auch noch an, wenn ihr ‚Verfallsdatums‘ für Rückschlüsse auf zeitgenössische Verhältnisse abgelaufen ist: Wie wichtig ‚alte‘ und dabei gut dokumentierte und explizierte Datensammlungen sind, steht allein durch die wichtige Stellung sprachgeschichtlicher Forschung innerhalb der Romanistik außer Frage.

Eine persönliche Erfahrung im Zuge der gemachten Untersuchungen sei noch angefügt: Methodische Hürden bei empirischen Messungen und statistischen Erhebungen haben den Vorteil, das blinde Vetrauen auf Zahlen allein immer wieder in die Schranken zu weisen und daran zu erinnern, dass quantitative Aussagen ohne schlüssige Qualifizierung zunächst keine wirklichen Aussagen darstellen, sondern neutrales, erklärungs- und interpretationsbedürftiges Rohmaterial. Und gerade das ist vielleicht ihr größter Vorzug. Ähnlich wie bei der Beschäftigung mit dem Sprachsytem, die oft besonders spannend wird, wenn sie an ihre Grenzen stößt, erging es mir i.d.v.A. aus der entgegengesetzten Richtung des Sprachgebrauchs. Der blinde Fleck, der bleibt, ist vielleicht das Bindgelied zwischen langue und parole, das die Philologie in ihrer ganzen ‚Ausdehnung‘ so faszinierend macht.

15. Abkürzungen und Konventionen

15.1. Abkürzungen

CLG: Cours de linguistique générale

DA: Diskursanalyse/diskursanalytisch

DB: Datenbank(en); gemeint ist immer relationale DB

DH: Digital Humanities bzw. https://www.dh-lehre.gwi.uni-muenchen.de

DS: Datensatz/Datensätze

DT: Diskurstradition(en)/diskurstraditionell

f/ff: und folgende (Seite(n)); dahinter wird in Literaturverweisen kein Punkt gesetzt

FEW: Französisches etymologisches Wörterbuch

fgo: Le Figaro bzw. den entsprechenden Korpusbereich betreffend

FN: Fußnote

frz.: französisch

i.F.(v.): in Form (von)

i.d.R.: in der Regel

ITG: IT-Gruppe Geisteswissenschaften

it.: italienisch

K.: Kollokator(en) bzw. Kollokation(en); re./li.K.: rechts-/links-K.

KIT: Korpus im Text (Lücke u.a. 2017)

KL: Korpuslinguistik/korpuslinguistisch

LE: Lexikalische Einheit i.S. einer eineindeutigen Einheit aus genau einem Ausdruck und einem Inhalt (in Abgrenzung zu einer gängigen und hier getroffenen Definition von Lexem bzw. der verbreiteten Verwendung von lexikalische Einheit als Synonym für Lexem)

Lexem: Einheit des Wortschatzes, die eine begriffliche Bedeutung trägt (Quelle)

lt.: laut (+ Literaturangabe od. Autorname)

mde: Le Monde bzw. den entsprechenden Korpusbereich betreffend

NDK: Nähe/Distanz-Kontinuum (Koch/Oesterreicher)

PMA: phpMyAdmin (vgl. Lücke u.a. 2017, 147ff)

r.A./rel.A.: relativer Anteil

rel.: relativ

s.: 1. siehe, 2. sub (verbo) bei Verweis auf WB/Lexikon-Eintrag

sa/sé: signifiant und signifié

sp.: spanisch

Tab.: Tabelle

TLFi: Trésor de la langue française informatisé

u.st.: unten stehend (u. flektierte Varianten)

v.A.: vorliegende(n) Arbeit (i.d.v.A. = in der v.A.)

Verf.: Verfasserin der vorliegenden Arbeit (z.B. in Anm. der Verf. zu Hervorhebungen in Zitaten)

WB: Wörterbuch/-bücher

WP: WordPress

Zr: Zeitraum (ZrA/ZrB: Zeitraum A/Zeitraum B)

zwue: Feldname i. SQL-DB f. Textbereiche (zwue4: Korpusbereich der Zwischenüberschriften u. Einschübe)

15.2. Konventionen

15.2.1. Symbole/Typographie

‚Wort‘:

Einfache Anführungs- u. Schlusszeichen werden 1. für Bedeutungen von sprachlichen Ausdrücken (insbes. wenn sie zusammen mit dem zugehörigen Ausdruck genannt werden; Bsp.: Stimmung ‚Festgelegtsein der Tonhöhe eines Instruments‘), 2. für Zitate, die innerhalb von Zitaten auftreten, 3. als Signal für nicht wörtlich zu verstehende Verwendung eines Ausdrucks od. Syntagmas durch die Verf. (Distanzierung i.S.v. „sog.“).

„Zitat“: Zitate stehen zwischen dt. doppelten Anführungs- u. Schlusszeichen.

`Spaltenname`:

Spaltennamen (DB) werden zur Desambiguierung in natürlichsprachlichen KL-Beschreibungen – analog zur fakultativen (!) Praxis in PMA – mit backticks bzw. accents graves eingefasst¹⁹¹.

*Hervorhebung*:

Was zwischen zwei Asterisken steht, wird betont. Diese Konvention (übernommen aus KIT) ersetzt übliche typographische Hervorhebungspraktiken wie Fettdruck oder gesperrte Buchstaben durch Zeichen, die die Hervorhebung unabhängig von Formatierungseinstellungen anzeigen.

Leerzeichen: Es wird kein Leerzeichen gesetzt innerhalb von Abkürzungen; Bsp.: s.o., z.B., i.S.v.

Kursivierung:

Sprachliche (nicht nur fremdsprachliche) Ausdrücke werden i.d.R. kursiv gesetzt, d.h. Kursivierung ist reserviert für die metasprachliche Erwähnung eines Lexems/Lemmas oder konkreten Ausdrucks (Bsp.: frz. bouillon, dt. Brühe).

Wenn es um eine genaue Zeichenfolge geht, wird diese nicht kursiviert, sondern zwischen zwei Schrägstrichen (/[Zeichenfolge]/) dargestellt.

Die exakte Gestalt eines Ausdrucks (Zeichenfolge und Groß- und Kleinschreibung berücksichtigend) wird bei Bedarf durch eine Kombination beider Schreibweisen dargestellt (/[Zeichenfolge]/).

Kapitälchen:

In Kapitälchen wird auf Konzepte (also nicht die einzelsprachliche Inhaltseite von Zeichen) verwiesen (einzelsprachlich ist sozusagen nur der ‚Name‘, in dem das Konzept ad hoc versprachlicht wird zum Zweck der kognitiven Einordnung dessen, worauf man übereinzelsprachlich bzw. kognitiv verweist (Konzept ≈ ‚kognitives Lexem‘).

15.2.2. Terminologie

Die Definitionen gelten im Rahmen der vorliegenden Arbeit und erheben keinen Anspruch auf Allgemeingültigkeit.

Aufhänger (Zeitungsartikel): gleichbedeutend mit Untertitel/Unterüberschrift

Autosemantika: Lexeme i.S.v. Worteinheiten mit eigenem Inhalt, als Gegenstück zu Synstemantika bzw. Funktionswörtern; Adj: autosemantisch

corpus-based (Analyse):

auf Korpusdaten zurückgreifende, Untersuchungsmethode zur Überprüfung v. deduktiven Überlegungen (z.B. Thesen, die aus der corpus-driven Analyse abgeleitet wurden)

corpus-driven (Analyse):

datengeleitete, induktive Untersuchung v. Korpora, aus der Hypothesen zu abstrakten Kategorien bzw. Regelmäßigkeiten abgeleitet werden können

Datensatz: eine Zeile einer DB-Tab., Synonym: Tupel

Domäne: konzeptuelles Begriffsfeld (z.B. Computer-Domäne, vgl. Graefen/Liedke 2012, 84)

Feld: Spalte einer DB-Tab.

Kollokation:

direkt nebeneinander vorkommende sprachliche Elemente, d.h. ein Token kann mit max. zwei weiteren (rechts u. links) eine Kollokation bilden.

Konzept: s.u. Kapitälchen

Kookkurrenz:

Das ‚zusammen Vorkommen‘ von Elementen in ein und demselben Satz (man kann theoretisch auch andere Bereiche eingrenzen, z.B. die Phrase od. den Abschnitt, in dem die Elemente zusammen vorkommen müssen, um als Kookkurrenz zu gelten)

Korpusbereich: allgemeiner für Teilkorpus od. Gesamtkorpus (= Referenzkorpus)

Lemma: 1. lexikalische Grundform, 2. Stichwort in WB

`lemma`: Spaltenname in Tab. tokens (betrifft von TreeTagger automatisch lemmatisierte Formen v. Tokens u. ist nicht zu verwechseln mit Lemma i. allg. Sinn)

Lexem:

Synonym für Lemma, d.h. arbiträre Grundform i.F. eines Ausdrucks wie etwa der Inf. lire od. der Sing. maison, stellvertretend für alle anderen Formen (Konjugation, Deklination)

Lexikalische Einheit (LE):

eineindeutige Einheit aus genau einem Ausdruck und einem Inhalt; Bsp.: frz. voler ‚fliegen’; das Konzept dahinter unterscheidet sich damit klar vom Konzept Lexem (vgl. Gévaudan 2007b)

Okkurrenz: Vorkommnis, Vorkommen

Query: engl. für Abfrage

Signifikanz (Statistik):

sehr hohe Wahrscheinlichkeit, dass eine bestimmte Verteilung von Werten nicht zufällig (sondern überzufällig) ist (Quelle)

Sprecher:

wenn nicht anders präzisiert, ist auch der Schreibende Sprecher, ebenso der Leser ein Höhrer; da es der v.A. nicht um gesprochene Sprache in Abgrenzung zur geschriebenen geht, ist dies unbproblematsich.

Statement: engl. für Befehl/Abfrage

subtable:

engl. für eine Tab. die innerhalb einer übergeordneten Abfrage verwendet wird (Synonym: derived table); jedes solche subtable muss in runde Klammern gesetzt sein und durch einen sog. Korrelatsnamen benannt werden (hier meist a, b usw.)

Teilkorpus:

gleichbedeutend mit Korpusbereich, der nicht dem Gesamtkorpus entspricht

Text:

i.w.S. Äußerungen bzw. parole im Allgemeinen
i.e.S. Einzeltext, entspricht im vorliegenden Fall i.d.R. dem einzelnen Zeitungsartikel

Textbereiche:

die Teile des einzelnen Zeitungsartikels, die konsistenten Gliederungsebenen entsprechen (Überschrift, Unterüberschrift, Haupttext, Zwischenüberschrift)

Titel (Zeitungsartikel): gleichbedeutend mit Überschrift

Token:

durch digitale Tokenisierung isoliertes sprachliches Vorkommnis ohne Leerzeichen – dazu gehören nicht nur einzelne Wörter, sondern auch Satzzeichen u. andere tokenisierte Elemente wie Zahlen und Symbole – des Korpustextes, das in der DB-Tab. tokens dem Inhalt genau einer Zelle der Spalte `token` entspricht;
lexikalisches Vorkommnis im Gegensatz zu lexikalischem Type;

Tupel: Datensatz

Type:

Token-(Vorkommnis-)Typ; das Verhältnis von Token und Type veranschaulicht das Bsp. der Apfel, der vom Baum fällt: die Äußerung enthält (inkl. Komma) 7 Tokens, aber nur 6 Types (od. 5 Types, wenn man die Zugehörigkeit zu versch. Wortarten von der nicht berücksichtigt);

Type-Token-Ratio (TTR):

das Verhältnis zwischen der Anzahl Types und der Anzahl Tokens in einem gegebenen Text bzw. Korpus; NB: Man rechnet die Anzahl aller Tokens durch die Anzahl aller Types, Bsp.: 1000 Tokens/100 Types → TTR = 10;

Wort: wird möglichst gemieden aufrund der für linguistische Zwecke störenden Polysemie; wird es doch verwendet, dann geht die Bedeutung aus dem Kontext hervor oder die Polysemie hat keinen störenden Einfluss.

lexikalisierter Type (Syn- od. Autosemantikum¹⁹²); das Bsp. Welches Datum ist heute, Sabrina? enthält vier Types, da weder Satzzeichen noch Eigennamen Lexeme sind;
Ausdruck

Überschrift (Zeitungsartikel): gleichbedeutend mit Titel

Unterüberschrift = Untertitel = Aufhänger

15.2.3. Weitere Konventionen

Genusgebrauch:

Das Maskulinum wird in der vorliegenden Arbeit nicht nur für männliche Referenten verwendet, sondern bei Bedarf auch generisch geschlechter-unspezifisch wie im Fall von der/die Leser, der/die Autor(en)“ usw., d.h., um Gruppen von Referenten (mit einer Singular- oder Pluralform) zu bezeichnen, ohne sie/ihre Mitglieder einem best. Geschlecht zuzuordnen (vergleichbar mit der anglo-amerikanischen Praxis wie in reader(s), author(s) usw., die keinerlei Geschlechterzuordnung impliziert).

Ich behalte mir außerdem vor, auch das Femininum prinzipiell in analoger Weise zu verwenden, soweit ich dieses (v.a. aus semantischer und/oder formal-ästhetischer Sicht) gegenüber der Maskulinum-Form als geeignet(er) betrachte (z.B. wenn die jeweilige feminine Form keine dem Lesefluss eher hinderliche ‚Derivation‘ des Maskulinums darstellt, welche m.E. zudem eine implizite Nachgeordnetheit der femininen Form und damit ihrer Referenten betont, statt sie zu vermeiden). Welches Genus im Einzelfall verwendet wird, hängt somit von Kontext, Kotext und meinem persönlichem Sprachgefühl ab.

Tempusgebrauch:

Das Präsens wird z.T. auch dort verwendet, wo prinzipiell retrospektiv von der Erstellung dieser Arbeit die Rede ist. Nicht zuletzt, weil der Zeitpunkt der Durchführung der Korpusanalyse sehr nah am Zeitpunkt der vorliegenden Beschreibung liegt, erschien es mir in manchen Passagen natürlich, in der Art eines ‚Echtzeit‘-Werkstattberichts zu schreiben.

15.2.4. Gütekriterien für empirische Verfahren

Objektivität:

Unter der Objektivität eines wissenschaftlichen Experiments oder Tests versteht man die Unabhängigkeit der Versuchsergebnisse von den Rahmenbedingungen (Randbedingungen) und verfälschenden Drittfaktoren. Dies bedeutet, dass eine Untersuchung unabhängig sein muss von den räumlichen Bedingungen, diversen Außeneinflüssen oder Untersuchungsleitern. Im Laufe des Analyseprozesses wird aus dem subjektiven Eindruck eine intersubjektiv nachvollziehbare Betrachtungsweise. (Quelle)

Reliabilität:

Reliabilität umfasst drei Aspekte:

Stabilität (Gleichheit bzw. Ähnlichkeit der Messergebnisse bei Anwendung zu unterschiedlichen Zeitpunkten)
Konsistenz (Ausmaß, nach dem alle Items, die in einem Test zu einem Merkmal zusammengefasst werden, dasselbe Merkmal messen)
Äquivalenz (Gleichwertigkeit von Messungen)

Hohe Reliabilität ist grundsätzlich eine Voraussetzung für hohe Validität, wobei eine zu hohe Reliabilität zu Lasten der Validität gehen kann (Reliabilitäts-Validitäts-Dilemma). (Quelle)

Validität:

Validität bezeichnet die inhaltliche Übereinstimmung einer empirischen Messung mit einem logischen Messkonzept. Allgemein ist dies der Grad an Genauigkeit, mit der dasjenige Merkmal tatsächlich gemessen wird, das gemessen werden soll. (Quelle)

16. Internetquellen

URL innerhalb von DHVLab werden nicht einzeln aufgeführt, der letzte Zugriff auf die verwendeten DH-Seiten entspricht dem letzten Versionierungsdatum der vorliegenden Abschlussarbeit oder dem Datum des Vortags.

16.1. Korpus

www.lemonde.fr, letzter Zugriff 28.4.2019

bzw. für alle ins Korpus aufgenommenen Artikel geltend:

https://abonnes.lemonde.fr/recherche/?keywords=diesel+moteur&page_num=1&operator=and&exclude_keywords=&qt=recherche_texte_titre&author=&period=custom_date&start_day=01&start_month=11&start_year=2007&end_day=31&end_month=10&end_year=2018&sort=desc, letzter Zugriff 28.4.2019

www.lefigaro.fr, letzter Zugriff 28.4.2019

bzw. für alle ins Korpus aufgenommenen Artikel geltend:

http://recherche.lefigaro.fr/recherche/diesel%20moteur/?type=ART&publication=lefigaro.fr&datemin=01-11-2007&datemax=31-10-2018, letzter Zugriff 28.4.2019

16.2. Nachschlagewerke

Duden:

https://www.duden.de, letzter Zugriff 16.02.2019

FEW:

https://apps.atilf.fr/lecteurFEW/, letzter Zugriff 24.1.2019

KIT (Korpus im Text):

https://epub.ub.uni-muenchen.de/36308/1/korpus-im-text_band_001_v001.pdf, letzter Zugriff 16.1.2019

Langenscheidt (Latein/Deutsch):

https://de.langenscheidt.com/latein-deutsch/divulgare, letzter Zugriff 16.2.2019

LEO:

https://dict.leo.org/franz%C3%B6sisch-deutsch, letzter Zugriff 16.2.2019

https://dict.leo.org/italienisch-deutsch, letzter Zugriff 16.2.2019

https://dict.leo.org/englisch-deutsch, letzter Zugriff 16.2.2019

Petit Robert (PR):

https://pr12-bvdep-com.emedien.ub.uni-muenchen.de/robert.asp, letzter Zugriff 19.1.2019

TLFi:

http://atilf.atilf.fr, letzter Zugriff 24.1.2019

Wikipedia:

https://de.wikipedia.org, letzter Zugriff 10.6.2019

https://fr.wikipedia.org, letzter Zugriff 10.6.2019

https://en.wikipedia.org, letzter Zugriff 10.6.2019

Wiktionnaire/Wiktionary:

https://fr.wiktionary.org, letzter Zugriff 10.6.2019

https://de.wiktionary.org, letzter Zugriff 10.6.2019

16.3. Divers

Abduktion:

https://de.wikipedia.org/wiki/Abduktion, letzter Zugriff 10.6.2019

Abgasnorm:

https://de.wikipedia.org/wiki/Abgasnorm, letzter Zugriff 10.6.2019

Albigenserkreuzzug:

https://de.wikipedia.org/wiki/Albigenserkreuzzug, letzter Zugriff 10.6.2019

aptum (Rhetorik):

http://www.li-go.de/definitionsanalyse/rhetorik/aptum.html, letzter Zugriff 10.6.2019

Artusroman:

https://de.wikipedia.org/wiki/Artusroman, letzter Zugriff 10.6.2019

Atomisierung/Normalisierung (DB):

https://www.php-kurs.com/normalisierung.htm, letzter Zugriff 10.6.2019

Austin (J.L.):

https://de.wikipedia.org/wiki/John_Langshaw_Austin, letzter Zugriff 10.6.2019

Autosemantikum:

https://de.wikipedia.org/wiki/Autosemantikum, letzter Zugriff 10.6.2019

awk:

https://de.wikipedia.org/wiki/Awk, letzter Zugriff 10.6.2019

bashing:

https://fr.wikipedia.org/wiki/Bashing, letzter Zugriff 10.6.2019

Bildungssprache:

https://de.wikipedia.org/wiki/Bildungssprache, letzter Zugriff 10.6.2019

Biturbo:

http://www.gerstelblog.de/2012/04/11/was-ist-eigentlich-ein-biturbo/, letzter Zugriff 20.1.2019

BlueHDI, Bluetec, EcoBlue:

https://www.autodoc.de/info/hdi-e-hdi-bluehdi, letzter Zugriff 22.1.2019

https://en.wikipedia.org/wiki/BlueTec, letzter Zugriff 10.6.2019

http://www.ford-pichler.at/ford-ecoblue-dieselmotoren/, letzter Zugriff 22.1.2019

bruissement de la langue (Barthes):

http://www.seuil.com/ouvrage/le-bruissement-de-la-langue-roland-barthes/9782757854136, letzter Zugriff 16.2.2019

Bubenhofer/Scharloth (2012):

http://www.bubenhofer.com/publikationen/PreprintBubenhoferScharloth2012.pdf, letzter Zugriff 11.5.2019

chanson de geste:

https://de.wikipedia.org/wiki/Chanson_de_geste, letzter Zugriff 10.6.2019

Chi-square-table (kritische Werte f. Chi-Quadrat):

http://kisi.deu.edu.tr/joshua.cowley/Chi-square-table.pdf, letzter Zugriff 11.1.2019

CLG (Cours de Linguistique Générale):

https://fr.wikipedia.org/wiki/Cours_de_linguistique_g%C3%A9n%C3%A9rale, letzter Zugriff 10.6.2019

Common-Rail-System:

https://de.wikipedia.org/wiki/Common-Rail-Einspritzung#Das_Diesel-Common-Rail-System, letzter Zugriff 10.6.2019

corpus-driven (vs. corpus-based):

http://corpora.lancs.ac.uk/clmtp/1-cb-cd.php, letzter Zugriff 11.5.2019

CRD, DCI:

https://www.auto-doc.fr/info/crd, letzter Zugriff 22.1.2019

https://www.autodoc.de/info/dci, letzter Zugriff 22.1.2019

Deduktion:

https://de.wikipedia.org/wiki/Deduktion, letzter Zugriff 10.6.2019

Diasystem:

http://www.carstensinner.de/Lehre/spanisch/dossiers/Diasystem.pdf, letzter Zugriff 25.12.2018

Dieselgate:

https://de.wikipedia.org/wiki/Abgasskandal, letzter Zugriff 10.6.2019

https://fr.wikipedia.org/wiki/Affaire_Volkswagen, letzter Zugriff 10.6.2019

dieselisation:

https://en.wikipedia.org/wiki/Dieselisation, letzter Zugriff 10.6.2019

Dieselmotor:

https://de.wikipedia.org/wiki/Dieselmotor, letzter Zugriff 10.6.2019

Diskursformationen:

https://de.wikipedia.org/wiki/Macht/Wissen#cite_ref-rou96_3-0, letzter Zugriff 16.2.2019

https://www.degruyter.com/view/j/zfgl.2014.42.issue-2/zgl-2014-0016/zgl-2014-0016.xml, letzter Zugriff 16.2.2019

Diskursuniversum:

https://de.wikipedia.org/wiki/Diskursuniversum, letzter Zugriff 10.6.2019

disperses Publikum:

https://de.wikipedia.org/wiki/Massenmedien, letzter Zugriff 10.6.2019

dispositio (Rhetorik):

http://manfredhiebl.de/Kunst/rhetorik2.htm, letzter Zugriff 15.12.2018

Drehmoment:

https://de.wikipedia.org/wiki/Drehmoment, letzter Zugriff 10.6.2019

Eineindeutigkeit:

https://de.wiktionary.org/wiki/eineindeutig, letzter Zugriff 10.6.2019

Entlastung (Luckmann):

https://www-degruyter-com.emedien.ub.uni-muenchen.de/downloadpdf/books/9783110848922/9783110848922.125/9783110848922.125.pdf Luckmann, T. 1992: Theorie des sozialen Handelns. Berlin, Boston: De Gruyter), letzter Zugriff 16.2.2019

eurotopics:

https://www.eurotopics.net/de/142186/medien, letzter Zugriff 28.4.2019

Falschmeldung, Fake News:

https://de.wikipedia.org/wiki/Falschmeldung, letzter Zugriff 10.6.2019

https://de.wikipedia.org/wiki/Fake_News, letzter Zugriff 10.6.2018

Falsifizieurung:

https://de.wikipedia.org/wiki/Falsifikation, letzter Zugriff 10.6.2019

fardier:

https://fr.wiktionary.org/wiki/fardier, letzter Zugriff 10.6.2019

Figaro (Le):

http://www.lefigaro.fr, letzter Zugriff 19.12.2018

https://fr.wikipedia.org/wiki/Le_Figaro, letzter Zugriff 10.6.2018

https://www.eurotopics.net/de/148679/le-figaro#, letzter Zugriff 19.12.2018

Fayard, Pierre-Marie:

https://www.cairn.info/publications-de-Pierre-Marie-Fayard–675791.htm#, letzter Zugriff 11.5.2019

Französische Presse:

https://www.eurotopics.net/de/142186/medien?search=&country=146390&language=0&art=1&circulation=0&typ=1#results, letzter Zugriff 19.12.2018

https://fr.wikipedia.org/wiki/Histoire_de_la_presse_%C3%A9crite_en_France, letzter Zugriff 10.6.2019

https://fr.wikipedia.org/wiki/R%C3%A9publique_du_Croissant, letzter Zugriff 10.6.2019

Gatekeeper:

https://de.wikipedia.org/wiki/Gatekeeper_(Nachrichtenforschung), letzter Zugriff 10.6.2018

Geschichte Frankreichs:

https://fr.wikipedia.org/wiki/Lib%C3%A9ration_de_la_France, letzter Zugriff 10.6.2018

https://fr.wikipedia.org/wiki/%C3%89puration_%C3%A0_la_Lib%C3%A9ration_en_France, letzter Zugriff 10.6.2018

https://fr.wikipedia.org/wiki/Ordonnances_de_1944_sur_la_libert%C3%A9_de_la_presse, letzter Zugriff 10.6.2018

Glühkerzen:

https://www.beruparts.de/content/dam/marketing/emea/beru/brochure/de-all-about-glow-plugs.pdf

GPL:

https://fr.wikipedia.org/wiki/Gaz_de_p%C3%A9trole_liqu%C3%A9fi%C3%A9, letzter Zugriff 10.6.2019

https://de.wikipedia.org/wiki/Autogas, letzter Zugriff 10.6.2019

www.cfbp.fr, letzter Zugriff 24.1.2019

HDI:

https://de.wikipedia.org/wiki/Direkteinspritzung, letzter Zugriff 10.6.2019

Hokuspokus:

https://de.wikipedia.org/wiki/Hokuspokus, letzter Zugriff 10.6.2019

Hundertjähriger Krieg:

https://de.wikipedia.org/wiki/Hundertj%C3%A4hriger_Krieg, letzter Zugriff 10.6.2019

Husserl (bedeutungsverleihende/bedeutungserfüllende Akte):

http://www.cmerhard.de/wp-content/uploads/Handout-Husserl-Referat-Baumgartner.pdf, letzter Zugriff 28.4.2019

Induktion:

https://de.wikipedia.org/wiki/Induktion_(Philosophie), letzter Zugriff 10.6.2019

Intension/Extension:

https://de.wikipedia.org/wiki/Extension_und_Intension, letzter Zugriff 11.6.2019

Kabatek und Koch/Diskurstradition:

http://www.romling.uni-tuebingen.de/kochhom.pdf, letzter Zugriff 28.4.2019

Katalysator (allg.):

https://de.wikipedia.org/wiki/Katalysator, letzter Zugriff 11.6.2019

Karolingische Reform:

http://mediaewiki.de/wiki/Karolingische_Bildungsreform, letzter Zugriff 11.6.2019

KIT (Korpus im Text):

https://epub.ub.uni-muenchen.de/36308/1/korpus-im-text_band_001_v001.pdf, letzter Zugriff 18.2.2019

klitisch/Klitikon:

https://de.wikipedia.org/w/index.php?title=Klitikon&oldid=185624753, letzter Zugriff 11.6.2019

Kollokationen/Phraseologie:

http://www.zaa.uni-tuebingen.de/wp-content/uploads/05-Hausmann_ffinal.pdf, letzter Zugriff 9.1.2019

Korpuslinguistik-Tipps v. N. Bubenhofer:

http://www.bubenhofer.com/korpuslinguistik/kurs, letzter Zugriff 6.1.2019

Lexikalische Vielfalt (TTR):

http://corpora.ids-mannheim.de/libac/doc/libac-addOn-LexikalVielfalt.pdf, letzter Zugriff 9.1.2019

https://lexically.net/downloads/version4/html/deutsch/index.html?type_token_ratio_proc.htm, letzter Zugriff 12.1.2019

Lexikalisierung:

https://www.christianlehmann.eu/ling/lg_system/grammar/morph_syn/index.html?https://www.christianlehmann.eu/ling/lg_system/grammar/morph_syn/lexikalisierung_grammatikalisierung.php, letzter Zugriff 25.12.2018

Linguistic Turn:

https://de.wikipedia.org/wiki/Linguistische_Wende, letzter Zugriff 11.6.2019

LL-Test (log-likelihood):

http://ucrel.lancs.ac.uk/llwizard.html, letzter Zugriff 25.1.2019

Merowinger:

https://de.wikipedia.org/wiki/Merowinger, letzter Zugriff 11.6.2019

Monde (Le):

https://www.lemonde.fr, letzter Zugriff 11.5.2019

https://fr.wikipedia.org/wiki/Le_Monde, letzter Zugriff 11.6.2019

https://fr.wikipedia.org/wiki/Le_Monde#Le_Monde.fr, letzter Zugriff 11.6.2019

https://www.eurotopics.net/de/148683/le-monde, letzter Zugriff 19.12.2018

https://de.wikipedia.org/wiki/Le_Monde#Eigent%C3%BCmer. letzter Zugriff 11.6.2019

Narrativ:

https://de.wikipedia.org/wiki/Narrativ_(Sozialwissenschaften), letzter Zugriff 11.6.2019

Normalisierung (DB):

https://de.wikipedia.org/wiki/Normalisierung_(Datenbank), letzter Zugriff 11.6.2019

Notepad++:

https://notepad-plus-plus.org, letzter Zugriff 3.1.2019

Okzitanisch (Geschichte):

https://de.wikipedia.org/wiki/Okzitanische_Sprache#Geschichte,_Verbreitung,_Sprachpolitik, letzter Zugriff 11.6.2019

ordre du discours (L‘) (Foucault):

https://soth-alexanderstreet-com.emedien.ub.uni-muenchen.de/cgi-bin/SOTH/hub.py?type=document_details&browse=all&sourceid=S10022162&sortorder=docid, letzter Zugriff 17.2.2019

Organon-Modell:

https://de.wikipedia.org/wiki/Organon-Modell, letzter Zugriff 11.6.2019

Pressekodex:

https://de.wikipedia.org/wiki/Pressekodex, letzter Zugriff 11.6.2019

Primärschlüssel (DB):

http://www.datenbanken-verstehen.de/datenmodellierung/primaerschluessel, letzter Zugriff 13.1.2019

proaïrétique:

http://filmlexikon.uni-kiel.de/index.php?action=lexikon&tag=det&id=8615, letzter Zugriff 15.12.2018

PSA:

https://de.wikipedia.org/wiki/Groupe_PSA, letzter Zugriff 11.6.2019

Referenz/Referenz:

https://de.wikipedia.org/wiki/Referent_(Linguistik), letzter Zugriff 11.6.2019

relationale Datenbank:

https://de.wikipedia.org/wiki/Relationale_Datenbank, letzter Zugriff 11.6.2019

repräsentationistisch (Ikon):

https://de.wikipedia.org/wiki/Ikon, letzter Zugriff 11.6.2019

rhetorische Mittel nach Lausberg:

http://www.uni-bielefeld.de/lili/studium/faecher/latein/Tipps_und_Links/Dokumente/Stilmittel_klass.Lit._V2.pdf, letzter Zugriff 15.12.2018

Reliablilät, Validität, Objektivität:

https://de.wikipedia.org/wiki/Reliabilit%C3%A4t, letzter Zugriff 11.6.2019

https://de.wikipedia.org/wiki/Validit%C3%A4t, letzter Zugriff 11.6.2019

https://de.wikipedia.org/wiki/Objektivit%C3%A4t, letzter Zugriff 11.6.2019

Rhizom:

https://de.wikipedia.org/wiki/Rhizom_(Philosophie), letzter Zugriff 11.6.2019

Salienz:

https://de.wiktionary.org/wiki/Salienz, letzter Zugriff 11.6.2019

Scripta:

https://www.anglistik.uni-muenchen.de/personen/wiss_ma/krischke/skriptae.pdf, letzter Zugriff 27.4.2019

sed und awk:

https://www.grund-wissen.de/linux/shell/shell-scripting/sed-und-awk.html, letzter Zugriff 12.5.2019

Serments de Strasbourg (Straßburger Eide):

https://de.wikipedia.org/wiki/Stra%C3%9Fburger_Eide, letzter Zugriff 27.4.2019

Shell/Bash:

https://de.wikipedia.org/wiki/Bash_(Shell), letzter Zugriff 11.6.2019

Signifikanztest:

http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=statistik_signifikanzChi.html, letzter Zugriff 20.1.2019

Skriptsprachen:

https://de.wikipedia.org/wiki/Skriptsprache, letzter Zugriff 11.6.2019

Sprachpolitik (Frankreich):

https://fr.wikipedia.org/wiki/Politique_linguistique_de_la_France, letzter Zugriff 11.6.2019

SQL:

https://de.wikipedia.org/wiki/SQL, letzter Zugriff 11.6.2019

Statement (Informatik):

https://de.wikipedia.org/wiki/Anweisung_(Programmierung), letzter Zugriff 11.6.2019

Steckling (Gartenbau):

https://de.wikipedia.org/wiki/Steckling, letzter Zugriff 11.6.2019

Synekdoche:

https://de.wikipedia.org/wiki/Synekdoche, leztzter Zugriff 11.6.2019

Synsemantikum:

https://de.wikipedia.org/wiki/Synsemantikum, letzter Zugriff 11.6.2019

typographische Konventionen:

https://de.wikipedia.org/wiki/Anf%C3%BChrungszeichen, letzter Zugriff 11.6.2019

Translatio (imperii):

https://de.wikipedia.org/wiki/Translatio_imperii, letzter Zugriff 11.6.2019

TreeTagger:

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger, letzter Zugriff 3.1.2019

Type/Token:

https://de.wikipedia.org/wiki/Token_und_Type, letzter Zugriff 11.6.2019

vegetative Vermehrung (Botanik):

https://de.wikipedia.org/wiki/Vegetative_Vermehrung, letzter Zugriff 11.6.2019

Verordnung zur frz. Pressefreiheit (1944):

https://fr.wikipedia.org/wiki/Ordonnances_de_1944_sur_la_libert%C3%A9_de_la_presse, letzter Zugriff 11.6.2019

vim-Editor:

https://www.vim.org, letzter Zugriff 17.2.2019

vulgarisation:

https://fr.wikipedia.org/wiki/Vulgarisation, letzter Zugriff 11.6.2019

Vulgata:

https://de.wikipedia.org/wiki/Vulgata, letzter Zugriff 11.6.2019

https://www.die-bibel.de/bibeln/bibelkenntnis/wissen-bibeluebersetzung/geschichte-der-bibeluebersetzung/vulgata/, letzter Zugriff 16.1.2019

Watergate:

https://de.wikipedia.org/wiki/Watergate-Aff%C3%A4re, letzter Zugriff 11.6.2019

https://en.wikipedia.org/wiki/Watergate_complex, letzter Zugriff 11.6.2019

https://en.wikipedia.org/wiki/Watergate_scandal, letzter Zugriff 11.6.2019

Wittgensteins Sprachspiele:

https://de.wikipedia.org/wiki/Sprachspiel, letzter Zugriff 11.6.2019

WordPress:

https://de.wikipedia.org/wiki/WordPress, letzter Zugriff 11.6.2019

Wortfeld:

https://de.wikipedia.org/wiki/Wortfeld, letzter Zugriff 11.6.2018

Wörterbuch:

https://de.wikipedia.org/wiki/W%C3%B6rterbuch, letzter Zugriff 11.6.2019

Zipfsches Gesetz (Zipf-Kurve):

https://de.wikipedia.org/wiki/Zipfsches_Gesetz, letzter Zugriff 11.6.2019

17. Anlagen

Deckblatt

queries_id_214

LINKS_kollokatoren_diesel_uebersicht

RECHTS_kollokatoren_diesel_uebersicht

Bibliographie

Adamzik 2004 = Adamzik, Kirsten (2004): Textlinguistik. Eine einführende Darstellung, Berlin/Boston, De Gruyter [https://www-degruyter-com.emedien.ub.uni-muenchen.de/view/product/24129] (Link).
Ait El Hadj/Albertini 1985 = Ait El Hadj, Smail / Albertini, Jean-Marie (1985): Vulgariser: un défi ou un mythe?, Lyon, Chronique sociale [Reihe Collection "Synthèse"].
Albert 2008 = Albert, Pierre (2008): La presse francaise, Paris, Documentation Francaise.
Allaire 1990 = Allaire, Suzanne (1990): Französisch: Sprache und Massenmedien / Langue et mass média, in: Holtus, G. et al. (Hgg.) (1990): LRL (Lexikon der romanistischen Linguistik) Bd. V,1 (Französisch), Berlin/Boston: Niemeyer, 211-224 [De Gruyter Online LMU-Zugang] (Link).
Arnaldos 2001 = Arnaldos, Manuel Martínez (2001): Sprache und Medien: Lengua y medios de comunicación de masas, in: Holtus, G. et al. (Hgg.) (2001): LRL 1,2, Berlin/Boston: De Gruyter, 275-292 [https://www.degruyter.com/view/books/9783110938371/9783110938371.275/9783110938371.275.xml] (Link).
Assmann 1992c = Assmann, Jan (1992): Das kulturelle Gedächtnis. Schrift, Erinnerung und politische Identität in frühen Hochkulturen, München, Beck.
ATILF = atilf (Hrsg.): TLFi [Trésor de la langue francaise informatisé] (Link).
ATILF b = atilf: Französisches etymologisches Wörterbuch (Link).
Barthes 1970 = Barthes, Roland (1970): S/Z, Paris, Seuil.
Barthes 1984 = Barthes, Roland (1984): Le bruissement de la langue, Paris, Seuil.
Becker 2015 = Becker, Martin (2015): Zum Diskursbegriff - seinen Dimensionen und Anwendungen, in: Lebsanft, F./Schrott, A. (Hgg.) (2015): Diskurse, Texte, Traditionen. Modelle und Fachkulturen in der Diskussion, Göttingen: V&R unipress, , 149-172.
Bensaude-Vincent/Rasmussen 1997 = Bensaude-Vincent, Bernadette / Rasmussen, Anne (Hrsgg.) (1997): La science populaire dans la presse et l'édition. XIXe et XXe siècles, Paris, CNRS.
Blank 1997 = Blank, Andreas (1997): Prinzipien des lexikalischen Bedeutungswandels am Beispiel der romanischen Sprachen, in: Beihefte zur Zeitschrift für romanische Philologie, vol. 285, Berlin, de Gruyter (Link).
Bossong 2008 = Bossong, Georg (2008): Die romanischen Sprachen, Hamburg, Buske.
Bourdieu 1982b = Bourdieu, Pierre (1982): Ce que parler veut dire. L'économie des échanges linguistiques, Paris, Fayard [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%22153467%22+IN+%5B2%5D&v=sunrise&l=de] (Link).
Bubenhofer 2009 = Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse, Berlin/New York, De Gruyter [Dissertation Uni Zürich (dowload-link: https://www.zora.uzh.ch/id/eprint/111287/)] (Link).
Bubenhofer/Scharloth 2012 = Bubenhofer, Noah / Scharloth, Joachim (2012): Korpuslinguistische Diskursanalyse: Der Nutzen empirisch-quantitativer Verfahren (Link).
Bucher/Schumacher 2008 = Bucher, Hans-Jürgen / Schumacher, Peter (2008): Konstante Innovationen. Vom Online-Journalismus zum konvergenten Journalismus – wie neue Medien und alte Paradoxien die öffentliche Kommunikation verändern, in: Pörksen, B. et al. (Hgg.)(2008): Paradoxien des Journalismus. Theorie - Empirie - Praxis. Festschrift für Siegfried Weischenberg, Wiesbaden: VS., 477-501 [https://link-1springer-1com-1001343jl0e91.emedia1.bsb-muenchen.de/book/10.1007%2F978-3-531-91816-7] (Link).
Bucher/Straßner 1991 = Bucher, Hans-Jürgen / Straßner, Erich (1991): Mediensprache, Medienkommunikation, Medienkritik, Tübingen, Narr [https://opacplus.bsb-muenchen.de/search?isbn=382334109X&db=100&View=default].
Burger/Luginbühl 2014 = Burger, Harald / Luginbühl, Martin (2014): Mediensprache. Eine Einführung in Sprache und Kommunikation der Massenmedien, Berlin/Boston, De Gruyter [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%225557789%22+IN+%5B2%5D&v=sunrise&l=de] (Link).
Busse 2012a = Busse, Dietrich (2012): Frame-Semantik, Berlin, de Gruyter (Link).
Busse 2018 = Busse, Dietrich (2018): Diskurs und Wissensrahmen, in: Warnke, Ingo H. (Hg.) (2018): Handbuch Diskurs, Berlin/Boston: De Gruyter, 3-29 [https://www.degruyter.com/view/books/9783110296075/9783110296075-001/9783110296075-001.xml] (Link).
Charmaz 2014 = Charmaz, Kathy (2014): Constructing grounded theory, Los Angeles, Sage (Link).
Coseriu 1981b = Coseriu, Eugenio (1981): Textlinguistik. Eine Einführung, Tübingen, Narr.
Coseriu 1988 = Coseriu, Eugenio (1988): Einführung in die Allgemeine Sprachwissenschaft, Tübingen, Francke.
Coseriu 1988b = Coseriu, Eugenio (1988): Energeia und Ergon: sprachliche Variation, Sprachgeschichte, Sprachtypologie. Studia in honorem Eugenio Coseriu (Das sprachtheoretische Denken Eugenio Coserius in der Diksussion / 2), vol. 2, Tübingen, Narr [https://opacplus.bsb-muenchen.de/search?isbn=3878083009&db=100&View=default].
Donges 2008 = Donges, Patrick (2008): Medien als Strukturen und Akteure: Kommunikationswissenschaftliche Theoriediskussion zwischen System- und Handlungstheorie, in: Winter, C./Hepp, A./Krotz, F. (Hgg.) (2008): Theorien der Kommunikations- und Medienwissenschaft, Wiesbaden: SV, 329-344 [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%224008839%22+IN+%5B2%5D&v=sunrise&l=de] (Link).
Eberenz 1997 = Eberenz, Rolf (1997): Los regimentos de peste a fines de la Edad Media: configuración de un nuevo género textual, in: Frank, B. et al. (Hgg.) (1997): Gattungen mittelalterlicher Schriftlichkeit, Tübingen: Narr, 79-96.
Ernst u.a. 2008 = Ernst, Gerhard / Gleßgen, Martin-Dietrich / Schmitt, Christian / Schweickard, Wolfgang (Hrsgg.) (2008): Romanische Sprachgeschichte. Ein internationales Handbuch zur Geschichte der romanischen Sprachen, vol. 2, Berlin/Boston, De Gruyter Mouton [https://www.degruyter.com/view/serial/18593] (Link).
Eveno 2004 = Eveno, Patrick (2004): Histoire du journal Le Monde: 1944-2004, Paris, Michel [Bibliothèque Albin Michel: Histoire].
Eveno 2012 = Eveno, Partick (2012): Histoire de la presse francaise, Paris, Skira Flammarion.
Fix 2013 = Fix, Ulla (2013): Sprache in der Literatur und im Alltag: ausgewählte Aufsätze, Berlin, Frank & Timme.
Foucault 1971 = Foucault, Michel (1971): L'ordre du discours, Alexandria, VA, Alexander Street Press (Link).
Frank u.a. 1997 = Frank, Barbara / Haye, Thomas / Thopinke, Doris (Hrsgg.) (1997): Gattungen mittelalterlicher Schriftlichkeit, Tübingen, Narr [Aufsatzsammlung].
Geertz 1973 = Geertz, Clifford (1973): The Interpretation of Cultures: Selected Essays, New York, 5-30 ("Thick Description") [Zugriff 12.11.2016] (Link).
Gehrke 1994 = Gehrke, Hans-Joachim (Hrsg.) (1994): Rechtskodifizierung und soziale Normen im interkulturellen Vergleich, Tübingen, Narr.
Gévaudan 2007b = Gévaudan, Paul (2007): Typologie des lexikalischen Wandels. Bedeutungswandel, Wortbildung und Entlehnung am Beispiel der romanischen Sprachen, Tübingen, Stauffenburg (Link).
Gleßgen 2005 = Gleßgen, Martin-Dietrich (2005): Diskurstraditionen zwischen pragmatischen Vorgaben und sprachlichen Varietäten. Methodische Überlegungen zur historischen Korpuslinguistik, in: A. Schrott/H. Völker (Hgg.): Historische Pragmatik und historische Varietätenlnguistik in den romanischen Sprachen, Göttingen: Universitätsverlag, 207-228 [Volltext Download BSB München] (Link).
Graefen/Liedke 2012 = Graefen, Gabriele / Liedke, Martina (²2012): Germanistische Sprachwissenschaft. Deutsch als Erst-, Zweit- oder Fremdsprache, Tübingen/Basel, Francke [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%224650635%22+IN+%5B2%5D&v=sunrise&l=de].
Hanks 1987 = Hanks, William F. (1987): Discourse genres in a theory of practice, in: American Ethnologist 14/4 (1987) 14/4 (1987), 668-692 [Artikel in Zeitschrift] (Link).
Jacobi 1984 = Jacobi, Daniel (1984): Du discours scientifique, de sa reformulation et de quelques usages sociaux de la science, in: Langue francaise 64 (Francais technique et scientifique: reformulation, enseignement), 38-52 (Link).
Jacobi 1986 = Jacobi, Daniel (1986): Diffusion et vulgarisation, Paris, Belles Lettres.
Keller 1995 = Keller, Rudi (1995): Zeichentheorie, Tübingen/Basel, Francke (Link).
Keller 2014 = Keller, Rudi (2014): Sprachwandel. Von der unsichtbaren Hand in der Sprache, Tübingen, Francke (Link).
Kilian 2011 = Kilian, Ulrich (⁶2011): Wie funktioniert das? Technik, Berlin, Meyers.
Kluge/Seebold 2011 = Kluge, Friedrich / Seebold, Kluge (2011): Etymologisches Wörterbuch der deutschen Sprache, Berlin, de Gruyter.
Kluge/Seebold 2015 = Kluge, Friedrich / Seebold, Elmar (²⁵2015 [1883]): Etymologisches Wörterbuch der deutschen Sprache, Berlin/Boston, De Gruyter (Link).
Knox 2007 = Knox, John (2007): Visual-verbal communication on online newspaper home pages, in: Visual Communication 6(1) 2007, 19-53 [https://journals-sagepub-com.emedien.ub.uni-muenchen.de/toc/vcja/6/1] (Link).
Koch 1997 = Koch, Peter (1997): Diskurstraditionen: zu ihrem sprachttheoretischen Status und ihrer Dynamik, in: B. Frank et al (Hgg.) (1997): Gattungen mittelalterlicher Schriftlichkeit, Tübingen:Narr, 43-79.
Koch/Oesterreicher 2011e = Koch, Peter / Oesterreicher, Wulf (²2011): Gesprochene Sprache in der Romania. Französisch, Italienisch, Spanisch, Berlin/New York, De Gruyter [Romanistische Arbeitshefte 31].
Kött 2005 = Kött, Martin (2005): Authentizität durch Variation. Zur Funktion sprachlicher Varietäten in journalistischen Texten, in: Schrott, A./Völker, H. (Hgg.) (2005): Historische Pragmatik und historische Varietätenlinguistik in den romanischen Sprachen, Göttingen: Universitätsverlag, 279-291 [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%225122926%22+IN+%5B2%5D&v=sunrise&l=de] (Link).
Kolboom u.a. 2008 = Kolboom, Ingo / Kotschi, Thomas / Reichel, Edward (Hrsgg.) (2008): Handbuch Französisch, Berlin, Erich Schmidt.
Lausberg 1971 = Lausberg, Heinrich (1971): Elemente der literarischen Rhetorik, München, Hueber.
Lebsanft 2001 = Lebsanft, Franz (2001): Sprache und Medien: Sprache und Massenkommunikation, in: Holtus, G. et al. (Hgg.) (2001): LRL 1,2, Berlin/Boston: De Gruyter, 292-304 [https://www.degruyter.com/view/books/9783110938371/9783110938371.275/9783110938371.275.xml] (Link).
Lodge 2004 = Lodge, Anthony (2004): A sociolinguistic history of Parisian French, Cambridge, Cambridge Univerity Press.
Luckmann 1992 = Luckmann, Thomas (1992): Theorie des sozialen Handelns, Berlin/Boston, De Gruyter (Link).
Luckmann 1997 = Luckmann, Thomas (1997): Allgemeine Überlegungen zu kommunikativen Gattungen, in: Frank et al. (Hgg.) (1997): Gattungen mittelalterlicher Schriftlichkeit, Tübingen: Narr, 11-17 [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%221689134%22+IN+%5B2%5D&v=sunrise&l=de].
Lücke u.a. 2017 = Lücke, Stephan / Riepl, Christian / Trautmann, Caroline (2017): Korpus im Text. Softwaretools und Methoden für die korpuslinguistische Praxis, vol. 1, München, Universitätsbibliothek der LMU, LMU/ITG [Open-Access-Version; ISBN: 978-3-95896-016-9 (elektronische Version)] (Link).
Lüger 1995b = Lüger, Heinz-Helmut (1995): Pressesprache, Tübingen, Niemeyer (Link).
Lünenborg 2008 = Lünenborg, Margreth (2088): Journalismus in der Mediengesellschaft: ein Plädoyer für eine integrative Journalistik, in: Winter, C./Hepp, A./Krotz, F. (Hgg.)(2014): Theorien der Kommunikations- und Medienwissenschaft, Wiesbaden: VS, 269-289 [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%224008839%22+IN+%5B2%5D&v=sunrise&l=de] (Link).
Merkt-Wagner 2003 = Merkt-Wagner, Christine (2003): Linguaggio medico - online: die Divulgation medizinischen Wissens im Internet, Frankfurt am Main, Lang [Dissertation] (Link).
Mortureux 1982c = Mortureux, Marie-Francoise (1982): La vulgarisation : points de vue linguistiques , Paris, Larousse [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%225296713%22+IN+%5B2%5D&v=sunrise&l=de].
Mortureux 1985 = Mortureux, Marie-Francoise (1985): Linguistique et vulgarisation scientifique, in: Social Science Information 24/4 (1985), 825-845 (Link).
Niehr 2014 = Niehr, Thomas (2014): Einführung in die linguistische Diskursanalyse, Darmstadt, WBG.
Oesterreicher 1988 = Oesterreicher, Wulf (1988): Sprechtätigkeit, Einzelsprache, Diskurs und vier Dimensionen der Sprachvarietät, in: Albrecht, J. et al. (1988): Energeia und Ergon. Sprachliche Variation, Sprachgeschichte, Sprachtypologie. Studia in honorem Eugenio Coseriu, Bd. 2, Tübingen: Narr, 355-386.
Oesterreicher 1997 = Oesterreicher, Wulf (1997): Zur Fundierung von Diskurstraditionen, in: B. Frank et al. (Hgg.)(1997): Gattungen mittelalterlicher Schriftlichkeit, Tübingen: Narr, 19-41 [Aufsatz in Sammelband].
Osthus 2008 = Osthus, Dietmar (2008): Massenkommunikation und Sprachgeschichte: Galloromania, in: Ernst, G. et al. (Hgg.) (2008): Romanische Sprachgeschichte, Berlin/Boston: De Gruyter Mouton, 1280-1291 [https://www.degruyter.com/view/books/9783110171501.2/9783110171501.2.10.1280/9783110171501.2.10.1280.xml] (Link).
Perkuhn u.a. 2012 = Perkuhn, Rainer / Keibel, Holger / Kupietz, Marc (2012): Korpuslinguistik, Paderborn, Fink (Link).
Rey-Debove/Rey 2004 = Rey-Debove, Josette / Rey, Alain (Hrsgg.) (2004): Le Nouveau Petit Robert, Paris, Dictionnaires Le Robert.
Roth/Spiegel 2012 = Roth, Sven Kersten / Spiegel, Carmen (Hrsgg.) (2012): Angewandte Diskurslinguistik. Felder, Probleme, Perspektiven, Berlin/Boston, Akademie Verlag (Link).
Schlieben-Lange 1983 = Schlieben-Lange, Brigitte (1983): Traditionen des Sprechens. Elemente einer pragmatischen Sprachgeschichtsschreibung, Stuttgart, Kohlhammer.
Schröder 1984 = Schröder, Dorle (1984): Le Monde: Versuch einer texttypologischen und syntaktischen Monographie, Frankfurt am Main, Lang (Link).
Schrott/Völker 2005 = Schrott, Angela / Völker, Harald (Hrsgg.) (2005): Historische Pragmatik und historische Varietätenlinguistik in den romanischen Sprachen, Göttingen, Universitätsverlag [Volltext-Download BSB München] (Link).
Spitzmüller/Warnke 2011b = Spitzmüller, Jürgen / Warnke, Ingo H. (2011): Diskurslinguistik. Eine Einführung in Theorien und Methoden der transtextuellen Sprachanalyse, Berlin/Boston, De Gruyter [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%225554202%22+IN+%5B2%5D&v=sunrise&l=de] (Link).
Tognini-Bonelli 2001 = Tognini-Bonelli, Elena (2001): Corpus Linguistics at Work, Amsterdam / Philadelphia, John Benjamins.
Tschöke u.a. 2018 = Tschöke, Helmut / Mollenhauer, Klaus / Maier, Rudolf (Hrsgg.) (2018): Handbuch Dieselmotoren, Wiesbaden, Springer Vieweg (Link).
von Wartburg 1949 = von Wartburg, Walther (1949): Französisches etymologisches Wörterbuch, vol. 3, Basel, Zbinden [https://opac.ub.uni-muenchen.de/TouchPoint/perma.do?q=+0%3D%222313534%22+IN+%5B2%5D&v=sunrise&l=de] (Link).
Winter u.a. 2008 = Winter, Carsten / Hepp, Andreas / Krotz, Friedrich (Hrsgg.) (2008): Theorien der Medien- und Kommunikationswissenschaft, Wiesbaden, VS (Link).

Vgl. zeitgenössische Anpassungsbestrebungen wie die Entmythologisierung.

Vgl. die fünf v. G. Maletzke definierten Bedingungen f. Massenkommunikation: „Unter Massenkommunikation verstehen wir jene Form der Kommunikation, bei der Aussagen öffentlich (also ohne begrenzte und personell definierte Empfängerschaft) durch technische Verbreitungsmittel (Medien) indirekt (also bei räumlicher oder zeitlicher oder raumzeitlicher Distanz zwischen den Kommunikationspartnern) und einseitig (also ohne Rollenwechsel zw. Aussagenden und Aufnehmenden) an ein disperses Publikum vermittelt werden.“ (Quelle).

2007 wurde die EU-Abgasnorm eingeführt.

Vgl. hier i. Zusammenhang mit Rhetorik.

Vgl. Barthes 1984 (Le bruissement de la langue): „Le bruissement, c’est le bruit de ce qui marche bien. Il s’ensuit ce paradoxe: le bruissement dénote un bruit limite, un bruit impossible, le bruit de ce qui, fonctionnant à la perfection, n’a pas de bruit; bruire, c’est faire entendre l’évaporation même du bruit: le ténu, le brouillé, le frémissant, sont reçus comme les signes d’une annulation sonore.“ (Quelle).

Vgl. zum Verhältnis zwischen aktualisierender Rede und Sprachnorm: „Die Rede präsentiert eine einzelsprachliche Technik als tatsächlich realisiert; und sie wird daher in demselben Sinne erkannt, wie wir z.B. vor einem Gemälde sagen: Welch eine Technik in diesem Werk! oder: Gegen diese Technik gibt es nichts zu sagen. Doch abgesehen von der Realisierung einer traditionellen Technik enthält die Rede natürlich auch noch eine ganze Reihe eigener Bestimmungen, die sie vereinzeln und sie jeweils als ’neuartig‘ erscheinen lassen. […] Die Sprachnorm enthält dagegen all das, was in der einer funktionalen Sprache entsprechenden Rede traditionell, allgemein und beständig, wenn auch nicht notwendig funktionell ist, nämlich alles, was man ’so und nicht anders‘ sagt (und versteht).“ (Coseriu 1988, 297) (Kursivierung im Original, Verf.).

Vgl. Luckmann 1997 zu kommunikativen Gattungen und Luckmann 1992, 156 zum Begriff d. Entlastung.

Die Blaupause funktioniert tatsächlich in gewisser Weise ähnlich wie das Sprechen unter dem Einfluss von ’schon Gesagtem‘, aber nicht so sehr i.S. der direkten, vollständigen Durchschrift (vgl. „Wiedergebrauchsrede“ vs. „Verbrauchsrede“ in Lausberg 1971, 16f), sondern eher wie Prägungen durch eine oder mehrere Seiten hindurch, ohne dass eine vollständige physische Gestalt ‚durchgepaust‘ würde. Wie beim Sichtbarmachen von Prägungen im Papier durch Darüberschraffieren mit einem flach gehaltenen Stift wird beim aktuellen Sprechen die konkrete Situation anhand der vorhandenen, intersubjektiv wahrnehmbaren, aber physisch unsichtbaren Prägemuster ‚(re)konstruiert‘. Was gehört, gelesen, gesagt und geschrieben wird und wurde, hinterlässt quasi in der Zukunft, die noch ein ‚unbeschriebenes Blatt‘ ist, das *Angebot*, sich als Sprecher (u. Hörer) an ihm zu orientieren.

Die Selektion einer konkreten Versprachlichungsform aus einem Paradigma vieler Formen erfolgt ja oft ‚ohne Überlegen‘ bzw. mit minimaler Verzögerung, die weniger auf strukturalistischer Analyse beruht als vielmehr auf dem blitzschnellen, nicht im Einzelnen bewusst nachvollziehbaren Abgleich mit Analogien der Sprachgebrauchserfahrung.

Vgl. Episteme und Archiv bei Foucault (hier).

Die Beobachtbarkeit der im Hintergrund ablaufenden ‚Gedanken‘ ist eingeschränkt, weil der Fokus auf dem liegt, was außerhalb, i.d. objektiven Welt, liegt.

Nicht zuletzt die in Koch 1997 i. Zusammenhang mit Diskurstraditionen vorgestellten Filiationsmodelle u. indirekt auch die in Gévaudan 2007b mithilfe eines Filiationsmodells entwickelte Typologie des lexikalischen Wandels scheinen für diese Problemstellung hilfreich: Durch die aktuelle Kommunikationssituation bzw. durch Teile von ihr wird eine Resonanz od. Rückkoppelung mit *Teilen* des bewusst Bekannten (i.S.v. systematisch), aber auch des unbewussten, ‚virtuellen‘ Gedächtnisses ausgelöst; diese zeitigt ein wiederum nicht fixiertes, virtuelles ‚Ähnlichkeitsangebot‘, aus dem (bewusst und unbewusst) *ausgewählt* wird, was für die Bewältigung der aktuellen, individuellen Kommunikationssituation – dazu sind auch konzeptionell monologische Situationen wie das Verfassen od. Lesen eines Zeitungsartikels zu rechnen – als erfolgversprechend identifiziert werden.

Mit diesem Ausdruck den geschilderten Sachverhalt zu *fassen* ist selbst ein Beispiel für die Nutzung einer solchen Entlastungsmöglichkeit.

Vgl. zur Schlüsselbund-Metapher die Begriffe Enkodierung und Dekodierung.

Der Verwendung von Ausdrücken wie entdecken od. freilegen stehe ich angesichts der grundsätzlich anzunehmenden Konstruiertheit von Diskursen skeptisch gegenüber (vgl. auch Charmaz 2014).

Das englische Wort match ist für die Suche nach analogen Einzelfällen sehr anschaulich: der auf jener Ebene stattfindende Suchlauf, dessen Geschwindigkeit und Funktionsweise sich unserer bewussten Wahrnehmung entzieht, scheint auf Musterhaftigkeit zu beruhen. Je dominanter eine Musterlösung ist, umso weniger Selektionsfreiheit besteht bei der Wahl ihrer Komponenten; die Selektion ist (in einem bestimmten Kotext und Kontext) theoretisch dann maximal eingeschränkt, wenn zur optimalen Versprachlichung eines Inhalts (auch auf Morphemebene) nur zwei Auswahlmöglichkeiten bestehen (etwa im Fall von davonlaufen vs. weglaufen (fortlaufen entspricht schon wieder tendentiell einem anderen Register od. einer diasystematischen Variante und somit in einer anderen Situation der idealen Wahl). Wenn (innerhalb der Sprachgebrauchsnorm und in für den pragmatischen Einzelfall unmarkierter Rede) keine Selektion möglich ist, handelt es sich um ein lexikalisiertes oder grammatikalisiertes Kompositum od. Syntagma (z.B. Kielholen, Der Apfel fällt nicht weit vom Stamm, SVO-Struktur in indikativischen Hauptsätzen), oder sogar um ganze feststehende Texte od. Textpassagen wie sie im rituellen Kontext verwendet werden.

Dieser Aspekt ist besonders interessant, wenn man an die starke Rezeption von Schlagzeilen denkt, in denen z.B. Diesel oder Dieselfahrzeuge vorkommen: Welches Bild vermitteln sie im Abgleich mit den hypothetischen ‚Schlagzeilen‘, die in den zugrundeliegenden Forschungszweigen synchron oder diachron ‚kursieren‘?

Vgl. Eberenz 1997.

Vgl. Titel der Lehrveranstaltung, die ich begleitend zur Erstellung dieser Arbeit besucht habe.

Vgl. Bubenhofer/Scharloth 2012, 17 (Link): „Ich plädiere für eine ‚quantitativ informierte qualitative Analyse’, die qualitative Analysen immer vor dem Hintergrund quantitativer Daten vornimmt. Wenn einzelne Texte einer genauen, qualitativen Analyse unterzogen werden, dann wäre es eine verpasste Chance, quantitativ gewonnene Informationen über die Serie, in der diese Einzeltexte stehen, zu ignorieren. Jedes Wort, jeder mehrgliedrige Ausdruck, jedes andere linguistische Merkmal, das im Analyseprozess aus irgendeinem Grund auffällt, steht im Kontext seiner seriellen Verwendung – oder gerade auch der seriellen Vermeidung. Dies lässt sich quantitativ modellieren und ermöglicht es, die empirische Einzelbeobachtung auch quantitativ-empirisch abzusichern.“.

Lexikalisiert kann ein Element ohne Erfassung in einem Wörterbuch sein, da die Lexikographie dem Sprachgebrauch notwendigerweise hinterherhinkt und es Letzterer ist, der als Primat des Sprachwandels zu sehen ist. Vgl. dazu die entstsprechende Seite bei www.christianlehmann.eu, hier insbes. auch die FN 3.

S. auch Eintrag im PR.

Die Bedeutung bzw. Funktion von klitischen bzw. in Verbindungen verwendeten Morphemen macht einen Teil der Inhaltsseite solcher lexikalischer Einheiten aus. Vgl. die Definition von lexikalischer Einheit bei Gévaudan 2007b, 29 als eineindeutige Ausdruck-Inhalts-Beziehung aus genau einem Ausdruck und genau einem Inhalt.

Suche am 20.11.2018.

Interessant ist auch, dass einige Beispiele anscheinend in Texten gefunden werden, die einer älteren Sprachstufe des Deutschen entsprechen.

Im romanistischen Kontext kann eine Innovation durch lat. Entlehnungen von der Kenntnis verschiedener romanischer Sprachen beeinflusst sein; im Fall von Divulgation als intuitivem ‚Übersetzungsvorschlag‘ von frz. vulgarisation kann z.B. die Rezeption des italienischen Sprachgebrauchs (divulgazione) eine Rolle spielen.

M. E. ist jedoch gerade bei diasystematischen Betrachtungen jede repräsentationistische (vgl. Keller 1995, 56 und hier) Darstellung zu hinterfragen bzw. nur für klar umrissene, konkrete Falluntersuchungen zulässig.

Auch wenn der Rückgriff auf handliche und daher etablierte Erklärungsmodelle ungern hinterfragt wird – manchmal auch selbst dann noch, wenn ihr Explikationspotential hinsichtlich neuerer Erkenntnisse zusehends schwindet, was insbesondere in der fachexternen Vermittlung am längsten nachwirken kann; durch ‚Erklärungs-Bequemlichkeit‘ kann zwischen den Tatsachen der Grundlagenforschung und dem ‚Volksglauben‘ eine aus soziologischer Sicht eher problematische Diskrepanz entstehen, die u.U. zur Betonung von topologischen Gesellschaftsideologien beiträgt.

Populärwissenschaftlich impliziert, dass ‚Mitteilungen‘ aus der Welt akademischer, meist naturwissenschaftlicher Forschung nicht nur verbreitet, sondern aufbereitet, verpackt, verkauft (konsumierbar gemacht) werden. Die Welt der Forschung wird als entfernt imaginiert, umso mehr, je weniger spezifische Elemente aus ihr in den populärwissenschaftlichen Diskurs einfließen (man *soll* spüren, dass etwas ‚höheres‘, komplexeres dahintersteckt). Im Gegensatz dazu *kann* der divulgative Diskurs zwar in gewissem Maß populärwissenschaftlich geprägt sein (durch entsprechende strukturale Elemente/Merkmale nicht nur lexikalischer Art), muss es aber nicht; obligatorisch ist hingegen die (massenmediale) Vermittlung an eine Vielzahl von Individuen und die Restriktion, dass die Präsenz von fachspezifischen Elementen gerade nicht die Wirkung topologisch niedriger Situierung von Text und Leser haben darf, sondern das neutrale Empfinden, Alltäglichkeit und Unmittelbarkeit der dahinter stehenden Realität fördern soll.

Im Zusammenhang mit der Schlussfolgerung, dass Zeitungsartikel in Le Monde oder Le Figaro, die Dieselfahrzeuge thematisieren, grundsätzlich divulgativ, aber nicht zwangsläufig populärwissenschaftlich geprägt sein müssen, ist zu berücksichtigen, dass die Dauer der Präsenz eines Themas in den Massenmedien eine Rolle spielt: Lagen Zweck und Funktion von Partikelfiltern vor zwanzig Jahren noch außerhalb des Allgemeinwissens, muss heute kein Zeitungsartikel mehr darauf eingehen, weil dies in der Vergangenheit ausreichend geschah und nun das Konzept wie etwa das des Katalysators für die Mehrzahl der ‚Kommunikationsteilhaber‘ im Lexikon verankert ist (vgl. auch Fußballterminologie). Ist ein normalerweise nur fachintern verbalisierter Sachverhalt neu, sozusagen erstmals oder nach langer Zeit wieder ins Alltagsgeschehen eingedrungen, ist der Grad an populärwissenschaftlichen Versprachlichungsmaßnahmen naturgemäß höher als bei altbekannten Themen. Dies ist ein weiterer Grund dafür, dass nicht nur der Komplexitätsgrad von Sachverhalten, sondern auch der Bekanntheitsgrad, die ‚Einbürgerung‘ von Konzepten eine Rolle spielt. Man müsste also bei der diasystematischen Analyse des hinsichtlich der Dieseltechnik auftrenden Sprachgebrauchs einzelner Artikel bzw. Zeitabschnitte die Vorgeschichte der öffentlichen Konzeptualisierung beschreiben.

Oesterreicher verweist auf Hanks 1987.

„Foucault machte dabei Diskursformationen ausfindig, die bestimmten, welche Konzepte aneinander anschlussfähig waren und wie Aussagen thematisch zu organisieren seien. Um wirksam zu sein, müssen Aussagen „ernsthaft“ sein und dann auch glaubwürdig. Sowohl Ernsthaftigkeit als auch Glaubwürdigkeit wird den Aussagen von Außen zugeschrieben. Die von Foucault aufgespürten Diskursformationen bestimmen, welche Aussagen als „ernsthaft“ galten, und wer die Autorität hat, solche ernsthaften Aussagen tätigen zu können. Danach bestimmen die Diskursformationen welche Fragen und Abläufe relevant sind, um die Glaubwürdigkeit ernsthafter Aussagen zu bestimmen. Die Diskursformationen selbst verändern sich über die Zeit. Viele von Foucaults früheren Texten beschäftigen sich mit der Veränderung dieser Formationen.“ (Quelle).

Vgl. Quelle.

Ausführungen in Anlehnung an Erläuterungen v. Prof. Dr. Thomas Krefeld (Betreuer d.v.A.).

Vgl. Barthes 1970, 15: „Lire cependant n’est pas un geste parasite, le complément réactif d’une écriture […] C’est un travail […] un acte lexéologique – lexéographique même, puisque j’écris ma lecture […]“.

„[…] on dirait que des voix off se font entendre: ce sont les codes […] Le concours des voix (des codes) devient l’écriture […] (Barthes 1970, 25).

Dt. Absenken (Gartenbau) f. Vermehren v. Pflanzen mit Stecklingen (Einpflanzen v. Trieben, vgl. vegetative Vermehrung → Klonen).

Hier meist ganze Sätze oder sogar Satzsequenzen.

Was klassische (literarische) Texte von anderen unterscheidet, erklärt Barthes 1970, 10 folgendermaßen: „Il y a d’un côté ce qui est dans la pratique de l’écrivain et de l’autre ce qui en est sorti: quels textes accepterais-je d’écrire (de ré-écrire), de désirer, d’avancer comme une force dans ce monde qui est le mien? Ce que l’évaluation trouve, c’est cette valeur-ci: ce qui peut être aujourd’hui écrit (ré-écrit): le scriptible. Pourquoi le scriptible est-il notre valeur? Parce que l’enjeu du travail littéraire (de la littérature comme travail), c’est de faire du lecteur, non plus un consommateur, mais un producteur du texte. Notre littérature est marquée par le divorce impitoyable que l’institution littéraire maintient entre le fabricant et l’usager du texte, son propriétaire et son client, son auteur et son lecteur. Ce lecteur est alors plongé dans une sorte d’oisiveté, d’intransitivité, et, pour tout dire, de sérieux: au lieu de jouer lui-même […] il ne lui reste plus en partage que la pauvre liberté de recevoir ou rejeter le texte: la lecture n’est plus qu’un referendum. En face du texte scriptible s’établit donc sa contrevaleur, la valeur négative, réactive: ce qui peut être lu, mais non écrit: le lisible. Nous appelons classique tout texte lisible.“.

Barthes spricht in S/Z (= Barthes 1970) über eine Novelle, narrative Literatur überhaupt, somit ist dieser Teil des Kapitels Begriffsbestimmungen streng genommen auch nur insoweit auf Pressetexte beziehbar, als sie sich narrativer, der klassischen Erzählkunst entstammender Texthandlungen bedienen. Andererseits bilden (v.a. über längere Zeiträume dominante) Diskurse offensichtlich Narrative (vgl. auch Foucaults Diskursformationen) und sind daher (unabhängig von der Textsorte) grundsätzlich aus Sicht d. Erzählforschung interessant.

Das Werk wird aus ‚gesamtphilologischer‘ Sicht oft zitiert, während R. Barthes Werk v.a. in die Kulturwissenschaften ausgestrahlt zu haben scheint.

„Eine Komponente der Kaltstartunterstützung ist die Glühkerze. Durch elektrisch erzeugte und in den Brennraum eingebrachte Wärmeenergie schafft sie ideale Zündbedingungen für den eingespritzten Kraftstoff.“ (Quelle).

Vgl. Wiki-Artikel zu Drehmoment.

Das sog. Turboloch hängt mit der nicht mit der Kurbelwellenrotation synchronisierten Drehzahl zusammen: es kommt bei plötzlichem ‚Gasgeben‘ zu einer Verzögerung, da vorübergehend zu wenig Abgase zur Verfügung stehen.

Der südgallischen Tochtersprache(n) des Lateinischen entspricht/entsprechen die langue(s) d’oc, welche seit dem Spätmittelalter stetig zurückgedrängt wurde(n) und heute als stark bedrohte Minderheitensprache(n) gilt/gelten . Die französische Verfassung lässt als einzige offizielle Landessprache das Französische zu (vgl. Wiki-Artikel zur frz. Sprachpolitik).

Altokzitanisches Sprachgebiet (→ langue(s) d’oc).

Dazu zählen z.B. auch Predigttexte, während die Eucharistie usw. lateinisch blieb; vgl. Parallelen im dt. Sprachraum, wo auch nur die Predigt in der Volkssprache gehalten wurde, der sakrale Teil aber in lateinischer Sprache: durch Reanalyse von hoc est enim corpus meum wurde einer Theorie zufolge Hokuspokus.

Koch/Oesterreicher 2011e, 144 verweisen zu dieser These auf Lodge 2004.

Nicht zu vergessen ist, dass im südlichen Drittel des heutigen frz. Territoriums auch nach dem Albigenserkreuzzug (1209-1229) und der entsprechenden unmittelbaren Schwächung des Okzitanischen als Prestige- und Literatursprache sowie der politischen Selbstbestimmung der okzitanischen Gebiete die langue(s) d’oc in der Verwaltungssprache (neben Latein) bis ins 16.Jh. und im Nähebereich auch noch bis zum Ende des 19.Jh. faktisch kaum an Bedeutung verlor(en).

Besonders uneingeschränkt in morphosyntaktischer Hinsicht (vgl. Koch/Oesterreicher 2011e, 153, FN 50) – die Lexik lässt sich natürlich in keiner natürlichen Sprache dauerhaft durch Sprachplanung von Sprachwandelprozessen abschotten.

Diese enthielten u.a. Angaben zu Feiertagen, Märkten, aktuellen Gerichtsentscheiden usw. sowie Lebenspraktisches und Unterhaltendes.

Periodisch erscheinende Mitteilungsblätter, deren Rezeption aber lange auf enge Kreise beschränkt war.

Hieran zeigt sich auch, dass bei der Untersuchung von Texten Diasystem und Nähe-/Distanzkontinuum bzw. das konzeptionelle Profil getrennt betrachtet werden müssen: das Diasystem auf der historischen, vorwiegend einzelsprachlichen Ebene und das NDK bzw. die konkrete Kommunikationssituation auf der individuellen, aktuellen Ebene.

Vgl. Déontologie du journalisme.

Aus der Schweizer Tageszeitung NZZ im Zeitraum der 1990er u. 2000er Jahre und im Themenbereich Terrorbekämpfung.

Vgl. dazu auch Knox 2007.

Dieses Verhältnis mag sich zwar im Zuge der social media verschieben, jedoch ist im zitierten Text der professionelle, institutionalisierte und kodifizierte Journalismus gemeint; dass im semiotischen Sinn auch Rezipienten auf den Text einwirken, ist m.E. mitzuverstehen, aber Lebsanft geht es ja hier um die Kommunikationssituation, d.h. die äußerliche Rezeption, vgl. auch Lebsanft 2001, 297.

V.S. = vulgarisation scientifique.

Allerdings wäre es m.E. ebenso naiv, von der Arbeit des literarischen Übersetzers anzunehmen, es genüge lexikalisches bzw. einzelsprachliches Wissen, um für einen Originaltext eine hinreichende ‚Ent-sprechung‘ in der Zielsprache anzufertigen.

Daraus folgt auch die der vulgarisation inhärente Subjektivität, der die den wissenschatlichen Quellen entnommenen Inhalte makro- und mikrostrukturell, d.h. auf der Ebene der Selektion wie auf der Ebene der konkreten Darstellung, in massenmedialen Formaten ausgesetzt sind. Die individuelle Nutzung dieses Raums für gezielte Beeinflussung einerseits oder Transparenz andererseits ist nicht zuletzt konstitutiv für die journalistischhen Textsorten (informationsbetont vs. meinungsbildend vs. persuasiv usw.).

D.h. mithilfe einer reliablen, validen und möglichst nah an der Fragestellung ausgerichteten SQL-Abfragestruktur.

Vgl. die sog. Atomisierung von Daten wie sie für die Erstellung relationaler Datenbanken nötig ist, damit gezielte Abfragen möglich sind.

Vgl. oben zum Konzept der Textproduktion als Ort der ‚vie de la langue‘.

Vgl. Link.

Die Auflösung von Le Temps war eine Folge des neuen Pressegesetzes bzw. einiger unter dem Vichy-Regime erschienen Ausgaben.

Mit einer Mehrheit von 53%; 47% gehörten Danone, BNP Paribas und dem Milliardär François Pinault. (Quelle).

„Am 25. Juni 2010 erteilte die Redaktionskonferenz der Bietergruppe des PS-nahen Unternehmers Pierre Bergé, des Bankiers Matthieu Pigasse (Vize-Präsident von Lazard-Europa) und des Internetunternehmers Xavier Niel (groupe Iliad, DSL-Anbieter Free) den Zuschlag für den Kauf der wirtschaftlich angeschlagenen Tageszeitung Le Monde. Bergé und seine Compagnons garantierten der Redaktion weiterhin ihre journalistische Unabhängigkeit. Bergé sicherte der Redaktion nicht nur ihr Veto-Recht über die Vergabe der Chefredaktion zu, sondern rief auch eine Stiftung mit einer Einlage von zehn Millionen Euro ins Leben, die allmählich Aktienanteile für die Redakteure erwerben soll, bis eine Sperrminorität von 33 Prozent erreicht sein wird.Staatspräsident Nicolas Sarkozy intervenierte mehrmals und drohte schließlich der Redaktion bei einem Votum für Bergé & Co. mit einer Streichung der Subventionen für die Modernisierung der Le Monde-Druckerei. Kritiker sprachen von einer Berlusconisierung von Frankreichs Medien durch Sarkozy (Der Medienunternehmer Silvio Berlusconi war damals auch Italiens langjähriger Ministerpräsident). Der Aufsichtsrat der Le-Monde-Gruppe stimmte mit der Redaktionsmehrheit für das Übernahmeangebot der Investorengruppe um Bergé.“ (Quelle, FN aus Original entfernt, Verf.).

Diese Logik stelle ich im Folgenden z.T. mit der Schreibweise moteur (diesel) dar. Die Überlegung hinter der Integration von moteur ist, dass damit fast alle Artikel wegfallen, die nichts mit Dieselkraftstoff bzw. -fahrzeugen zu tun haben.

Es ist unabdingbar, sämtliche im Laufe der Korpusgewinnung u. -strukturierung relevanten Überlegungen explizit (für sich und andere) festzuhalten.

„The distinction between corpus-based and corpus-driven language study was introduced by Tognini-Bonelli (2001). Corpus-based studies typically use corpus data in order to explore a theory or hypothesis, aiming to validate it, refute it or refine it. The definition of corpus linguistics as a method underpins this approach. Corpus-driven linguistics rejects the characterisation of corpus linguistics as a method and claims instead that the corpus itself should be the sole source of our hypotheses about language. It is thus claimed that the corpus itself embodies a theory of language […]“ (Quelle, Hervorhebungen aus dem Original entfernt, Verf.); vgl. auch Tognini-Bonelli 2001.

Vgl. Charmaz 2014 und Wiki-Artikel zu Abduktion.

Ich verwende der Einfachheit halber mehrheitlich induktiv auch als Begriff, der den abduktiven Aspekt mitberücksichtigt.

Die innerhalb der Korpusauswertung erfolgte Feststellung der Frequenz und Textumgebung von diesel bezieht sich zwar auf einen konkreten Type, aber da das mindestens einmalige Vorkommen dieses Types Bedingung für die Aufnahme der Zeitungsartikel in das Korpus war, handelt es sich um eine der corpus-driven Analyse vorgelagerte Konkretisierung.

Mit diesem Inventar nehmen unweigerlich auch mögliche, am Erkenntnisinteresse auskristallisierende, Kategorien (zunächst instabile) Form an. Wichtig ist dabei (zumindest für meine Umsetzung i.d.v.A.), dass diese Perspektive für die Weiterverfolgung der einmal festgelegten corpus-driven Analyse keine Auswirkungen hat. D.h. man nimmt auffällige Beobachtungen zwar zur Kenntnis od. notiert etwas dazu für eine spätere corpus-based Analyse, verfolgt sie aber erst zu einem späteren Zeitpunkt weiter, nicht zuletzt, um die scharfe Trennung von Induktion und Deduktion nicht nur ‚auf dem Papier‘, sondern auch gedanklich zu wahren.

Bei der Untersuchung von relativ aktuellen Sprachdaten wie im Fall d.v.A. könnte man stärker dazu neigen wegen des im Vgl. zu historischen Studien besseren Zugangs zu den pragmatischen Bedingungen, doch klar ist, dass die kognitive Kluft zwischen Phänomen und Abstraktion davon unbenommen bleibt. Die Ansicht, dass Diskurstraditionen möglicherweise ein weder auf dem individuellen noch auf dem historischen Level, sondern dazwischen bzw. auf beiden Ebenen situiertes Moment zu sehen sind, erscheint mir als wichtiger Ansatz, wenn man sich mit diesem ‚blinden Fleck‘ befasst. Vgl. dazu z.B. hier (S. 7) die bei Kabatek wiederkehrende Diskussion von Kochs Verortung der DT auf der historischen Ebene.

Ein passendes Bild zu dieser Vorstellung vermittelt das Prinzip des Kaleidoskops: je nach Stellung ändert sich die ‚Funktion‘ der Einzelteile.

Auch bei der deduktiven Methode fragt sich, welches Korpus überhaupt geeignet sein kann, auf existierende Theorien hin befragt zu werden, denn wenn nichts anderes als die Aussage einer einzelnen Theorie die Auswahl des zu untersuchenden Materials determiniert, haftet auch dem Ergebnis etwas Prädeterminiertes an, das seine Innovationskraft stark begrenzt. Für die Sprachwissenschaft wäre es auch in diesem Zusammenhang wünschenswert, dass die Mehrheit der durchgeführten Untersuchungen (einer möglichst großen Bandbreite) besser und systematischer vernetzt und leichter zugänglich wären, als dies bisher der Fall ist. Nur so könnten m.E. (dank der exponentiell erhöhten Zahl von Anknüpfungspunkten und ‚Anknüpfern‘) existierende Theorien auf einigermaßen ungerichtete Weise einen Abgleich mit der textuellen Realität erfahren, wobei der Faktor Zeit hierbei eine sehr positive Rolle spielen könnte: Je länger eine gute Vernetzung (vgl. Keywords für die Index-Erstellung durch Suchmaschinen) die globale Beobachtbarkeit von beliebigen Zusammenhängen sichert, umso deskriptiver wird ihre Erfassung (v.a., wenn die Wirkung der für Google typischen Hierarchisierung durch marktstrategische SEO mit guter Keyword-Vernetzung vermindert würde), da nicht nur das Perspektivenspektrum (Perspektivität ist ja auch in deskriptiv ausgerichteten Beiträgen immer gegeben), sondern auch die Anzahl der über diese Zeit durchgeführten und zugänglich gemachten Untersuchungen drastisch zunimmt.

Man muss sich ja durchaus nicht streng einer der beiden Sichtweisen auf das Sprachliche verschreiben, sondern kann je nach Problemstellung auch innerhalb einer einzelnen wissenschaftlichen Arbeit beide Perspektiven zur Geltung kommen lassen, um sich aus zwei Richtungen einem bestimmten Problem zu nähern. Entscheidend ist dabei nicht, welche Sichtweise per se ‚besser‘ sein könnte, sondern eben die klare Zuordnung jeder Aussage zu den zugrundegelegten Prämissen.

„Mais il y aussi les difficultés que crée, à l’autre pôle de la recherche, la méthode d’analyse sur corpus […] de tracer les contours du domaine d’étude et d’en positiver le contenu avant d’avoir travaillé à en comprendre et à en légitimer l’existence par les enjeux propres à la recherche en sciences humaines. Tirer ainsi de l’observation de textes […] par un mouvement d’abstraction progressif une matrice de fonctionnement, baptisé modèle discursif, c’est asseoir une typologie des messages, voire la conception de schèmes producteurs de sens, sur l’empirisme d’une généralisation descriptive, et non sur le principe d’une explication des modes d’expression par lesquels l’homme, en conférant au monde son intelligibilité, travaille aussi à en définir les contours ethniques et politiques.“ (Allaire 1990, 212).

„Korpuslinguistische Diskursanalyse: Der Nutzen empirisch-quantitativer Verfahren“ (Link).

Der Gefahr, dass etwa Statistiken divulgativ missbraucht werden, kann vermutlich v.a. vonseiten der Rezipienten wirksam begegnet werden, indem Diskurse, die sich offensichtlich an ein als unkritisch und für subjektive Darstellungen unsensibel imaginiertes Publikum richten, gar nicht erst divulgative Reichweite erlangen.

Vgl. auch Busse 2012a.

Vgl. Wiki-Eintrag Episodisches Gedächtnis.

Bedeutungsverleihende Akte: die dem Ausdruck Sinn verleihen; bedeutungserfüllende Akte: die die (individuell) gemeinte Bedeutungsintention unterstreichen (erfüllen), vgl. dazu hier.

Wenn die historische Ebene das Inventar für individuelle Äußerungen liefert, kann man davon ausgehen, dass die in eine Äußerung einfließenden Selektionen nicht nach dem Gesichtspunkt ‚lexikalisches vs. enzyklopädisches Bedeutungswissen‘ erfolgen, sondern nach dem Gesichtspunkt der aktuellen Redekonstellation, die neben dem Rückgriff auf (theoretisch zu unterscheidende Arten von) Bedeutungswissen auch pragmatisches Wissen – das diasystematische Wissen z.B. ist in der Praxis nicht ohne weiteres mit der langue erklärbar, weil es auch diskurstaditionelles Wissen voraussetzt, und davon u.U. nicht nur einzelsprachlich gebundenes – mit all seinen rhetorischen Implikationen einschließt. Die rhetorische bzw. pragmatische Nutzbarmachung der (‚binären‘) historischen Ebene des Sprachlichen bedeutet, dass nicht nur die Grammatik des einzelsprachlichen Systems berücksichtigt wird, sondern auch die ‚Grammatik‘ der Rede des vorherrschenden kulturellen Systems; beides sind semiotische Systeme aus ‚organisch gewachsenen‘ Konventionen (Kontextualisierung!), die ineinander greifen und voneinander leben, um kommunikative Erfolge zu erzielen (vgl. das geflügelte Wort „Man talks in order to get something.“ (Zipf 1949 in Blank 1997, 370 (Link)).

Die Zeitung ist also der gemeinsamme Nenner aller Korpusdaten, während i.d.v.A. das mind. einmalige Vorkommen von (moteur) diesel allen verwendeten Artikeln gemein ist, die entweder aus Le Monde oder Le Figaro stammen können.

Vgl. hier.

Vgl. https://www.dh-lehre.gwi.uni-muenchen.de > Lehrverastaltungen.

Vgl. auch Kap. „SQL – Structured Query Language“ in Lücke u.a. 2017, 163ff (Link) sowie den DH-Beitrag „Datenmodellierung und relationale Datenbanken“.

Besonders gedankt sei an dieser Stelle Dr. Stephan Lücke, der nicht müde wurde, mir die nötigen Erklärungen und Hilfestellungen zu geben.

Diese Anteile der Ausgangs-Textdatei können dann in der DB auch nicht nach einzelnen Elementen durchsucht werden. Es ist daher ratsam, sich vor Inangriffnahme des ‚echten‘ Korpus genau zu überlegen, welche Bereiche der zu untersuchenden Texte in der DB in Anbetracht des Erkenntnisinteresses in tokenisierter Form vorliegen sollten (und wo definitiv darauf verzichtet werden kann).

Der Grund, warum der Fließtext unbedingt in diese konsistente Form gebracht werden muss, ist, dass man in der Datenbank nur ein Element pro Tabellenzelle haben möchte, wobei das Element meist ein Wort ist, aber auch Satzzeichen od. theoretisch Morpheme können diese kleinste Einheit bilden, je nachdem wo die als Feldtrenner definierten Zeichen (z.B. Tabulator, Komma) platziert werden, die bei der Umformung zur Liste durch Zeilenumbrüche ersetzt werden.

Bsp.: Wenn im Quelltext nicht die erwünschte uft8-Kodierung für das Apostroph-Zeichen verwendet wurde, wurde ermittelt, welchem hexadezimalen Code (vgl. Lücke u.a. 2017, 199) die korrekte Darstellung entspricht und die entsprechende Ersetzung vorgenommen.

Für die Auswahl der Zeitabschnitte spielte der Bearbeitungszeitraum d.v.A. eine Rolle (deshalb jeweils bis Ende Oktober und nicht bis Ende Kalenderjahr) sowie die notwendige Reduktion der zu erhebenden Daten auf einen ausreichenden, aber zu bewältigenden Umfang, zumal das Kopieren der Online-Texte in die Textdateien manuell erfolgte (dies hatte nicht nur Nachteile: man hat dadurch immerhin alle Daten, wenn auch nur flüchtig, mit eigenen Augen gesehen und dadurch mehr Kontrolle über die Basis aller weiteren, größtenteils automatisiert ablaufenden Aufbereitungs- und Analyseschritte).

Auch die Unterstützung durch geübte Nutzer bringt einen bei der Formulierung von SQL-Statements nur weiter, wenn man die entprechende Logik dahinter nachvollziehen lernt. Da die grundlegende Syntax rel. leicht erlernbar ist, kann man mit etwas Übung sukzessiv immer komplexere Abfragen verstehen und davon selbständig funktionale Varianten ableiten.

Sinngemäße Zusammenfassung der Verf.

Bubenhofer 2009, 5f zufolge „kann musterhafter Sprachgebrauch statistisch operationalisiert werden. Es sollte also möglich sein, in einer großen Textmenge mit maschinellen Verfahren ‚Cluster‘ von typischem Sprachgebrauch zu extrahieren. Das Suchkriterium heißt demnach: Finde überzufällige Wortkombinationen, die musterhaft verwendet werden, also typisch für einen bestimmten Sprachausschnitt im Vergleich zu anderen Sprachausschnitten sind. Eine so operationalisierte Suchstrategie erlaubt eine Methodik, die induktiv statt deduktiv vorgeht: Sie ermöglicht es, aus den Daten Muster zu extrahieren, ohne vorher im Detail definieren zu müssen, wie genau diese Muster aussehen. Es ist nicht nötig, eine Menge von Lexemen, Wortverbindungen oder syntaktischen Strukturen zu definieren und gezielt danach zu suchen. Mit diesem induktiven Vorgehen […] ergeben sich Vorteile für die Beantwortung diskurs- und kulturanalytischer Fragestellungen.“.

Kontingenztabelle und Chi-Test, vgl. Bubenhofer 2009, 131ff.

In der DB-Tab. namens queries.

So hat man als (entsprechend autorisierter) Leser die Möglichkeit, jede der hier besprochenen Abfragen im Einzelnen nachzuvollziehen. Idealerweise würde man diese Abfragen direkt aus dem vorliegenden WP-Beitrag heraus an die DB ’schicken‘, um das Ergebnis z.B. in einem zweiten Fenster ansehen zu können. An diesem Ziel – das nicht ganz einach umzusetzen ist, u.a. weil dazu eine unveränderliche Version bzw. Auflage der jeweils verwendeten DB Voraussetzung wäre – wird in der ITG derzeit gearbeitet.

Nur, wenn Fehler wie etwa fälschlicherweise aufgenommene Zeitungsartikel in der DB auftauchen, wird ggf. noch nachträglich etwas am Datenbestand geändert.

Das automatische Etikettieren birgt immer die Gefahr, dass sprachliche Zeichen vom Programm anders interpretiert werden als vom DB-Nutzer gewollt. Gerade für „.“ gibt es ja außer der Markierung des Satzendes noch weitere Anwedungsmöglichkeiten, z.B. Abkürzungen. Zwar versucht man im Vorfeld all diese Faktoren durch entsprechende Parameter zu berücksichtigen, aber es ist dennoch ratsam, die DB systematisch nach diesbezüglichen ‚Fehlern‘ abzusuchen (mit geeigneten Abfragen), damit man zumindest deren Tragweite hinsichtlich quantitativer Messungen einschätzen kann.

Seitliche Elemente, die im Originalartikel (Online-Ausgabe der Zeitung) mit dem Haupttext keine vertikale Reihenfolge bildeten (in der Textdatei gibt es ja nur die vertikale Abfolge von Textteilen), wurden nach dem Prinzip der logischen u. intuitiven Leseabfolge in die Textdatei eingefügt, d.h. Einschübe links vom Absatz wurden vor dem Absatz eingefügt und Einschübe rechts nach dem Absatz.

Da die TreeTagger-Annotierung automatisch erfolgt, kann es trotz sprachlicher Anpassung zu Fehlinterpretationen kommen, z.B. wenn das frz. Suffix -eur auch in Substantiven als Adjektiv-Marker identifiziert wird. Es ist also in entsprechend sensiblen Abfragen darauf zu achten, dass die Zuordnungen im betroffenen Tokenbereich nicht fehlerhaft sind; wenn doch, kann man mit gezielten Abfragen den Inkonsistenzen meist auf die Spur kommen u. ggf. Korrekturen in der DB od. in der Ergebnis-Gewichtung vornehmen.

Auch hier gilt, dass aufgrund der automatischen Erstellung keine absolute Übereinstimmung mit den tatsächlich zutreffenden Grundformen erwartet werden kann.

Dies würde bedeuten, das ganze Korpus als einen einzigen Text zu behandeln und ontologische bzw. pragmatische Faktoren lediglich zur Abgrenzung nach außen, nicht aber für die Analyse einzelner Äußerungen zu berücksichtigen.

Das gemeinsame Auftreten als Nexus i.d. Bedeutung v. Dieselmotor war *nicht* Bedingung für einen Suchtreffer.

Mit der minimalen Einschränkung, dass es für die Zeile „#Untertitel 2“ der Quelldateien bzw. für den `zwue`-Feldwert 3 einen einzigen DS gibt (ID 145136), welcher aber bedenkenlos ignoriert werden kann.

`zeitung`-Feldwert = fgo, d.h. in der SQL-Abfrage wird dieses Teilkorpus mit der Bedingung „WHERE zeitung = ‚fgo‘ [Hochkommata]“ ausgewählt.

`zeitung`-Feldwert = mde, d.h. in der SQL-Abfrage wird dieses Teilkorpus mit der Bedingung „WHERE zeitung = ‚mde‘ [Hochkommata]“ ausgewählt.

Das Teilkorpus wird mit der SQL-Bedingung „WHERE datum BETWEEN 20071101 AND 20081031“ [Hochkommata] ausgewählt.

Das Teilkorpus wird mit der SQL-Bedingung „WHERE datum BETWEEN 20171101 AND 20181031″[Hochkommata] ausgewählt.

`zwue`-Feldwert = 1, d.h. in der SQL-Abfrage wird dieses Teilkorpus mit der Bedingung „WHERE zwue = 1“ [Hochkommata] ausgewählt.

`zwue`-Feldwert = 2, d.h. in der SQL-Abfrage wird dieses Teilkorpus mit der Bedingung „WHERE zwue = 2“ [Hochkommata] ausgewählt.

`zwue`-Feldwert = 4, d.h. in der SQL-Abfrage wird dieses Teilkorpus mit der Bedingung „WHERE zwue = 4“ [Hochkommata] ausgewählt.

NB: Es handelt sich immer um eine abstrakte Einteilung, da die betreffenden Daten physisch alle in ein und derselben Tabelle gespeichert sind, deren Datensätze jeweils Informationen zu allen Kategorien enthalten.

Man könnte auch sagen Platzhalter oder slots bzw. Leerstellen i.S. der Valenztheorie.

Gerade das macht ja den Vorzug der corpus-driven Vorgehensweise aus: nicht zu wissen, was ‚drin‘ ist und dadurch wenige Vorurteile in die Korpusauswertung einzubringen.

Manuell bzw. arbiträr erfolgte nur die Wahl der Bedingungen der Abfragelogik, nicht die ‚Sichtung‘ der Einzeldaten, d.h. man erhält so die Extension der durch die jeweilige SQL-Abfrage mit „WHERE“ wiedergegebenen Aussageform. Vgl. auch: „In der klassischen Logik fasst man Begriffe oft als einstellige Prädikate auf, das heißt als Aussageformen mit einer Leerstelle. Aus der Aussageform ‚… ist ein Mensch‘ entsteht dann eine wahre Aussage, wenn man in die Leerstelle den Eigennamen oder die Kennzeichnung eines Menschen einsetzt. Extension eines solchen Prädikates ist dann die Menge der Referenten all jener Eigennamen und Kennzeichnungen, die in die Leerstelle eingefügt eine wahre Aussage ergeben. Die Extension ist demnach die Menge der Gegenstände, denen die durch das Prädikat ausgedrückte Eigenschaft zukommt. Entsprechendes gilt für mehrstellige Prädikate (Relationen): Die Extension des zweistelligen Prädikats ‚… hat denselben Vater wie …‘ besteht aus der Menge aller Geschwister- und (väterlichen) Halbgeschwisterpaare.“ (Quelle).

Seltener `lemma`, weil diese Werte automatisch erzeugt bzw. von `token` abgeleitet sind, während `token`-Werte den tatsächlichen Korpusinhalt exakt wiedergeben und deshalb am zuverlässigsten sind.

Alternativ kann man im vorliegenden Text die gewünschte Abfrage (grau hinterlegt) kopieren und sie in PMA im dafür vorgesehenen Bereich einfügen und ausführen.

Innerhalb der SQL-Abfragen wird keine konstistente Terminologie der Teilkorpora umgesetzt, es werden ad hoc sinnvolle Namen vergeben, die variieren können und nur für den konkreten Fall Bestand haben.

Die folgenden Ausführungen basieren auf den Ergänzungen zu Perkuhn u.a. 2012.

Alternativ: (Types/Tokens) * 100.

Der nicht zu vermeidende Resttext am Ende wird meist ignoriert.

Eine andere ‚vereinfachte‘ Methode wäre evtl., das hier f. d. zuffälligen Ausschnitte verwendete Abfrageschema mehrmals zu wiederholen, auch mit anderen Ausschnittgrößen, da die SQL-Funktion ORDER BY RAND() jedesmal eine andere Ausgabe generiert.

Daran erkennt man auch, dass die mde-Artikel durchschnittl. etwas länger sind, denn der o. festgestellte mde-Anteil an den Gesamttokens beträgt ja 27%. So gesehen teilen inbez. auf die durchschnittl. Artikellänge mde und Zeitraum B eine Tendenz, andererseits fgo und Zeitraum A.

Es befinden sich ja Artikel aus nur zwei Tageszeitungen im Korpus, deren Personal hinsichtlich der Dieselthematik bzw. des Suchkriteriums „diesel UND moteur“ weitestgehend in der Gruppe der namentlich genannten enhalten sein dürfte.

Vgl. den entsprechenden Ausschnitt aus dem betreffenden Zeitungsart.: „[…] les premiers à être équipés de ce premier boxer dieseld’une cylindrée de 2 litres.“ (Quelle).

Vgl. den Ausschnitt aus dem Quelltext, wo diese Form einmal auftaucht: „[…] travaillent de concert au développement de motorisations hybrides diesel/électrique […] (Quelle).

Vgl. Gévaudan 2007b, 150, wobei die innere Struktur dieser Innovation eine nähere Betrachtung lohnt: Die Teilverwendung d. Eigennamens Watergate (für Watergate-Affäre bzw. engl. Watergate scandal, das seinerseits auf Watergate-complex zurückgeht) macht daraus auf den ersten Blick eine Art Teil-Antonomasie, die nach dem Calque-Prinzip nach dem engl. Vorbild entstanden ist. Da aber im Vorbild der Bestandteil –gate keine Eigenbedeutung (‚-skandal‘) hat, handelt es sich eher um eine syntagmatische Umdeutung, die aufgrund v. Reanalyse zu Deglutination geführt hat (vgl. Gévaudan 2007b, 156).

Tatsächlich wird in dem einzigen Fall, wo diese Ableitung im Korpus verwendet wird, kein accent aigu auf dem ersten /e/ gesetzt, also auf der Basis von diesel abgeleitet (orthographisch ist offiziell sowohl diesel als auch diésel korrekt, vgl. Wiktionnaire hier und hier). Für das abgeleitete Substantiv gibt es theoretisch auch zwei Schreibweisen, wobei im untersuchten Korpus die Variante diésélisation vermutlich gewählt wurde, um es von engl. dieselisation zu unterscheiden.

Beides ist in der frz. Wikipedia noch nicht erfasst, wohl aber das o.g. engl. dieselisation in d. engl. Wikipedia. Es wäre interessant, den Bedingungen, unter denen diese und verwandte Phänomene auftreten, in einem weiter gefassten Rahmen für die initiale Recherche kopuslingistisch auf den Grund zu gehen.

Lexikalisierung ist m.E. ohnehin ein Begriff, der von Fall zu Fall differenziert gefasst werden kann: geht man von der Erfassung in Wörterbüchern aus, gelten viele Neuschöpfungen noch nicht als lexikalisiert, die aufgrund ihres dichten und anhaltenden Gebrauchs (z.B. in den Massenmedien) von den meisten Sprechern schon als lexikalisierte Neologismen empfunden werden. Eine interessante Scharnier-Funktion scheinen hier Internetportale wie Wiktionnaire zu erfüllen, da sie im Gegensatz zu offiziellen Wörterbüchern bereits gebräuchliches Sprachmaterial sehr viel aktueller (dafür aber ohne den Anspruch einer systematischen, linguistisch-strukturalen Einordnung) inventarisieren, wie das Bsp. dieselgate zeigt. Wo und wann etwas zum erstenmal geäußert wurde, bleibt meist unbekannt oder schwer nachprüfbar, aber die Phase der ‚Geburt‘ einer ad-hoc-Bildung und ihrer beginnenden Lexikalisierung als allgemein bekannter Neologismus dürfte aus textsortenspezifischer Sicht sehr stark von den Massenmedien beeinflusst sein, deren Verwendung von Innovationen das Lexikalisierungspotential nicht nur erhöhen/abschwächen, sondern auch anzeigen kann.

Kap. Korpusanalyse VI, Kap. Korpusanalyse VII sowie Kap. Synthese.

Die 109 Vorkommen von diesels entsprechen knapp 9% der oben korrekt ermittelten Summe aus beiden Einzelfrequenzen im Gesamtkorpus von 1265 ((109/1265) * 100 = 8,6).

Bei der Betrachtung von absoluten diesel-Frequenzen muss außerdem berücksichtigt werden, dass jeder im Korpus enthaltene Zeitungsartikel mind. einmal diesel enthält.

Berechnung: (diesel-Vorkommen/Tokens) * 100.

Die Spalten der Tabelle, die diese kritischen Werte enthält, sind nach aufsteigender Wahrscheinlichkeit für Signifikanz geordnet, d.h. ein Wert in der Spalte x.²0.050 zeigt den Mindest-x²-Wert an für eine mind. 95%-ige Wahrscheinlichkeit, dass Signifikanz vorliegt. Die Werte in der Spalte df geben den sog. degree of freedom bzw. Freiheitsgrad an, welcher von der Größe der verwendeten Kontingenztabelle abhängt: df = (Reihenzahl – 1) * (Spaltenzahl – 1). Dabei werden aber nur die Wertefelder gezählt; bei einer 4*4-Felder-Tafel beträgt df also 1: (2 – 1) * (2 – 1) = 1. Im vorliegenden Fall benötigt man demnach nur die erste Zeile der Tabelle, welche dem df-Wert 1 entspricht (vgl. Bubenhofer hier).

1. Beobachteter Wert Teilkorpus A, 2. Tokenzahl Korpus A, 3. beobachteter Wert Teilkorpus B, 4. Tokenzahl Korpus B.

Dank der entsprechend vorgefertigten Excel-Vorlage bedeutet die Durchführung keinen großen Aufwand und bereichert die Ergebnisse der quantitativen SQL-Abfragen entscheidend um eine korpusexterne Gewichtungshilfe.

Es hat sich generell im Laufe der Abfragephase immer mehr gezeigt, dass die Formulierung von Abfragen mit Verwendung der Spalte `token` am nächsten an der ‚abgebildeten‘ Korpus-Realität liegen muss, denn sie ist die untrügliche Liste all ihrer Vorkommnisse; die `lemma`-Feldwerte sind als Filterkriterium zwar einladend, weil dadurch übersichtlichere Ausgabetab. produziert werden, aber die nie ganz auszuschließende Unzuverlässigkeit der automatischen Lemma-Erkennung bedeutet immer, einen potentiellen Validitätsverlusst in Kauf zu nehmen.

((83/(1156+83))*100 = 6,7.

((41/374+41))*100 = 9,88

((65/(782+65))*100 = 7,7.

((18/(392+18)) * 100 = 4,59.

((9/(84+9)) * 100 = 9,68.

Der Datensatz des Zeitungsartikels enthält in der DB-Tab. meta dann meist den Feldwert „Economie“.

Es ist z.B. kaum zu erwarten, dass i. Zusammenhang mit dieselgate (affaire Volkswagen) von gazole die Rede ist: gazole ist quasi genuin französisch, während diesel je nach Kontext auch verwendet werden *kann*, um sich i.d. frz. Öffentlichkeit von dem Konzept zu distanzieren.

Zu berücksichtigen ist jedoch, dass gazole nur ein *Teil*synonym von diesel ist und ein Ersetzungstest nicht in allen Fällen zu grammatischen Äußerungen führen würde. Vor diesem Hintergrund sind die entsprechenden vergleichenden Befunde nur als Tendenzen zu verstehen, solange sie nicht im Einzelnen durch konkrete Kontextualisierung bestätigt sind.

Die fast identischen Prozentsätze machen es freilich überflüssig, einen Chi-Quadrat-Test vorzunehmen, um zu wissen, dass keine signifikante diachrone Verteilung im Titel vorliegt. Führt man den Test interessehalber mit den beobachteten Werten durch, erhält man einen Wert von nur 0,2% und eine Wahrscheinlichkeit f. Signifikanz von unter 50% (vgl. Datei). Im Gegensatz zur mde/fgo-Verteilung der diesel-Frequenz ist also die diachrone Verteilung in den Titeln keinesfalls signifikant.

Vgl. etwa diesen Artikel in Le Figaro.

(5,5/30)*100, wobei 30 der Mittelwert von 28 + 33,5 ist.

Eine vergleichende google-Recherche zeigt, dass das Adjektiv diesel mit Substantiven im Plural wesentlich seltener in der Pluralform als in der Singularform verwendet wird (Suche mit „les voitures diesels“ (13700 Treffer) vs. „les voitures diesel“ (219000 Treffer).

Falls es bei komplexeren Abfragen in PMA zu einer Timeout-Meldung kommt, besteht die Möglichkeit, DB-Abfragen aus der Shell auszuführen, Näheres dazu s. Lücke u.a. 2017, 58f. Tipp: Ausgabetab. am besten mit vim-editor öffnen, dann im Kommandomodus (blinkendes Viereck wo cursor ist) mit d. Kommando :set tabstop=20 (ohne Leerzeichen vor u. nach „=“) die Darstellung optimieren.

Vgl. Gévaudan 2007b, 121 u. 152f .

Methodisch interessant sind autosemantische und z.B. augmentative Einheiten; was keinen weiterführenden semantischen bzw. methodischen Mehrwert f. die Analyse bringt, wird für die folgenden Auflistungen manuell aussortiert. Es wird immer lemmatisiert, d.h. flektierte Formen sind zusammengefasst u. ihre Frequenzen werden f. die Lemma-Frequenz addiert (ggf. auch Stammerweiterungen falls semantische Kontinuität im Stamm gegeben), d.h. moteurs und moteur werden als ein Lemma zusammenfasst usw. Manchmal wird eine Variante hinzugefügt, wenn die Wortarten-Zugehörigkeit kontextabhängig bzw. eine Frage d. Perspektive ist (z.B. bei Partizipien, die sowohl Adj. als auch Verbform sein können).

Im Folgenden gelten die Abk.: li-K. = links stehende(r) Kollokator(en), re-K. = rechts stehende(r) Kollakor(en).

„K.“ kürzt in diesem Kap. „Kollokator(en)“ bzw. „Kollokation(en)“ ab.

Im Folgenden meist mit „r.A.“ od. „rel. A.“ abgekürzt.

Berechnung nach dem Schema: (K.-Frequenz/Anzahl aller K.)*100 = Prozentsatz (rel. Anteil).

Namen werden i.d.R. nicht aufgenommen, aber Rudolf gehört etymologisch zur Bildung der Antonomasie diesel (welches als generische Produktbezeichnung also selbst einem Namen ‚entlehnt‘ wurde) und ist v. Bedeutung, weil sein Auftreten die Thematisierung des hist. Kontexts signalisiert.

Diese und weitere Produktnamen od. generische Produkbezeichnungen, die ähnlich wie Rudolf als Kollokatoren bestimmte Kontexte bzw. Domänen u. Frames aufrufen, werden mit aufgenommen. Namen von Fahrzeugherstellern u. -modellen werden aber bei der corpus-driven Analyse ausgeklammert.

Bez. f. Motortyp (Common-Rail-Dieselmotor der 4. Generation) d. Fa. PSA mit hohem ökologischem Standard (erfüllt seit 2013 Euro 6) (Quelle).

Bez. f. Common-Rail-Dieselmotor d. Fa. Mercedes.

Bez. f. Common-Rail-Dieselmotor d. Fa. Ford mit hohem ökolog. Standard (vgl. BlueHDI) (Quelle).

Diese werden zusammen aufgenommen, weil sie nur versch. Varianten eines Konzepts sind u. gleichermaßen mit dem Thema Abgasnorm bzw. ökologischen Aspekten konnotiert sind.

Motor-Bauart (Abk. gebildet aus Common Rail u. Direkteinspritzung).

DCI bezieht sich wie CRD auf Common-Rail-Direkteinspritzung (/diesel/common/injection/).

Die Kürzel, die von TreeTagger f. jede Wortart verwendet werden, sind in der Tab. tags der DB aufgeführt.

Für die Auszählung bzw. die tatsächliche Frequenz jedes K.-Lemmas verlasse ich mich in letzter Instanz auf die Ausgabetab. v. queries_id 318 (s. Datei), nicht zuletzt, weil in PMA nicht immer speditiv gearbeitet werden kann, aber auch, weil dort die Suche nach Zeichenfolgen komplizierter ist. Ich gehe so vor, dass ich die Datei mit dem vim-editor öffne und mit der Suchfunktion alphabetisch alle relevanten Zeichenfolgen durchgehe und ihre Frequenz festhalte. Die Auszählung größerer Frequenzen (wie im Fall von /moteur/ geht am besten, indem die jeweilige Portion der Tab. kopiert und in Excel eingefügt wird, sodann eine 1 in eine zusätzliche Spalte geschrieben wird und diese addiert werden, um die Summe der DS mit der Zeichenfolge zu erhalten.

Abk. f. High pressure Direct Injection (Common-Rail-Direkteinspritzer-Motor) z.B. bei d. Fa. Citroën/Peugeot.

Diese Variante wird in PMA wesentlich schneller bearbeitet als queries_id 139 und empfiehlt sich daher f. einen Überblick.

Dies entspricht der diesel-Frequenz im Zeitraum B, aber auch im fgo-Teilkorpus. Schon zuvor wurde diese Deckungsgleichheit als zufällig identifiziert.

Wie bisher wird nur festgehalten, was lexikalisch bzw. in diskursiver Hinsicht sinnvoll erscheint.

Unklar ist im Moment, warum die Abfrage SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like ‚diesel‘ AND zwue = 2 AND datum BETWEEN 20171101 AND 20181031)a JOIN tokens b ON a.datei=b.datei and a.id-b.id=1 insgesamt 6x das Lemma ausgibt und die Rangliste 9x. Ich verlasse mich eher auf die Ausgabe der ‚Ranglisten-Syntax‘, da sie bisher durchgehend verwendet wurde, gebe aber den Prozentsatz für 6x auch an (er ist leider plausibler – eine Zwickmühle, wie sie nicht selten das Vorankommen bei korpuslinguistischen Verfahren zu beeinträchtigen scheint.

Auch hier wieder die Diskrepannz zu SELECT b.token as klk_diesel_li, a.id-b.id distanz FROM (SELECT ID, datei, sentnr FROM `tokens` WHERE token like ‚diesel‘ AND zwue = 4 )a JOIN tokens b ON a.datei=b.datei and a.id-b.id=1, allerdings nur mit der Differenz 1 (5x statt 6x). Die Antwort auf die Frage, wie es dazu kommt, kann leider im Rahmen d.v.A. nicht erforscht werden, da dies unverhältnismäßig viel Zeit in Anspruch nähme.

Wurde falsch als Teil einer Zwischenüberschrift und als Eigenname annotiert od. falsch in die Textdatei übernommen, vgl. Quelle.

Während die SQL-DB vieles ermöglicht, was mit einer normalen Tabellenkalkulation nicht geht, eignet sich Excel im vorliegenden Fall besser zur Erstellung der gewünschten Matrices und bietet dafür ausreichende Filtermöglichkeiten. Im Folgenden wird lediglich eine statische Abbildung der Tab. wiedergegeben; für eine vollständige Ansicht s. Excel-Datei.

Subjektive Darstellungen von Konzepten werden allerdings nicht zuletzt auf der Ebene der Selektion bzw. Makrostruktur statt explizit auf der Ebene der Mikrostruktur erreicht.

Da jedes Korpus abgesehen von der jeweiligen Sprache individuelle Eigenschaften hat, die man nicht vor Beginn der DB-Arbeit restlos systematisieren kann, kann es eingige Zeit dauern, bis die entsprechenden Parameter so genau an das konkrete Material angepasst sind, dass nahezu alle derartigen Fehler vermieden werden. Andererseits ist Perfektion auch nicht primäres Ziel der Arbeit mit (großen) Korpora, soweit keine statistischen Verzerrungen zu befürchten sind.

Nicht i.S. der Spalte `lemma`, sondern i.S.v. Type bzw. Grundform/Lexem.

Das Token diesel wird 98 mal gezählt; dies ist zunächst nicht nachvollziehbar, aber denkt man an die zuvor erläuterten Diskrepanzen zwischen automatisch erkannten und tatsächlichen Satzgrenzen, wird plausibel, dass es zu dieser Zählung kommt. Als Bsp. für eine im Zusammenhang mit dieser Abfrage nicht erkannte Satzgrenze vgl. eine Stelle in der Datei ‚fgo2007112002‘ bzw. im Quelltext: „Quant au BMW X5, faute de pouvoir disposer dans l’immédiat du 6 cylindres diesel biturbo du X3 (286 ch), il se trouve dans l’impossibilité de donner la réplique au Q7. Ce privilège sera réservé dans un premier temps au X6 (voir contact ci-dessus) qui disposera sans doute aussi du V8 diesel maison, lequel titre… 4,4 l et 330 ch !“ (Quelle): Hinter „Q7“ wird der Punkt als Teil einer Abk. o.ä. identifiziert, nicht als Satzzeichen; dies ist ein typischer Fall der insgesamt ca. 500 nicht erkannten Satzgrenzen der Tab. tokens.

I.S.v. Gévaudan 2007b.

Die Quelldateien werden mithilfe der Datei queries_id_214 (s. Datei) gefunden und sind anhand der in der Tab. meta gespeicherten URL des Zeitungsartikels zu jedem Dateinamen im Original zugänglich.

Das Konzept der lexikalischen Filiation in Gévaudan 2007b könnte u.U. bei einer weiteren Untersuchung nützlich sein, um auch im diskurslinguistischen Kontext typologisch vorzugehen – in Anlehnung daran und an Koch 1997 wäre eine Typologie der diskursiven bzw. diskurstraditionellen Filiation denkbar.

Dieser Artikel ist nur für Abonnenten voll zugänglich, daher kann ohne Anmeldung die folgende Textstelle nicht gefunden werden.

Diese Perspektive bietet sich besonders für diachrone Untersuchungen an, die dort ansetzen, wo die v.A. endet: wo divulgative Muster sind, muss man sich fragen, wo und wann sie entstanden sind und wie sie zum synchronen Status eines Vorbilds gelangt sind (hier liegt auch wieder der Gedanke an das Filiationsmodell nicht fern; aber auch die anthropologischen Perspektive würde sich anbieten, vgl. Assmann 1992c u. Geertz 1973).

In Anlehnung an Gévaudan 2007b.

Zu gazole wäre ein eigenes Paradigma zu entwickeln, wobei dazu ein größeres Korpus von Vorteil wäre, auch mit größerer diachroner Reichweite.

Innerhalb der PMA-Anwendung des DHVLabs ist die Desambiguierung der Spalten durch backticks meist nicht nötig (nur, wenn der Spaltenname z.B. ein Leerzeichen enthält); auch müssen SQL-Abgfragen dort nicht obligatorisch mit „;“ enden (führt man sie über die Shell aus, ist das Ergänzen von „;“ am Statement-Ende die Regel).

Funktions- od. Inhaltswort.