PDF   Der Volltext der vorliegenden Publikation befindet sich in zitierfähiger Form hier und ist zudem über das direkt unterhalb des Buchtitels anklickbare PDF-Icon zugänglich. 



                      


Thomas Tinnefeld



Dimensionen der Prüfungsdidaktik


Analysen und Reflexionen zur Leistungsbewertung in den modernen Fremdsprachen



SAARBRÜCKER SCHRIFTEN ZU LINGUISTIK UND

FREMDSPRACHENDIDAKTIK (SSLF); A: Monographien; Bd. 1.
Herausgegeben von Thomas Tinnefeld

           
Bibliographische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliographie; detaillierte bibliographische Daten sind im Internet über http://dnb.d-nb.de’ abrufbar.

         
© Thomas Tinnefeld 2013
Alle Rechte vorbehalten. All rights reserved.
                   
htw saar Saarbrücken 2013
Hochschule für Technik und Wirtschaft des Saarlandes
Fakultät für Wirtschaftswissenschaften
W3-Professur für Angewandte Sprachen

Umschlaggestaltung: Autor
Druck und Bindung: COD, Saarbrücken

Printed in Germany
ISBN 978-3-942949-02-6

0.      Einleitung

Die vorliegende Monographie stellt die folgerichtige Weiterentwicklung unseres Buches „Prüfungsdidaktik. Zur Fundierung einer neuen wissenschaftlichen Disziplin - am Beispiel der modernen Fremdsprachen“ (Tinnefeld 2002) dar. Es handelt sich um ein vollkommen neues Werk, das - in Inklusion der in jener Publikation erarbeiteten Erkenntnisse - den wissenschaftlichen und historischen Hintergrund der Prüfungsdidaktik liefert und zudem neue Perspektiven dieser Disziplin aufzeigt. Zum Zwecke der Wahrung der Kontinuität werden die modernen Fremdsprachen wiederum in den Mittelpunkt unserer Überlegungen gestellt, und es werden kontextuell relevante, weiterentwickelte und an die entsprechende Faktenlage angepasste Aspekte behandelt. Darüber hinaus wird auf die mögliche Zukunft der Prüfungsdidaktik eingegangen, indem diejenigen Schritte aufgezeigt werden, die diese neue Disziplin in den kommenden Jahren wird vornehmen müssen, um sich weiter zu etablieren und letztendlich den ihr gebührenden Rang im Kanon der Wissenschaften einzunehmen.

Die vorliegende Publikation ist aus mehreren Gründen notwendig geworden:
  • Die erwähnte Monographie zur Fundierung der Disziplin Prüfungsdidaktik ist in der Fachwelt positiv aufgenommen worden, was sich im Rahmen des wissenschaftlichen Diskurses in unzähligen - oft informellen - Reaktionen gezeigt hat;
  • Es ist deutlich geworden, dass eine solche Disziplin bis zur Publikation jener Arbeit gefehlt hatte, und dass ihre Notwendigkeit nunmehr als immer notwendiger erkannt wird;
  • Zwischen den siebziger Jahren des vergangenen Jahrhunderts und heute hat sich eine Diskrepanz in der Forschung ergeben, die mit der vorliegen-den Arbeit zumindest ansatzweise kompensiert werden soll: Damals hatte man zaghaft begonnen, sich über Prüfungen Gedanken zu machen, jedoch ohne diese Reflexionen zu integrieren und zu systematisieren. In der Zwischenzeit gab es immer wieder Veröffentlichungen, die sich mit Prüfungen beschäftigten, die jedoch einen eher beratenden als sachlich darstellenden, wissenschaftlichen Charakter hatten. Daneben gab es andere - wissenschaftliche - Publikationen, die die Forschung im Blick hatten. Unsere Monographie aus dem Jahre 2002 griff jene Bemühungen gleichsam als überfällige und die Zeichen der Zeit erkennende Darstellung auf und integrierte sie in einen höheren Zusammenhang.
  • Unsere Monographie „Prüfungsdidaktik“ hatte die Aufgabe, die Fachwelt „aufzurütteln“, sie also auf das Fehlen dieser Disziplin im Kanon der bestehenden Wissenschaften hinzuweisen. Ihre Aufgabe war es, dies in einer energiefreisetzenden[1] Form zu tun. Ihre Aufgabe war es dagegen nicht, im traditionellen Sinne ausschließlich wissenschaftlich zu sein. Dieser Schritt soll in der vorliegenden Arbeit vorgenommen werden. Nun, da die Bedeutung der Prüfungsdidaktik erkannt worden ist, ist es an der Zeit, eine im traditionellen Sinne wissenschaftliche Abhandlung vorzulegen.
Würde die durch unsere Pilotpublikation induzierte Entwicklung rückgängig gemacht, so würde man rasch feststellen, dass sich dadurch eine erhebliche Lücke auftäte und ein wichtiges Element im Kanon wissenschaftlicher Disziplinen fehlen würde: Es sind durch jene Publikation Bewusstseins- und Erkenntnisprozesse ausgelöst worden, die nicht mehr zurückgeschraubt werden können, und die sich nicht nur auf die Fachwelt - Kolleginnen und Kollegen - erstrecken, sondern auch auf Studierende, die die Bedeutung dieser neuen Disziplin nicht nur für ihre eigene Rolle als Prüflinge in Staats-, Magister- oder Bachelor und Master-Examen erkannt haben, sondern auch für ihre spätere Berufsrolle als Lehrer und Prüfer[2].

Der Aufbau der vorliegenden Monographie ist an ihrer Rolle im wissenschaftlichen Kontext orientiert:

Im ersten Kapitel wird der Weg zur Prüfungsdidaktik aufgezeigt. Es wird dargelegt, welche Etappen in der Wissenschaft genommen werden mussten, um die Entwicklung dieser neuen Disziplin voranzutreiben, um ihr gleichsam den Weg zu ebnen. Diese Entwicklung beginnt früher, als man dies aus heutiger Sicht vermuten mag.

Das zweite Kapitel widmet sich der Eingrenzung und Abgrenzung des Gegenstandsbereiches der vorliegenden Monographie - der Prüfungsdidaktik selbst. Hier geht es vordringlich um die Definition und die Positionierung dieser Disziplin.

Im dritten Kapitel werden die Grundzüge einer Prüferbefragung im Bereich der modernen Fremdsprachen beschrieben, deren Ziel es war, die Einstellun-gen von Prüfern zu Prüfungen wie auch ihr eigenes Rollenverständnis zu eruieren. Letztendlich führte diese Umfrage auch zu einer bedeutsamen Einschätzung der Wichtigkeit von Prüfungen und - zentral für die vorliegende Monographie - der Bedeutung der Prüfungsdidaktik.

Gegenstand des vierten Kapitels sind die für die Gewährleistung einer hohen Prüfungsqualität zu erfüllenden Grundbedingungen schriftlicher und mündlicher Prüfungen. Die dort angestellten Überlegungen sind bewusst recht praxisnah gehalten. Dass sie somit weniger „akademisch“ erscheinen, ist evident und durchaus intendiert: Jegliche Prüfung hat neben ihrer theoretischen Seite eine grundlegend praktische Dimension, die ebenso notwendig erfüllt sein muss, wie die konzeptionelle Planung gewährleistet sein muss, damit sie erfolgreich durchgeführt werden kann. Eine inadäquat geplante, aber gut durchgeführte Prüfung ist ebenso schlecht wie eine logisch konzipierte, jedoch schlampig in die Praxis umgesetzte Prüfung. Beide Ausprägungen bedingen sich notwendig. Dieser wesentliche Gesichtspunkt wird  in diesem Kapitel aufgezeigt.

Im fünften Kapitel beschäftigen wir uns mit der Prüfungsdidaktik in den fremdsprachlichen Philologien. Eine der Grundfragen, die sich hier stellen, ist diejenige nach der Vergleichbarkeit und Unterschiedlichkeit prüfungsdidakti-scher Fragestellungen in diesem Bereich. Es wird hier deutlich, welche prüfungsdidaktischen Gesichtspunkte von Bedeutung sind und welche inhaltlichen und formalen Erwartungen hinsichtlich der Vorbereitung und Durchführung von Prüfungen an Prüfer und Prüflinge gestellt werden können. Die dort angestellten Reflexionen sind zum einen konzeptioneller Natur, zum anderen enthalten sie jedoch ganz konkrete Beispiele.

In den darauf folgenden Kapiteln der vorliegenden Arbeit beschäftigen wir uns mit der Anwendung der Prüfungsdidaktik auf die modernen Fremdsprachen - und hier in erster Linie mit Blick auf den sprachpraktischen Bereich. Im sechsten Kapitel geht es um Grundfragen der Konzeption von Prüfungen im Bereich der grundlegenden fremdsprachlichen Fertigkeiten. Diese Ausführungen sind von theoretischem Interesse, können jedoch zugleich als Leitfaden für Klausurkonzeptoren gelten.

In Kapitel sieben beschäftigen wir uns mit der Bewertung sprachlicher Prüfungsleistungen. Dabei werden die im vorangegangenen Kapitel behandelten Aufgabentypen funktionalen Bewertungsmöglichkeiten zugeführt, wobei konkrete Beispiele gegeben werden. Diese Dimension stellt einen zentralen Bereich der Prüfungsdidaktik dar: Unsicherheiten von Prüfern in diesem Bereich können zu ungerechter und inadäquater Bewertung von Prüflingen führen und zudem selbst die konzeptionell gute bis sehr gute Prüfung qualitativ beträchtlich mindern und sie in letzter Konsequenz hinsichtlich ihrer Aussagekraft entwerten.

Im achten und letzten Kapitel der vorliegenden Monographie setzen wir uns schließlich mit Forschungsdesiderata auseinander,  die sich im Rahmen der Prüfungsdidaktik ergeben. Wir stellen dort eine Auswahl derjenigen Fragestellungen dar, die in den kommenden Jahren einer empirischen Erforschung bedürfen. Dabei werden nicht nur die Desiderata selbst aufgezeigt, sondern es werden konkrete Forschungsdesigns beschrieben. Künftige Prüfungsdidaktiker können sich - wenn sie es denn wollen - an diesen Forschungsdesigns orientieren und verfügen somit über einen konkreten Leitfaden für weitere empirische Tätigkeit. Mit diesem Kapitel weist die vorliegende Arbeit weit über sich hinaus: Sie kann die Forschung in diesem Feld maßgeblich anleiten und somit wichtige Fingerzeige geben. Dieses Kapitel ergibt sich nicht nur folgerichtig aus den bis dahin gemachten Ausführungen, es rundet die Arbeit auch in logischer Form ab.

Die hier angerissenen Bereiche wollen wir im gegebenen Zusammenhang als die Dimensionen der Prüfungsdidaktik verstehen. Sie lassen sich graphisch der besseren Übersichtlichkeit halber wie folgt darstellen:
             Abb. 1: Dimensionen der Prüfungsdidaktik


In unserem ersten Schritt wenden wir uns nunmehr der Entstehung der Prüfungsdidaktik zu und der Entwicklung, die dieser noch neuen Disziplin vorausging.




[1] Da wir nicht mit allen Regelungen der aktuellen deutschen Rechtschreibung konform gehen, werden in der vorliegenden Monographie bisweilen orthographische Varianten gewählt, die den herkömmlichen Rechtschreibregeln entsprechen. In der vorliegenden Monographie werden somit beispielsweise adjektivische Wortzusammensetzungen aus Substantiv + Adjektiv, die nach der neuen Rechtschreibung in zwei Wörtern (vgl. Energie freisetzend) realisiert werden müssten, gemäß der Regelhaftigkeit der alten Rechtschreibung in einem Wort (vgl. energiefreisetzend) realisiert, da diese Schreibweise in aller Regel dem unmittelbaren Textverständnis förderlich ist.
[2] Aus Gründen der leichteren Lesbarkeit wählen wir hier die maskuline als die jeweils generische Form - durchaus in dem Bewusstsein der impliziten Mitnennung der entsprechenden weiblichen Pendants.


  Auf dem Wege zur Prüfungsdidaktik

1.1 Vorbemerkungen

In dem vorliegenden Kapitel sollen einige Stationen auf dem Wege nachgezeichnet werden, der in seiner ihm eigenen Dynamik schließlich zu der Konsequenz geführt hat, eine neue Disziplin - die Prüfungsdidaktik - zu postulieren. Dabei kann und soll es jedoch nicht darum gehen, diesen Weg lückenlos zu dokumentieren; dafür ist einerseits die Anzahl bestehender und zu diesem Zwecke potentiell zu Grunde zu legender Publikationen zu groß. Zum anderen sollen hier lediglich einige wichtige Entwicklungen in systematischer Form beschrieben werden, die es hinsichtlich dieses neuen Faches im Bewusstsein zu behalten gilt. Dabei wird deutlich werden, dass die Bandbreite der Publikationen zum Prüfen und Bewerten erheblich ist. Zudem wird deutlich werden, dass partikuläre Publikationen - oft in Aufsatzform - vorliegen, in denen Nebenaspekte zu diesem Bereich untersucht werden, die jedoch auf dem hier beschriebenen Weg zu einer neuen Disziplin in ihrer Spezifik durchaus von Bedeutung sind. Entsprechend werden die hier berücksichtigten Publikationen mit Blick auf ihre Funktionalität und ihre Bedeutung für das Fach Prüfungsdidaktik ausführlicher oder weniger ausführlich behandelt. Das vorliegende Kapitel soll zudem dazu beitragen, das Verständnis für die Notwendigkeit der Prüfungsdidaktik zu fördern und deutlich zu machen, wie wichtig die weitere Fundierung ihrer ist: Bisher ist in diesem Bereich lediglich atomistisch geforscht worden, ohne ein Bewusstsein für die Notwendigkeit der Integration der durchgeführten Forschung in einen übergeordneten Zusammenhang - ohne jegliche Systematisierung. Es soll somit hier verdeutlicht werden, dass die Forschung zu dem Bereich Prüfen und Bewerten eine übergeordnete Ausrichtung in teleologischer Funktion benötigt, und dass die im Rahmen dieser Ausrichtung durchgeführte Forschung wie auch die durch sie erarbeiteten Ergebnisse unter der Prämisse ihrer integrierten Nutzung ungleich funktionaler und fruchtbarer angewandt und verwertet werden könnten, als dies bisher der Fall war. Die Disziplin Prüfungsdidaktik, die hier in fortgesetzter Form fundiert werden soll, ist somit kein Zierrat, ohne den wir auch in Zukunft gut auskommen könnten - sie stellt vielmehr eine dringende Notwendigkeit dar.

Im Folgenden werden wir uns zunächst mit allgemeinen Aspekten des Prüfens und Bewertens (Kap. 1.2) befassen. Im Anschluss daran behandeln wir relevante Gesichtspunkte der Testwissenschaft und Testtheorie (Kap. 1.3.). Hiernach werden uns umfassende Prüfungstypen wie beispielsweise Prüfungen an den verschiedenen Schulformen, UNIcert, Sprachstandsprüfungen für die wichtigsten Fremdsprachen, wie auch Volkshochschulprüfungen interessieren (Kap. 1.4). Diese Prüfungen sind in aller Regel schriftliche Prüfungen oder solche, in denen schriftliche Prüfungsteile dominieren. In folgerichtiger Weiterentwicklung unserer Überlegungen widmen wir uns danach mündlichen Prüfungen und ihren Besonderheiten (Kap. 1.5). Unser Blickwinkel wird daraufhin ein wenig verändert, indem Prüfungsaufgaben und Aufgabentypen in den Vordergrund gestellt werden (Kap. 1.6). Unterschiedliche Einstellungen zum Phänomen Fehler beschäftigen uns im Anschluss (Kap. 1.7). Hiernach werden das Korrigieren (Kap. 1.8) wie auch weitere Formen der Leistungsevaluation (Kap. 1.9) behandelt. Psychologische und lerntheoretische Aspekte von Prüfungen runden das hier gegebene Bild ab (Kap. 1.10). Schließlich werden wir auf einige Folgerungen für die Prüfungsdidaktik, die sich aus den hier beschriebenen Zusammen-hängen ergeben, verweisen (Kap. 1.11).


1.2 Allgemeine Aspekte des Prüfens und Bewertens

Hinsichtlich des Prüfens und Bewertens allgemein bestehen in der Forschung die unterschiedlichsten Ansätze und Vorgehensweisen, wobei es mehr oder minder unmöglich ist, diese in ein einheitliches Ganzes zu integrieren oder auch nur einen gemeinsamen Nenner zu finden. Die folgenden Ausführungen mögen diese Situation verdeutlichen.

Eine theoretisch orientierte Analyse des Komplexes „Prüfen - Beurteilen - Benoten“ (so auch der Titel der Monographie) allgemein unternimmt Sacher (1994) und berücksichtigt dabei zentrale Aspekte der Thematik auf dem Hintergrund des Schulalltags. Dabei analysiert er sowohl die Sinnfrage des Prüfens und Bewertens, Aspekte der Benotung und Leistungsbeurteilung, sowie die Planung von Prüfung und Prüfungssituation, um hier nur einige Bereiche herauszugreifen. In dieser Monographie kommen die zentralen Probleme des Prüfens und Beurteilens zum Ausdruck; es wird eine Vielzahl von Hilfestellungen angeboten, die sowohl für den Berufsanfänger als auch für den erfahrenen Lehrer wertvoll sein können. Dabei wird die gesamte Breite des Problemfeldes deutlich.

Eine leserfreundliche, praxisnahe, aber nicht ausgeprägt akademische Beschreibung schulischer Leistungsüberprüfung liefert Heaton (1990), dessen Credo darin besteht, dass die besten (informellen) Tests, die ein Lehrer für seine Schüler verwenden kann, die von ihm selbst erstellten sind (vgl. Heaton 1990: 6). Der Grund dessen ist in dem Phänomen zu sehen, dass ein gegebener Lehrer seine Schüler am besten kennt und auch am besten weiß, was genau er abprüfen will. Das Fehlen von Literaturverweisen mag akademisch bedauerlich sein; die Darstellung wiegt jedoch Vieles wieder auf. Es ergibt sich hier das Phänomen, dass akademische Darstellung einerseits und die inhaltliche Qualität einer Publikation zum Testen und Prüfen andererseits oft nicht miteinander einhergehen: Wertvolle Informationen, Hinweise und Tipps finden sich oft gerade in akademisch weniger ausgefeilten Texten. Dieser Umstand mag nicht so sehr an der Qualität der eigentlichen Publikationen liegen als vielmehr an dem Objektbereich selbst: Testen und Prüfen sind Inhaltsbereiche, die eng mit menschlichem Handeln verknüpft sind. Dieses jedoch ist nicht immer und ausschließlich vollkommen objektivierbar.

Eine ebenfalls sehr zugängliche Darstellung des Bereichs der schulischen Leistungsbewertung geben Genesee / Upshur (1996), die zunächst die erhebliche Bedeutung des Lehrers als Prüfer hervorheben - eine Einschätzung, die für die Schule gilt und problemlos auf die Hochschule übertragen werden und die im Rahmen der vorliegenden Monographie nicht hoch genug eingeschätzt werden kann:
More than anyone else, teachers are actively and continuously involved in second language evaluation – sometimes as the person making the actual decisions; sometimes in collecting relevant information for others who will make the decisions; or sometimes helping others make decisions by offering interpretations of students’ performance. Even when teachers are not the actual decision makers, they are affected. For example, someone else may be responsible for the placement of students in second language classes, but teachers are responsible for teaching the students who are placed in their classes.. (Genesee / Upshur 1996: 3)  
Von Bedeutung ist hier zum einen, dass in der zitierten Publikation ebenso traditionelle wie auch alternative Bewertungsmethoden analysiert werden. Zu letzteren gehören beispielsweise Portfolios, Lernjournale, Fragebögen oder Interviews. Von Bedeutung ist zum anderen, dass die Autoren ihre Darstellung nicht unter einer Separierung der vier sprachlichen Fertigkeiten vornehmen, sondern vielmehr in einem ganzheitlichen Ansatz, der nahe an der sprachlichen und unterrichtlichen Realität orientiert ist. Die Publikation stellt für die Zielgruppe der praktizierenden Lehrer eine Hilfe zur Selbsthilfe dar und ist allein aus diesem Grund als wichtig und nützlich zu betrachten.

Einen Kanon von für Lehrer wichtigen Aspekten der Leistungsmessung in zugänglicher, jedoch stark auf die in den USA herrschenden Rahmenbedingungen ausgerichteter Form legt Popham (2007) vor, der - zusätzlich zu den traditionellen Aspekten des Themas - ebenfalls alternative Formen der Leistungsmessung behandelt und somit wertvolle praktische Hinweise bereithält.  

Eine ebenfalls praxisorientierte Einführung in die Problematik der Leistungsmessung, die praktizierenden Lehrern wertvolle Hilfestellung anbietet und ihnen Einblicke in die Verwendung bestehender wie auch in die Erstellung eigener Tests gewährt, gibt Bolton (1996a). Einer der Vorteile dieser Publikation liegt sicherlich in der Diskussion der Vor- und Nachteile unterschiedlicher Aufgabentypen wie auch in der Behandlung zahlloser Beispiele, mit deren Hilfe die mehr theoretischen Ausführungen in einen anwendungsorientierten Rahmen eingebettet werden.

So ist es durchaus sinnvoll, von einer Zusammenarbeit zwischen Unterrichts- und Prüfungspraxis einerseits und der Linguistik andererseits auszugehen, wie Putzer (1990: 278ff) dies fordert. Es tut sich hier die Problematik der Sprachnorm auf, die in Verbindung mit der Unterscheidung zwischen Sprachkönnen und Sprachwissen zu sehen ist. Es ist jedoch - dies sei hier ergänzt - nicht hinreichend, nur von einer oder mehreren linguistischen Sprachnormen auszugehen, sondern es muss vielmehr von einer Kombination zwischen diesen und einer entsprechenden, an den Prüfling angelegten Erwartungsnorm ausgegangen werden. Nur die wechselseitige Verbindung dieser kann zu prüfungsdidaktisch befriedigenden Ansätzen führen. Dennoch ist Putzers Verdienst, der Linguistik eine wichtige Rolle in dieser Faktorenkomplexion einzuräumen, zu würdigen.

Eine umfassende Analyse der Bewertung fremdsprachlicher Leistungen mit Bezug auf die Schule nimmt Kieweg (2001: 65ff) vor und listet zehn Prinzipien auf, die hinsichtlich der Testerstellung im Blick zu behalten sind. Diese beziehen sich u.a. auf die Gleichwertigkeit in der Testung unterschiedlicher Typen von Wissen (deklarativ vs. prozedural), die konkrete Planung und Stellung von Prüfungsaufgaben, berücksichtigen die Bedeutung der Validität und schließen auch die Testung soziokulturellen Wissens ein. Von Bedeutung sind in diesem Zusammenhang auch die Berücksichtigung des Zeitfaktors für Testerstellung und -auswertung wie auch die im Vorhinein zu erfolgende Festlegung der Bewertungskriterien. Eine solche Kriterienliste ist für Prüfungen jedweder Art von Bedeutung, da sie den (nicht selten in Personalunion auftretenden) Prüfungskonzeptoren und Prüfern einerseits wie auch - im Idealfalle - den Prüflingen andererseits, eine wichtige Orientierung hinsichtlich der innerhalb der Prüfung gestellten Anforderungen zum einen und der an Prüfung, Prüfer und Prüflinge angelegten Erwartungen zum anderen zu geben vermag.  

Das letztlich nicht auflösbare Dilemma der sich in der Notengebung manifestierenden, schulischen Leistungsbeurteilung diskutiert Wildner (1994: 35ff). Er entwickelt zwar Ansätze, dieses Dilemma zu überwinden und leitet aus seinen Reflexionen Forderungen speziell für den Deutschunterricht ab, kann jedoch nicht umhin, die Notengebung - in kritischer Sichtweise - in Ermangelung einer besseren Lösung zu akzeptieren. Das Prüfen als Vorgang - wie auch Prüfungen als dessen Ergebnis - sind ohne jegliche Leistungsbeurteilung und / oder Benotung sinnlos; Noten und Beurteilungen können nicht ohne Prüfungen jedweder Art gegeben werden. Dieser in sich logische Zusammenhang ist nicht grundlegend veränderbar.
  
Dennoch stellt die Vergabe von Schulnoten ein essentielles Problem des Systems Schule und Universität dar: So sehr und so redlich sich Lehrende auch darum bemühen, Noten objektiv und gerecht zu vergeben, wird diesen immer der Makel der Unobjektivierbarkeit anhaften. Auf diesen Zusammenhang verweist Ingenkamp (91995)[1], in dessen Sammelband die Zufälligkeit der Notengebung aufgezeigt wird. Diese überzeugende Darstellung der Unzulänglichkeit von Noten hat dem Autor unzählige Anfeindungen eingebracht, wie er z.B. in der sechsten Auflage bemerkt: So sei er
überrascht, dass fast kein Wort der Fäkaliensprache ausgelassen wurde, um meine ‚Nestbeschmutzung‘ zu kennzeichnen. Solche Stellungnahmen konnten aber einzelnen Aussenseitern zugerechnet werden. Deprimiert haben mich jedoch Briefe der Wortführer einer ‚schweigenden Mehrheit‘, die mir kollegial ins Gewissen redeten und in jeder Zeile offenbarten, dass sie noch nie etwas von den Fehlerquellen der Zensurengebung gehört hatten und auch nicht bereit waren, in entsprechenden Untersuchungen mehr als eine Zahlenspielerei unredlicher Statistiker zu sehen (Ingenkamp 1976: 5)
Beklagenswerterweise hat sich an der Schulpraxis bis heute so gut wie nichts geändert - eine Feststellung, die durchaus auf die Hochschule übertragbar ist: Trotz der im Rahmen der Testtheorie vorgenommenen, umfangreichen Forschung (vgl. Kap. 1.3) wird an heutigen Schulen in Deutschland - und nicht nur hier - noch weitgehend genauso geprüft wie vor dem Aufkommen dieser Disziplin. Der Band von Ingenkamp ist aufgrund dieser Sachlage heute nicht weniger aktuell als bei seinem ersten Erscheinen. Es wäre lobenswert, wenn hier festgestellt werden könnte, dass sein Inhalt und der darin enthaltene Appell zu an Schule und Hochschule flächendeckend praktizierter, objektiver(er) Leistungsmessung obsolet sei. Das Gegenteil ist jedoch der Fall.

Einen möglichen Ausweg aus dem Dilemma, das durch Leistungsmessung in ihrem herkömmlichen Verständnis des Vergleichs der Teilnehmer an einer wie auch immer gearteten Leistungsgruppe einerseits und durch die in aller Regel ebenfalls vergleichend angelegten Schulnoten und deren gerechte Vergabe andererseits gekennzeichnet ist, mag der Ansatz der kriterienorientierten Leistungsmessung darstellen, der von der Erreichung einer gegebenen Leistungsnorm bzw. eines erwarteten Kenntnisstandes der Prüflinge ausgeht und der in jüngster Zeit allmählich bedeutungsvoller geworden ist. Einen wichtigen Schritt zu einer weiteren Etablierung dieses Ansatzes stellt die Publikation von Brown / Hudson (2002) dar, in der die Autoren die an diese Form der Leistungsmessung zu stellenden Qualitätsmerkmale beschreiben. Im Wesentlichen stellen sie Antworten zu den nachstehend zitierten Fragen bereit, die von Testkonstrukteuren nach dem Ansatz des CRT (Criterion-referenced language testing) zu berücksichtigen sind und die zugleich auch den thematischen Umfang der hier erwähnten Publikation widerspiegeln:
1. How can item analysis be performed when: (a) no comparison group is designated as instructed or uninstructed group; (b) no externally identified masters and non-masters are defined; or (c) when mastery groups are defined and available?


2. How dependable are the decisions made on the basis of the test? How generalizable are the scores and analyses to those of other examinees on other forms of the test? 

3. How can a standard, or cut-point, be rationally set? 
4. What advantages and disadvantages accrue from application of the statistical approaches provided by NRT or CRT analyses? (Brown / Hudson 2002: 27)

Von besonderer Bedeutung für die praktische Nutzung dieses Ansatzes in Unterrichts- und Lehrbetrieb ist das dort auf die vorhergehenden, eher theoretischen Darstellungen folgende siebte Kapitel, in dem es nicht zuletzt um die Möglichkeiten der Rückmeldung hinsichtlich der Schülerleistung im Rahmen dieses Ansatzes geht und in dem dessen enger Bezug zu dem jeweils zu Grunde gelegten Curriculum herausgearbeitet wird. Würde diesem, an den Unterrichtsinhalten orientierten Ansatz in der (hoch)schulischen Praxis mehr Raum gegeben, dann wäre die Erzielung von mehr Bewertungs- und Notengerechtigkeit mit ungleich mehr Chancen behaftet, als es mit dem vergleichenden Bewertungsansatz, der jedoch die tägliche Praxis darstellt, jemals denkbar wäre. Die Aufgabe der Prüfungsdidaktik wird es daher sein, gerade in diesem Bereich entsprechende Forschungsaktivitäten zu generieren.

Einen im gegebenen Zusammenhang nicht zu vernachlässigenden Aspekt stellt derjenige der Fairness beim Prüfen und Bewerten dar: Prüfungen und Bewertungen können nur dann wirklich aussagekräftig sein, wenn sie in einer Form vorgenommen werden, die es den Prüflingen gestattet, ihr Können und ihre Kenntnisse tatsächlich zu zeigen, und wenn sie wissen, dass dieser Aspekt im Vordergrund jeglichen Prüfens und Bewertens steht und dass nicht etwa andere Gesichtspunkte, wie beispielsweise jegliche Form der Machtausübung seitens der Prüfer, in diese Situation hineinspielen. So können Noten als Machtinstrumente benutzt - missbraucht - werden, sie können jedoch, im Sinne der Prüflinge eingesetzt, auch motivatorische Wirkung haben und den Schülern oder Studierenden zeigen, auf welchem Stand sie sich im Vergleich zu ihrer Lerngruppe bzw. mit Blick auf den jewei-ligen, von ihnen erwarteten Kenntnisstand befinden. Prüfungen jeglicher Art sollten ausschließlich in dieser motivierenden, dem Schüler oder Studenten informationsvermittelnden Art und Weise vorgenommen werden, um ihm somit Orientierung über sein eigenes Lernen zu geben. Eine auf dem Hintergrund dieser Überlegungen nicht unwichtige Publikation stellt der Sammelband von Kunnan (2000) dar, in dem der Bereich der Fairness in Sprachprüfungen in den unterschiedlichsten Blickwinkeln untersucht wird - von umfassenderen bis hin zu mehr oder minder partikulären Fragestellungen. Für den vorliegenden Zusammenhang von Bedeutung ist die Forderung, dass dieser Bereich der Gerechtigkeit und fairen Ausrichtung von Prüfungen in Zukunft mehr und gründlicher als bisher erforscht werden sollte, um seine Bedeutung nicht zuletzt für die Validität von Prüfungen herauszustellen und den Missbrauch von Prüfungen im Sinne von Machtinstrumenten zu vermeiden.

Aufgrund der deutschen Wiedervereinigung im Jahre 1990 ergibt sich mit Blick auf Prüfungen und die an diese wie auch an die Prüflinge gestellten Anforderungen eine besondere Analysesituation, in der zwei unterschiedliche Prüfungssysteme einander gegenübergestellt und deren Vor- und Nachteile gegeneinander abgewogen werden. Solche Analysen sind im Einzelfall durchaus von persönlichen Eindrücken geprägt und beziehen zentrale Aspekte von Prüfungen mit ein - wie beispielsweise die Einheitlichkeit des jeweils zugrunde gelegten Curriculums -, jedoch auch solche, bisweilen nur indirekt mit den eigentlichen Prüfungen zusammenhängende Probleme wie die (nicht gegebene) Verfügbarkeit von Klassensätzen einsprachiger Wörterbücher. Bezugsinstitution ist oft die Schule, es kann sich jedoch auch um andere Institutionen, wie die Volkshochschule, handeln (vgl. z.B. Vogel 1992: 459ff und Luccesi 1992:369ff).

Im Hinblick auf Sprachprüfungen jeglicher Ausrichtung ist es von Bedeutung, die einzelnen Niveaustufen der Prüfungsanforderungen zu beschreiben und voneinander abzugrenzen. Einer von mehreren existenten Ansätzen ist der-jenige von ALTE, der Association of Language Testers in Europe, deren Zielsetzung unter anderem in einer Vereinheitlichung bestehender Niveau-stufen zur Erleichterung der internationalen Anerkennung europäischer Fremdsprachenzertifikate besteht (vgl. Bolton 1996b: 61ff). Einen anderen Ansatz stellen die im Rahmen von UNIcert© entwickelten und beschriebenen Niveaustufen dar (vgl. Barth / Huschka 1998: 81ff, Eggensperger 2010: 51ff 61ff und - in seiner Kritik daran - Tinnefeld 2002: 59ff).  

Den im Vergleich wohl wichtigsten neueren Ansatz stellt der Gemeinsame europäische Referenzrahmen (GeR) für Sprachen dar, der eine umfassende europäische Basis für die Vermittlung und Erlernung von Fremdsprachen bereitstellt und dabei gleichermaßen Lehrpläne, Prüfungen und Lehrwerke einschließt:
The Common European Framework provides a common basis for the elaboration of language syllabuses, curriculum guidelines, examinations, textbooks, etc. across Europe. It describes in a comprehensive way what language learners have to learn to do in order to use a language for communication and what knowledge and skills they have to develop so as to be able to act effectively. The description also covers the cultural context in which language is set. The Framework also defines levels of proficiency which allow learners’ progress to be measured at each stage of learning and on a life-long basis. (Council of Europe 2001: 1)
Für unseren Zusammenhang interessant sind besonders die Kompetenzniveaus, die der Gemeinsame europäische Referenzrahmen definiert und die die fortwährende Messung von Lernfortschritten auf jeder Lernstufe ermöglichen sollen. 

Einen umfassenden Ansatz, der den Gemeinsamen europäischen Referenzrahmen für Sprachen, jedoch auch andere, vergleichbare Instrumente - wie beispielsweise das Europäische Portfolio der Sprachen, internationale Sprachzertifikate jenseits des schulischen Kontextes sowie die Einheitlichen Prüfungsanforderung für die Abiturprüfung - mit einbezieht, verfolgt Christ (2003: 157ff). Sie vertritt die Ansicht, dass diese Instrumente und ihre entsprechende Nutzung zu einer neuen, besseren und moderneren Leistungsevaluation im Fremdsprachenunterricht beitragen werden.

Graphisch lassen sich diese Forschungsfelder wie folgt darstellen:  
   Abb. 2: Forschungsfelder im Bereich Prüfen und Bewerten[2]


Wenden wir uns nun zunächst dem Bereich der Testwissenschaft und Testtheorie zu.

1.3 Testwissenschaft und Testtheorie

Testwissenschaft und Testtheorie lassen sich zwar nicht in jedem Falle eindeutig von der Tätigkeit informelleren Prüfens und Bewertens trennen[3], da beide Bereiche letztendlich das Ziel der Lernerfolgskontrolle verfolgen. Dennoch wird - besonders in Deutschland - eine vergleichsweise starke Trennung zwischen beiden vorgenommen (vgl. Quetz 2008: 4ff). Obwohl Testwissenschaft und Testtheorie uns in der vorliegenden Publikation an dieser oder jener Stelle beschäftigen werden, sind sie hier nicht von zentraler Bedeutung. Wie bereits deutlich geworden ist (vgl. Kap. 1.3), können sie jedoch als Teil der Prüfungsdidaktik angesehen werden - eine Einordnung, die ihre Bedeutung in keiner Weise schmälern soll, die jedoch die Systematizität der komplementären wissenschaftlichen Ansätze durch das logisch vorhandene und somit auch explizit ausgedrückte Inklusionsverhältnis gewährleistet. Die Testtheorie[4] ist so bedeutsam und die zu ihr veröffentlichte Literatur so zahlreich, dass es aussichtslos ist, sie hier auch nur ansatzweise gesamthaft darzustellen, zumal sie insgesamt nicht nur den Fremdsprachen-bereich abdeckt, sondern - originär aus der Psychologie hervorgegangen - dort von noch größerer Bedeutung ist. Der multiple Verweis auf den C-Test als ein prominentes Beispiel, das aus dieser Theorie entwickelt worden ist, soll im Folgenden auf die große Bedeutung der Testtheorie auch für den Fremdsprachenbereich verweisen. Trotz aller naturgemäßen Unzulänglichkeit des Unterfangens soll hier zumindest auf einige wichtige Titel referiert werden, was jedoch nur schlaglichtartig erfolgen kann.

Einen ausführlichen Überblick über die Geschichte der Testung[5] von Fremdsprachen[6] in den USA gibt Barnwell (1996) und weist nach, dass Sprachtests bereits vor mehr als 100 Jahren im Fremdsprachenunterricht geläufig waren. Dabei zeigt er die Komplexität dieses Gebietes mit Blick auf Forschung und Didaktik anschaulich auf. Eine Einführung in den Bereich des Sprachtestens, die auf Grund ihrer hohen Qualität auch heute noch lesenswert ist, hat Henning (1987) vorgelegt. Das Verdienst dieser Monographie liegt nicht nur in der gut verständlichen Erklärung der zentralen Fachtermini, sondern auch in dem breiten Ansatz, den der Autor verfolgt und der die Gewinnung eines Überblicks über dieses Gebiet ermöglicht. Was für die Adressaten - die ebenso Forscher oder Testkonstrukteure wie Lehrer oder Studierende sein können - als besonders hilfreich empfunden werden mag, ist das Faktum, dass zu jedem Kapitel nicht nur Übungen angeboten werden, sondern dass diese zudem mit Musterlösungen versehen sind. Durch diesen Ansatz wird die Schwellenangst vor dem Sprachtesten und seiner praktischen Umsetzung für den Unterricht, die besonders praktizierende Lehrer nicht selten haben, reduziert.

Als komplementär zu Henning (1987) mag Bachman (1990) angesehen werden, der eine von großem Problembewusstsein geprägte Darstellung der Testung von Fremdsprachen[7] vorlegt und der - wie ersterer - durchaus auch für Fachleute Erkenntnisse bereit hält. Bachman - für den Fortschritte im Testen sich nicht im luftleeren Raum vollziehen, sondern in enger Verzahnung mit dem Fremdsprachenerwerb und dem Fremdsprachenunterricht[8] - erkennt erhebliches Fortschrittspotential in dem folgenden Faktum:
A common thread that runs through much recent writing in language testing is the belief that a precise, empirically based definition of language ability can provide the basis for developing a ‚common metric’ scale for measuring language abilities in a wide variety of contexts, at all levels, and in many different languages. (Bachman 1990: 5)
Ließe sich dieser Wunsch realisieren, dann hätte dies ungeahnte Auswirkungen auf die Art von Aussagen, die auf der Basis dieser Tests gemacht werden könnten:
Such tests are of crucial interest for second language acquisition research and language program evaluation, where measures of language ability that can be used as criteria for comparing differences across age groups, varying native languages, and differing teaching methods are virtually nonexistent (...). Such tests are equally important for use in making decisions about language competency, whether in the context of evaluating learner achievement in language programs, or for certifying the professional competence of language teachers. (Bachman 1990: 6)

Bachman entwickelt mit dem Bezugspunkt der communicative language ability (1990: 81ff) eine eigene Testtypologie. Im Rahmen seiner Überlegungen zur Reliabilität (Bachman 1990: 160ff) sind nicht zuletzt seine Reflexionen hinsichtlich des möglichen Einflusses des jeweiligen Testformats auf die erzielten Ergebnisse aufschlussreich. Ebenso bedeutungsvoll sind seine Ausführungen über die künftige Forschung im Rahmen des Sprachtestens (Bachman 1990: 296ff).

Eine wichtige Publikation zu dem Verbindungsbereich zwischen dem Sprachtesten einerseits und dem Zweitsprachenerwerb andererseits haben Bachman / Cohen (1998) vorgelegt. In dem von ihnen herausgegebenen Sammelband wird dieser Bereich zunächst abgegrenzt, was die Autoren in unterschiedlicher Perspektive tun. Mit Blick auf die Forschungsinteressen ergeben sich hinsichtlich des Fremdsprachenerwerbs einerseits und des Spachtestens andererseits so die folgenden Merkmale:
While SLA (= Second Language Acquisition; T.T.) research has concerned itself more with the factors and processes that affect or are part of language acquisition, LT (= Language Testing; T.T.) research had tended to focus on components and strategies that are part of language ability. Thus, while SLA has looked for antecedents of language ability, LT research has studied the results of acquisition. (Bachman / Cohen 1998: 2)
Zudem wird dieser Verbindungsbereich auf den zu dem damaligen Zeitpunkt neuesten Stand gebracht (Bachman / Cohen 1998: 1ff), und es werden zu-dem wichtige Gesichtspunkte, die sowohl das Sprachtesten als auch den Zweitsprachenerwerb betreffen (können), miteinander in Beziehung gesetzt. So beschäftigt Cohen (1998: 90ff) sich mit den Strategien und Prozessen, die für die Absolvierung von Tests und für den Fremdsprachenerwerb von Bedeutung sind. Shohamy (1998: 156ff) wirft die Frage auf, wie Sprachtesten und Fremdsprachenerwerb voneinander profitieren können, und zeigt dieses Potential an Hand eines konkreten Bereiches (the case of discourse) auf. Tarone (1998: 71ff) sieht Implikationen der Forschungen zur Intersprache (interlanguage) und ihren Variationen innerhalb der Lernbiographie von Individuen für das Testen von Fremdsprachen und weist damit auf einen Bereich hin, der in Zukunft ungleich eingehender als bisher erforscht zu werden verdient. Diese hier herausgegriffenen Beispiele deuten bereits auf das Forschungs- und Erkenntnispotential hin, das die Herstellung von Verbindungen zwischen dem Testen einerseits und dem Erwerb von Fremd-sprachen andererseits enthält - wenn diese denn entsprechend gesehen und konsequent genutzt werden.  

Eine praxisorientierte Beschreibung der Erstellung und Evaluation von Sprachtests leisten Alderson / Clapham / Wall (1995), indem sie alle wichtigen Stadien des Testens und der Testerstellung berücksichtigen - von den Spezifikationen eines Tests (ibid.: 9ff) über die Erstellung einzelner Test-Items (ibid.: 40ff), die Ausbildung von Testkorrektoren (ibid.: 105ff) und die Überwachung der Prüferreliabilität über Aspekte der Testvalidierung (ibid.: 170ff), die Erstellung und Präsentation von Berichten über die Testleistung (ibid.: 197ff) bis hin zu künftigen Möglichkeiten der Entwicklung und Verbesserung von Tests (ibid.: 218ff), um hier nur einige Aspekte herauszugreifen. Das Ziel der Autoren ist es dabei, den jeweils bestmöglichen Standard anzuvisieren:
The book is intended to describe and illustrate best practice in test development, and the principles of test design, construction and administration that underpin such best practice. (Alderson / Clapham / Wall 1995: 2)
Die Autoren bieten somit Lehrern, Prüfern wie auch Testkonzeptoren wichtige Hilfestellung. Ihr besonderes Interesse gilt dabei nicht zuletzt der Sicherung der Validität und Reliabilität von Tests:
The overarching principles that should govern test design are validity and reliability, and we make constant reference to these throughout the book. (Alderson / Clapham / Wall 1995: 6)
Eine ebenfalls an der Praxis orientierte Darstellung, die sich sowohl an Testkonzeptoren wie auch an Lehrer wendet, welche sich über die Hintergründe und die Prinzipien der Testerstellung informieren wollen, bietet die Publikation von Bachman / Palmer (1996), in der das Testen zum kommunikativen Fremdsprachenunterricht in Beziehung gesetzt wird. Besonders wertvoll an dieser Publikation ist die Vorgehensweise der Autoren, die theoretische Reflexionen zur Entwicklung von Tests im Allgemeinen (ibid.: 3ff) und zur Entwicklung von Sprachtests im Besonderen (ibid.: 85ff) anstellen und sie anschaulich anhand von Fallbeispielen mittels der Beschreibung von zehn Projekten (ibid.: 253ff) illustrieren. Dieser hohe Anschaulichkeitsgrad ist von besonderer Bedeutung, da die Erstellung und (Be-)Nutzung von Tests sich in der Praxis ungleich schwieriger darstellt als meist ohnehin angenommen wird:
In our experience, many people believe, as we did, that there is an ideal of what a ‘good’ language test is, and want to know how to create tests on this ideal model for their own testing needs. Our answer is that there is no such thing as a ‘good’ or ’bad’ test in the abstract and that there is no such thing as the one ‘best’ test, even for a specific situation. (Bachman / Palmer 1996: 5f)
Diese auf der persönlichen Erfahrung der Autoren beruhende Feststellung ist ein Beleg dafür, dass Tests in Konzeption, Durchführung und Auswertung niemals unterschätzt werden dürfen: Im Einzelfall - dies sei hier bemerkt - kann zu viel von ihnen abhängen; im Einzelfall können sie Karrieren zerstören.

Davidson / Lynch (2002) legen mit ihrer Publikation „Testcraft“ eine an der Praxis orientierte Einführung in die kriterienbezogene Leistungsmessung vor und geben Anleitungen zur Festlegung von Testzielen und Erfolgskriterien. Sie wenden sich damit an praktizierende Lehrer und versuchen, ihnen Hilfestellung in einem Bereich zu geben, der bei vielen von ihnen erfahrungsgemäß Verunsicherung auslöst und sie nicht selten einem Gefühl der Hilflosigkeit aussetzt. Eine ähnlich praxisorientierte und dennoch problembewusste Übersicht bietet Brown (2004), der nicht nur die grundlegenden Prinzipien der Leistungsbewertung auflistet und analysiert, sondern zudem praktizierenden Lehrern das nötige Handwerkszeug für eine transparente und gerechte Bewertung der Leistungen ihrer Schüler unter Berücksichtigung der vier sprachlichen Grundfertigkeiten vermittelt[9].

Mit einer wichtigen Methode der Erforschung der sprachorientierten Testwis-senschaft beschäftigt sich Green (1998), die in die verbal protocol analysis einführt und ihre Nutzung im Bereich des Testens und Beurteilens veranschaulicht. Einen Überblick über den aktuellen Stand der Validierung von Sprachtests und ihre Auswirkungen auf den Unterricht gibt Cumming (1995) in dem von ihm herausgegebenen einschlägigen Sammelband. Tests zur Sprechfertigkeit beschreibt und analysiert Fulcher (2003), erläutert Aufgabentypen auf historischem wie auch theoretischem Hintergrund und berücksichtigt dabei die Testkonstruktion gesamthaft.

Ein theoretisch ausgerichtetes Werk zur Messung sprachlicher Leistungen, das sich eher an Forscher und testtheoretisch gut informierte Prüfer, Testkonzeptoren und Lehrer richtet als an die breite Masse praktizierender Lehrer, hat McNamara (1996) vorgelegt. Interessant ist hier die Erkenntnis der Performanzorientierung des Testens im Fremdsprachenunterricht, wobei jedoch die Vielzahl der im Allgemeinen in die Testung kommunikativer Sprachleistungen involvierten Variablen die Beurteilung der eigentlichen Leistungen beeinflusst. Eine Anleitung für Lehrer zur Entwicklung und gegebenenfalls Anpassung von Sprachtests präsentiert Brown (1996) in sehr praxisorientierter Form und unter Berücksichtigung unterschiedlicher Testtypen wie Lernfortschritts-, Sprachstands-, Diagnose- und Abschlusstests.

Einblicke in die geschichtlichen testtheoretischen, konzeptionellen, aber auch sprachpolitischen Hintergründe der Entwicklung objektiver Sprachleistungsstests, die zwar gut fundiert, jedoch zuweilen auch anekdotisch aufbereitet sind, sind bei Spolsky (1995) zu finden, wobei die Konkurrenz zwischen TOEFL und Cambridge (First Certificate in English; FCE) herausgestellt wird. Praktizierende Lehrer sollten sich angesichts dieser geradezu übermächtigen Testinstitutionen und ihren Forderungen nach Objektivität und Reliabilität jedoch nicht beirren lassen, sondern vielmehr ihre eigenen Bedürfnisse hinsichtlich der Beurteilung und Testung der Leistungen ihrer Schüler im Blick behalten und versuchen, dabei größtmögliche Validität zu erzielen. Im Unterschied zu Spolsky untersuchen Bachman et al. (1995) FCE und TOEFL hinsichtlich ihrer Inhalte und ihres testmethodischen Ansatzes. Sie dokumentieren auf diese Weise auch unterschiedliche Lösungsansätze zu Fragen der Leistungsmessung in Großbritannien und den USA. Die  Untersuchungen von Spolsky (1995) und Bachman et al. (1995) stehen somit in einem interessanten Komplementaritätsverhältnis zueinander und eröffnen zusammengenommen gegenüber einer isolierten Betrachtung beider Arbeiten nicht nur die entsprechende Summe an Informationen, sondern geradezu ein Potential an Einsichten. Beide in ihrer Art und Ausrichtung sind für die Testtheorie wie auch für die Prüfungsdidaktik daher als wertvoll zu betrachten.

Eine wichtige Publikation, in der der Einfluss der Eigenschaften von Testteil-nehmern auf das Testergebnis untersucht wird, hat Kunnan (1996) für den Bereich Englisch als Fremdsprache vorgelegt und bezieht sich dabei auf verschiedene Tests unter Mitberücksichtigung von FCE und TOEFL. Es wird versucht, individuelle Faktoren herauszuarbeiten, die einen Einfluss auf das Testergebnis von Testteilnehmern darstellen können. Dieser Ansatz ist insofern von Bedeutung, als ein gegebener Test nicht nur hinsichtlich seiner (Konstrukt)Validität als geeignet oder weniger geeignet eingestuft werden sollte, sondern auch hinsichtlich seiner Eignung für bestimmte Typen von Testteilnehmern: Nicht jedes Individuum kann jeden Test vergleichbar gut absolvieren; unterschiedliche Testformen sind für unterschiedliche Personen(gruppen) geeignet. Dieser Aspekt ist bisher nicht hinlänglich berücksichtigt worden, so dass es als Kunnans Verdienst anzusehen ist, hier einen ersten Ansatz zu der allmählichen Schließung dieser Forschungslücke vorgenommen zu haben. Auf diesem Gebiet wird in Zukunft unbedingt mehr Forschungsarbeit zu leisten sein, um Licht in das Verhältnis zwischen dem Test einerseits und dem Testteilnehmer andererseits zu bringen - und dies, obwohl Kunnan (1998) selbst bereits in dem von ihm herausgegebenen Sammelband mit dem Titel Validation in Language Assessment, in dem der zweite Teil (Kunnan 1998: 89ff) Aspekten der Charakteristika und des Feedbacks von Testteilnehmern gewidmet ist[10], erste Schritte dahingehend unternommen hat.

Ein Standardwerk zum Sprachtesten und -bewerten stellt der im Rahmen der Encyclopedia of Language and Education von Clapham / Corson (1997) herausgegebene Sammelband dar, in dem der gesamte Bereich der Lernerfolgskontrolle und der kompetenten Leistungsmessung in umfassender Form dargestellt wird. Der Band behandelt in der ersten Sektion die Testung sprachlicher Fertigkeiten[11], in der zweiten Sektion Methoden des Testens und Bewertens[12], in der dritten Sektion die quantitative und qualitative Validierung von Tests[13] sowie in der vierten und letzten Sektion die Ethik und die Auswirkungen des Testens und Bewertens[14].

Eine sehr gute Einführung in Grundfragen des Testens und der Testerstellung, die nicht nur für auf diesem Gebiet Tätige, wie beispielsweise praktizierende Lehrer, sondern durchaus auch für Fachleute interessant ist und die somit über einen bloßen Einführungscharakter hinausgeht, stellt die Monographie von McNamara (2000) dar, in der die wichtigsten Aspekte und Probleme der Leistungsbeurteilung im Sprachbereich behandelt werden. Das Verdienst dieser Publikation besteht jedoch nicht nur in der gut verständlichen und leserfreundlichen Art der Darstellung, nicht nur in ihrem sachlich umfas-senden Charakter, sondern darüber hinaus auch darin, dass McNamara es unterlässt, einseitige Lösungen der beschriebenen Problemfelder anzubieten. In dieser sachbetonten, nüchternen Darstellung liegt ein Großteil des Wertes dieser Monographie.

Eine ebenfalls wichtige Publikation, die sich mehr mit dem Testen als dem Prüfen und Bewerten beschäftigt, ist der aus einer Vortragsreihe am Sprachenzentrum der Universität Bayreuth hervorgegangene Sammelband von Gardenghi / O’Connell (1997), in dem die Thematik umfassend behandelt, aus unterschiedlichen Blickwinkeln betrachtet und der schulübergreifenden Adressatengruppe der Fremdsprachenlehrer zugänglich gemacht wird.

Eine Handreichung zur Erstellung von Tests durch praktizierende Lehrer liefert Hughes (2003), die jedoch bisweilen ein wenig unrealistisch anmutet, so beispielsweise dann, wenn er die Schritte beschreibt, die diese bei der Erstellung von Sprachtests durchlaufen sollen:

  1. Make a full and clear statement of the testing ’problem’.
  2. Write complete specifications for the test.
  3. Write and moderate items.
  4. Trial the items informally on native speakers and reject or modify problematic ones as necessary.
  5. Trial the test on a group of non-native speakers similar to those for whom the test is intended.
  6. Analyse the results of the trials and make any necessary changes.
  7. Calibrate scales.
  8. Validate.
  9. Write handbooks for test takers, test users and staff.
  10. Train any necessary staff (interviewers, raters, etc).     (Hughes 2003: 58)
Eine wichtige Form der Evaluation, die nach ihrer Lancierung durch Klein-Braley / Raatz (1982) rasch Bedeutung erlangt, jedoch immer auch Kritik evoziert hat, ist der C-Test. Eine grundlegende Frage in diesem Zusammenhang ist, ob ihm die Testung lediglich einzelner sprachlicher Fertigkeiten oder sogar diejenige allgemeiner Sprachfähigkeit zugeschrieben werden kann. Dieser Frage widmet sich unter anderem Faust (1986: 10ff), indem er einen konkreten C-Test beschreibt und Vorschläge für seine Einsetzbarkeit unterbreitet. Dabei erstellt er eine klare Beziehung zum Leseverständnis, für dessen Überprüfung diese Testform sich eigne. Für die Messung allgemeiner Sprachfähigkeit eigne sich der C-Test dagegen nicht. Grundlegende ebenso wie umfassende Informationen zum C-Test liefert Grotjahn (1992, 1994, 1996, 2002, 2006, 2010) in den von ihm herausgegebenen Sammelbänden zu dieser Testform, in denen diese sehr gut dokumentiert wird. Auf Grund der Anzahl der dort publizierten Beiträge ist es hier nicht möglich, auf einzelne dieser einzugehen, jedoch sei an dieser Stelle bemerkt, dass sie in ihrer Gesamtheit eine erhebliche Bandbreite aufweisen. Die intensive Erforschung dieser Testform lässt auf ihre Bedeutung im Rahmen der Sprachlehrforschung schließen - eine Bedeutung, die wegen des Erfolges des C-Tests über die einzelne (Fremd)Sprache hinaus in den kommenden Jahren eher zu- als abnehmen wird[15].

Informellen Verfahren der Leistungsmessung widmen sich Dlaska / Krekeler (2009) in ihrem Versuch der Erarbeitung von Qualitätskriterien für solche Testverfahren im Fremdsprachenunterricht. Ihr Ziel ist es, praktizierenden Lehrern Hilfestellung zu geben bei Entwicklung, Evaluation und - letztlich - der Verbesserung informeller Sprachtests, die ihrerseits auf den jeweiligen unterrichtlichen Kontext zugeschnitten sind. In den mit zahlreichen Beispielen angereicherten Reflexionen der Autoren, die nicht die Prüfung aller vier sprachlichen Fertigkeiten abdecken, sondern sich auf Lese- und Schreibtests konzentrieren, werden zudem das fachsprachliche Testen wie auch alter-native Leistungsbeurteilungen berücksichtigt, womit die Autoren über den Bereich der eigentlichen Testerstellung hinausgehen. Als Qualitätskriterien von informellen Leistungsbeurteilungen werden - im Unterschied zu denjenigen standardisierter Testverfahren - Gerechtigkeit, Rückmeldung, Auswirkungen, und Aktivität ausgegrenzt, was in recht komplexer Weise auf der Basis einander partiell überlappender, jedoch insgesamt komplementärer Subkriterien geschieht (Dlaska / Krekeler 2009: 42ff). In der Widerspiegelung des Bewusstseins der praktischen Bedeutung informeller Tests für die Schule und deren Behandlung in praxisnaher Form liegt das eigentliche Verdienst dieser Publikation (vgl. für weitergehende Informationen auch Tinnefeld 2010b).

Jegliche Beschäftigung mit Tests erfordert - anstelle von deren unbefragter Akzeptierung - deren kritische Hinterfragung sowie die Behandlung derjenigen Probleme, die mit Tests als Institution einerseits wie auch mit ihrer Verwendung andererseits einhergehen können. Auf diesem Hintergrund ist die Monographie von Shohamy (2001) als eine wichtige zu nennen, in der eben diese Hinterfragung von Tests vorgenommen wird, womit die Autorin eine Forschungslücke schließt, da diese Fragen in Publikationen zu Tests und zum Testen allgemein so gut wie nie in den Mittelpunkt gestellt werden. In diesem Werk, das als Appell für einen ethisch korrekten Umgang mit Tests verstanden werden kann, werden nicht nur relevante gesellschaftliche Probleme von Tests behandelt und die Problematik anhand vorgestellter Fallstudien konkretisiert, sondern es wird auch ein Modell des Umgangs mit Tests - ein code of practice - entwickelt. Aus ihren Reflexionen leitet die Autorin die Forderung nach einem kritischen Umgang mit Tests ab, den sie wie folgt versteht:
Critical testing implies the need to develop critical strategies to examine the uses and consequences of tests, to monitor their power, minimize their detrimental force, reveal the minuses, and empower the test takers. (Shohamy 2001: 131).  
Dabei ist aus unserer Sicht die Stärkung der Rolle (und auch der Rechte) der Testteilnehmer von großer Bedeutung. 

Der vorliegende Forschungsbereich lässt sich auf einen Blick wie folgt darstellen:
 Abb. 3: Forschungsfelder im Bereich von Testwissenschaft und Testtheorie

1.4         Umfassende Prüfungstypen

1.4.1 Abiturprüfung

Die Abiturprüfung ist Gegenstand zahlreicher Publikationen, in denen es in Intervallen immer wieder um die EPA (Einheitliche Prüfungsanforderungen in der Abiturprüfung) geht, um deren anstehende oder erfolgte jeweilige Neufassung und um die Kommentierung einzelner Teilaufgaben. So beschäftigt sich Thiel (1982: 72ff) mit den im Jahre 1980 erschienenen, damals neuen EPA für Französisch und grenzt diese zu den bis dahin gültigen EPA von 1975 ab.

Mit Blick auf das Abitur werden nicht selten Einzelfragen aufgegriffen oder Einzelaufgaben vorgestellt, die Lehrern späterer Jahre als Orientierung und Anregung dienen können. So stellt Eichler (1992: 462ff) die schriftliche Abiturprüfung und die für sie geltenden Rahmenbedingungen im Zentralabitur für das Fach Englisch (Grund- und Leistungskurs) in Baden Württemberg - einschließlich zweier Aufgabenanalysen - dar und leistet somit einen Beitrag zu der Transparenz dieser Prüfungen und zu deren Vergleichbarkeit in anderen (Sprach-)Fächern und anderen Bundesländern. Eine schriftliche Abiturprüfung im Fach Spanisch als dritte Fremdsprache auf Leistungskursebene stellt Stösslein (1998: 118ff) vor.

Eine Beschreibung der Vorschriften der Abiturprüfung des Berliner Senats im Leistungsfach Englisch unternimmt Raddatz (1993: 67ff) - auch unter Berücksichtigung der durch die Wiedervereinigung entstandenen Situation - und exemplifiziert diese an möglichen Prüfungsaufgaben. Eine vergleichbare Stoßrichtung - jedoch ungleich konkreter und diesmal aus der Sicht des Lehrers selbst - verfolgt Oberenzer (1993: 464ff), indem er, in Bezug auf das Französische, einen Vorschlag für die Abiturprüfung hinsichtlich der juristischen Bestimmungen, der konkreten Gestaltung und der an die Schüler gestellten Anforderungen und zudem eine individuelle, korrigierte Arbeit eines Schülers, verbunden mit einem Kommentar dieser, präsentiert. Das Verdienst eines solchen Ansatzes der Konkretisierung der amtlichen Vorschriften durch ihre Verknüpfung mit konkreten Aufgaben liegt in einer Verbesserung der Orientierung der Lehrer - und Aufgabensteller - und letztlich in einer Verbesserung der Prüfungen selbst. Insbesondere für praktizierende Lehrer sind solche, an der Prüfungsrealität orientierten oder sie so exakt wie möglich nachbildenden Veröffentlichungen von erheblichem Wert - und es wäre zu begrüßen, wenn Publikationen mit vergleichbarem praktischen Wert ungleich zahlreicher wären, als sie es bislang sind.

Niemeyer (1991: 455ff) stellt eine Abituraufgabe für das Fach Russisch als Leistungskurs in den alten Bundesländern vor und erläutert auf der Basis dieser die an die Schüler gestellten Anforderungen. Einen Vergleich zwischen Prüfungsanforderungen im schriftlichen Abitur in den Fächern Russisch und Englisch in Sachsen-Anhalt für die Jahre 1991 und 1992 nimmt Berthelmann (1993: 64ff) vor und stellt große Unterschiede in beiden Fächern fest.

Von großer Bedeutung im Rahmen von Prüfungen und deren Durchführung sind nicht nur wissenschaftliche Texte, sondern auch offizielle und / oder amtliche Texte, in denen die entsprechenden Bestimmungen festgelegt werden. Als Beispiele für eine solche Textsorte mögen im vorliegenden Zusammenhang die von der KMK im Jahre 2004 für die Fächer Französisch, Spanisch und Italienisch herausgegebenen „Einheitliche(n) Prüfungsanforderungen in der Abiturprüfung“ (vgl. Ständige Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland 2004a 2004b und 2004c) gelten, die der Sicherung vergleichbarer Qualitätsstandards dienen sollen. In ausführlichen Texten dieses offiziellen Typs werden - wie es auch hier der Fall ist - Prüfungen umfassend beschrieben, und zwar hinsichtlich der folgenden Aspekte: Gegenstände der Prüfung(en), nachzuweisende Kompetenzen, (zulässige) Aufgabenarten, Bewertungskriterien für Prüfungsaufgaben, Bewertungshin-weise hinsichtlich der Leistungen der Prüflinge und Aufgabenbeispiele für die einzelnen sprachlichen Fertigkeiten sowie entsprechende Erwartungshorizonte. Texte dieses Typs sind weitgehend bindend und können somit als mögliche Indikatoren für die Beschreibung des state of the art von Prüfungen dienen:
Die Vorgaben der Einheitlichen Prüfungsanforderungen in der Abiturprüfung im Fach Französisch sind Ausdruck des Wandels in den gesellschaftlichen Erwartungen an das Fach sowie des Standes der fachlichen Diskussion um Aufgaben, Ziele und Formen des Fremdsprachenunterrichts. In diesem Sinne definieren sie fachliche Qualitätsstandards, sind aber gleichzeitig hinreichend offen für unterschiedliche didaktische und pädagogische Konzepte und zukünftige Weiterentwicklungen des Faches. (Ständige Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland 2004a: 6)
In Zukunft sollten sie dazu herangezogen werden, als eine von mehreren zentralen Quellen den Stand der Disziplin Prüfungsdidaktik zu dokumentieren.


1.4.2 Prüfungen an anderen Schulformen

Eine vergleichsweise beachtliche Fülle wissenschaftlicher Literatur existiert ebenso zu Prüfungen an vom Gymnasium unterschiedlichen Schulformen - von der Grundschule über die Haupt- und Realschule bis hin zum Gymnasium[16]. Auch davon kann hier lediglich eine kleine Auswahl geboten werden.

Bestehende Prüfungen an den entsprechenden Schultypen werden durch die Zeit hindurch beschrieben und gegebenenfalls durch Verbesserungsvorschläge einer Modifizierung zuzuführen versucht. Der bayerischen Hauptschule und der dort herrschenden Prüfungspraxis der Zeit vor den und in den frühen 1980er Jahren widmet sich beispielsweise Wunsch (1983: 6ff), der sich mit dem Fach Englisch beschäftigt, den dortigen Stand der Prüfungen analysiert und diesen im Wesentlichen positiv bewertet.

Auf die Realschule - wiederum in Bayern - bezieht sich der von Huber (2000: 32ff) dargestellte Versuch, die mündliche Kommunikationsfähigkeit der Schüler valide mit Hilfe eines geeigneten Textverfahrens zu überprüfen. Bezugsrahmen war dabei die an bayerischen Realschulen abgenommene Zentrale Abschlussprüfung Englisch. Mit validen Abschlussprüfungen im Rahmen der Zentralen Realschulabschlussprüfung im Fach Englisch in Mecklenburg-Vorpommern setzen sich Sabin / Zeplien (2003: 212ff) auseinander und geben Beispiele für solche Prüfungsaufgaben, die für potentielle Adressaten von Realschulabsolventen von Aussagekraft sein können.

1.4.3 UNIcert®[17]  

Zu dem im Jahre 1992 ins Leben gerufenen UNIcert® soll im vorliegenden Rahmen auf die beiden Handbücher eingegangen werden, die dazu bisher veröffentlicht worden sind.

Die bis dato wichtigste Publikation zu UNIcert® stellte sicherlich das von Johann Fischer und Karl-Heinz Eggensperger (1998) herausgegebene  Handbuch UNIcert® dar, in dem die Konzeption, der Stand und die Weiter-entwicklung (Teil I), der Bezug auf einzelne Sprachen (Teil II), die Ausbildungskonzepte (Teil III), die Prüfungsgestaltung (Teil IV) und Dokumen-te und Materialien zu UNIcert® (Teil V) beschrieben werden. An dieser Stelle soll lediglich auf die Gesamtausrichtung von UNIcert®  eingegangen werden, da es unmöglich ist, auf alle Beiträge des Handbuches einzugehen. Will man UNIcert®  zu definieren versuchen, so kann man dies am besten mit den Worten von Bernd Voss tun, dem Initiator und langjährigen Vorsitzenden des UNIcert®-Beirates:
Mit UNICERT wird ein Zertifikationssystem für eine hochschulspezifische und hochschulübergreifende Fremdsprachenausbildung bezeichnet, welche die Besonderheiten der Teilnehmer, der Zielsetzungen und der Arbeitsformen an Hochschulen angemessen berücksichtigt. (Voss 1998: IX)
Für ein vollständigeres Verständnis von UNIcert® sind zudem die folgenden Gesichtspunkte von Bedeutung:
Das UNICERT-System hat die Form einer Rahmenvorgabe, welche als Referenzsystem akkreditierte Mitgliedsorganisationen in die Lage versetzt, eine Fremdsprachenausbildung durchzuführen, die anerkannten Qualitätskriterien entspricht. Die Mitglieder des UNICERT-Verbunds können dadurch hochschulspezifische Fremdsprachenabschlüsse auf vier Stufen verleihen, die über unterschiedliche Sprachen und Institutionen hinweg vergleichbare Kenntnisse und Fertigkeiten attestieren. (Voss 1998: IX)
Den zum damaligen Zeitpunkt aktuellen Stand von UNIcert® beschreibt Eggensperger (1999: 59ff) und stellt dessen weitere mögliche Perspektiven vor. Er wählt in seiner Darstellung einen umfassenden Ansatz, innerhalb dessen er nicht nur inhaltliche und organisatorische, sondern auch hochschulpolitische Gesichtspunkte berücksichtigt. Es liegt hier eine Darstellung des damaligen state of the art von UNIcert® vor, die eine hilfreiche Orientierung vermittelt.

Die Ausbildung und die Prüfungsinhalte zu UNIcert® II für Medizinstudenten und die an der Universität Leipzig in diesem Zusammenhang gemachten Erfahrungen, nach denen in der Vorbereitung auf diese Prüfung in Zukunft mehr Gewicht auf die Fertigkeiten Schreiben und Sprechen wie auch auf die fachsprachliche Kompetenz der Prüflinge gelegt werden solle, beschreibt Busch-Lauer (1998: 51ff). Folgerichtig fordert sie eine stärkere Einbeziehung von Erkenntnissen der L2-Schreibforschung in die Fachsprachenlinguistik, um so die Didaktik der Fachsprachenvermittlung praxisnäher zu gestalten.

In dem, in einem zeitlichen Abstand von zwölf Jahren veröffentlichten, vollkommen neu gestalteten UNIcert® Handbuch 2 (Voss 2010), das aus organisatorischen Gründen seinerseits einen Entwicklungszeitraum von meh-reren Jahren benötigte, wird die Fortschreibung des UNIcert®-Konzeptes dokumentiert, und es werden die Besonderheiten von UNIcert® sowie die inhaltlichen Strukturen von der Ausbildung und der Prüfungen dargelegt (Voss 2010: Xf), wobei diese Zuordnung in dem Sammelband leider nicht strukturell widergespiegelt wird. Für die Prüfungsdidaktik von vergleichsweise vorrangigem Interesse sind dabei die im Folgenden kurz angesprochenen Beiträge.

So beschäftigt sich Zahn (2010: 151ff) in prägnanter, jedoch in diesem Rahmen umfassender Art und Weise mit den wichtigsten organisatorischen bzw. bürokratischen Gesichtspunkten von UNIcert®-Prüfungen, die sich durchaus auf umfassend ausgerichtete Sprachprüfungen im Allgemeinen übertragen lassen. Unter prüfungsdidaktischer Perspektive erscheinen dabei ihre Ausführungen zu der Tätigkeit der Prüfer (Zahn 2020: 155ff) am wichtigsten.

Nestmann / Schröder (2010: 163ff) listen in überblicksartiger Form mögliche Beurteilungskriterien für Prüfungsmaterialien und -aufgaben auf, die sehr praxisorientiert sind und für Prüfungskonzeptoren, die ihre ersten praktischen Erfahrungen als Prüfer sammeln, wertvolle Hinweise enthalten, die ebenfalls auch jenseits des UNIcert®-Kontextes Gültigkeit besitzen.

In einem eigenen Beitrag (Tinnefeld (2010a: 169ff) wird die Relevanz ausgewählter Aufgabentypen im Bereich Leseverstehen untersucht. Auf der Basis der dort angestellten Reflexionen ergibt sich, dass die Aufgabentypen Multiple-Choice und Antwortmatrix kaum oder gar nicht empfehlenswert sind (Tinnefeld 2010a: 178f; vgl. hierzu auch Kap. 7.2.1.1 und 7.2.1.3).

Duttlinger (2010) beschreibt in zwei separaten Beiträgen die UNIcert®-Prüfungen zum Hörverstehen (181ff) und zum Leseverstehen (187ff) und geht darin ebenfalls auf prüfungsdidaktische Gesichtspunkte ein, die vom UNIcert®-Kontext aus auf allgemeine Fremdsprachenprüfungen zu diesen beiden Fertigkeiten generalisierbar sind.

Wenn das zweite UNIcert®-Handbuch leider auch nicht den wirklich aktuellen state of the art des Konzeptes darstellt, so werden doch die Fortschritte deutlich, die in den vergangenen Jahren in diesem Kontext erzielt worden sind.

Insgesamt stellt UNIcert® eine Kombination aus Zertifizierungs-, Ausbildungs- und Curriculuminstanz dar, die - in Anerkennung der prinzipiellen Organisations- und Planungsfreiheit der einzelnen universitären Einrichtungen - in Form einer Dachorganisation mit beratender und begleitend-überwachender Funktion fungiert. UNIcert® hat sich seit seiner Entstehung kontinuierlich weiterentwickelt und immer mehr vervollkommnet, auch wenn zum gegenwärtigen Zeitpunkt noch recht viel Verbesserungsarbeit zu tun bleibt. Insbesondere wird es von Nöten sein, die im Rahmen dieses Ansatzes aufgestellten Prinzipien empirisch abzusichern, was in vielen Fällen bisher nicht erfolgt ist. Dennoch hat die Schaffung dieses Konzeptes viel Bewegung in die universitäre Fremdsprachenausbildung für Hörer aller Fachbereiche gebracht, wodurch ihm eine erhebliche Innovationkraft zukam und ihm auch in Zukunft mit hoher Wahrscheinlichkeit ein beachtliches Innovationspotential inhärent sein wird.

1.4.4 Sprachstandsprüfungen (Proficiency Tests)

Obwohl Sprachstandstests, wie zum Englischen beispielsweise die Tests TOEFL, TOEIC, und IELTS sowie für das Französische der DELF / DALF, nicht im eigentlichen Sinne Gegenstand dieser Monographie sind, sei in dem vorliegenden Rahmen kurz auf sie eingegangen, da ihre Erforschung ein erhellendes Licht auf die gesamte Forschungslage zur Prüfungsdidaktik zu werfen vermag. Die Behandlung der eigentlichen Tests in der vorliegenden Publikation wäre hingegen zu umfangreich und würde lediglich den Blick auf die im Zentrum stehenden Gesichtspunkte verstellen. Ebenso gilt, dass auch bei Erwähnung der für diese Tests existierenden Forschungsliteratur ob ihrer Fülle in keiner Weise Vollständigkeit angestrebt werden kann. Hier kann es lediglich darum gehen, einige wesentliche Gesichtspunkte herauszugreifen, die für die Prüfungsdidaktik von Interesse sein können. Dies geschieht im Folgenden anhand der einzelnen abgeprüften Sprachen.

1.4.4.1 Englisch

Im Bereich des Englischen sei zunächst kurz auf den TOEFL-Test eingegangen. Der TOEFL[18]-Test ist sicherlich diejenige Sprachstandsprüfung, die ob ihres hohen Standardisierungsgrades über einen langen Zeitraum hinweg Vorbildcharakter hatte. Im Zusammenhang mit der Prüfungsdidaktik ist der generelle Wechsel in der Ausrichtung des Tests von den früheren, weitgehend fertigkeitsorientierten TOEFL CBT (computer-based test; bis 2006) und TOEFL PBT (paper-based test) zu dem an Sprachverwendungs-situationen orientierten TOEFL iBT (Internet-based Test; ab 2008) von Bedeutung. Für die Prüfungen selbst bedeutete dies eine Abkehr von weitgehend unverbundenen Aufgaben und eine Hinwendung zu komplexen, integrierten Aufgaben zur Lösung von exakt definierten Kommunikationsproblemen (vgl. hierzu auch Dlaska / Krekeler 2009: 22f).

Der IELTS (International English Language Testing System) ist ein internationaler, standardisierter Test zur Prüfung des Sprachstandes im Englischen, in dem alle vier sprachlichen Grundfertigkeiten berücksichtigt werden. Generell existieren zwei Ausprägungen: General Training (z.B. Zulassung zu Sekundarschulen bzw. für Praktika und den Erwerb von Berufserfahrungen im englischsprachigen Ausland) und Academic (Zulassung zum Studium an englischsprachigen Universitäten). Das Testformat ist in der Weise gestaltet, dass das Sprechen und Schreiben, das Hören und Lesen jeweils getrennt voneinander geprüft werden. Der IELTS wird als realitätsnaher Test ausge-wiesen und unterscheidet sich vom TOEFL (iBT) beispielsweise dadurch, dass die Sprechfertigkeit von physisch anwesenden Prüfern getestet und nicht mittels eines Computers abgeprüft wird (vgl. IELTS - English for Interna-tional Opportunity 2010). Eine kritische Analyse des International English Language Testing System (IELTS) nimmt Wallace (1997: 370ff) vor und votiert - zur Vermeidung einer potentiellen Benachteiligung von Prüflingen aus Ländern mit solchen Schreibkulturen, die nicht mit der anglo-amerikanischen Schreibkultur übereinstimmen - für eine Trennung der Prüfungsaufgaben zum Leseverstehen und zur Schreibfertigkeit. Die Verknüpfung oder Trennung der sprachlichen Fertigkeiten in Prüfungen ist ein grundsätzliches Problem, das die Qualität von Prüfungsklausuren erheblich - positiv wie negativ - zu beeinflussen vermag (vgl. auch Kap. 6.1). Eine interessante Studie zum Einfluss des Welt- bzw. Hintergrundwissens der Teilnehmer auf den Erfolg bei Leseverstehenstests legte Clapham (1996) mit Bezug auf IELTS vor. Trotz aller von ihr vorgenommenen Relativierungen und Differenzierungen fand sie - ab einem gegebenen fachlichen Spezifikations-grad der jeweiligen Subtests - durchaus einen Zusammenhang zwischen dem Hintergrundwissen der Prü-flinge einerseits und deren Abschneiden in Leseverstehenstests andererseits (Clapham 1996: 204f).  

1.4.4.2 Französisch

Im Bereich Französisch liegen zu DELF und DALF unterschiedliche Beschreibungen und Analysen vor, die im Folgenden lediglich kurz und schlaglichtartig beleuchtet werden können.

Mit indonesischem Hintergrund beschreiben  Freynet / Nonorat / Maiffrédy (1991: 70ff) DELF (Diplôme d’études en langue française; früher als gemeinsame Prüfung: Diplôme élémentaire de la langue française) und DALF (Diplôme approfondi de langue française) und berichten über ihre positiven Effekte, die unter anderem in einer effizienteren Sprachaneignung des Französischen durch indonesische Studierende sowie in der Verbesserung der Lehre des Französischen in Indonesien liegen.

Die schulische Nutzbarkeit von DELF im deutschen Kontext für Schüler ab Klasse 10 beschreiben Müller / Malz (1997: 28ff).


1.4.4.3 Deutsch als Fremdsprache

Unter den Publikationen zum Bereich Deutsch als Fremdsprache ist sicherlich die Monographie von Hans-Georg Albers und Sibylle Bolton (1995) zum „Testen und Prüfungen in der Grundstufe“ hervorzuheben, in der die Autoren sich nicht nur mit prüfungs- und testtheoretischen Gesichtspunkten auseinandersetzen, sondern darüber hinaus unter prüfungspraktischen Aspekten auch über die deutschen Landesgrenzen hinausblicken.

Bernd Wintermann (1998: 104ff) untersucht die Deutsche Sprachprüfung für den Hochschulzugang (DSH) auf ihre Gütekriterien hin, insbesondere auf dasjenige der Validität, und analysiert sie auf der Vergleichsfolie standardisierter Prüfungen, insbesondere des TOEFL. Auf der Basis dieser Analyse werden die Chancen der Entwicklung des (später in der Tat eingeführten) TestDaF - eines weltweit verwendbaren Sprachtests für Deutsch als Fremdsprache - beleuchtet. Eine vergleichbare Stoßrichtung verfolgt Bickes (1998: 97ff), der - angesichts des unbefriedigenden Charak-ters der DSH und ihrer Umsetzung - eine Zentralisierung des Prüfungsverfahrens fordert, um auf diese Weise zu einer adäquateren Erfüllung der Gütekriterien zu gelangen. Zudem stelle die DSH - als Nachfolgerin der Prüfung zum Nachweis deutscher Sprachkenntnisse (PNdS) - keine wirkliche Verbesserung der Sprachtestsituation für DaF dar. Anhand der im Fach Deutsch als Fremdsprache vorgenommenen Anstrengungen, die PNdS weiterzuentwickeln, deren Ergebnis die DSH war, dann von der ihrerseits unbefriedigenden DSH wegzukommen, um einen zuverlässigeren und allgemein befriedigenderen Sprachtest für DaF einzuführen, wird deutlich, wie sehr es allgemein vonnöten ist, gegebene Test- und Prüfungsverfahren immer wieder zu hinterfragen, sie ständig zu verbessern und sie permanent an die sich verändernden äußeren Rahmenbedingungen anzupassen und zu aktualisieren.

Die gegenwärtig neueste Entwicklung des Testens im Bereich Deutsch als Fremdsprache stellt der, im Jahre 1998 vom Deutschen Akademischen Austauschdienst initiierte (vgl. Projektgruppe TestDaF 2000: 64) und von der Fernuniversität Hagen zusammen mit dem Seminar für Sprachlehrforschung der Universität Bochum und vom Goethe-Institut zusammen mit den Carl-Duisberg Centren entwickelte TestDaF dar. Dieser kann wie folgt definiert werden:
TestDaF (Test Deutsch als Fremdsprache) ist eine Prüfung für ausländische Studien-bewerber, die ihr Studium in Deutschland aufnehmen bzw. ein bereits im Heimatland begonnenes Studium in Deutschland weiterführen möchten. Er ist damit in seiner Funk-tion vergleichbar mit dem IELTS (International English Language Testing System) und mit dem TOEFL (Test of English as a Foreign Language) - den beiden bedeutendsten inter-nationalen Sprachtests für den Zugang zu englischsprachigen Universitäten und Institu-tionen. (Projektgruppe TestDaF 2000: 63f)
In dieser Publikation werden unter anderem die politischen Zielvorstellungen (ibid: 65), die methodischen Prinzipien (ibid: 65ff) und das Format (ibid: 67ff) des TestDaf beschrieben. Wichtige Aspekte zum TestDaf, dessen Niveaustufen mit dem Gemeinsamen europäischen Referenzrahmen  harmonisiert sind[19], ergeben sich zudem aus Bolton (2000), in deren Sammelband unter anderem unterschiedliche Zulassungsprüfungen für ausländische Studierende und verschiedene Ansätze zur Testung der sprachlichen Fertigkeiten vorgestellt werden[20].

Mit allgemeinen Aspekten des TestDaF beschäftigt sich Althaus (2004); Arras/Grotjahn (2002) und (2003) beschreiben die zum damaligen Zeitpunkt aktuellen Entwicklungen, von denen die bis dato neueste die Umstellung auf einen Computer-Test war. Arras (2012: 137ff) beschreibt eine im Jahre 2011 zur Überprüfung der Validität des TestDaf durchgeführte empirische Studie. Die Ergebnisse dieser Studie bestätigten die Validität und die weitgehende Adäquatheit des Tests, auch wenn in Zukunft mehr Wert einerseits auf die Berücksichtigung der modernen Kommunikations- (E-Mail) und Vortragsformen (PowerPoint) gelegt und andererseits komplexen Formen der Informationsverarbeitung - beispielsweise bei der Rezeption wissenschaftlicher Literatur -, die in Komplementarität zu dem dazu notwendigen sprachlichen Wissen und Können stehen, Raum gegeben werden sollte.

Im Folgenden sei im Hinblick auf den TestDaf noch auf einige Einzelaspekte eingegangen. So untersucht Eckes (2003: 43ff) Aspekte der Qualitätssicherung und schätzt den TestDaF aus dieser Perspektive zusammenfassend wie folgt ein:
Der Schwerpunkt der testmethodischen Analysen von TestDaF-Daten liegt auf Modellen, die sich aus der Item-Response-Theorie ableiten. Erst die verschiedenen Rasch-Modelle, die beim TestDaF routinemäßig zum Einsatz kommen, können mit hinreichender Genauigkeit Fehler und Schwächen in neu erstellten Aufgabensammlungen identifizieren und diese einer fundierten Revision zuführen (…). Die hohe Flexibilität von IRT-Modellen ist es auch, die sie zu einem besonders geeigneten Instrument zur Herstellung von Testäquivalenz macht. Äquivalenz unterschiedlicher TestDaF-Prüfungen stellt eine stabile, der Fähigkeit der Pbn (Probanden; T.T.) entsprechende Zuordnung zu TestDaF-Niveaustufen sicher. (Eckes 2003: 64f)
Ebenfalls Eckes (2004: 485ff) beschäftigt sich mit Blick auf den TestDaF mit der Strenge von Beurteilern und gibt eine statistisch-operationale Definition von Strenge und Milde. Für unseren Zusammenhang an dieser Stelle noch wichtiger als seine eigentlichen Ergebnisse sind die Feststellungen, die Eckes hinsichtlich der in Zukunft zu berücksichtigenden Forschungsdesiderata trifft:
Eine andere Perspektive betrifft die Notwendigkeit, die angewandte Forschung im Bereich der Leistungsbeurteilung zu intensivieren. Es ist für empirische Forschung geradezu typisch, dass sie insbesondere in einem frühen Stadium mehr Fragen aufwirft, als sie Antworten zu geben in der Lage ist. Ein im Kontext der Multifacetten-Rasch-Analyse noch relativ wenig erforschtes Gebiet betrifft die Beurteilerstrenge. (Eckes 2004: 514)
In diesem Bereich der Beurteilerstrenge im Rahmen der Multifacetten-Rasch-Analyse wird in naher Zukunft unbedingt Arbeit zu leisten sein, aber auch in dem folgenden Bereich:
Schließlich ist zu beachten, dass die Tendenz zur Strenge bzw. Milde nicht die einzige Urteilstendenz ist, die mangelnde Übereinstimmung nach sich ziehen kann. Andere, oft beschriebene (und hier nur kurz wiederzugebende) Urteilstendenzen sind die Zentraltendenz, die Extremtendenz und der Halo-Effekt. 
Die Zentraltendenz (oder Tendenz zur Mitte) betrifft die Neigung, die mittleren Kategorien einer mehrstufigen Ratingskala bevorzugt zu verwenden bzw. die extremen Kategorien zu vermeiden. Umgekehrt wird mit der Extremtendenz die Neigung beschrieben, gehäuft extreme Urteilskategorien zu verwenden. Unter einem Halo-Effekt ist die Tendenz zu verstehen, Einstufungen auf unterschiedlichen Merkmalen von einem ganz bestimmten Urteil (z.B. von einer positiven oder negativen Gesamtbewertung einer Person oder eines hervorstechenden Merkmals der Person) leiten zu lassen. In der Literatur finden sich zwar Vorschläge, auch diese Urteilstendenzen im Rahmen von Multifacetten-Rasch Analysen zu identifizieren bzw. zu kontrollieren (Engelhard, 1994; Wolfe/Chiu/Myford, 2000), doch die Forschung hierzu steckt noch in den Anfängen. (Eckes 2004: 514f)
Hier gelangen wir in Bereiche, die für Prüfungen allgemein - nicht nur für Sprachprüfungen - von Bedeutung sind und die durchaus in die Psychologie hineinreichen.

Insgesamt ist aus diesen Ausführungen zum TestDaF, die lediglich einige neuere Publikationen zu diesem Bereich darstellen, deutlich geworden, dass die Entwicklung dieses Tests bzw. Testtyps die zu Prüfungen im Allgemeinen durchgeführte Forschung vorangebracht hat[21].

1.4.5 Volkshochschul-Prüfungen

Publikationen zu an Volkshochschulen abgehaltenen Prüfungen beschäftigen sich in erster Linie mit den an dieser Institution zu erwerbenden Zertifikaten. So stellt das vom deutschen Volkshochschulverband (1984) herausgegebene Werk „Certificate in English“ umfassende Informationen für interessierte Lerner bereit, die sich dieser Zertifikatsprüfung unterziehen wollen, und geht dabei so weit, nicht nur die vier grundlegenden sprachlichen Fertigkeiten hinsichtlich der in ihrem Rahmen zu erfüllenden Lernziele zu beschreiben, sondern darüber hinaus gezielt zu lernendes sprachliches Material bereitzustellen.

Rübeling (1996: 99ff) beschreibt die Geschichte der ICC Certificates - wobei die Abkürzung ICC für die im Jahre 1974 durch die Volkshochschulverbände Deutschlands, der Schweiz, Österreichs und der Niederlande gegründeten  International Certificate Conference steht -, die im Jahre der Veröffentlichung des Aufsatzes das Zertifikatssystem zwölf wichtiger europäischer Weiterbildungsorganisationen darstellten. Rübeling dokumentiert auf diese Weise die beachtlichen Fortschritte, die in den vergangenen Jahrzehnten auch auf dieser Ebene hinsichtlich der Prüfung und Zertifizierung von Fremdsprachenleistungen gemacht worden sind.  Kiefer / Techmann (1998: 40f) beschreiben die Neufassung der Prüfung und der Beschreibung der Lernziele dieses Zertifikatstyps.

Interessante Einsichten vermittelt Seibold (1994: 204ff) anhand seiner Beschreibung des bayerischen VHS-Zertifikats zum einen und insbesondere in seiner Schlussfolgerung zum anderen, nach der Prüfungen mit höheren Anforderungen für mögliche Adressaten interessanter seien, da diese Abschlüsse dann mit mehr Qualifikationspotential auf nationaler und auf internationaler Ebene versehen wären.

Ein Gedanke, der auch dem Gedankengut von UNIcert® (vgl. Kap. 1.4.3) sehr nahe ist, ist derjenige von Schrand (1996: 39f), wonach Zertifikate weniger als Leitlinien für die jeweiligen Prüfungen, die zum Erwerb dieser führen, gesehen werden sollten, sondern vielmehr als Orientierungsgröße für die jeweiligen, auf diese Prüfungen vorbereitenden Lehrveranstaltungen. Dieser Aspekt ist in der Weise von Bedeutung, dass eine Prüfung, wenn sie in diesem Sinne verstanden wird, über sich hinaus weist, dem Prüfling - und Lerner (!) - mehr Chancen und Freiräume für intrinsische Motivation einräumt und auf diese Weise den gewünschten formalen Nachweis über Fremdsprachenkenntnisse - das Zeugnis oder Zertifikat selbst - mit sinnvollem Lernen und der Vermittl-ung von intellektuellen, (inter)kulturellen und selbstreflektorischen Erkenntnissen verknüpft.


1.4.6 Weitere Prüfungstypen

Zusätzlich zu den hier behandelten proficiency tests existieren Prüfungsformen dieses Typs, die ungleich weniger bekannt sind. Auf diese soll im Folgenden kurz eingegangen werden, um das Bewusstsein der Forschung auch mit Blick auf diese zu dokumentieren.

So untersucht Henning (1992: 365ff) das vom American Council on the Teaching of Foreign Languages seit 1982 durchgeführte Oral Proficiency Interview (OPI), das nie wirklich unumstritten war, auf seine Validität hin und auf den Wert seiner Richtlinien hinsichtlich zukünftiger Planungen von Sprachtests.

Zu den weniger bekannten Prüfungstypen gehört sicherlich auch das so genannte SEFIC (Spoken English for Industry and Commerce), das jedoch im Wirtschaftsleben durchaus von Nutzen sein kann. Robert Kleinschroth (1991: 199ff) greift diesen Typ auf und beschreibt die Vorbereitung von Gymnasiasten auf die Prüfung sowie deren Ablegung dieser und leistet hierdurch einen Beitrag zu der weitergehenden Motivierung von Lehrern, Ihre Schüler auf diese Prüfung hinzuführen.

Mit dem fachsprachlichen Testen[22] beschäftigt sich Douglas (2000). In diesem Bereich bestehen für die Erstellung von Tests die gleichen Probleme wie für die Unterrichtung von Fachsprache: Lehrende, die Fachsprachen unterrichten, wissen oft nicht genug über die Hintergründe des der jeweiligen Fachsprache zu Grunde liegenden Faches, wenn sie selbst aus dem Bereich des Fremdsprachenlehrens und -lernens kommen. So wissen auch Testkonzeptoren oft nicht genug über das jeweilige Fach, für das sie einen Test erstellen - ein Problem, auf das Douglas verweist. Als Kompensationsstrategie ergibt sich unter anderem die Expertenbefragung. Die Hauptschwierigkeit bei der eigentlichen Testerstellung stellt sich für Douglas wie folgt dar: 
The most difficult aspect of producing test specifications is making the leap from the analysis of the target language use tasks to the specifications of test tasks. (Douglas 2000: 113)
Unter den verschiedenen, im Bereich des fachsprachlichen Testens bisher noch ungelösten Problemen benennt Douglas eines, das - dies sei hier bemerkt - auf jegliches Sprachtesten bezogen werden kann:
The very nature of the LSP testing enterprise means that there will always and inevitably be a reduction in the dynamic interplay between the test taker and the characteristics of the test task, because a test is, by definition, a controlled and contrived environment. (Douglas 2000: 278) 
Dieses Problem ist jedoch im Bereich des fachsprachlichen Testens naturgemäß noch gravierender als im Bereich des gemeinsprachlichen Testens, da die generelle Situationsgebundenheit und Kommunikativität der Fachsprachen eine - auch für das Testen - noch größere Rolle spielt, als dies im Bereich der Gemeinsprache der Fall ist (vgl. hierzu auch Tinnefeld 1993: 49ff).

Dem Zertifikat „Fachsprache Wirtschaft“ - ebenfalls einer Prüfung mit fachsprachlicher Ausrichtung - widmet sich Bolten (1997: 530ff) und beschäftigt sich mit den Richtlinien für dessen Erwerb wie auch mit bis dato verfügbaren Materialien für die Vorbereitung und Durchführung des Zertifikats an der Friedrich-Schiller-Universität Jena. Das Zertifikat ermöglicht die Realisierung vergleichbarer Fremdsprachenprüfungen im Bereich der wirtschaftlichen Fachsprache an verschiedenen Universitäten in unterschiedlichen Bundesländern. 

Nicht zu vergessen sind auch die von den Industrie- und Handelskammern durchgeführten Prüfungen, nicht zuletzt diejenigen, die auf europäischer Ebene durchgeführt werden und das Ergebnis internationaler Kooperation darstellen. So stellt Klause (1996: 73ff) das aus der Zusammenarbeit zwischen dem DIHT, der Industrie- und Handelskammer von Paris und der Royal Society of Arts hervorgegangene, erste Europäische Diplom für Wirtschaft und Verwaltung / Sekretariat vor, in dessen Rahmen eine Qualifikation in zwei Fremdsprachen auf dem Hintergrund entsprechender Fachkenntnisse (europäisches Wirtschaftsrecht, Steuer- und Finanzsysteme der für die jeweiligen Fremdsprachen relevanten Länder, Funktionen und Aufbau der EU) erworben wird.

Ruth Feiertag (1997) beschäftigt sich in ihrem, in zwei Teilen erschienenen Aufsatz mit Grammatik-, Stil- und Wortschatzproblemen, die in wirtschaftsorientierten IHK-Übersetzungsprüfungen Englisch / Deutsch zutage treten, und legt somit eine praxisnahe Analyse des Spannungsfeldes vor, das zwischen der sprachlichen Realität einerseits und der Realität von Fremdsprachenprüfungen andererseits besteht.

Zusammenfassend lässt sich der hier beschriebene Bereich der umfassenden Prüfungstypen optisch wie folgt darstellen:
   Abb. 4: Der Forschungsbereich Umfassende Prüfungstypen

1.5 Mündliche Prüfungen  

Mündliche Prüfungen sind bisher unter den verschiedensten Gesichtspunkten und für unterschiedliche Sprachen untersucht worden. Dies kann durch die folgenden Publikationen, die im Laufe der Jahre erschienen sind, dokumentiert werden.

Die Grundproblematik mündlicher Prüfungen liegt sicherlich in ihrem ephemeren Charakter, durch den die Leistungsbewertung bei diesem Prüfungstyp besonderen Schwierigkeiten unterworfen ist. Eine dieser Schwierigkeiten besteht darin, dass mündliche Prüfer zugleich Bewerter sind, was die Objektivität der Notengebung beinträchtigen kann, da diese komplexe Situation die Konzentration der Prüfer in zweifacher Weise beansprucht: Zum einen müssen sie das Prüfungsgespräch in Gang halten und adäquate Fragen stellen, zum anderen jedoch Distanz zum Geschehen aufbauen, um die Leistungen des Prüflings bzw. der Prüflinge zuverlässig beurteilen zu können. Hinsichtlich dieser Problematik macht Lutz (1993: 69ff) einen wichtigen Vorschlag, indem er fordert, beide Rollen zu separieren, also den Gesprächspartner des Prüflings nicht mit dem Bewerter von dessen Leistung identisch sein zu lassen, was aus seiner Sicht durch eine entsprechende Zusammenarbeit der Prüfer geschehen kann.

Einen Übersichtsartikel zu diesem Prüfungstyp liefert Tschirner (2001: 87ff) und stellt diejenigen Elemente dar, die für die Konzeption mündlicher Leistungstests von Relevanz sind. Von besonderem theoretischen Interesse ist für ihn dabei die Konstruktvalidität. Von praktischem Interesse sind seine Analysen der mündlichen Teile bestehender Sprachtests zum Deutschen, wie des Zertifikats Deutsch, der einschlägigen, vom Goethe-Institut entwickelten Tests sowie des Oral Proficiency Interview des ACTFL (American Council on the Teaching of Foreign Languages).

Gewichtete „Beurteilungskriterien für mündliche Prüfungen“ entwickelt Jung in seinem gleichnamigen Aufsatz (1995: 26ff) und orientiert sie an der kommunikativen Ausrichtung dieses Prüfungstyps. Dabei verfolgt er das Ziel, zu einer gerechteren, adäquateren Benotung der von den Prüflingen erbrachten Leistungen beizutragen. Eine in diesem Zusammenhang interessante, in der Forschungsliteratur aufgeworfene Frage ist diejenige, ob eine mündliche Sprachprüfung vergleichbar sei mit einem „normalen“ Gespräch. So fand Lazaraton (1992: 373ff) deutliche Konvergenzen zwischen beiden, aber auch erhebliche Divergenzen. Ein Forschungsdesiderat der Prüfungsdidaktik wird darin bestehen, diese Frage weiter zu untersuchen.

Mit Blick auf die damals „neuen Europäischen Sprachenzertifikate“, über deren modifizierte Teile er eine Übersicht liefert, beschäftigt sich von der Handt (1999: 110ff) primär mit den in diesem Rahmen durchgeführten mündlichen Prüfungen, die aus seiner Sicht nach ihrer Revision eine größere Realitätsnähe aufweisen, was eine Verbesserung darstelle. Die sich in die-sem Zusammenhang aufdrängende Problematik - dies sei hier angefügt - ist diejenige, wie realistisch und realitätsnah Prüfungen im Allgemeinen und mündliche Prüfungen im Besonderen sein können. Ist Realitätsnähe immer positiv zu bewerten? Kann es vorteilhaft sein, mündliche Prüfungen stärker zu standardisieren – sie also weniger spontan, somit „künstlicher“ zu gestalten -, sie dadurch jedoch zuverlässiger werden zu lassen? Dies sind Fragen, die ein zentrales Dilemma der Prüfungsplanung und Prüfungsgestaltung berühren.

Anregungen für die optimierte Bewältigung der mündlichen Prüfung in der Abiturprüfung Englisch gibt Altvater (1997:134ff), indem er im Englischunterricht verwendbare Einzel- und Gruppenübungen vorstellt, die der Simulation und Antizipation der Prüfungssituation dienen sollen. In der Zukunft wird es von Bedeutung sein zu erforschen, ob und inwieweit Vorschläge wie die von Altvater gemachten wirklich zu einer Verbesserung des Prüfungsverhaltens einerseits und der erzielten Ergebnisse andererseits führen können. 

Dem Russischunterricht der ehemaligen DDR widmet sich Klaus Günther (1985: 179ff), der im Hinblick auf die mündliche Prüfung deren situative Einbettung als bedeutsam behandelt - eine Erkenntnis, die nicht hoch genug eingeschätzt werden kann.

Ein interessanter Ansatz besteht darin, mündliche Prüfungen nicht in einer face-to-face Situation durchzuführen, sondern - mit Hilfe der modernen technischen Medien - als eine Prüfung auf Distanz, wobei Prüfer und Prüfling zwar zur gleichen Zeit miteinander interagieren, sich jedoch nicht an demselben Ort befinden. Diese Art der Abnahme mündlicher Prüfungen erhöht zwar die geographische Flexibilität der Interaktanten erheblich, bringt jedoch potentiell Probleme juristischer Art mit sich und solche, die zu einer Verfälschung der Ergebnisse im Vergleich zu herkömmlich durchgeführten mündlichen Prüfungen führen können. Nach den bisherigen Erkenntnissen scheint die Verlässlichkeit dieser mit Hilfe des Computers auf Distanz durchgeführten mündlichen Prüfungen den face-to-face Prüfungen jedoch im Wesentlichen vergleichbar zu sein (vgl. Clark / Hooshmand 1992: 293ff). Dennoch kann nach unserem Verständnis diese Form der Prüfungsabnahme nicht mehr als eine - jedoch ernst zu nehmende - Notlösung sein.

Ein spezifischer Gesichtspunkt mündlicher Fremdsprachenprüfungen besteht sicherlich in der Problematik, wie die Aussprache der Kandidaten zu prüfen und zu bewerten sei, zumal diese gleichsam das „Kleid“ darstellt, in dem ein Lerner die jeweilige Fremdsprache präsentiert. Für den Bereich Deutsch als Fremdsprache hat Mebus (1995: 26ff) sich hierzu Gedanken gemacht und diskutiert mögliche Lösungen dieser Frage.

In der graphischen Darstellung zu diesem Prüfungstyp ergibt sich insgesamt folgendes Bild:
   Abb. 5: Forschungsfelder im Bereich Mündliche Prüfungen


1.6 Prüfungsaufgaben und Aufgabentypen

Prüfungsaufgaben und Aufgabentypen werden in der Literatur im Vergleich zu den übrigen, hier untersuchten Aspekten eher punktuell und weniger häufig beschrieben - wenn jedoch, dann tendenziell umfassend und detailliert. Dies trifft auf Doyé (1986 und 1988) zu, der jeweils eine Testaufgaben-Typologie für Englisch und Deutsch als Fremdsprache vorgelegt und mit diesen Publikationen einen wichtigen Beitrag auf diesem Gebiet geleistet hat. Das Verdienst beider Monographien liegt - neben der theoretischen Fundierung des Gegenstandsbereiches - sowohl in dem Rückmeldungspotential der vorgestellten Aufgabentypen für den Lehrer und den Erfolg seiner unterrichtlichen Bemühungen als auch in der Systematizität der vorgestellten Prüfungsaufgaben hinsichtlich ihrer Form und Funktion und ihrer damit verbundenen Bedeutung für die einzelnen sprachlichen Fertigkeiten.


Eine reichhaltige Sammlung von Vorschlägen und Aufgaben(typen) für eine kreative Bewertung von Schülern und ihren Leistungen, die neue Wege aufzeigt und Lehrern helfen will, eingefahrene Bahnen zu verlassen, bietet Brown (1998). Der von ihm vorgelegte Band macht deutlich, dass Leistungsbewertung im schulischen Kontext eine für Lehrer - und Schüler - interessante und anregende Angelegenheit sein kann. In Aufsatzform hat sich beispielsweise Sacher (1999: 43ff) zu diesem Bereich geäußert und dabei die Vor- und Nachteile unterschiedlicher Prüfungsaufgaben herausgearbeitet, wobei er auf die Bedeutung von Aspekten wie deren Breite, deren sprachliche Fassung oder auch deren Abfolge zueinander verweist. Diese Ausführungen sind ein Hinweis darauf, mit welch akribischer Sorgfalt Prüfungsaufgaben gestellt sowie Klausuren und Tests konzipiert werden müssen, soll die entsprechende Leistungsmessung erfolgreich und zuverlässig vonstatten gehen.

Ein heftig kritisierter Aufgabentyp ist derjenige der Übersetzung, dem als wesentliches Manko mangelnde Validität vorgeworfen wird. So ist Götz (2005) uneingeschränkt zuzustimmen, wenn er im Hinblick auf die Herübersetzung schreibt:

Bei der Übersetzung aus der Fremdsprache in die Muttersprache sehen die didaktischen Überlegungen etwas anders aus.
Diese Übersetzung wird oft als Test dafür eingesetzt, ob der Text "verstanden" wurde. Allerdings handelt es sich dabei um eine Testform, die man als nicht valide oder als kaum valide bezeichnen muss, d.h., sie testet nicht, was sie zu testen vorgibt. Das „Verständnis" des Textes ist in den vorangehenden Kapiteln ausführlich problematisiert worden, und demzufolge müssen bei der Korrektur Abstriche gemacht werden (fragt sich nur, welche). Zufällige Lücken in der Sachkenntnis können vorhanden sein - wie sind sie einzukalkulieren? Es gibt auch Texte, deren Verständnis, wie man sagt, an einem Wort hängt: Wenn ein Text z.B. von subscription 'Abonnement' handelt und subscription aber als 'Beitrag, Artikel' interpretiert wird, dann sind falsche Folgeinterpretationen im gesamten Text wahrscheinlich. Ist dies dann ein einziger Fehler, mit lässlichen Folgefehlern, oder ist damit der gesamte Text "nicht verstanden"?
Wenn man das Verständnis an der resultierenden Übersetzung misst, misst man es an einem deutschen Text - und dabei ist es kein Wunder, wenn Schüler mit schlechten Noten in Deutsch bei solchen Übungen ebenfalls schlecht abschneiden. Es muss ihnen nicht unbedingt am Verständnis mangeln, möglicherweise liegen grundsätzliche Probleme bei der Textproduktion vor. Damit mangelt es der englisch-deutschen Übersetzung, als Testform für das Verständnis von Texten, an Validität. (Götz 2005: 81f)

Ein weiteres Beispiel sind die von Vogel (1995: 358f) vorgelegten, kurzen, jedoch den Kern der Problematik treffenden Reflexionen zur Herübersetzung, der er u. a. ein generelles Benotungsproblem sowie letztendlich eine Testung der Muttersprache - nicht der Fremdsprache - attestiert.

Eine umfassende Darstellung der Testung von Wortschatz repräsentiert die Monographie von Read (2000), der - nach der Behandlung einführender Aspekte - den state of the art in unterschiedlicher Hinsicht behandelt: in forschungsspezifischer Sicht (Kap. 3 und 4), mit Blick auf konkrete Fallstudien (Kap 5), mit Bezug auf das Design spezifischer Wortschatztests (Kap. 6) sowie in umfassender Testung (Kap. 7) und somit unterschiedliche Zielgruppen vom Studenten bis zum Testforscher anspricht. Dieser breite Ansatz ist eines der Hauptverdienste der Monographie. Ein anderes ist ihre Forschungsorientierung. Im Rahmen dieser wird gleich zu Beginn die Entwicklung zur modernen Testung von Wortschatz beschrieben, wobei letztere sich wie folgt darstellen lässt:
Today’s language proficiency tests do not set out to determine whether learners know the meaning of magazine or put on or approximate; whether they can get the sequence of tenses right in conditional sentences; or whether they can distinguish ship and sheep. Instead, the tests are based on tasks simulating communication activities that the learners are likely to be engaged in outside of the classroom. (Read 2000: 4)
Und etwas später fährt er resümierend fort:
The test-takers are judged on how adequately they meet the overall language demands of the task. (Read 2000: 4)
Nicht zuletzt diese Entwicklung hin zu kommunikativ orientierten Tests lässt die intensive Beschäftigung mit dem Testen von Wortschatz interessant erscheinen. Es wird hier deutlich, dass die Testung von Teilbereichen der Sprache vergleichbaren Veränderungen unterworfen war und ist, wie dies für die umfassende Testung von Sprache gilt. Ohne die inhaltliche Breite der vorliegenden Monographie hierdurch einengen zu wollen, sei an dieser Stelle hinzugefügt, dass es in den Teilbereichen der Sprache lediglich noch schwieriger ist, ein akzeptables Gleichgewicht zwischen der Validität der Tests und den Ansprüchen an die gewünschte Realitätsnähe der Testaufgaben herzustellen.

Eine die Theorie und Praxis wie auch die Forschung zur Testung des fremdsprachlichen Leseverstehens behandelnde Monographie hat Alderson (2000) vorgelegt. Darin beschreibt er nicht nur die psychologischen, sozialen und kognitiven Faktoren, die beim Lesen eine Rolle spielen, sondern zudem in detaillierter Form die Beziehungen, die zwischen dem Lesen einerseits und der Erstellung von Sprachtests und Beurteilungsverfahren andererseits bestehen. Für die Gründlichkeit seines Beschreibungs- und Analyseansatzes spricht, dass er sich des diffizilen, bisweilen an die Grenzen des Unmöglichen heranreichenden Charakters der Testung des Leseverstehens bewusst ist:
How can we possibly test whether somebody has understood a text if we do not know what we mean by ‚understand’? How can we possibly diagnose somebody’s ‚reading problems’ if we have no idea what might constitute a problem, and what the possible ‚causes’ might be? How can we possibly decide on what ‚level’ a reader is ‚at’ if we have no idea what ‚levels of reading’ might exist, and what it means to be ‚reading at a particular level’? In short, those who need to test reading clearly need to develop some idea of what reading is, and yet that is an enourmous task. (Alderson 2000: 2)
Die hier aufgezeigten Probleme scheinen nahezu unlösbar, zumal wir nicht einmal in einer für die Testung des Leseverstehens auswertbaren Form wissen, was im menschlichen Gehirn vorgeht - ein Gesichtspunkt, den Alderson hier nicht benennt und der das geschilderte Problem geradezu potenziert. So verwundert es nicht, wenn die von ihm in Betracht gezogene Lösung eine recht bescheidene ist:
The consolation, however, is that by designing admittedly imperfect tests, we are then enabled to study the nature of the tests and the abilities that appear to be being measured by those tests. This will in turn hopefully lead to a better understanding of what one has assessed, which should feed back into theory, and further research. Thus by doing testing, provided that we research what we design, we can contribute to a growing understanding of the construct. (Alderson 2000: 2)
Hier soll auf der Basis dieser Zitate keineswegs Kritik an Alderson geübt werden. Es soll vielmehr aufgezeigt werden, wie viel - trotz aller bisher geleisteten, nicht selten herausragenden Forschung - noch zu tun ist, bis wir auch nur in die Nähe der wirklich befriedigenden Testung der einzelnen sprachlichen Fertigkeiten gelangen. Was hier anhand des Leseverstehens angedeutet worden ist, lässt sich dabei mühelos auf die Testung des Hörverstehens sowie auf diejenige der Schreibfertigkeit und der Sprechfertigkeit übertragen.

Das Problemfeld Prüfungsaufgaben und Aufgabentypen zeigt die folgende Abbildung in graphischer Darstellung:

Abb. 6: Forschungsfelder im Bereich Prüfungsaufgaben und Aufgabentypen


1.7 Einstellungen zum Phänomen Fehler 

Einstellungen zum Fehler im Allgemeinen[23] wie auch zum Sprachfehler im Besonderen wechseln - provokativ formuliert - in vergleichbarer Häufigkeit zu der Veränderung der Perspektive  zu  Fremdsprachenunterricht  und  Sprachvermittlung: Fehler sind in der Geschichte dieser Disziplin in wechselnder Folge als unerfreulich, jedoch unvermeidlich, als unvermeidlich, jedoch verzeihlich, als mit dokumentarischem Wert für das Lernen des Individuums behaftet und sogar als lernförderlich angesehen worden, um an dieser Stelle lediglich einige konträre Einstellungen zu benennen. Der Perspektiven-wechsel der sich diachronisch in der Einstellung zum Phänomen Fehler vollzogen hat, kann an dieser Stelle nicht exhaustiv dokumentiert werden. Unser Bestreben ist es hier lediglich, einige dieser Positionen, wie sie sich in der Forschungsliteratur ergeben (haben), darzustellen, um auf diese Weise die jeweilige Rolle, die dem Fehler im Fremdsprachenunterricht wie auch im Fremdsprachenerwerbsprozess zugeschrieben wird, zu beschreiben. In aller Kürze nachzulesen ist diese Entwicklung von der negativen zur positiven Einschätzung von Fehlern bei Knapp-Potthoff (1987: 205ff), die sie, ausgehend vom behavioristischen über den kommunikativen Ansatz Piephos bis hin zu Chomskys Theorie der creative construction nachzeichnet. Nur eine differenzierte Einstellung zum Phänomen Fehler, die dann jedoch nicht nur auf theoretischer Ebene, sondern auch im alltäglichen Fremdsprachenunterricht zum Ausdruck kommen muss, kann somit adäquat sein[24]. In der wissenschaftlichen Literatur ist sogar so weit gegangen worden, die Ersetzung des Begriffs ‚error (Fehler)’ durch ‚linguistic deviation (sprachliche Abweichung)’ zu fordern (Gnutzmann 1987: 221ff), was dem Begriff zweifellos die ihm inhärente negative Konnotation nehmen würde und das Phänomen auf diese Weise einer neutralen Sichtweise zuführen könnte. Dieser Ansatz ist - obwohl bereits vor zwei Jahrzehnten gefordert und nicht allgemein aufgegriffen - in der Tat ein konsequenter und auch vielversprechender, da negative Begriffe negative Vorstellungen induzieren und die Zeit inzwischen gekommen zu sein scheint, die immer positiver gewordene Einstellung zu Fehlern auch sprachlich zu reflektieren.

Eine in diesem Sinne neutrale Darstellung des Phänomens liefert James (1998), der sich umfassend mit dem Phänomen Fehler beschäftigt. Für uns interessant ist im gegebenen Zusammenhang das Faktum, dass er die Fehlerdefinition auf der Basis der vier Kategorien grammaticality, acceptability, correctness and strangeness vornimmt und auf diese Weise weder dem kompetenzorientierten noch dem performanzorientierten Ansatz das Wort redet. Damit entscheidet James sich zwar nicht für einen der beiden Beschreibungsansätze, was kritisiert werden könnte, er zwängt sich mit dieser ausgeglichenen Sichtweise jedoch auch nicht in ein deskriptives Korsett, was ihm viel Analysefreiheit gibt und daher positiv zu sehen ist. Das Phänomen Fehler wird somit einer möglichst objektiven Beschreibungsebene zugeführt und kann dann - was James auch tut - anhand aussagekräftiger Beispiele wertfrei sowie sprach- und situationsrelevant analysiert werden.

Auf die zwischen dem großzügigen Umgang mit Fehlern im kommunikativ orientierten Fremdsprachenunterricht und der oft unflexiblen und strengen Bewertung von Fehlern in Prüfungen und Tests herrschende Widersprüchlichkeit und das damit verbundene, grundsätzliche Dilemma, in dem eine großzügigere Bewertung der Leistungen von Prüflingen die angelegten Maßstäbe infrage stelle, verweist Bolitho (1995: 61). Folgerichtig fordert er eine neue Evaluation von Prüfungsanforderungen und Prüfungsverfahren - mit dem Ziel einer verbesserten Abstimmung dieser auf den Unterricht und die Behandlung von Fehlern in diesem.

Ausgehend von einem mit Zügen der Toleranz ausgestatteten, präskriptiven Konzept des Phänomens ‚Fehler’ nimmt Gnutzmann (1992: 16ff) die intentional von Muttersprachlern mit dem Ziel humorvoller Aussagen realisierten sprachlichen Abweichungen, wie beispielsweise Wortspiele sie darstellen, und deren zu kreativem Umgang mit ihnen führendes analytisches Verständnis als Basis für die Entstehung von Sprachbewusstsein (language awareness). Dieses Konzept kann in die affektive, soziale, politische, kognitive und die performative Dimension untergliedert werden. Auf die hier angedeutete Weise werden in der Fremdsprache gemachte Fehler konstruktiv umgedeutet, da Muttersprachler sich die Freiheit, sprachliche Abweichungen zu generieren, nehmen, ohne dafür negativ sanktioniert zu werden: Was bei Muttersprachlern humorstiftend und somit kommunikationsfördernd wirkt, kann folglich bei Nichtmuttersprachlern nicht negativ gewertet werden - unter der Voraussetzung jedoch, dass sie die diesem Phänomen zu Grunde liegenden Mechanismen erkennen und entsprechend interpretieren. Diese Interpretation führt zu der allmählichen Entstehung von Sprachbewusstsein, welches beim Fremdsprachenlerner wiederum eine graduelle Verringerung der Produktion genuiner Fehler bewirkt.

Allgemein mehr Toleranz und Gelassenheit im Umgang mit Fehlern - konkret bei der Bewertung von Fehlern in freien Textaufgaben im Französischen - fordert Wernsing (1998: 258ff) und legt ein entsprechendes Programm zur Fehlervermeidung vor, das an Freinets Klassenkorrespondenz angelehnt ist. Den Schülern werden spezielle Techniken der Fehlervermeidung offeriert; von den Lehrern wird gefordert, der Verständlichkeit der Schüleräußerungen bei der Bewertung den Vorrang vor sprachsystematischen Fehlern zu geben. Auch wenn Wernsing Gelassenheit im Umgang mit Fehlern fordert, so kann sein Ansatz nicht darüber hinwegtäuschen, dass Fehler - auch für ihn - ein Phänomen darstellen, dessen Vermeidung seiner fortgesetzten Produktion vorzuziehen ist. Dennoch leistet er einen Beitrag zur „Entdramatisierung“ des Phänomens. 

Für einen spielerischen, gar humorvollen Umgang mit Fehlern - als kreative Leistung und Indiz eines Lernfortschritts - spricht sich Köhring (1987: 259ff) aus und ergänzt seine Reflexionen durch die Beigabe praxisorientierter Materialien. Köhring erkennt zu Recht - dies sei hier bemerkt -, dass es durchaus schädlich sein kann, Sprachfehler mit Missmut und Groll zu behandeln, da sie dadurch zu etwas Schlechtem, etwas den Lerner Herabwürdigendem stilisiert werden. Nimmt man sie dagegen (vermeintlich) leichter und lässt ein gewisses Maß an Humor walten, dann nimmt man ihnen das tragische Element und redefiniert sie zu etwas Natürlichem, Menschlichem, das Leben sowie menschliche Beziehungen Erheiterndem und zuweilen gar Bereicherndem (vgl. hierzu ergänzend auch Krumm 1990).

Fehler allgemein - und auch sprachliche Fehler - können sogar als hilfreich für den Lernprozess angesehen werden, als Lösungsstrategien des Lernenden betrachtet werden und von deren Richtigkeit er auf einem gegebenen Stand seines Lernens ausgeht, wie Wiater (2004: 4ff) dies beschreibt. Es wäre somit nicht adäquat, fehlerhafte Leistungen leichthin als ‚falsch’ einzustufen - sie seien vielmehr Reflex geistiger Prozesse und verweisen auf Hypothesenbildungen des Lerners. Wollte man diese Reflexionen logisch weitertreiben, so könnte man formulieren, dass Fehler erst dann vollkommen vermieden werden könnten, wenn Denken auf Null reduziert würde. Positiv ausgedrückt, bedeutet dies nichts anderes, als dass immer dort Fehler entstehen, wo Reflexionsprozesse einsetzen: Reflexion generiert Fehler, Fehler jedoch speisen die Reflexion auf sachlicher Ebene, und das Streben nach ihrer weitgehenden Vermeidung oder Eliminierung stellt auf psychologischer Ebene eine zentrale motivatorische Komponente dar. In diesem Licht wäre ohne das Phänomen ‚Fehler’ keinerlei menschlicher Fortschritt möglich.  

Für einen personalisierten Ansatz im Umgang mit Fehlern spricht sich Nieweler (2005a: 32ff) aus, der eine individuelle Analyse von Fehlern und eine Entwicklung entsprechender Lösungsstrategien als für ihren Umgang und ihre langfristige Verringerung notwendig erachtet. Die Ermittlung individueller Fehlerquellen kann dabei durch C-Tests erfolgen, für die Korrektur von Fehlern schlägt Nieweler die Verwendung von Fehlerstatistiken und Fehlerkorrekturgittern vor. Diese Reflexionen spiegeln die Veränderungen wider, die in den vergangenen Jahren in der Fremdsprachendidaktik vonstatten gegangen sind und die - in Forschung und Unterricht - den einzelnen Lerner in den Vordergrund stellen und seine Lerngeschichte und seine Lernschwierigkeiten zu dokumentieren versuchen, um auf diese Weise neue Wege zu finden, Lernen zu beschreiben und schließlich zu erleichtern. Einem vergleichbaren Ansatz folgt auch Röbe (1998: 4ff), der - auf die Grundschule bezogen - die Analyse von Fehlern als Basis für die Aufzeigung neuer, individueller Lernmöglichkeiten sieht, um bislang nicht befriedigend Gelerntes zu kompensieren. Der einzelne Schüler wird in seinem sozialen Umfeld beobachtet, und es wird ihm durch das Leben und Lernen mit anderen sowohl eine Stärkung der eigenen Persönlichkeit als auch (soziales) Lernen ermöglicht.

Jedem Schüler sein eigenes Lerntempo und seinen eigenen Lernfortschritt zuzugestehen, kann sein Lernen und seine persönliche Entwicklung auf äußerst förderliche Art und Weise bestimmen. Nicht nur der Unterricht kann auf diesem Prinzip aufbauen, sondern ebenso die Bewertung und Benotung, was dazu führen kann, dass Schüler nicht absolut - mit Blick auf das „optimal“ erzielbare Ergebnis - beurteilt werden, sondern relativ - im Verhältnis zu sich selbst und zu ihrem eigenen Lernfortschritt. Gegenwärtig scheint man sich in der Forschung - zwar noch zaghaft, jedoch nicht ohne Nachhaltigkeit - dieser Zusammenhänge bewusst zu werden, was dauerhaft zu einer Neubewertung und Redefinition von Leistung und Leistungsbeurteilung führen könnte (vgl. hierzu auch Engstler 1999: 40ff).

Eine interessante Untersuchung, in der drei unterschiedlichen Gruppen - Englischlehrern als Muttersprachlern, griechischen Englischlehrern sowie nicht als Lehrer arbeitenden, englischsprachigen Muttersprachlern - Englischaufsätze griechischstämmiger Schüler der zweithöchsten Klasse einer High School in den USA vorgelegt wurden, beschreiben Hughes / Lascaratou (1982: 175ff) und dokumentieren - neben den zum Teil erheblichen Unterschieden in der Bewertung zwischen diesen drei Gruppen -, dass die Muttersprachler des Englischen die von den Schülern gemachten Fehler weniger streng bewerteten als die griechischen Lehrer. Auch wenn die relativ geringe Größe der einzelnen Gruppen mit jeweils zehn Lehrern prinzipiell kritisiert werden kann, gebührt diesem Ergebnis dennoch Aufmerksamkeit - umso mehr, als Hecht / Green (1989: 3ff) einen vergleichbaren Zusammenhang nachweisen konnten, als sie die Frage untersuchten, ob deutsche Fremdsprachenlehrer sich bei der Bewertung fehlerhafter kommunikativer Äußerungen von Schülern in Muttersprachler und deren Art der Fehlerbewertung einfühlen können. Auch ihre Untersuchung verweist darauf, dass deutsche - also ausgangssprachliche - Lehrer hinsichtlich der zielsprachlichen Leistungen ihrer Schüler durchaus großzügiger sein dürften, wodurch der hier herausgefundene Zusammenhang noch verstärkt würde.

Ein zu diesem Ansatz komplementäres Untersuchungsdesign verfolgten Birdsong / Kassen (1988: 1ff), die nicht die Fehlereinschätzung von Lehrenden, sondern diejenige von Lernenden untersuchten. Ihre mit englisch und französischsprachigen (= muttersprachlichen) Studenten und Lehrern an der University of Texas durchgeführte Untersuchung zielte ab auf die Fähigkeiten der Erkennung und Bewertung von Fehlern durch Schüler und Studenten sowie auf die Frage, ob und in welchem Maße sie mit derjenigen von Lehrern koinzidierten. Die Autoren fanden heraus, dass die Koinzidenz zwischen Studenten und Lehrern dann am am höchsten war, wenn deren Muttersprache die gleiche war und wenn es sich bei den Studenten um fortgeschrittene Lernende handelte.

Über die genannten Stoßrichtungen und Ansätze hinaus werden in der Literatur bestimmte Fehlerbereiche sowie Fehlertypen beschrieben. So befasst sich Dieling (1991: 111f) mit der Problematik der Aussprachefehler im Fremdsprachenunterricht und beschreibt unterschiedliche Arten von Normverstößen. Mit Interferenzfehlern deutscher Französischlerner beschäftigt sich Nicolas (2005: 53f) und verdeutlicht dabei die Rolle des einsprachigen Wörterbuches wie auch die Bedeutung der Befähigung der Schüler zur selbständigen Erklärung von Fehlern.

Die hier behandelte Forschung zu dem Phänomen Fehler lässt sich graphisch wie folgt darstellen[25]:
   Abb. 7: Forschungsfelder im Bereich der Einstellung zum Phänomen Fehler


1.8 Korrigieren

Interessanterweise existiert den eigenen Befunden nach ungleich weniger Literatur zum Korrigieren, als gemeinhin erwartet werden mag und als es der Bedeutung des Korrigierens im Alltag von Fremdsprachenlehrern an Schule und Hochschule gerecht wird. In den einschlägigen Publikationen geht es dabei zum einen um das Korrigieren und die Korrekturarbeit im Allgemeinen und zum anderen um Einzelaspekte des Korrigierens bzw. um die Darstellung singulärer Prüfungen mit Blick auf Korrigieren und Korrektur.
Im Kontext der Redefinition von Fehlern weg von einem demotivierenden und hin zu einem als lernförderlich angesehenen, bisweilen gar motivierenden Phänomen (vgl. Kap. 1.7) werden auch das Korrigieren und das Berichtigen weniger als Sanktionsmechanismen früherer Ausprägung verstanden, sondern vielmehr als doppeltes Feedback des Lehrers - zum einen für den Schüler und seinen jeweils aktuellen Leistungsstand, zum anderen jedoch auch für ihn selbst und den (Miss)Erfolg seiner Arbeit (vgl. Nieweler 2005b: 2ff). Interessant ist in diesem Zusammenhang, dass diese Entwicklung eine vollkommene Umkehrung der Sichtweise bewirkt hat: Während im Schul- und Fremdsprachenunterricht traditioneller Prägung die Korrektur des Lehrers mit direkten Sanktionen für den Schüler verbunden war, die über die Verteilung von Karrierechancen unmittelbar in sein weiteres Leben eingriff, tritt dieser Aspekt nunmehr immer weiter in den Hintergrund - auch wenn er niemals vollkommen zu eliminieren sein wird - und wird mehr und mehr gefüllt von einem schülerorientierten, auf das eigentliche Lernen und dessen erfolgreiche Bewältigung abzielenden Ansatz, in dem die Lehrerkorrektur vom Schüler als hilfreich angesehen wird - und vom Lehrer auch so gemeint ist - und in dem der zu früheren Zeiten beim Schüler durch sie bewirkte Stressfaktor nunmehr auch den Lehrer trifft, indem sie ihm vermittelt, was seine Schüler gelernt - oder gegebenenfalls auch nicht gelernt - haben, was sich wiederum negativ auf die Karrierechancen des Lehrers auswirken kann.  

Dretzke (1991: 391ff) beschreibt die schriftliche Abiturprüfung im Schulfach Englisch mit Blick auf die Problematik der Korrektur, wobei er sich insbesondere der Identifizierung von Fehlern und deren Bewertung widmet. In demselben Jahr forderte Klein (1991: 199ff) eine Angleichung der Kriterien der Beurteilung der Schreibleistungen der Schüler in den neuen Bundesländern - weg von der ausschließlichen Bewertung nach Inhalt und sprachlicher Korrektheit und hin zu der Mitberücksichtigung von Ausdrucksvermögen und kommunikativen Fähigkeiten und Fertigkeiten der Schüler.

Die verschiedenen Ausprägungen des Korrigierens können synoptisch wie folgt veranschaulicht werden:
   Abb. 8: Forschungsfelder im Bereich Korrigieren

1.9 Weitere Formen der Leistungsevaluation

Im Folgenden sollen kurz solche Formen der Leistungsevaluation angesprochen werden, die über die bisher behandelten Bereiche hinausgehen und sich von einer standardisiert-objektiven Leistungsbewertung wegbewegen. Diese werden in der aktuellen Forschung als „alternative“ Formen der Leistungsbewertung beschrieben und können durchaus als Chance für die Realisierung von mehr Gerechtigkeit und mehr Freude an Leistung gesehen werden (vgl. hierzu auch Winter 2004).  

Eine generelle Grundproblematik des Bewertens, in der dieser Ansatz durchaus Abhilfe zu schaffen vermag, zeigt sich in solchen Situationen, in denen individuelle Schülerleistungen nicht separat ermittelbar sind, sondern in einen größeren Zusammenhang eingehen, was beispielsweise bei der Gruppenarbeit der Fall ist. Eine weitere Sozialform, für die diese Problematik gilt, ist der in den vergangenen Jahrzehnten immer beliebter gewordene und immer mehr institutionalisierte Projektunterricht. Die Leistungen einzelner Schüler im Rahmen solcher, oft eine erhebliche Zahl an Unterrichtsstunden umfassender Projekte zu messen und gerecht zu bewerten, ist für Lehrer nicht selten ein nahezu unlösbares Unterfangen. Diesem Problembereich widmet sich Feuser (1997: 41) und plädiert für eine Berücksichtigung nicht nur des Projektergebnisses, sondern auch des prozeduralen Charakters des Projektes, der zusammen mit den Schülern diskutiert wird.

Eine in den vergangenen Jahren immer bedeutsamere Bewertungsform ist das Portfolio. Es dient dazu, die Lerninhalte und Lernerfahrungen des Schülers bzw. Lerners individuell zu dokumentieren und ermöglicht ihm im Idealfalle, eine systematische Lernstrategie zu entwickeln. Der Portfolio-Ansatz drückt wie kaum eine andere Beurteilungs- und Bewertungsform den Respekt vor dem Schüler und seiner Persönlichkeit aus. Der Schüler wird vom Lernsubjekt zum Lernpartner, dessen Leistungen und Verständnis vom Lehrer individuell analysiert und in fruchtbarer Weise gesteuert werden. Die Arbeit mit Portfolios zwingt Lehrer und Schüler dazu, sich als Persönlichkeiten zu begegnen und sich in konstruktiver Art und Weise miteinander, mit den Lerninhalten sowie mit Lern- bzw. Vermittlungsstrategien auseinanderzusetzen. Erfahrungen mit dem Portfolio als Lern-, Bewertungs- und Evaluierungsinstanz dokumentiert beispielsweise Schwarz (2004: 127ff), die anhand des gymnasialen Lernkontextes unterschiedliche Typen von Portfolios exemplifiziert. Dlaska / Krekeler (2009: 163ff) geben Beispiele für die Beurteilung zweier Portfolio-Typen - dem Sprachenportfolio für Grundschüler und dem Nachrichten-Portfolio.

O’Malley / Pierce (1996) sehen das Portfolio als eine wichtige Form des authentic assessment und definieren die Qualität eines gegebenen Tests anhand seiner Nähe zu der jeweiligen kommunikativen Aufgabe, die durch den vorangehenden Unterricht vorbereitet wurde. Die Autoren, die die Praktikabilität beider - des authentic assessment im Allgemeinen und des Portfolios im Besonderen - auf der Basis zahlreicher Beispiele zu verschiedenen sprachlichen Fertigkeiten[26] aufzeigen, sehen durchaus mögliche Probleme dieses Ansatzes hinsichtlich der Gütekriterien von Tests, machen jedoch bereits im Vorwort ihre Prioritäten deutlich, indem sie schreiben:
Procedures for ensuring reliability and validity are clearly outlined in language and content areas across the curriculum, thereby addressing concerns that authentic assessment entails sacrificing objectivity. (O’Malley / Pierce 1996: IV)
und wenn sie im weiteren Fortgang feststellen:
(…) it is only through authentic assessment that real validity can be attained. (O’Malley / Pierce 1996: IV)
Hier wird die Bedeutung der Validität herausgestellt. Wie immer man auch zu dieser Entscheidung stehen mag, ist sie im Rahmen des von den Autoren gewählten Ansatzes konsequent.

Eine Verbindung der Entwicklung der Schreibfertigkeit bei Schülern mit dem Portfolio-Ansatz beschreibt Hewitt (1995), indem er in praxisnaher Form für Lehrer darstellt, wie sie ihre Schüler - in Ergänzung zu traditionellen Bewert-ungsverfahren - in Richtung auf bessere Schreibleistungen hin beglei-ten und dabei Portfolios als Basis benutzen können. In seiner Publikation drückt sich die besondere Affinität dieser Fertigkeit - des Schreibens - zum Instrument Portfolio aus: Schriftliche Produkte des Schülers lassen sich mit diesem Instrument in ihrer - auch langfristigen - Entwicklung funktional verfolgen, wodurch die Leistungsfähigkeit des Schülers nachhaltig beurteilt und entsprechend gefördert werden kann.

Einen in diesem Zusammenhang interessanten - weil recht weit gehenden - Ansatz verfolgt Gipps (1994), indem sie einen breiteren Zugang zum Testen im allgemeinsten Sinne des Wortes fordert: weg von der psychometrischen und hin zur pädagogischen Leistungsmessung, die zudem das Lehren und Lernen unterstützen, Informationen über Schüler, Lehrer und Schule bereitstellen, der Selektion wie auch der Zertifizierung dienen und Rückwirkungen auf Lehrplan und Unterricht haben soll:
Assessment is undergoing a paradigm shift, from psychometrics to a broader model of educational assessment, from a testing and examination culture to an assessment culture. There is a wider range of assessment in use now than there was twenty-five years ago: teacher assessment, standard tasks, coursework, records of achievement as well as practical and oral assessment, written examinations and standardized tests. There is criterion-referenced assessment, formative assessment and performance-based assessment, as well as norm-referenced testing. In addition, assessment has taken on a high profile and is required to achieve a wide range of purposes: it has to support teaching and learning, provide information about pupils, teachers and schools, act as a selection and certificating device, as an accountability procedure, and drive curriculum and teaching. These new forms and range of purposes mean that the major traditional model underpinning assessment theory, the psychometric model, is no longer adequate, hence the paradigm shift. (Gipps 1994: 1)
Bereits in diesen einleitenden Worten wird deutlich, dass das rein auf der Psychometrie beruhende Testen die an die moderne Leistungsbewertung gestellten Erwartungen nicht erfüllen kann: Es wird hier laut Gipps somit ein Paradigmenwechsel notwendig, der sich an vielen Stellen bereits vollzogen hat, wie in allgemeiner, nicht direkt auf Sprachtests bezogener Hinsicht anhand des britischen Bildungswesens aufgezeigt wird. Es soll hier eine neue Testkultur begründet werden, wobei die Autorin jedoch - mitgerissen von ihrer eigenen Begeisterung - bisweilen ein wenig zu weit geht. Dennoch ist diese Publikation in der Entwicklung der verschiedenen - gerade auch neueren - Ansätze des Prüfens und Bewertens als ein wichtiger Schritt zu werten: Ohne Publikationen wie diese wären solche Formen der Leistungsmessung wie der soeben beschriebene Portfolio-Ansatz nicht denkbar und mit großer Wahrscheinlichkeit auch niemals entstanden.[27]  

Diese Formen der Leistungsevaluation lassen sich graphisch wie folgt darstellen:
  Abb. 9 :Forschungsfelder im Bereich Weitere Formen der Leistungsevaluation


1.10 Psychologische und lerntheoretische Aspekte von Prüfungen

Abgesehen von einer langen Reihe von populären bzw. im besten Falle populärwissenschaftlichen Prüfungsratgebern[28] existieren zahlreiche wissenschaftliche Veröffentlichungen, in denen sich die Autoren mit solchen Gesichtspunkten befassen, die im weiteren Sinne als psychologisch eingestuft werden können.

Der Zusammenhang zwischen Prüfungsangst und fremdsprachlicher Leistungsfähigkeit, gemäß dem jene diese hemme, hat sich in einer, eine Population von 60 Teilnehmern - 20 Teilnehmer für Französisch, 20 Teilnehmer für Deutsch und 20 Teilnehmer für Spanisch - umfassenden Studie in den USA nicht nachweisen lassen (Young 1986: 439ff). Dieses Ergebnis kann jedoch nicht generalisiert werden, da den Versuchspersonen bekannt war, dass ein schlechtes Abschneiden in der mündlichen Prüfung, der sie ausgesetzt waren, für sie kaum negative Folgen haben würde. Das festgestellte Ergebnis könnte - zumindest partiell - durch dieses Wissen der Versuchspersonen beeinflusst worden sein, da dadurch deren Angstwerte auf niedrigem Niveau verblieben. Hätte die Autorin ihre Versuchspersonen hohen Stressfaktoren ausgesetzt, so hätte das Ergebnis durchaus anders - zugunsten eines Zusammenhanges zwischen hohen Angstwerten und niedrige(re)r fremdsprachlicher Leistungsfähigkeit - ausfallen können. Eine Möglichkeit der Überwindung von Prüfungsangst kann es sein, mündliche Prüfungen in der Klassenzimmersituation in Form von Partnerübungen zu trainieren. Ein Beispiel dafür sind die Reflexionen von Schäfer (1986: 264f), die sich auf die Meisterung der mündlichen Abiturprüfung beziehen und in deren Rahmen nicht nur taktisches Verhalten beschrieben, sondern auch Möglichkeiten der Gesprächsführung auf Seiten der Prüflinge aufgezeigt werden.


Eine kritische Analyse der Leistungsfähigkeit von Noten nimmt Ratzki (2003: 4ff) vor und berücksichtigt dabei die Benotenden wie auch die Benoteten, also Lehrer einerseits und Schüler andererseits. Dass Noten nicht so aussagekräftig und zuverlässig sind, wie dies zuweilen suggeriert wird und wie ihre Offizialität dies unbefragt vermuten lassen mag, ist evident. Die Tatsache, dass Noten im Schul- und gegebenenfalls auch im Universitätsalltag als eine Form der Repression verwendet werden können, bewirkt zudem, dass ihnen von Seiten der Lernenden nicht selten mit Angst begegnet wird. Noten können jedoch auch in anderer, fruchtbarer Weise genutzt werden: als Orientierungsgröße, die den Schülern ihren aktuellen Stand im Lernprozess wie auch in der Lerngruppe aufzeigt, und sogar als Element der Ermutigung, das den Schülern einen hohen Motivationswert vermitteln und sie langfristig dazu führen kann, eine einmal gegebene, etwas zu gute Note in der Folge durch Leistungen zu bestätigen, die in der Tat dieser Note entsprechen oder sogar noch über dieser liegen (vgl. hierzu auch Haas 1999: 10ff).

Die Bedeutung der Vermittlung kognitiver Fertigkeiten - und damit die Chance, ebenso wie die Notwendigkeit, Prüfungen und ihre Vorbereitung mit lerntheoretischem Nutzen, also mit Erkenntnisgewinn für die Prüflinge zu verknüpfen - zeigen  Egbert / Maxim (1998: 19ff) auf, die das Fehlen von Elementen kritischer Reflexion und von Problemlösungsstrategien in zwei konkreten Prüfungen für das Fach Deutsch - der Prüfung Wirtschaftsdeutsch International und dem Zertifikat Deutsch für den Beruf - beklagen und Möglichkeiten zu deren Integration aufzeigen. Dieser Gesichtspunkt der Bereitstellung von Lernen und lerntheoretischer Weiterentwicklung der Teilnehmer an Prüfungen ist von großer Bedeutung und wird im Folgenden weiter im Blick zu behalten sein: Prüfungen sollten nie selbstgenügsam sein; sie sollten im Idealfall immer über sich selbst hinausweisen.

Graphisch stellen sich diese Zusammenhänge wie folgt dar:
                               Abb. 10: Forschungsfelder im Bereich Psychologische und
                                             lerntheoretische Aspekte von Prüfungen


1.11 Folgerungen für die Prüfungsdidaktik

Anhand unserer Darstellung ist implizit deutlich geworden, dass die bisher zu durchaus bedeutenden Fragen der Prüfungsdidaktik angestellte Forschung ungleich effizienter hätte systematisiert und von einer höheren Ebene aus koordiniert werden können, hätte es das Fach Prüfungsdidaktik bereits früher gegeben. In der bislang unbefriedigenden Situation jedoch, in der es noch nicht existiert(e), konnte und kann forschungsseitig nicht mehr erwartet werden als bisher geleistet worden ist - und dies ist in der Tat bereits jetzt nicht wenig.

Für die Zukunft wird jedoch zu hoffen sein, dass die nunmehr auf diesem Gebiet angestellten Untersuchungen in fruchtbarerer Weise als bisher einem höheren Ziel zugeführt werden können - demjenigen, mehr Licht in das immer noch immense Dunkel von Prüfungen, ihrer Vorbereitung und Durchführung zu bringen, als es ohne das Fach Prüfungsdidaktik jemals möglich (geworden) wäre.

Unsere Darstellung hat somit auch unter dem Blickwinkel der Forschungsdokumentation gezeigt, wie wichtig - nachgerade zwingend - dieser im Jahre 2002 vorgenommene, hier erneuerte und noch nachhaltiger geforderte Schritt der Schaffung dieses neuen Faches geworden ist - und welche Chance verpasst würde, vollführte man ihn nicht in folgerichtiger - also in der hier geforderten - Art und Weise.

Es ist in diesem Forschungsüberblick zudem der Bereich herausgearbeitet worden, den das Fach Prüfungsdidaktik in Zukunft abdecken sollte. Wir wer-den uns dieser Frage im folgenden Kapitel noch eingehender widmen. An dieser Stelle sei jedoch bereits darauf hingewiesen, dass der hier vorgenommene Kapitelaufbau zugleich auch die Struktur darstellen mag, der dieses neue Fach folgen kann. Auch in dieser Hinsicht liegt jedoch nichts Endgültiges: Es kann durchaus weitere Bereiche geben, die hierin einbezogen werden könnten, es können sich in der Zukunft neue Bereiche entwickeln, die ihrerseits einzubeziehen sind, und umgekehrt kann es notwendig werden, Bereiche aus diesem Kontext herauszunehmen. Für eine erste Untergliederung des Faches Prüfungsdidaktik haben wir jedoch mit der vorliegenden Darstellung eine Basis geschaffen.

Die Rolle der Prüfungsdidaktik hat nunmehr darin zu bestehen, die bisher und in der Zukunft erarbeiteten Forschungsergebnisse zu integrieren und umzusetzen, und zwar in:
  • weitere theorieorientierte, aber auch praxisnahe Forschung,
  • die Ausbildung von Prüfern sowie
  • die Durchführung realer Prüfungen.
Wie dies geschehen kann, wird uns zu einem späteren Zeitpunkt beschäftigen. Festgestellt sei jedoch bereits hier, dass diese Arbeit nicht diejenige eines einzelnen Forschers sein kann, sondern dass dafür ein konzertiertes Handeln von Forschern, Lehrern und Prüfern vonnöten ist. Nur unter dieser Bedingung - und unter derjenigen, dass alle drei genannten Gruppen ein Bewusstsein dafür entwickeln, dass sie in der wohldefinierten Disziplin Prüfungsdidaktik tätig sind - wird es möglich sein, Prüfungen in allen ihren Stadien von der Konzeption über ihre Durchführung bis hin zum Feedback für die Prüflinge nachhaltig zu verbessern. Hierin liegt eine immense Aufgabe. Diese Aspekte sind für unsere weiteren Überlegungen im Blick zu behalten.

In dem nun folgenden Kapitel konkretisieren wir unsere Überlegungen und wenden uns der Prüfungsdidaktik hinsichtlich ihrer Aufgaben und Ziele, ihres Geltungsbereiches und ihrer Prinzipien zu.




[1] Die Tatsache, dass diese Publikation bereits in der neunten Auflage erschienen ist, macht deutlich, wie brisant das Thema der Notengebung war und weiterhin ist. Hier sei die Prognose gewagt, dass sich an dieser Brisanz auch in den kommenden Jahren und - mit großer Wahrscheinlichkeit - Jahrzehnten nichts ändern wird.
[2] In der Abbildung steht die Abkürzung GER für Gemeinsamer Europäischer Referenzrahmen.
[3]Da beide Bereiche sich bisweilen überschneiden, könnten einige der hier behandelten Publikationen durchaus auch in Kap. 1.2 behandelt werden, manche gegebenenfalls auch in unseren Ausführungen über die zu den einzelnen Sprachen existierenden Sprachstandsprüfungen, wie beispielsweise in Kap. 1.4.4 zu TOEFL. Um solche Mehrfach-behandlungen zu vermeiden, werden die einzelnen Arbeiten hier an derjenigen Stelle behandelt, die sich für sie auf Grund logischer Erwägungen als die am besten geeignete ergibt. Dies bedeutet jedoch nicht, dass sie nicht potentiell auch für die jeweils anderen Bereiche interessant sein können. Es besteht hier somit kein sachliches Ausschlussverhältnis, sondern vielmehr ein Verhältnis der Komplementarität oder auch der Inklusion.
[4] Vgl. hinsichtlich eines allgemeinen Überblicks auch Grotjahn (2000: 304ff) und zur aktuellen Situation ergänzend Grotjahn (2007: 19ff).
[5] Vgl. hinsichtlich allgemeiner Informationen zu psychologischen und pädagogischen Tests auch Nevo / Jäger (1993). Dieser Sammelband bezieht sich zwar nicht auf die Testung von (Fremd)Sprachen, ist jedoch für Testkonzeptoren, Prüfer wie auch für Testabsolventen wertvoll, da hier die Wahrnehmung der Testsituation durch die Testteilnehmer umfassend beschrieben wird. Diese Darstellungen vermitteln Einblicke und Einsichten, die partiell durchaus auf das Testen von Fremdsprachen übertragen werden können.
[6] Vgl. als Informationsquelle zum Sprachtesten im Besonderen und verwandter Bereich im Allgemeinen auch Davies et. al. (1999).
[7] Vgl. hinsichtlich einer kritischen Analyse - aber, darüber hinausgehend, auch im Sinne einer praktischen Handreichung - ergänzend auch Baker (1989).
[8] Oder, in seinen eigenen Worten:
Thus, advances in language testing do not take place in a vacuum; they are stimulated by advances in our understanding of the processes of language acquisition and language teaching. And developments in language testing can provide both practical tools and theoretical insights for further research and development in language acquisition and language teaching. (Bachman 1990: 3).
[9] Vgl. im Sinne einer praxisorientierten Darstellung auch O’Malley / Valdez Pierce (1996).
[10] Vgl hier besonders die Beiträge von Purpura. (1998: 111ff) zur Entwicklung und Konstruktvalidierung eines Fragebogens zur Messung der kognitiven Strategien von Testteilnehmern und denjenigen von Clapham (1998: 141ff), die sich mit der Rolle des Hintergrundwissens der Testteilnehmer in fachsprachlich orientierten Tests zum Leseverstehen beschäftigt, sowie - ebenfalls zu der Rolle des Hintergrundwissens in fachsprachlich orientierten Prüfungen - Krekeler (2006).
[11] Behandelt werden hier unter anderem alle vier Fertigkeiten in Mutter- und Fremdsprache. Vgl. in fremdsprachlicher Perspektive zur Testung des Lesens Weir (1997: 39ff), des Schreibens Cumming (1997: 51ff), des Hörverstehens Buck (1997: 65ff) und der Sprechfertigkeit Fulcher (1997: 75ff).
[12] Herausgegriffen seien hier der Beitrag von Douglas (1997: 111ff) zur Testung von Fachsprachen, derjenige von Gruba / Corbel (1997: 141ff) zum computerbasierten Testen sowie der Beitrag von Oscarson (1997: 175ff) zur Selbstbeurteilung fremdsprachlicher und zweitsprachlicher Kenntnisse.
[13] Besonders erwähnt seien hier die Beitrage zu neueren Ansätzen der Analyse quantitativer Tests (Bachman / Eignor (1997: 227ff)) und zu qualitativen Ansätzen der Testvalidierung (Banerjee / Luoma (1997: 275ff)) sowie derjenige von Lynch / Davidson (1997: 263ff) zum kriterienbezogenen Testen.
[14] Vgl. in dieser Sektion besonders den Beitrag von Davidson / Turner / Huhta (1997: 303ff) zu Standards des Sprachtestens wie auch denjenigen von Hamp-Lyons (1997: 323ff) zur Frage der Ethik im Bereich des Sprachtestens.
[15] Umfassende Informationen sowie eine ständig aktualisierte Bibliographie zum C-Test sind auch über das an der Universität Duisburg-Essen unterhaltene C-Test-Archiv erhältlich (http:// www.c-test.de/pages/archiv_content.html).
[16] Literatur zum Gymnasium wird in diesem Unterabschnitt nur dann berücksichtigt, wenn sie nicht die Abiturprüfung betrifft, sondern andere, an dieser Schulform durchgeführte Prüfungen jedweder Art.
[17] Die Schreibweise der Bezeichnung UNIcert hat sich im Laufe der Zeit mehrfach geändert, was hier u.a. an der dazu zitierten Literatur deutlich wird. Früher üblich waren die Schreibungen Unicert und UNICERT. Nach einer Zwischenstufe über UNIcert gilt nunmehr als offizielle Bezeichnung UNIcert®, die wir im Text der vorliegenden Arbeit durchgängig verwenden.
[18] Vgl für weitere Informationen auch www.ets.org.toefl.
[19] Vgl.Goethe-Institut (2009) (www.goethe.de/z/50/commeuro/deindex.htm)
[20] Vgl. zum Test-Daf und zu den anderen Sprachstandsprüfungen für Deutsch als Fremdsprache – genannt seien hier insbesondere das Kleine und das Große Deutsche Sprachdiplom, die Zentrale Mittel- und Oberstufenprüfung, die Goethe-Zertifikate B2 und C1, sowie das Zertifikat Deutsch für den Beruf und die Prüfung Wirtschaftsdeutsch - auch die Homepage des Goethe-Instituts, auf der diese detailliert beschrieben sind und wo auch weiterführende Literatur zu finden ist (http://www.goethe.de/lrn/prj/pba/deindex.htm; 17.03.2011).
[21] Aus diesem Grunde wurden die hier vorgestellten Publikationen unter dem Blickwinkel des TestDaF behandelt und nicht – wie dies ebenfalls in einigen Fällen möglich gewesen wäre - in anderen Teilen der vorliegenden Monographie.
[22] Vgl. zum fachsprachlichen Testen und Prüfen auch Alderson (1988: 16ff) und zu dessen Logik Davies (2001: 133ff).
[23] Vgl. hierzu auch Kleppin (2000), die eine mögliche Darstellungsweise dieser unterschied-lichen Einstellungen zu dem Phänomen Fehler nachzeichnet.
[24] Mit Blick auf den Fehler als wichtigen Teil des Lernprozesses vgl. Edge (1996). Hinsichtlich der Fehleranalyse und Fehlerkorrektur im Fremdsprachenunterricht vgl. auch die als Fernstudieneinheit publizierte Arbeit von Kleppin (1998), die sich mit der Korrektur mündlicher und schriftlicher Fehler im Bereich Deutsch als Fremdsprache beschäftigt und sehr leserfreundlich in dieses Gebiet einführt, sowie Freudenstein (1989), und hierin besonders die Beiträge von Damm (1989), die sich mit der Fehlerkorrektur beim Autonomen Lernen auseinandersetzt, Legenhausen (1989), der sich der Fehleridentifizierung auf theoretischer und praktischer Ebene annähert, und Trim (1989), der sich mit der Fehlerproblematik auf dem Hintergrund der Sprachnormen auseinandersetzt.
Hinsichtlich der Korrektur im Unterricht gemachter, mündlicher Fehler im Englischen vgl. Timm (1992: 4ff), der empfehlenswerte Verhaltensweisen des Lehrers abzustecken versucht, und – für den Italienisch- und Spanischunterricht des Gymnasiums – Kleppin / Königs (1991).. Kostrzewa (1994: 20ff) beschäftigt sich mit der Analyse und Therapie von Fehlern im Erwachsenenunterricht Deutsch als Fremdsprache. Zum Problem der Fehlerkorrektur im Volkshochschulunterricht vgl. ergänzend auch die in Bliemel et al. (1989: 1ff) abgedruckten Diskussionsbeiträge, in denen verschiedene Facetten dieser Thematik angesprochen werden.
[25] Dabei sehen wir auch hier die aufgeführten Einstellungen im Sinne eines Kontinuums, jedoch ohne die entsprechenden extremen Eckpunkte. Aus diesem Grunde ziehen wir auch hier die Kreisform einer Darstellung in der Ebene vor.
[26] Vgl. hierzu insbesondere Kap. 4 der zitierten Publikation zu der Bewertung mündlicher Leistungen, Kap. 5 zum Leseverstehen und Kap. 6 zur Schreibfertigkeit.
[27] Vgl. zum Europäischen Sprachenportfolio ergänzend auch Little (2003) und zum Sprachenportfolio allgemein auch Legutke / Lortz (2003).
Noch weiter als dieser Ansatz geht derjenige der Selbstevaluation durch die Prüflinge selbst, der jedoch in der vorliegenden Monographie nicht weiter verfolgt werden soll. Vgl. zu diesem Ansatz jedoch ergänzend auch Ross (1998: 1ff), Blanche / Merino (1989: 313ff), Boud (1995), Brew (1999: 159ff), Cheng / Warren (2005: 93ff), van den Berg / Admiraal / Pilot (2006: 135ff), Bushel (2006: 91ff),  Nelson / Carson (2006: 42ff), Sadler / Good (2006: 1ff), Falchikov (2007: 128ff), Tan (2007: 114ff) und Wilkening (2007).
[28] Exemplarisch – und bewusst in der Auswahl sehr begrenzt gehalten - seien hier genannt:   Schmidt (2000), Behmel / Hartwig / Setzermann (2001),  Wolf / Merkle (62001), Schuster (2001), Eschenröder (2002), Zingel (2004). Ratgeber dieser Art haben mit dem Fach Prüfungsdidaktik nichts zu tun und sind allenfalls von autodidaktischem Wert. Sie können im Allgemeinen der Kategorie ‘Lebenshilfe’ zugeordnet werden und sollen somit hier nicht auf eine Stufe mit den wissenschaftlichen Publikationen im engeren Sinne gestellt werden. Dennoch muss davon ausgegangen werden, dass diese Art von Literatur von der breiten Masse der Bevölkerung ungleich zahlreicher und intensiver zur Kenntnis genommen wird, als dies bedauerlicherweise für wissenschaftliche Veröffentlichungen gilt.