1 Auf dem Wege zur Prüfungsdidaktik
In dem vorliegenden Kapitel sollen einige Stationen auf dem Wege nachgezeichnet
werden, der in seiner ihm eigenen Dynamik schließlich zu der Konsequenz geführt
hat, eine neue Disziplin - die Prüfungsdidaktik
- zu postulieren. Dabei kann und soll es jedoch nicht darum gehen, diesen Weg
lückenlos zu dokumentieren; dafür ist einerseits die Anzahl bestehender und zu
diesem Zwecke potentiell zu Grunde zu legender Publikationen zu groß. Zum
anderen sollen hier lediglich einige wichtige Entwicklungen in systematischer
Form beschrieben werden, die es hinsichtlich dieses neuen Faches im Bewusstsein
zu behalten gilt. Dabei wird deutlich werden, dass die Bandbreite der
Publikationen zum Prüfen und Bewerten erheblich ist. Zudem wird deutlich werden,
dass partikuläre Publikationen - oft in Aufsatzform - vorliegen, in denen
Nebenaspekte zu diesem Bereich untersucht werden, die jedoch auf dem hier
beschriebenen Weg zu einer neuen Disziplin in ihrer Spezifik durchaus von
Bedeutung sind. Entsprechend werden die hier berücksichtigten Publikationen
mit Blick auf ihre Funktionalität und ihre Bedeutung für das Fach Prüfungsdidaktik
ausführlicher oder weniger ausführlich behandelt. Das vorliegende Kapitel soll
zudem dazu beitragen, das Verständnis für die Notwendigkeit der
Prüfungsdidaktik zu fördern und deutlich zu machen, wie wichtig die weitere
Fundierung ihrer ist: Bisher ist in diesem Bereich lediglich atomistisch
geforscht worden, ohne ein Bewusstsein für die Notwendigkeit der Integration
der durchgeführten Forschung in einen übergeordneten Zusammenhang - ohne
jegliche Systematisierung. Es soll somit hier verdeutlicht werden, dass die
Forschung zu dem Bereich Prüfen und
Bewerten eine übergeordnete Ausrichtung in teleologischer Funktion
benötigt, und dass die im Rahmen dieser Ausrichtung durchgeführte Forschung wie
auch die durch sie erarbeiteten Ergebnisse unter der Prämisse ihrer
integrierten Nutzung ungleich funktionaler und fruchtbarer angewandt und
verwertet werden könnten, als dies bisher der Fall war. Die Disziplin Prüfungsdidaktik, die hier in
fortgesetzter Form fundiert werden soll, ist somit kein Zierrat, ohne den wir
auch in Zukunft gut auskommen könnten - sie stellt vielmehr eine dringende
Notwendigkeit dar.
Im Folgenden werden wir uns zunächst mit allgemeinen Aspekten des Prüfens
und Bewertens (Kap. 1.2) befassen. Im Anschluss daran behandeln wir relevante
Gesichtspunkte der Testwissenschaft und Testtheorie (Kap. 1.3.). Hiernach
werden uns umfassende Prüfungstypen wie beispielsweise Prüfungen an den
verschiedenen Schulformen, UNIcert, Sprachstandsprüfungen für die wichtigsten
Fremdsprachen, wie auch Volkshochschulprüfungen interessieren (Kap. 1.4). Diese
Prüfungen sind in aller Regel schriftliche Prüfungen oder solche, in denen
schriftliche Prüfungsteile dominieren. In folgerichtiger Weiterentwicklung
unserer Überlegungen widmen wir uns danach mündlichen Prüfungen und ihren
Besonderheiten (Kap. 1.5). Unser Blickwinkel wird daraufhin ein wenig verändert,
indem Prüfungsaufgaben und Aufgabentypen in den Vordergrund gestellt werden
(Kap. 1.6). Unterschiedliche Einstellungen zum Phänomen Fehler beschäftigen uns im Anschluss (Kap. 1.7). Hiernach werden
das Korrigieren (Kap. 1.8) wie auch weitere Formen der Leistungsevaluation (Kap. 1.9) behandelt. Psychologische und lerntheoretische Aspekte von Prüfungen
runden das hier gegebene Bild ab (Kap. 1.10). Schließlich werden wir auf einige
Folgerungen für die Prüfungsdidaktik, die sich aus den hier beschriebenen Zusammen-hängen
ergeben, verweisen (Kap. 1.11).
1.2 Allgemeine Aspekte
des Prüfens und Bewertens
Hinsichtlich des Prüfens und Bewertens allgemein bestehen in der
Forschung die unterschiedlichsten Ansätze und Vorgehensweisen, wobei es mehr
oder minder unmöglich ist, diese in ein einheitliches Ganzes zu integrieren
oder auch nur einen gemeinsamen Nenner zu finden. Die folgenden Ausführungen
mögen diese Situation verdeutlichen.
Eine theoretisch orientierte Analyse des Komplexes „Prüfen - Beurteilen
- Benoten“ (so auch der Titel der Monographie) allgemein unternimmt Sacher
(1994) und berücksichtigt dabei zentrale Aspekte der Thematik auf dem
Hintergrund des Schulalltags. Dabei analysiert er sowohl die Sinnfrage des
Prüfens und Bewertens, Aspekte der Benotung und Leistungsbeurteilung, sowie die
Planung von Prüfung und Prüfungssituation, um hier nur einige Bereiche
herauszugreifen. In dieser Monographie kommen die zentralen Probleme des Prüfens
und Beurteilens zum Ausdruck; es wird eine Vielzahl von Hilfestellungen angeboten,
die sowohl für den Berufsanfänger als auch für den erfahrenen Lehrer wertvoll
sein können. Dabei wird die gesamte Breite des Problemfeldes deutlich.
Eine leserfreundliche, praxisnahe, aber nicht ausgeprägt akademische Beschreibung
schulischer Leistungsüberprüfung liefert Heaton (1990), dessen Credo darin
besteht, dass die besten (informellen) Tests, die ein Lehrer für seine Schüler
verwenden kann, die von ihm selbst erstellten sind (vgl. Heaton 1990: 6). Der
Grund dessen ist in dem Phänomen zu sehen, dass ein gegebener Lehrer seine
Schüler am besten kennt und auch am besten weiß, was genau er abprüfen will.
Das Fehlen von Literaturverweisen mag akademisch bedauerlich sein; die
Darstellung wiegt jedoch Vieles wieder auf. Es ergibt sich hier das Phänomen,
dass akademische Darstellung einerseits und die inhaltliche Qualität einer
Publikation zum Testen und Prüfen andererseits oft nicht miteinander einhergehen:
Wertvolle Informationen, Hinweise und Tipps finden sich oft gerade in
akademisch weniger ausgefeilten Texten. Dieser Umstand mag nicht so sehr an der
Qualität der eigentlichen Publikationen liegen als vielmehr an dem
Objektbereich selbst: Testen und Prüfen sind Inhaltsbereiche, die eng mit
menschlichem Handeln verknüpft sind. Dieses jedoch ist nicht immer und
ausschließlich vollkommen objektivierbar.
Eine ebenfalls sehr zugängliche Darstellung des Bereichs der schulischen
Leistungsbewertung geben Genesee / Upshur (1996), die zunächst die erhebliche
Bedeutung des Lehrers als Prüfer hervorheben - eine Einschätzung, die für die
Schule gilt und problemlos auf die Hochschule übertragen werden und die im
Rahmen der vorliegenden Monographie nicht hoch genug eingeschätzt werden kann:
More than anyone else, teachers are actively and continuously involved
in second language evaluation – sometimes as the person making the actual
decisions; sometimes in collecting relevant information for others who will
make the decisions; or sometimes helping others make decisions by offering
interpretations of students’ performance. Even when teachers are not the actual
decision makers, they are affected. For example, someone else may be responsible
for the placement of students in second language classes, but teachers are
responsible for teaching the students who are placed in their classes.. (Genesee / Upshur
1996: 3)
Von Bedeutung ist hier zum einen, dass in der zitierten Publikation
ebenso traditionelle wie auch alternative Bewertungsmethoden analysiert werden.
Zu letzteren gehören beispielsweise Portfolios, Lernjournale, Fragebögen oder
Interviews. Von Bedeutung ist zum anderen, dass die Autoren ihre Darstellung
nicht unter einer Separierung der vier sprachlichen Fertigkeiten vornehmen,
sondern vielmehr in einem ganzheitlichen Ansatz, der nahe an der sprachlichen und
unterrichtlichen Realität orientiert ist. Die Publikation stellt für die
Zielgruppe der praktizierenden Lehrer eine Hilfe zur Selbsthilfe dar und ist
allein aus diesem Grund als wichtig und nützlich zu betrachten.
Einen Kanon von für Lehrer wichtigen Aspekten der Leistungsmessung in zugänglicher,
jedoch stark auf die in den USA herrschenden Rahmenbedingungen ausgerichteter
Form legt Popham (2007) vor, der - zusätzlich zu den traditionellen Aspekten
des Themas - ebenfalls alternative Formen der Leistungsmessung behandelt und
somit wertvolle praktische Hinweise bereithält.
Eine ebenfalls praxisorientierte Einführung in die Problematik der
Leistungsmessung, die praktizierenden Lehrern wertvolle Hilfestellung anbietet
und ihnen Einblicke in die Verwendung bestehender wie auch in die Erstellung
eigener Tests gewährt, gibt Bolton (1996a). Einer der Vorteile dieser
Publikation liegt sicherlich in der Diskussion der Vor- und Nachteile
unterschiedlicher Aufgabentypen wie auch in der Behandlung zahlloser Beispiele,
mit deren Hilfe die mehr theoretischen Ausführungen in einen
anwendungsorientierten Rahmen eingebettet werden.
So ist es durchaus sinnvoll, von einer Zusammenarbeit zwischen
Unterrichts- und Prüfungspraxis einerseits und der Linguistik andererseits
auszugehen, wie Putzer (1990: 278ff) dies fordert. Es tut sich hier die
Problematik der Sprachnorm auf, die in Verbindung mit der Unterscheidung
zwischen Sprachkönnen und Sprachwissen zu sehen ist. Es ist jedoch - dies sei
hier ergänzt - nicht hinreichend, nur von einer oder mehreren linguistischen
Sprachnormen auszugehen, sondern es muss vielmehr von einer Kombination
zwischen diesen und einer entsprechenden, an den Prüfling angelegten
Erwartungsnorm ausgegangen werden. Nur die wechselseitige Verbindung dieser
kann zu prüfungsdidaktisch befriedigenden Ansätzen führen. Dennoch ist Putzers
Verdienst, der Linguistik eine wichtige Rolle in dieser Faktorenkomplexion
einzuräumen, zu würdigen.
Eine umfassende Analyse der Bewertung fremdsprachlicher Leistungen mit
Bezug auf die Schule nimmt Kieweg (2001: 65ff) vor und listet zehn Prinzipien
auf, die hinsichtlich der Testerstellung im Blick zu behalten sind. Diese beziehen
sich u.a. auf die Gleichwertigkeit in der Testung unterschiedlicher Typen von
Wissen (deklarativ vs. prozedural), die konkrete Planung und Stellung von
Prüfungsaufgaben, berücksichtigen die Bedeutung der Validität und schließen
auch die Testung soziokulturellen Wissens ein. Von Bedeutung sind in diesem
Zusammenhang auch die Berücksichtigung des Zeitfaktors für Testerstellung und -auswertung
wie auch die im Vorhinein zu erfolgende Festlegung der Bewertungskriterien.
Eine solche Kriterienliste ist für Prüfungen jedweder Art von Bedeutung, da
sie den (nicht selten in Personalunion auftretenden) Prüfungskonzeptoren und
Prüfern einerseits wie auch - im Idealfalle - den Prüflingen andererseits, eine
wichtige Orientierung hinsichtlich der innerhalb der Prüfung gestellten
Anforderungen zum einen und der an Prüfung, Prüfer und Prüflinge angelegten
Erwartungen zum anderen zu geben vermag.
Das letztlich nicht auflösbare Dilemma der sich in der Notengebung manifestierenden,
schulischen Leistungsbeurteilung diskutiert Wildner (1994: 35ff). Er entwickelt
zwar Ansätze, dieses Dilemma zu überwinden und leitet aus seinen Reflexionen
Forderungen speziell für den Deutschunterricht ab, kann jedoch nicht umhin, die
Notengebung - in kritischer Sichtweise - in Ermangelung einer besseren Lösung
zu akzeptieren. Das Prüfen als Vorgang - wie auch Prüfungen als dessen Ergebnis
- sind ohne jegliche Leistungsbeurteilung und / oder Benotung sinnlos; Noten
und Beurteilungen können nicht ohne Prüfungen jedweder Art gegeben werden.
Dieser in sich logische Zusammenhang ist nicht grundlegend veränderbar.
Dennoch stellt die Vergabe von Schulnoten ein essentielles Problem des
Systems Schule und Universität dar: So sehr und so redlich
sich Lehrende auch darum bemühen, Noten objektiv und gerecht zu vergeben, wird
diesen immer der Makel der Unobjektivierbarkeit anhaften. Auf diesen Zusammenhang
verweist Ingenkamp (91995),
in dessen Sammelband die Zufälligkeit der Notengebung aufgezeigt wird. Diese
überzeugende Darstellung der Unzulänglichkeit von Noten hat dem Autor unzählige
Anfeindungen eingebracht, wie er z.B. in der sechsten Auflage bemerkt: So sei
er
überrascht,
dass fast kein Wort der Fäkaliensprache ausgelassen wurde, um meine
‚Nestbeschmutzung‘ zu kennzeichnen. Solche Stellungnahmen konnten aber
einzelnen Aussenseitern zugerechnet werden. Deprimiert haben mich jedoch Briefe
der Wortführer einer ‚schweigenden Mehrheit‘, die mir kollegial ins Gewissen
redeten und in jeder Zeile offenbarten, dass sie noch nie etwas von den
Fehlerquellen der Zensurengebung gehört hatten und auch nicht bereit waren, in
entsprechenden Untersuchungen mehr als eine Zahlenspielerei unredlicher
Statistiker zu sehen (Ingenkamp 1976: 5)
Beklagenswerterweise hat sich an der Schulpraxis bis heute so gut wie
nichts geändert - eine Feststellung, die durchaus auf die Hochschule
übertragbar ist: Trotz der im Rahmen der Testtheorie vorgenommenen,
umfangreichen Forschung (vgl. Kap. 1.3) wird an heutigen Schulen in Deutschland
- und nicht nur hier - noch weitgehend genauso geprüft wie vor dem Aufkommen
dieser Disziplin. Der Band von Ingenkamp ist aufgrund dieser Sachlage heute
nicht weniger aktuell als bei seinem ersten Erscheinen. Es wäre lobenswert,
wenn hier festgestellt werden könnte, dass sein Inhalt und der darin enthaltene
Appell zu an Schule und Hochschule flächendeckend praktizierter, objektiver(er)
Leistungsmessung obsolet sei. Das Gegenteil ist jedoch der Fall.
Einen möglichen Ausweg aus dem Dilemma, das durch Leistungsmessung in
ihrem herkömmlichen Verständnis des Vergleichs der Teilnehmer an einer wie auch
immer gearteten Leistungsgruppe einerseits und durch die in aller Regel
ebenfalls vergleichend angelegten Schulnoten und deren gerechte Vergabe andererseits
gekennzeichnet ist, mag der Ansatz der kriterienorientierten Leistungsmessung
darstellen, der von der Erreichung einer gegebenen Leistungsnorm bzw. eines
erwarteten Kenntnisstandes der Prüflinge ausgeht und der in jüngster Zeit
allmählich bedeutungsvoller geworden ist. Einen wichtigen Schritt zu einer
weiteren Etablierung dieses Ansatzes stellt die Publikation von Brown / Hudson
(2002) dar, in der die Autoren die an diese Form der Leistungsmessung zu stellenden
Qualitätsmerkmale beschreiben. Im Wesentlichen stellen sie Antworten zu den
nachstehend zitierten Fragen bereit, die von Testkonstrukteuren nach dem
Ansatz des CRT (Criterion-referenced
language testing) zu berücksichtigen sind und die zugleich auch den
thematischen Umfang der hier erwähnten Publikation widerspiegeln:
1. How can item analysis be performed when: (a)
no comparison group is designated as instructed or uninstructed group; (b) no
externally identified masters and non-masters are defined; or (c) when mastery
groups are defined and available?
2. How dependable are the decisions made on the
basis of the test? How generalizable are the scores and analyses to those of
other examinees on other forms of the test?
3. How can a standard, or cut-point, be
rationally set?
4. What advantages and disadvantages accrue from
application of the statistical approaches provided by NRT or CRT analyses? (Brown / Hudson
2002: 27)
Von besonderer Bedeutung für die praktische Nutzung dieses Ansatzes in
Unterrichts- und Lehrbetrieb ist das dort auf die vorhergehenden, eher
theoretischen Darstellungen folgende siebte Kapitel, in dem es nicht zuletzt um
die Möglichkeiten der Rückmeldung hinsichtlich der Schülerleistung im Rahmen
dieses Ansatzes geht und in dem dessen enger Bezug zu dem jeweils zu Grunde
gelegten Curriculum herausgearbeitet wird. Würde diesem, an den
Unterrichtsinhalten orientierten Ansatz in der (hoch)schulischen Praxis mehr
Raum gegeben, dann wäre die Erzielung von mehr Bewertungs- und Notengerechtigkeit
mit ungleich mehr Chancen behaftet, als es mit dem vergleichenden
Bewertungsansatz, der jedoch die tägliche Praxis darstellt, jemals denkbar
wäre. Die Aufgabe der Prüfungsdidaktik wird es daher sein, gerade in diesem
Bereich entsprechende Forschungsaktivitäten zu generieren.
Einen im gegebenen Zusammenhang nicht zu vernachlässigenden Aspekt
stellt derjenige der Fairness beim Prüfen und Bewerten dar: Prüfungen und
Bewertungen können nur dann wirklich aussagekräftig sein, wenn sie in einer
Form vorgenommen werden, die es den Prüflingen gestattet, ihr Können und ihre
Kenntnisse tatsächlich zu zeigen, und wenn sie wissen, dass dieser Aspekt im
Vordergrund jeglichen Prüfens und Bewertens steht und dass nicht etwa andere
Gesichtspunkte, wie beispielsweise jegliche Form der Machtausübung seitens der
Prüfer, in diese Situation hineinspielen. So können Noten als Machtinstrumente
benutzt - missbraucht - werden, sie können jedoch, im Sinne der Prüflinge
eingesetzt, auch motivatorische Wirkung haben und den Schülern oder
Studierenden zeigen, auf welchem Stand sie sich im Vergleich zu ihrer
Lerngruppe bzw. mit Blick auf den jewei-ligen, von ihnen erwarteten
Kenntnisstand befinden. Prüfungen jeglicher Art sollten ausschließlich in
dieser motivierenden, dem Schüler oder Studenten informationsvermittelnden Art
und Weise vorgenommen werden, um ihm somit Orientierung über sein eigenes
Lernen zu geben. Eine auf dem Hintergrund dieser Überlegungen nicht unwichtige
Publikation stellt der Sammelband von Kunnan (2000) dar, in dem der Bereich der
Fairness in Sprachprüfungen in den unterschiedlichsten Blickwinkeln untersucht
wird - von umfassenderen bis hin zu mehr oder minder partikulären
Fragestellungen. Für den vorliegenden Zusammenhang von Bedeutung ist die
Forderung, dass dieser Bereich der Gerechtigkeit und fairen Ausrichtung von
Prüfungen in Zukunft mehr und gründlicher als bisher erforscht werden sollte,
um seine Bedeutung nicht zuletzt für die Validität von Prüfungen
herauszustellen und den Missbrauch von Prüfungen im Sinne von Machtinstrumenten
zu vermeiden.
Aufgrund der deutschen Wiedervereinigung im Jahre 1990 ergibt sich mit
Blick auf Prüfungen und die an diese wie auch an die Prüflinge gestellten
Anforderungen eine besondere Analysesituation, in der zwei unterschiedliche
Prüfungssysteme einander gegenübergestellt und deren Vor- und Nachteile
gegeneinander abgewogen werden. Solche Analysen sind im Einzelfall durchaus von
persönlichen Eindrücken geprägt und beziehen zentrale Aspekte von Prüfungen
mit ein - wie beispielsweise die Einheitlichkeit des jeweils zugrunde gelegten
Curriculums -, jedoch auch solche, bisweilen nur indirekt mit den eigentlichen
Prüfungen zusammenhängende Probleme wie die (nicht gegebene) Verfügbarkeit von
Klassensätzen einsprachiger Wörterbücher. Bezugsinstitution ist oft die Schule,
es kann sich jedoch auch um andere Institutionen, wie die Volkshochschule,
handeln (vgl. z.B. Vogel 1992: 459ff und Luccesi 1992:369ff).
Im Hinblick auf Sprachprüfungen jeglicher Ausrichtung ist es von Bedeutung,
die einzelnen Niveaustufen der Prüfungsanforderungen zu beschreiben und
voneinander abzugrenzen. Einer von mehreren existenten Ansätzen ist der-jenige
von ALTE, der Association of Language
Testers in Europe, deren Zielsetzung unter anderem in einer Vereinheitlichung
bestehender Niveau-stufen zur Erleichterung der internationalen Anerkennung
europäischer Fremdsprachenzertifikate besteht (vgl. Bolton 1996b: 61ff). Einen
anderen Ansatz stellen die im Rahmen von UNIcert© entwickelten und
beschriebenen Niveaustufen dar (vgl. Barth / Huschka 1998: 81ff, Eggensperger
2010: 51ff 61ff und - in seiner Kritik daran - Tinnefeld 2002: 59ff).
Den im Vergleich wohl wichtigsten neueren Ansatz stellt der Gemeinsame europäische Referenzrahmen (GeR)
für Sprachen dar, der eine umfassende europäische Basis für die Vermittlung und
Erlernung von Fremdsprachen bereitstellt und dabei gleichermaßen Lehrpläne,
Prüfungen und Lehrwerke einschließt:
The Common European Framework provides a common basis for the
elaboration of language syllabuses, curriculum guidelines, examinations,
textbooks, etc. across Europe. It describes in
a comprehensive way what language learners have to learn to do in order to use
a language for communication and what knowledge and skills they have to develop
so as to be able to act effectively. The description also covers the cultural
context in which language is set. The Framework also defines levels of
proficiency which allow learners’ progress to be measured at each stage of
learning and on a life-long basis. (Council of Europe 2001: 1)
Für unseren Zusammenhang interessant sind besonders die Kompetenzniveaus,
die der Gemeinsame europäische Referenzrahmen definiert und die die
fortwährende Messung von Lernfortschritten auf jeder Lernstufe ermöglichen sollen.
Einen umfassenden Ansatz, der den Gemeinsamen europäischen Referenzrahmen
für Sprachen, jedoch auch andere, vergleichbare Instrumente - wie
beispielsweise das Europäische Portfolio
der Sprachen, internationale Sprachzertifikate jenseits des schulischen
Kontextes sowie die Einheitlichen
Prüfungsanforderung für die Abiturprüfung - mit einbezieht, verfolgt Christ
(2003: 157ff). Sie vertritt die Ansicht, dass diese Instrumente und ihre
entsprechende Nutzung zu einer neuen, besseren und moderneren Leistungsevaluation
im Fremdsprachenunterricht beitragen werden.
Graphisch lassen sich diese Forschungsfelder wie folgt darstellen:
Abb. 2: Forschungsfelder
im Bereich Prüfen und Bewerten
Wenden wir uns nun zunächst dem Bereich der Testwissenschaft und
Testtheorie zu.
1.3
Testwissenschaft und Testtheorie
Testwissenschaft und Testtheorie lassen sich zwar nicht in jedem Falle
eindeutig von der Tätigkeit informelleren Prüfens und Bewertens trennen,
da beide Bereiche letztendlich das Ziel der Lernerfolgskontrolle verfolgen.
Dennoch wird - besonders in Deutschland - eine vergleichsweise starke Trennung
zwischen beiden vorgenommen (vgl. Quetz 2008: 4ff). Obwohl Testwissenschaft und
Testtheorie uns in der vorliegenden Publikation an dieser oder jener Stelle beschäftigen
werden, sind sie hier nicht von zentraler Bedeutung. Wie bereits deutlich
geworden ist (vgl. Kap. 1.3), können sie jedoch als Teil der Prüfungsdidaktik
angesehen werden - eine Einordnung, die ihre Bedeutung in keiner Weise
schmälern soll, die jedoch die Systematizität der komplementären
wissenschaftlichen Ansätze durch das logisch vorhandene und somit auch explizit
ausgedrückte Inklusionsverhältnis gewährleistet. Die Testtheorie
ist so bedeutsam und die zu ihr veröffentlichte Literatur so zahlreich, dass es
aussichtslos ist, sie hier auch nur ansatzweise gesamthaft darzustellen, zumal
sie insgesamt nicht nur den Fremdsprachen-bereich abdeckt, sondern - originär
aus der Psychologie hervorgegangen - dort von noch größerer Bedeutung ist. Der
multiple Verweis auf den C-Test als ein prominentes Beispiel, das aus dieser
Theorie entwickelt worden ist, soll im Folgenden auf die große Bedeutung der
Testtheorie auch für den Fremdsprachenbereich verweisen. Trotz aller naturgemäßen
Unzulänglichkeit des Unterfangens soll hier zumindest auf einige wichtige Titel
referiert werden, was jedoch nur schlaglichtartig erfolgen kann.
Einen ausführlichen Überblick über die Geschichte der Testung
von Fremdsprachen in den
USA gibt Barnwell (1996) und weist nach, dass Sprachtests bereits vor mehr als
100 Jahren im Fremdsprachenunterricht geläufig waren. Dabei zeigt er die
Komplexität dieses Gebietes mit Blick auf Forschung und Didaktik anschaulich
auf. Eine Einführung in den Bereich des Sprachtestens, die auf Grund ihrer
hohen Qualität auch heute noch lesenswert ist, hat Henning (1987) vorgelegt.
Das Verdienst dieser Monographie liegt nicht nur in der gut verständlichen
Erklärung der zentralen Fachtermini, sondern auch in dem breiten Ansatz, den
der Autor verfolgt und der die Gewinnung eines Überblicks über dieses Gebiet
ermöglicht. Was für die Adressaten - die ebenso Forscher oder Testkonstrukteure
wie Lehrer oder Studierende sein können - als besonders hilfreich empfunden
werden mag, ist das Faktum, dass zu jedem Kapitel nicht nur Übungen angeboten
werden, sondern dass diese zudem mit Musterlösungen versehen sind. Durch diesen
Ansatz wird die Schwellenangst vor dem Sprachtesten und seiner praktischen
Umsetzung für den Unterricht, die besonders praktizierende Lehrer nicht selten
haben, reduziert.
Als komplementär zu Henning (1987) mag Bachman (1990) angesehen werden,
der eine von großem Problembewusstsein geprägte Darstellung der Testung von
Fremdsprachen vorlegt
und der - wie ersterer - durchaus auch für Fachleute Erkenntnisse bereit hält.
Bachman - für den Fortschritte im Testen sich nicht im luftleeren Raum
vollziehen, sondern in enger Verzahnung mit dem Fremdsprachenerwerb und dem
Fremdsprachenunterricht
- erkennt erhebliches Fortschrittspotential in dem folgenden Faktum:
A common thread that runs through much recent writing in language
testing is the belief that a precise, empirically based definition of language
ability can provide the basis for developing a ‚common metric’ scale for measuring
language abilities in a wide variety of contexts, at all levels, and in many
different languages. (Bachman 1990: 5)
Ließe sich dieser Wunsch realisieren, dann hätte dies ungeahnte
Auswirkungen auf die Art von Aussagen, die auf der Basis dieser Tests gemacht
werden könnten:
Such tests are of crucial interest for second language acquisition
research and language program evaluation, where measures of language ability
that can be used as criteria for comparing differences across age groups,
varying native languages, and differing teaching methods are virtually
nonexistent (...). Such tests are equally important for use in making decisions
about language competency, whether in the context of evaluating learner
achievement in language programs, or for certifying the professional competence
of language teachers. (Bachman 1990: 6)
Bachman entwickelt mit dem Bezugspunkt der communicative language ability (1990: 81ff) eine eigene
Testtypologie. Im Rahmen seiner Überlegungen zur Reliabilität (Bachman 1990:
160ff) sind nicht zuletzt seine Reflexionen hinsichtlich des möglichen
Einflusses des jeweiligen Testformats auf die erzielten Ergebnisse
aufschlussreich. Ebenso bedeutungsvoll sind seine Ausführungen über die
künftige Forschung im Rahmen des Sprachtestens (Bachman 1990: 296ff).
Eine wichtige Publikation zu dem Verbindungsbereich zwischen dem Sprachtesten
einerseits und dem Zweitsprachenerwerb andererseits haben Bachman / Cohen
(1998) vorgelegt. In dem von ihnen herausgegebenen Sammelband wird dieser
Bereich zunächst abgegrenzt, was die Autoren in unterschiedlicher Perspektive
tun. Mit Blick auf die Forschungsinteressen ergeben sich hinsichtlich des
Fremdsprachenerwerbs einerseits und des Spachtestens andererseits so die
folgenden Merkmale:
While SLA (= Second Language
Acquisition; T.T.) research has concerned itself more with the factors and
processes that affect or are part of language acquisition, LT (= Language
Testing; T.T.) research had tended to focus on components and strategies that
are part of language ability. Thus, while SLA
has looked for antecedents of language ability, LT research has studied the
results of acquisition. (Bachman / Cohen 1998: 2)
Zudem wird dieser Verbindungsbereich auf den zu dem damaligen Zeitpunkt
neuesten Stand gebracht (Bachman / Cohen 1998: 1ff), und es werden zu-dem
wichtige Gesichtspunkte, die sowohl das Sprachtesten als auch den
Zweitsprachenerwerb betreffen (können), miteinander in Beziehung gesetzt. So
beschäftigt Cohen (1998: 90ff) sich mit den Strategien und Prozessen, die für
die Absolvierung von Tests und für den Fremdsprachenerwerb von Bedeutung sind.
Shohamy (1998: 156ff) wirft die Frage auf, wie Sprachtesten und
Fremdsprachenerwerb voneinander profitieren können, und zeigt dieses Potential
an Hand eines konkreten Bereiches (the
case of discourse) auf. Tarone (1998: 71ff) sieht Implikationen der
Forschungen zur Intersprache (interlanguage)
und ihren Variationen innerhalb der Lernbiographie von Individuen für das
Testen von Fremdsprachen und weist damit auf einen Bereich hin, der in Zukunft
ungleich eingehender als bisher erforscht zu werden verdient. Diese hier
herausgegriffenen Beispiele deuten bereits auf das Forschungs- und
Erkenntnispotential hin, das die Herstellung von Verbindungen zwischen dem
Testen einerseits und dem Erwerb von Fremd-sprachen andererseits enthält - wenn
diese denn entsprechend gesehen und konsequent genutzt werden.
Eine praxisorientierte Beschreibung der Erstellung und Evaluation von
Sprachtests leisten Alderson / Clapham / Wall (1995), indem sie alle wichtigen
Stadien des Testens und der Testerstellung berücksichtigen - von den Spezifikationen
eines Tests (ibid.: 9ff) über die Erstellung einzelner Test-Items (ibid.: 40ff),
die Ausbildung von Testkorrektoren (ibid.: 105ff) und die Überwachung der
Prüferreliabilität über Aspekte der Testvalidierung (ibid.: 170ff), die
Erstellung und Präsentation von Berichten über die Testleistung (ibid.: 197ff)
bis hin zu künftigen Möglichkeiten der Entwicklung und Verbesserung von Tests
(ibid.: 218ff), um hier nur einige Aspekte herauszugreifen. Das Ziel der
Autoren ist es dabei, den jeweils bestmöglichen Standard anzuvisieren:
The book is intended to describe and illustrate best practice in test
development, and the principles of test design, construction and administration
that underpin such best practice. (Alderson / Clapham / Wall 1995: 2)
Die Autoren bieten somit Lehrern, Prüfern wie auch Testkonzeptoren
wichtige Hilfestellung. Ihr besonderes Interesse gilt dabei nicht zuletzt der
Sicherung der Validität und Reliabilität von Tests:
The overarching principles that should govern test design are validity and reliability, and we make constant reference to these throughout the
book. (Alderson
/ Clapham / Wall 1995: 6)
Eine ebenfalls an der Praxis orientierte Darstellung, die sich sowohl an
Testkonzeptoren wie auch an Lehrer wendet, welche sich über die Hintergründe
und die Prinzipien der Testerstellung informieren wollen, bietet die
Publikation von Bachman / Palmer (1996), in der das Testen zum kommunikativen Fremdsprachenunterricht
in Beziehung gesetzt wird. Besonders wertvoll an dieser Publikation ist die
Vorgehensweise der Autoren, die theoretische Reflexionen zur Entwicklung von
Tests im Allgemeinen (ibid.: 3ff) und zur Entwicklung von Sprachtests im Besonderen
(ibid.: 85ff) anstellen und sie anschaulich anhand von Fallbeispielen mittels
der Beschreibung von zehn Projekten (ibid.: 253ff) illustrieren. Dieser hohe
Anschaulichkeitsgrad ist von besonderer Bedeutung, da die Erstellung und
(Be-)Nutzung von Tests sich in der Praxis ungleich schwieriger darstellt als
meist ohnehin angenommen wird:
In our experience, many people believe, as we did, that there is an
ideal of what a ‘good’ language test is, and want to know how to create tests
on this ideal model for their own testing needs. Our answer is that there is no
such thing as a ‘good’ or ’bad’ test in
the abstract and that there is no such thing as the one ‘best’ test, even
for a specific situation. (Bachman / Palmer 1996: 5f)
Diese auf der persönlichen Erfahrung der Autoren beruhende Feststellung
ist ein Beleg dafür, dass Tests in Konzeption, Durchführung und Auswertung
niemals unterschätzt werden dürfen: Im Einzelfall - dies sei hier bemerkt - kann
zu viel von ihnen abhängen; im Einzelfall können sie Karrieren zerstören.
Davidson / Lynch (2002) legen mit ihrer Publikation „Testcraft“ eine an
der Praxis orientierte Einführung in die kriterienbezogene Leistungsmessung vor
und geben Anleitungen zur Festlegung von Testzielen und Erfolgskriterien. Sie
wenden sich damit an praktizierende Lehrer und versuchen, ihnen Hilfestellung
in einem Bereich zu geben, der bei vielen von ihnen erfahrungsgemäß
Verunsicherung auslöst und sie nicht selten einem Gefühl der Hilflosigkeit
aussetzt. Eine ähnlich praxisorientierte und dennoch problembewusste Übersicht
bietet Brown (2004), der nicht nur die grundlegenden Prinzipien der
Leistungsbewertung auflistet und analysiert, sondern zudem praktizierenden
Lehrern das nötige Handwerkszeug für eine transparente und gerechte Bewertung der
Leistungen ihrer Schüler unter Berücksichtigung der vier sprachlichen
Grundfertigkeiten vermittelt.
Mit einer wichtigen Methode der Erforschung der sprachorientierten
Testwis-senschaft beschäftigt sich Green (1998), die in die verbal protocol analysis einführt und
ihre Nutzung im Bereich des Testens und Beurteilens veranschaulicht. Einen
Überblick über den aktuellen Stand der Validierung von Sprachtests und ihre
Auswirkungen auf den Unterricht gibt Cumming (1995) in dem von ihm
herausgegebenen einschlägigen Sammelband. Tests zur Sprechfertigkeit beschreibt
und analysiert Fulcher (2003), erläutert Aufgabentypen auf historischem wie
auch theoretischem Hintergrund und berücksichtigt dabei die Testkonstruktion
gesamthaft.
Ein theoretisch ausgerichtetes Werk zur Messung sprachlicher Leistungen,
das sich eher an Forscher und testtheoretisch gut informierte Prüfer, Testkonzeptoren
und Lehrer richtet als an die breite Masse praktizierender Lehrer, hat McNamara
(1996) vorgelegt. Interessant ist hier die Erkenntnis der Performanzorientierung
des Testens im Fremdsprachenunterricht, wobei jedoch die Vielzahl der im
Allgemeinen in die Testung kommunikativer Sprachleistungen involvierten
Variablen die Beurteilung der eigentlichen Leistungen beeinflusst. Eine
Anleitung für Lehrer zur Entwicklung und gegebenenfalls Anpassung von
Sprachtests präsentiert Brown (1996) in sehr praxisorientierter Form und unter
Berücksichtigung unterschiedlicher Testtypen wie Lernfortschritts-,
Sprachstands-, Diagnose- und Abschlusstests.
Einblicke in die geschichtlichen testtheoretischen, konzeptionellen,
aber auch sprachpolitischen Hintergründe der Entwicklung objektiver
Sprachleistungsstests, die zwar gut fundiert, jedoch zuweilen auch anekdotisch
aufbereitet sind, sind bei Spolsky (1995) zu finden, wobei die Konkurrenz
zwischen TOEFL und Cambridge (First
Certificate in English; FCE) herausgestellt wird. Praktizierende Lehrer
sollten sich angesichts dieser geradezu übermächtigen Testinstitutionen und
ihren Forderungen nach Objektivität und Reliabilität jedoch nicht beirren
lassen, sondern vielmehr ihre eigenen Bedürfnisse hinsichtlich der Beurteilung
und Testung der Leistungen ihrer Schüler im Blick behalten und versuchen, dabei
größtmögliche Validität zu erzielen. Im Unterschied zu Spolsky untersuchen
Bachman et al. (1995) FCE und TOEFL hinsichtlich ihrer Inhalte und ihres
testmethodischen Ansatzes. Sie dokumentieren auf diese Weise auch
unterschiedliche Lösungsansätze zu Fragen der Leistungsmessung in
Großbritannien und den USA. Die Untersuchungen
von Spolsky (1995) und Bachman et al. (1995) stehen somit in einem
interessanten Komplementaritätsverhältnis zueinander und eröffnen zusammengenommen
gegenüber einer isolierten Betrachtung beider Arbeiten nicht nur die entsprechende
Summe an Informationen, sondern geradezu ein Potential an Einsichten. Beide in
ihrer Art und Ausrichtung sind für die Testtheorie wie auch für die
Prüfungsdidaktik daher als wertvoll zu betrachten.
Eine wichtige Publikation, in der der Einfluss der Eigenschaften von Testteil-nehmern
auf das Testergebnis untersucht wird, hat Kunnan (1996) für den Bereich Englisch als Fremdsprache vorgelegt und
bezieht sich dabei auf verschiedene Tests unter Mitberücksichtigung von FCE und
TOEFL. Es wird versucht, individuelle Faktoren herauszuarbeiten, die einen
Einfluss auf das Testergebnis von Testteilnehmern darstellen können. Dieser
Ansatz ist insofern von Bedeutung, als ein gegebener Test nicht nur
hinsichtlich seiner (Konstrukt)Validität als geeignet oder weniger geeignet
eingestuft werden sollte, sondern auch hinsichtlich seiner Eignung für
bestimmte Typen von Testteilnehmern: Nicht jedes Individuum kann jeden Test
vergleichbar gut absolvieren; unterschiedliche Testformen sind für
unterschiedliche Personen(gruppen) geeignet. Dieser Aspekt ist bisher nicht
hinlänglich berücksichtigt worden, so dass es als Kunnans Verdienst anzusehen
ist, hier einen ersten Ansatz zu der allmählichen Schließung dieser Forschungslücke
vorgenommen zu haben. Auf diesem Gebiet wird in Zukunft unbedingt mehr
Forschungsarbeit zu leisten sein, um Licht in das Verhältnis zwischen dem Test
einerseits und dem Testteilnehmer andererseits zu bringen - und dies, obwohl
Kunnan (1998) selbst bereits in dem von ihm herausgegebenen Sammelband mit dem
Titel Validation in Language Assessment,
in dem der zweite Teil (Kunnan 1998: 89ff) Aspekten der Charakteristika und des
Feedbacks von Testteilnehmern gewidmet ist,
erste Schritte dahingehend unternommen hat.
Ein Standardwerk zum Sprachtesten und -bewerten stellt der im Rahmen der
Encyclopedia of Language and Education
von Clapham / Corson (1997) herausgegebene Sammelband dar, in dem der gesamte
Bereich der Lernerfolgskontrolle und der kompetenten Leistungsmessung in
umfassender Form dargestellt wird. Der Band behandelt in der ersten Sektion die
Testung sprachlicher Fertigkeiten,
in der zweiten Sektion Methoden des Testens und Bewertens,
in der dritten Sektion die quantitative und qualitative Validierung von Tests
sowie in der vierten und letzten Sektion die Ethik und die Auswirkungen des
Testens und Bewertens.
Eine sehr gute Einführung in Grundfragen des Testens und der
Testerstellung, die nicht nur für auf diesem Gebiet Tätige, wie beispielsweise
praktizierende Lehrer, sondern durchaus auch für Fachleute interessant ist und
die somit über einen bloßen Einführungscharakter hinausgeht, stellt die
Monographie von McNamara (2000) dar, in der die wichtigsten Aspekte und
Probleme der Leistungsbeurteilung im Sprachbereich behandelt werden. Das
Verdienst dieser Publikation besteht jedoch nicht nur in der gut verständlichen
und leserfreundlichen Art der Darstellung, nicht nur in ihrem sachlich umfas-senden
Charakter, sondern darüber hinaus auch darin, dass McNamara es unterlässt,
einseitige Lösungen der beschriebenen Problemfelder anzubieten. In dieser
sachbetonten, nüchternen Darstellung liegt ein Großteil des Wertes dieser
Monographie.
Eine ebenfalls wichtige Publikation, die sich mehr mit dem Testen als
dem Prüfen und Bewerten beschäftigt, ist der aus einer Vortragsreihe am
Sprachenzentrum der Universität Bayreuth hervorgegangene Sammelband von
Gardenghi / O’Connell (1997), in dem die Thematik umfassend behandelt, aus
unterschiedlichen Blickwinkeln betrachtet und der schulübergreifenden
Adressatengruppe der Fremdsprachenlehrer zugänglich gemacht wird.
Eine Handreichung zur Erstellung von Tests durch praktizierende Lehrer
liefert Hughes (2003), die jedoch bisweilen ein wenig unrealistisch anmutet, so
beispielsweise dann, wenn er die Schritte beschreibt, die diese bei der
Erstellung von Sprachtests durchlaufen sollen:
- Make a full and clear statement of the testing ’problem’.
- Write complete specifications for the test.
- Write and moderate items.
- Trial the items informally on native speakers and reject or modify
problematic ones as necessary.
- Trial the test on a group of non-native speakers similar to those
for whom the test is intended.
- Analyse the results of the trials and make any necessary changes.
- Calibrate scales.
- Validate.
- Write handbooks for test takers, test users and staff.
- Train any necessary staff (interviewers, raters, etc). (Hughes 2003: 58)
Eine wichtige Form der Evaluation, die nach ihrer Lancierung durch
Klein-Braley / Raatz (1982) rasch Bedeutung erlangt, jedoch immer auch Kritik
evoziert hat, ist der C-Test. Eine grundlegende Frage in diesem Zusammenhang
ist, ob ihm die Testung lediglich einzelner sprachlicher Fertigkeiten oder
sogar diejenige allgemeiner Sprachfähigkeit zugeschrieben werden kann. Dieser
Frage widmet sich unter anderem Faust (1986: 10ff), indem er einen konkreten
C-Test beschreibt und Vorschläge für seine Einsetzbarkeit unterbreitet. Dabei
erstellt er eine klare Beziehung zum Leseverständnis, für dessen Überprüfung
diese Testform sich eigne. Für die Messung allgemeiner Sprachfähigkeit eigne
sich der C-Test dagegen nicht. Grundlegende ebenso wie umfassende Informationen
zum C-Test liefert Grotjahn (1992,
1994, 1996, 2002, 2006, 2010) in den von ihm herausgegebenen Sammelbänden zu
dieser Testform, in denen diese sehr gut dokumentiert wird. Auf Grund der
Anzahl der dort publizierten Beiträge ist es hier nicht möglich, auf einzelne
dieser einzugehen, jedoch sei an dieser Stelle bemerkt, dass sie in ihrer
Gesamtheit eine erhebliche Bandbreite aufweisen. Die intensive Erforschung
dieser Testform lässt auf ihre Bedeutung im Rahmen der Sprachlehrforschung
schließen - eine Bedeutung, die wegen des Erfolges des C-Tests über die
einzelne (Fremd)Sprache hinaus in den kommenden Jahren eher zu- als abnehmen
wird.
Informellen Verfahren der Leistungsmessung widmen sich Dlaska / Krekeler
(2009) in ihrem Versuch der Erarbeitung von Qualitätskriterien für solche
Testverfahren im Fremdsprachenunterricht. Ihr Ziel ist es, praktizierenden Lehrern
Hilfestellung zu geben bei Entwicklung, Evaluation und - letztlich - der
Verbesserung informeller Sprachtests, die ihrerseits auf den jeweiligen
unterrichtlichen Kontext zugeschnitten sind. In den mit zahlreichen Beispielen
angereicherten Reflexionen der Autoren, die nicht die Prüfung aller vier
sprachlichen Fertigkeiten abdecken, sondern sich auf Lese- und Schreibtests
konzentrieren, werden zudem das fachsprachliche Testen wie auch alter-native
Leistungsbeurteilungen berücksichtigt, womit die Autoren über den Bereich der
eigentlichen Testerstellung hinausgehen. Als Qualitätskriterien von informellen
Leistungsbeurteilungen werden - im Unterschied zu denjenigen standardisierter
Testverfahren - Gerechtigkeit, Rückmeldung, Auswirkungen, und Aktivität
ausgegrenzt, was in recht komplexer Weise auf der Basis einander partiell
überlappender, jedoch insgesamt komplementärer Subkriterien geschieht (Dlaska /
Krekeler 2009: 42ff). In der Widerspiegelung des Bewusstseins der praktischen
Bedeutung informeller Tests für die Schule und deren Behandlung in praxisnaher
Form liegt das eigentliche Verdienst dieser Publikation (vgl. für weitergehende
Informationen auch Tinnefeld 2010b).
Jegliche Beschäftigung mit Tests erfordert - anstelle von deren
unbefragter Akzeptierung - deren kritische Hinterfragung sowie die Behandlung
derjenigen Probleme, die mit Tests als Institution einerseits wie auch mit
ihrer Verwendung andererseits einhergehen können. Auf diesem Hintergrund ist
die Monographie von Shohamy (2001) als eine wichtige zu nennen, in der eben
diese Hinterfragung von Tests vorgenommen wird, womit die Autorin eine
Forschungslücke schließt, da diese Fragen in Publikationen zu Tests und zum
Testen allgemein so gut wie nie in den Mittelpunkt gestellt werden. In diesem
Werk, das als Appell für einen ethisch korrekten Umgang mit Tests verstanden
werden kann, werden nicht nur relevante gesellschaftliche Probleme von Tests
behandelt und die Problematik anhand vorgestellter Fallstudien konkretisiert,
sondern es wird auch ein Modell des Umgangs mit Tests - ein code of practice - entwickelt. Aus ihren
Reflexionen leitet die Autorin die Forderung nach einem kritischen Umgang mit
Tests ab, den sie wie folgt versteht:
Critical testing implies the need to develop critical strategies to
examine the uses and consequences of tests, to monitor their power, minimize
their detrimental force, reveal the minuses, and empower the test takers. (Shohamy 2001: 131).
Dabei ist aus unserer Sicht die Stärkung der Rolle (und auch der Rechte)
der Testteilnehmer von großer Bedeutung.
Der vorliegende Forschungsbereich lässt sich auf einen Blick wie folgt
darstellen:
Abb. 3: Forschungsfelder im Bereich von Testwissenschaft und Testtheorie
1.4 Umfassende Prüfungstypen
Die Abiturprüfung ist Gegenstand zahlreicher Publikationen, in denen es
in Intervallen immer wieder um die EPA (Einheitliche Prüfungsanforderungen in
der Abiturprüfung) geht, um deren anstehende oder erfolgte jeweilige Neufassung
und um die Kommentierung einzelner Teilaufgaben. So beschäftigt sich Thiel
(1982: 72ff) mit den im Jahre 1980 erschienenen, damals neuen EPA für Französisch
und grenzt diese zu den bis dahin gültigen EPA von 1975 ab.
Mit Blick auf das Abitur werden nicht selten Einzelfragen aufgegriffen
oder Einzelaufgaben vorgestellt, die Lehrern späterer Jahre als Orientierung
und Anregung dienen können. So stellt Eichler (1992: 462ff) die schriftliche
Abiturprüfung und die für sie geltenden Rahmenbedingungen im Zentralabitur für
das Fach Englisch (Grund- und Leistungskurs) in Baden Württemberg - einschließlich
zweier Aufgabenanalysen - dar und leistet somit einen Beitrag zu der
Transparenz dieser Prüfungen und zu deren Vergleichbarkeit in anderen
(Sprach-)Fächern und anderen Bundesländern. Eine schriftliche Abiturprüfung im
Fach Spanisch als dritte Fremdsprache auf Leistungskursebene stellt Stösslein
(1998: 118ff) vor.
Eine Beschreibung der Vorschriften der Abiturprüfung des Berliner Senats
im Leistungsfach Englisch unternimmt Raddatz (1993: 67ff) - auch unter
Berücksichtigung der durch die Wiedervereinigung entstandenen Situation - und
exemplifiziert diese an möglichen Prüfungsaufgaben. Eine vergleichbare
Stoßrichtung - jedoch ungleich konkreter und diesmal aus der Sicht des Lehrers
selbst - verfolgt Oberenzer (1993: 464ff), indem er, in Bezug auf das
Französische, einen Vorschlag für die Abiturprüfung hinsichtlich der juristischen
Bestimmungen, der konkreten Gestaltung und der an die Schüler gestellten
Anforderungen und zudem eine individuelle, korrigierte Arbeit eines Schülers,
verbunden mit einem Kommentar dieser, präsentiert. Das Verdienst eines solchen
Ansatzes der Konkretisierung der amtlichen Vorschriften durch ihre Verknüpfung
mit konkreten Aufgaben liegt in einer Verbesserung der Orientierung der Lehrer
- und Aufgabensteller - und letztlich in einer Verbesserung der Prüfungen
selbst. Insbesondere für praktizierende Lehrer sind solche, an der
Prüfungsrealität orientierten oder sie so exakt wie möglich nachbildenden
Veröffentlichungen von erheblichem Wert - und es wäre zu begrüßen, wenn
Publikationen mit vergleichbarem praktischen Wert ungleich zahlreicher wären,
als sie es bislang sind.
Niemeyer (1991: 455ff) stellt eine Abituraufgabe für das Fach Russisch
als Leistungskurs in den alten Bundesländern vor und erläutert auf der Basis dieser
die an die Schüler gestellten Anforderungen. Einen Vergleich zwischen
Prüfungsanforderungen im schriftlichen Abitur in den Fächern Russisch und
Englisch in Sachsen-Anhalt für die Jahre 1991 und 1992 nimmt Berthelmann (1993:
64ff) vor und stellt große Unterschiede in beiden Fächern fest.
Von großer Bedeutung im Rahmen von Prüfungen und deren Durchführung sind
nicht nur wissenschaftliche Texte, sondern auch offizielle und / oder amtliche
Texte, in denen die entsprechenden Bestimmungen festgelegt werden. Als
Beispiele für eine solche Textsorte mögen im vorliegenden Zusammenhang die von
der KMK im Jahre 2004 für die Fächer Französisch, Spanisch und Italienisch
herausgegebenen „Einheitliche(n) Prüfungsanforderungen in der Abiturprüfung“ (vgl.
Ständige Konferenz der Kultusminister der Länder in der Bundesrepublik
Deutschland 2004a 2004b und 2004c) gelten, die der Sicherung vergleichbarer
Qualitätsstandards dienen sollen. In ausführlichen Texten dieses offiziellen
Typs werden - wie es auch hier der Fall ist - Prüfungen umfassend beschrieben,
und zwar hinsichtlich der folgenden Aspekte: Gegenstände der Prüfung(en),
nachzuweisende Kompetenzen, (zulässige) Aufgabenarten, Bewertungskriterien für
Prüfungsaufgaben, Bewertungshin-weise hinsichtlich der Leistungen der Prüflinge
und Aufgabenbeispiele für die einzelnen sprachlichen Fertigkeiten sowie
entsprechende Erwartungshorizonte. Texte dieses Typs sind weitgehend bindend
und können somit als mögliche Indikatoren für die Beschreibung des state of the art von Prüfungen dienen:
Die
Vorgaben der Einheitlichen Prüfungsanforderungen in der Abiturprüfung im Fach
Französisch sind Ausdruck des Wandels in den gesellschaftlichen Erwartungen an
das Fach sowie des Standes der fachlichen Diskussion um Aufgaben, Ziele und
Formen des Fremdsprachenunterrichts. In diesem Sinne definieren sie fachliche
Qualitätsstandards, sind aber gleichzeitig hinreichend offen für
unterschiedliche didaktische und pädagogische Konzepte und zukünftige
Weiterentwicklungen des Faches. (Ständige Konferenz der Kultusminister der
Länder in der Bundesrepublik Deutschland 2004a: 6)
In Zukunft sollten sie dazu herangezogen werden, als eine von mehreren
zentralen Quellen den Stand der Disziplin Prüfungsdidaktik
zu dokumentieren.
1.4.2 Prüfungen
an anderen Schulformen
Eine vergleichsweise beachtliche Fülle wissenschaftlicher Literatur
existiert ebenso zu Prüfungen an vom Gymnasium unterschiedlichen Schulformen - von
der Grundschule über die Haupt- und Realschule bis hin zum Gymnasium.
Auch davon kann hier lediglich eine kleine Auswahl geboten werden.
Bestehende Prüfungen an den entsprechenden Schultypen werden durch die Zeit
hindurch beschrieben und gegebenenfalls durch Verbesserungsvorschläge einer
Modifizierung zuzuführen versucht. Der bayerischen Hauptschule und der dort
herrschenden Prüfungspraxis der Zeit vor den und in den frühen 1980er Jahren
widmet sich beispielsweise Wunsch (1983: 6ff), der sich mit dem Fach Englisch
beschäftigt, den dortigen Stand der Prüfungen analysiert und diesen im
Wesentlichen positiv bewertet.
Auf die Realschule - wiederum in Bayern - bezieht sich der von Huber
(2000: 32ff) dargestellte Versuch, die mündliche Kommunikationsfähigkeit der
Schüler valide mit Hilfe eines geeigneten Textverfahrens zu überprüfen.
Bezugsrahmen war dabei die an bayerischen Realschulen abgenommene Zentrale
Abschlussprüfung Englisch. Mit validen Abschlussprüfungen im Rahmen der
Zentralen Realschulabschlussprüfung im Fach Englisch in Mecklenburg-Vorpommern
setzen sich Sabin / Zeplien (2003: 212ff) auseinander und geben Beispiele für
solche Prüfungsaufgaben, die für potentielle Adressaten von Realschulabsolventen
von Aussagekraft sein können.
Zu dem im Jahre 1992 ins Leben gerufenen UNIcert® soll im vorliegenden Rahmen auf die beiden Handbücher
eingegangen werden, die dazu bisher veröffentlicht worden sind.
Die bis dato wichtigste Publikation zu UNIcert® stellte sicherlich
das von Johann Fischer und Karl-Heinz Eggensperger (1998) herausgegebene Handbuch
UNIcert® dar, in dem die Konzeption, der Stand und die
Weiter-entwicklung (Teil I), der Bezug auf einzelne Sprachen (Teil II), die Ausbildungskonzepte
(Teil III), die Prüfungsgestaltung (Teil IV) und Dokumen-te und Materialien zu
UNIcert® (Teil V)
beschrieben werden. An dieser Stelle soll lediglich auf die Gesamtausrichtung
von UNIcert® eingegangen werden, da es unmöglich ist, auf
alle Beiträge des Handbuches einzugehen. Will man UNIcert® zu definieren
versuchen, so kann man dies am besten mit den Worten von Bernd Voss tun, dem
Initiator und langjährigen Vorsitzenden des UNIcert®-Beirates:
Mit
UNICERT wird ein Zertifikationssystem für eine hochschulspezifische und
hochschulübergreifende Fremdsprachenausbildung bezeichnet, welche die Besonderheiten
der Teilnehmer, der Zielsetzungen und der Arbeitsformen an Hochschulen
angemessen berücksichtigt. (Voss 1998: IX)
Für ein vollständigeres Verständnis von UNIcert® sind zudem die folgenden Gesichtspunkte von Bedeutung:
Das
UNICERT-System hat die Form einer Rahmenvorgabe, welche als Referenzsystem
akkreditierte Mitgliedsorganisationen in die Lage versetzt, eine Fremdsprachenausbildung
durchzuführen, die anerkannten Qualitätskriterien entspricht. Die Mitglieder
des UNICERT-Verbunds können dadurch hochschulspezifische Fremdsprachenabschlüsse
auf vier Stufen verleihen, die über unterschiedliche Sprachen und Institutionen
hinweg vergleichbare Kenntnisse und Fertigkeiten attestieren. (Voss 1998: IX)
Den zum damaligen Zeitpunkt aktuellen Stand von UNIcert® beschreibt Eggensperger
(1999: 59ff) und stellt dessen weitere mögliche Perspektiven vor. Er wählt in
seiner Darstellung einen umfassenden Ansatz, innerhalb dessen er nicht nur
inhaltliche und organisatorische, sondern auch hochschulpolitische
Gesichtspunkte berücksichtigt. Es liegt hier eine Darstellung des damaligen state of the art von UNIcert® vor, die eine hilfreiche
Orientierung vermittelt.
Die Ausbildung und die Prüfungsinhalte zu UNIcert® II für Medizinstudenten und die an der Universität
Leipzig in diesem Zusammenhang gemachten Erfahrungen, nach denen in der
Vorbereitung auf diese Prüfung in Zukunft mehr Gewicht auf die Fertigkeiten Schreiben und Sprechen wie auch auf die fachsprachliche Kompetenz der Prüflinge
gelegt werden solle, beschreibt Busch-Lauer (1998: 51ff). Folgerichtig fordert
sie eine stärkere Einbeziehung von Erkenntnissen der L2-Schreibforschung in die
Fachsprachenlinguistik, um so die Didaktik der Fachsprachenvermittlung
praxisnäher zu gestalten.
In dem, in einem zeitlichen Abstand von zwölf Jahren veröffentlichten,
vollkommen neu gestalteten UNIcert® Handbuch 2 (Voss 2010),
das aus organisatorischen Gründen seinerseits einen Entwicklungszeitraum von meh-reren
Jahren benötigte, wird die Fortschreibung des UNIcert®-Konzeptes dokumentiert, und es werden die
Besonderheiten von UNIcert®
sowie die inhaltlichen Strukturen von der Ausbildung und der Prüfungen
dargelegt (Voss 2010: Xf), wobei diese Zuordnung in dem Sammelband leider nicht
strukturell widergespiegelt wird. Für die Prüfungsdidaktik von vergleichsweise
vorrangigem Interesse sind dabei die im Folgenden kurz angesprochenen Beiträge.
So beschäftigt sich Zahn (2010: 151ff) in prägnanter, jedoch in diesem
Rahmen umfassender Art und Weise mit den wichtigsten organisatorischen bzw.
bürokratischen Gesichtspunkten von UNIcert®-Prüfungen,
die sich durchaus auf umfassend ausgerichtete Sprachprüfungen im Allgemeinen
übertragen lassen. Unter prüfungsdidaktischer Perspektive erscheinen dabei ihre
Ausführungen zu der Tätigkeit der Prüfer (Zahn 2020: 155ff) am wichtigsten.
Nestmann / Schröder (2010: 163ff) listen in überblicksartiger Form
mögliche Beurteilungskriterien für Prüfungsmaterialien und -aufgaben auf, die
sehr praxisorientiert sind und für Prüfungskonzeptoren, die ihre ersten
praktischen Erfahrungen als Prüfer sammeln, wertvolle Hinweise enthalten, die
ebenfalls auch jenseits des UNIcert®-Kontextes
Gültigkeit besitzen.
In einem eigenen Beitrag (Tinnefeld (2010a:
169ff) wird die Relevanz ausgewählter Aufgabentypen im Bereich Leseverstehen
untersucht. Auf der Basis der dort angestellten Reflexionen ergibt sich, dass
die Aufgabentypen Multiple-Choice und
Antwortmatrix kaum oder gar nicht
empfehlenswert sind (Tinnefeld 2010a: 178f; vgl. hierzu auch Kap. 7.2.1.1 und
7.2.1.3).
Duttlinger (2010) beschreibt in zwei
separaten Beiträgen die UNIcert®-Prüfungen
zum Hörverstehen (181ff) und zum Leseverstehen (187ff) und geht darin ebenfalls
auf prüfungsdidaktische Gesichtspunkte ein, die vom UNIcert®-Kontext aus auf allgemeine Fremdsprachenprüfungen zu
diesen beiden Fertigkeiten generalisierbar sind.
Wenn das zweite UNIcert®-Handbuch
leider auch nicht den wirklich aktuellen state
of the art des Konzeptes darstellt, so werden doch die Fortschritte deutlich,
die in den vergangenen Jahren in diesem Kontext erzielt worden sind.
Insgesamt stellt UNIcert®
eine Kombination aus Zertifizierungs-, Ausbildungs- und Curriculuminstanz dar,
die - in Anerkennung der prinzipiellen Organisations- und Planungsfreiheit der
einzelnen universitären Einrichtungen - in Form einer Dachorganisation mit
beratender und begleitend-überwachender Funktion fungiert. UNIcert® hat sich seit seiner
Entstehung kontinuierlich weiterentwickelt und immer mehr vervollkommnet, auch
wenn zum gegenwärtigen Zeitpunkt noch recht viel Verbesserungsarbeit zu tun
bleibt. Insbesondere wird es von Nöten sein, die im Rahmen dieses Ansatzes aufgestellten
Prinzipien empirisch abzusichern, was in vielen Fällen bisher nicht erfolgt ist.
Dennoch hat die Schaffung dieses Konzeptes viel Bewegung in die universitäre
Fremdsprachenausbildung für Hörer aller Fachbereiche gebracht, wodurch ihm eine
erhebliche Innovationkraft zukam und ihm auch in Zukunft mit hoher
Wahrscheinlichkeit ein beachtliches Innovationspotential inhärent sein wird.
1.4.4
Sprachstandsprüfungen (Proficiency Tests)
Obwohl Sprachstandstests, wie zum Englischen beispielsweise die Tests TOEFL, TOEIC, und IELTS sowie
für das Französische der DELF / DALF,
nicht im eigentlichen Sinne Gegenstand dieser Monographie sind, sei in dem
vorliegenden Rahmen kurz auf sie eingegangen, da ihre Erforschung ein
erhellendes Licht auf die gesamte Forschungslage zur Prüfungsdidaktik zu werfen
vermag. Die Behandlung der eigentlichen Tests in der vorliegenden Publikation
wäre hingegen zu umfangreich und würde lediglich den Blick auf die im Zentrum
stehenden Gesichtspunkte verstellen. Ebenso gilt, dass auch bei Erwähnung der
für diese Tests existierenden Forschungsliteratur ob ihrer Fülle in keiner
Weise Vollständigkeit angestrebt werden kann. Hier kann es lediglich darum
gehen, einige wesentliche Gesichtspunkte herauszugreifen, die für die Prüfungsdidaktik
von Interesse sein können. Dies geschieht im Folgenden anhand der einzelnen
abgeprüften Sprachen.
Im Bereich des Englischen sei zunächst kurz auf den TOEFL-Test eingegangen.
Der TOEFL-Test
ist sicherlich diejenige Sprachstandsprüfung, die ob ihres hohen Standardisierungsgrades
über einen langen Zeitraum hinweg Vorbildcharakter hatte. Im Zusammenhang mit
der Prüfungsdidaktik ist der generelle Wechsel in der Ausrichtung des Tests von
den früheren, weitgehend fertigkeitsorientierten TOEFL CBT (computer-based test; bis 2006) und TOEFL
PBT (paper-based test) zu dem an
Sprachverwendungs-situationen orientierten TOEFL iBT (Internet-based Test; ab 2008) von Bedeutung. Für die Prüfungen
selbst bedeutete dies eine Abkehr von weitgehend unverbundenen Aufgaben und
eine Hinwendung zu komplexen, integrierten Aufgaben zur Lösung von exakt
definierten Kommunikationsproblemen (vgl. hierzu auch Dlaska / Krekeler 2009:
22f).
Der IELTS (International English
Language Testing System) ist ein internationaler, standardisierter Test
zur Prüfung des Sprachstandes im Englischen, in dem alle vier sprachlichen
Grundfertigkeiten berücksichtigt werden. Generell existieren zwei Ausprägungen:
General Training (z.B. Zulassung zu
Sekundarschulen bzw. für Praktika und den Erwerb von Berufserfahrungen im
englischsprachigen Ausland) und Academic (Zulassung
zum Studium an englischsprachigen Universitäten). Das Testformat ist in der
Weise gestaltet, dass das Sprechen und Schreiben, das Hören und Lesen jeweils
getrennt voneinander geprüft werden. Der IELTS wird als realitätsnaher Test
ausge-wiesen und unterscheidet sich vom TOEFL (iBT) beispielsweise dadurch,
dass die Sprechfertigkeit von physisch anwesenden Prüfern getestet und nicht
mittels eines Computers abgeprüft wird (vgl. IELTS - English for Interna-tional
Opportunity 2010). Eine kritische Analyse des International English Language Testing System (IELTS) nimmt Wallace
(1997: 370ff) vor und votiert - zur Vermeidung einer potentiellen
Benachteiligung von Prüflingen aus Ländern mit solchen Schreibkulturen, die
nicht mit der anglo-amerikanischen Schreibkultur übereinstimmen - für eine
Trennung der Prüfungsaufgaben zum Leseverstehen und zur Schreibfertigkeit. Die
Verknüpfung oder Trennung der sprachlichen Fertigkeiten in Prüfungen ist ein
grundsätzliches Problem, das die Qualität von Prüfungsklausuren erheblich -
positiv wie negativ - zu beeinflussen vermag (vgl. auch Kap. 6.1). Eine
interessante Studie zum Einfluss des Welt- bzw. Hintergrundwissens der
Teilnehmer auf den Erfolg bei Leseverstehenstests legte Clapham (1996) mit
Bezug auf IELTS vor. Trotz aller von ihr vorgenommenen Relativierungen und
Differenzierungen fand sie - ab einem gegebenen fachlichen Spezifikations-grad
der jeweiligen Subtests - durchaus einen Zusammenhang zwischen dem Hintergrundwissen
der Prü-flinge einerseits und deren Abschneiden in Leseverstehenstests andererseits
(Clapham 1996: 204f).
Im Bereich Französisch liegen zu DELF und DALF unterschiedliche Beschreibungen
und Analysen vor, die im Folgenden lediglich kurz und schlaglichtartig
beleuchtet werden können.
Mit indonesischem Hintergrund beschreiben Freynet / Nonorat / Maiffrédy (1991: 70ff)
DELF (Diplôme d’études en langue française; früher als gemeinsame Prüfung:
Diplôme élémentaire de la langue française) und DALF (Diplôme approfondi de
langue française) und berichten über ihre positiven Effekte, die unter anderem
in einer effizienteren Sprachaneignung des Französischen durch indonesische Studierende
sowie in der Verbesserung der Lehre des Französischen in Indonesien liegen.
Die schulische Nutzbarkeit von DELF im deutschen Kontext für Schüler ab
Klasse 10 beschreiben Müller / Malz (1997: 28ff).
1.4.4.3 Deutsch
als Fremdsprache
Unter den Publikationen zum Bereich Deutsch als Fremdsprache ist
sicherlich die Monographie von Hans-Georg Albers und Sibylle Bolton (1995) zum
„Testen und Prüfungen in der Grundstufe“ hervorzuheben, in der die Autoren sich
nicht nur mit prüfungs- und testtheoretischen Gesichtspunkten
auseinandersetzen, sondern darüber hinaus unter prüfungspraktischen Aspekten
auch über die deutschen Landesgrenzen hinausblicken.
Bernd Wintermann (1998: 104ff) untersucht die Deutsche Sprachprüfung für den Hochschulzugang (DSH) auf ihre
Gütekriterien hin, insbesondere auf dasjenige der Validität, und analysiert sie
auf der Vergleichsfolie standardisierter Prüfungen, insbesondere des TOEFL.
Auf der Basis dieser Analyse werden die Chancen der Entwicklung des (später in
der Tat eingeführten) TestDaF - eines weltweit verwendbaren Sprachtests für
Deutsch als Fremdsprache - beleuchtet. Eine vergleichbare Stoßrichtung verfolgt
Bickes (1998: 97ff), der - angesichts des unbefriedigenden Charak-ters der DSH
und ihrer Umsetzung - eine Zentralisierung des Prüfungsverfahrens fordert, um
auf diese Weise zu einer adäquateren Erfüllung der Gütekriterien zu gelangen.
Zudem stelle die DSH - als Nachfolgerin der Prüfung
zum Nachweis deutscher Sprachkenntnisse (PNdS) - keine wirkliche Verbesserung
der Sprachtestsituation für DaF dar. Anhand der im Fach Deutsch als
Fremdsprache vorgenommenen Anstrengungen, die PNdS weiterzuentwickeln, deren
Ergebnis die DSH war, dann von der ihrerseits unbefriedigenden DSH wegzukommen,
um einen zuverlässigeren und allgemein befriedigenderen Sprachtest für DaF
einzuführen, wird deutlich, wie sehr es allgemein vonnöten ist, gegebene Test-
und Prüfungsverfahren immer wieder zu hinterfragen, sie ständig zu verbessern
und sie permanent an die sich verändernden äußeren Rahmenbedingungen anzupassen
und zu aktualisieren.
Die gegenwärtig neueste Entwicklung des Testens im Bereich Deutsch als
Fremdsprache stellt der, im Jahre 1998 vom Deutschen Akademischen
Austauschdienst initiierte (vgl. Projektgruppe TestDaF 2000: 64) und von der
Fernuniversität Hagen zusammen mit dem Seminar für Sprachlehrforschung der
Universität Bochum und vom Goethe-Institut zusammen mit den Carl-Duisberg
Centren entwickelte TestDaF dar.
Dieser kann wie folgt definiert werden:
TestDaF
(Test Deutsch als Fremdsprache) ist eine Prüfung für ausländische Studien-bewerber,
die ihr Studium in Deutschland aufnehmen bzw. ein bereits im Heimatland
begonnenes Studium in Deutschland weiterführen möchten. Er ist damit in seiner
Funk-tion vergleichbar mit dem IELTS (International
English Language Testing System) und mit dem TOEFL (Test of English as a Foreign Language) - den beiden bedeutendsten
inter-nationalen Sprachtests für den Zugang zu englischsprachigen Universitäten
und Institu-tionen. (Projektgruppe TestDaF 2000: 63f)
In dieser Publikation werden unter anderem die politischen
Zielvorstellungen (ibid: 65), die methodischen Prinzipien (ibid: 65ff) und das
Format (ibid: 67ff) des TestDaf beschrieben. Wichtige Aspekte zum TestDaf,
dessen Niveaustufen mit dem Gemeinsamen europäischen Referenzrahmen harmonisiert sind,
ergeben sich zudem aus Bolton (2000), in deren Sammelband unter anderem
unterschiedliche Zulassungsprüfungen für ausländische Studierende und
verschiedene Ansätze zur Testung der sprachlichen Fertigkeiten vorgestellt
werden.
Mit allgemeinen Aspekten des TestDaF beschäftigt sich Althaus (2004);
Arras/Grotjahn (2002) und (2003) beschreiben die zum damaligen Zeitpunkt aktuellen
Entwicklungen, von denen die bis dato neueste die Umstellung auf einen
Computer-Test war. Arras (2012: 137ff) beschreibt eine im Jahre 2011 zur
Überprüfung der Validität des TestDaf durchgeführte empirische Studie. Die
Ergebnisse dieser Studie bestätigten die Validität und die weitgehende
Adäquatheit des Tests, auch wenn in Zukunft mehr Wert einerseits auf die Berücksichtigung
der modernen Kommunikations- (E-Mail) und Vortragsformen (PowerPoint) gelegt
und andererseits komplexen Formen der Informationsverarbeitung - beispielsweise
bei der Rezeption wissenschaftlicher Literatur -, die in Komplementarität zu
dem dazu notwendigen sprachlichen Wissen und Können stehen, Raum gegeben werden
sollte.
Im Folgenden sei im Hinblick auf den TestDaf noch auf einige
Einzelaspekte eingegangen. So untersucht Eckes (2003: 43ff) Aspekte der
Qualitätssicherung und schätzt den TestDaF aus dieser Perspektive
zusammenfassend wie folgt ein:
Der Schwerpunkt der testmethodischen Analysen von TestDaF-Daten liegt
auf Modellen, die sich aus der Item-Response-Theorie ableiten. Erst die verschiedenen
Rasch-Modelle, die beim TestDaF routinemäßig zum Einsatz kommen, können mit
hinreichender Genauigkeit Fehler und Schwächen in neu erstellten
Aufgabensammlungen identifizieren und diese einer fundierten Revision zuführen
(…). Die hohe Flexibilität von IRT-Modellen ist es auch, die sie zu einem
besonders geeigneten Instrument zur Herstellung von Testäquivalenz macht.
Äquivalenz unterschiedlicher TestDaF-Prüfungen stellt eine stabile, der
Fähigkeit der Pbn (Probanden; T.T.) entsprechende Zuordnung zu TestDaF-Niveaustufen
sicher. (Eckes 2003: 64f)
Ebenfalls Eckes (2004: 485ff) beschäftigt sich mit Blick auf den TestDaF
mit der Strenge von Beurteilern und gibt eine statistisch-operationale
Definition von Strenge und Milde. Für unseren Zusammenhang an dieser
Stelle noch wichtiger als seine eigentlichen Ergebnisse sind die
Feststellungen, die Eckes hinsichtlich der in Zukunft zu berücksichtigenden
Forschungsdesiderata trifft:
Eine andere Perspektive betrifft die Notwendigkeit,
die angewandte Forschung im Bereich der Leistungsbeurteilung zu intensivieren.
Es ist für empirische Forschung geradezu typisch, dass sie insbesondere in
einem frühen Stadium mehr Fragen aufwirft, als sie Antworten zu geben in der
Lage ist. Ein im Kontext der Multifacetten-Rasch-Analyse noch relativ wenig
erforschtes Gebiet betrifft die Beurteilerstrenge. (Eckes 2004: 514)
In diesem Bereich der Beurteilerstrenge im Rahmen der
Multifacetten-Rasch-Analyse wird in naher Zukunft unbedingt Arbeit zu leisten
sein, aber auch in dem folgenden Bereich:
Schließlich
ist zu beachten, dass die Tendenz zur Strenge bzw. Milde nicht die einzige
Urteilstendenz ist, die mangelnde Übereinstimmung nach sich ziehen kann. Andere,
oft beschriebene (und hier nur kurz wiederzugebende) Urteilstendenzen sind die Zentraltendenz,
die Extremtendenz und der Halo-Effekt.
Die Zentraltendenz (oder Tendenz zur Mitte) betrifft die Neigung,
die mittleren Kategorien einer mehrstufigen Ratingskala bevorzugt zu verwenden
bzw. die extremen Kategorien zu vermeiden. Umgekehrt wird mit der Extremtendenz die Neigung beschrieben,
gehäuft extreme Urteilskategorien zu verwenden. Unter einem Halo-Effekt ist die Tendenz zu
verstehen, Einstufungen auf unterschiedlichen Merkmalen von einem ganz
bestimmten Urteil (z.B. von einer positiven oder negativen Gesamtbewertung
einer Person oder eines hervorstechenden Merkmals der Person) leiten zu lassen.
In der Literatur finden sich zwar Vorschläge, auch diese Urteilstendenzen im
Rahmen von Multifacetten-Rasch Analysen zu identifizieren bzw. zu kontrollieren
(Engelhard, 1994; Wolfe/Chiu/Myford, 2000), doch die Forschung hierzu steckt
noch in den Anfängen. (Eckes 2004: 514f)
Hier gelangen wir in Bereiche, die für Prüfungen allgemein - nicht nur
für Sprachprüfungen - von Bedeutung sind und die durchaus in die Psychologie
hineinreichen.
Insgesamt ist aus diesen Ausführungen zum TestDaF, die lediglich einige
neuere Publikationen zu diesem Bereich darstellen, deutlich geworden, dass die
Entwicklung dieses Tests bzw. Testtyps die zu Prüfungen im Allgemeinen
durchgeführte Forschung vorangebracht hat.
1.4.5 Volkshochschul-Prüfungen
Publikationen zu an Volkshochschulen abgehaltenen Prüfungen beschäftigen
sich in erster Linie mit den an dieser Institution zu erwerbenden Zertifikaten.
So stellt das vom deutschen Volkshochschulverband (1984) herausgegebene Werk
„Certificate in English“ umfassende Informationen für interessierte Lerner
bereit, die sich dieser Zertifikatsprüfung unterziehen wollen, und geht dabei
so weit, nicht nur die vier grundlegenden sprachlichen Fertigkeiten
hinsichtlich der in ihrem Rahmen zu erfüllenden Lernziele zu beschreiben,
sondern darüber hinaus gezielt zu lernendes sprachliches Material bereitzustellen.
Rübeling (1996: 99ff) beschreibt die Geschichte der ICC Certificates - wobei die Abkürzung ICC für die im Jahre
1974 durch die Volkshochschulverbände Deutschlands, der Schweiz, Österreichs
und der Niederlande gegründeten International Certificate Conference
steht -, die im Jahre der Veröffentlichung des Aufsatzes das Zertifikatssystem
zwölf wichtiger europäischer Weiterbildungsorganisationen darstellten.
Rübeling dokumentiert auf diese Weise die beachtlichen Fortschritte, die in den
vergangenen Jahrzehnten auch auf dieser Ebene hinsichtlich der Prüfung und
Zertifizierung von Fremdsprachenleistungen gemacht worden sind. Kiefer / Techmann (1998: 40f) beschreiben die
Neufassung der Prüfung und der Beschreibung der Lernziele dieses
Zertifikatstyps.
Interessante Einsichten vermittelt Seibold (1994: 204ff) anhand seiner
Beschreibung des bayerischen VHS-Zertifikats zum einen und insbesondere in
seiner Schlussfolgerung zum anderen, nach der Prüfungen mit höheren
Anforderungen für mögliche Adressaten interessanter seien, da diese Abschlüsse
dann mit mehr Qualifikationspotential auf nationaler und auf internationaler
Ebene versehen wären.
Ein Gedanke, der auch dem Gedankengut von UNIcert® (vgl. Kap. 1.4.3) sehr nahe ist, ist derjenige von
Schrand (1996: 39f), wonach Zertifikate weniger als Leitlinien für die
jeweiligen Prüfungen, die zum Erwerb dieser führen, gesehen werden sollten,
sondern vielmehr als Orientierungsgröße für die jeweiligen, auf diese Prüfungen
vorbereitenden Lehrveranstaltungen. Dieser Aspekt ist in der Weise von
Bedeutung, dass eine Prüfung, wenn sie in diesem Sinne verstanden wird, über
sich hinaus weist, dem Prüfling - und Lerner (!) - mehr Chancen und Freiräume
für intrinsische Motivation einräumt und auf diese Weise den gewünschten
formalen Nachweis über Fremdsprachenkenntnisse - das Zeugnis oder Zertifikat
selbst - mit sinnvollem Lernen und der Vermittl-ung von intellektuellen,
(inter)kulturellen und selbstreflektorischen Erkenntnissen verknüpft.
1.4.6 Weitere
Prüfungstypen
Zusätzlich zu den hier behandelten proficiency
tests existieren Prüfungsformen dieses Typs, die ungleich weniger bekannt
sind. Auf diese soll im Folgenden kurz eingegangen werden, um das Bewusstsein
der Forschung auch mit Blick auf diese zu dokumentieren.
So untersucht Henning (1992: 365ff) das vom American Council on the Teaching of Foreign Languages seit 1982
durchgeführte Oral Proficiency Interview
(OPI), das nie wirklich unumstritten war, auf seine Validität hin und auf
den Wert seiner Richtlinien hinsichtlich zukünftiger Planungen von Sprachtests.
Zu den weniger bekannten Prüfungstypen gehört sicherlich auch das so genannte
SEFIC (Spoken English for Industry and
Commerce), das jedoch im Wirtschaftsleben durchaus von Nutzen sein kann.
Robert Kleinschroth (1991: 199ff) greift diesen Typ auf und beschreibt die
Vorbereitung von Gymnasiasten auf die Prüfung sowie deren Ablegung dieser und
leistet hierdurch einen Beitrag zu der weitergehenden Motivierung von Lehrern,
Ihre Schüler auf diese Prüfung hinzuführen.
Mit dem fachsprachlichen Testen
beschäftigt sich Douglas (2000). In diesem Bereich bestehen für die Erstellung
von Tests die gleichen Probleme wie für die Unterrichtung von Fachsprache:
Lehrende, die Fachsprachen unterrichten, wissen oft nicht genug über die
Hintergründe des der jeweiligen Fachsprache zu Grunde liegenden Faches, wenn sie
selbst aus dem Bereich des Fremdsprachenlehrens und -lernens kommen. So wissen
auch Testkonzeptoren oft nicht genug über das jeweilige Fach, für das sie einen
Test erstellen - ein Problem, auf das Douglas verweist. Als
Kompensationsstrategie ergibt sich unter anderem die Expertenbefragung. Die
Hauptschwierigkeit bei der eigentlichen Testerstellung stellt sich für Douglas
wie folgt dar:
The most difficult aspect of producing test specifications is making the
leap from the analysis of the target language use tasks to the specifications
of test tasks. (Douglas 2000: 113)
Unter den verschiedenen, im Bereich des fachsprachlichen Testens bisher
noch ungelösten Problemen benennt Douglas eines, das - dies sei hier bemerkt -
auf jegliches Sprachtesten bezogen werden kann:
The very nature of the LSP testing enterprise
means that there will always and inevitably be a reduction in the dynamic
interplay between the test taker and the characteristics of the test task,
because a test is, by definition, a controlled and contrived environment. (Douglas 2000:
278)
Dieses Problem ist jedoch im Bereich des fachsprachlichen Testens
naturgemäß noch gravierender als im Bereich des gemeinsprachlichen Testens, da
die generelle Situationsgebundenheit und Kommunikativität der Fachsprachen
eine - auch für das Testen - noch größere Rolle spielt, als dies im Bereich der
Gemeinsprache der Fall ist (vgl. hierzu auch Tinnefeld 1993: 49ff).
Dem Zertifikat „Fachsprache Wirtschaft“ - ebenfalls einer Prüfung mit
fachsprachlicher Ausrichtung - widmet sich Bolten (1997: 530ff) und beschäftigt
sich mit den Richtlinien für dessen Erwerb wie auch mit bis dato verfügbaren
Materialien für die Vorbereitung und Durchführung des Zertifikats an der
Friedrich-Schiller-Universität Jena. Das Zertifikat ermöglicht die Realisierung
vergleichbarer Fremdsprachenprüfungen im Bereich der wirtschaftlichen
Fachsprache an verschiedenen Universitäten in unterschiedlichen Bundesländern.
Nicht zu vergessen sind auch die von den Industrie- und Handelskammern
durchgeführten Prüfungen, nicht zuletzt diejenigen, die auf europäischer Ebene
durchgeführt werden und das Ergebnis internationaler Kooperation darstellen. So
stellt Klause (1996: 73ff) das aus der Zusammenarbeit zwischen dem DIHT, der
Industrie- und Handelskammer von Paris und der Royal Society of Arts
hervorgegangene, erste Europäische Diplom
für Wirtschaft und Verwaltung / Sekretariat vor, in dessen Rahmen eine
Qualifikation in zwei Fremdsprachen auf dem Hintergrund entsprechender Fachkenntnisse
(europäisches Wirtschaftsrecht, Steuer- und Finanzsysteme der für die jeweiligen
Fremdsprachen relevanten Länder, Funktionen und Aufbau der EU) erworben wird.
Ruth Feiertag (1997) beschäftigt sich in ihrem, in zwei Teilen
erschienenen Aufsatz mit Grammatik-, Stil- und Wortschatzproblemen, die in
wirtschaftsorientierten IHK-Übersetzungsprüfungen Englisch / Deutsch zutage
treten, und legt somit eine praxisnahe Analyse des Spannungsfeldes vor, das
zwischen der sprachlichen Realität einerseits und der Realität von Fremdsprachenprüfungen
andererseits besteht.
Zusammenfassend lässt sich der hier beschriebene Bereich der umfassenden Prüfungstypen optisch wie
folgt darstellen:
Abb. 4: Der
Forschungsbereich Umfassende
Prüfungstypen
Mündliche Prüfungen sind bisher unter den verschiedensten
Gesichtspunkten und für unterschiedliche Sprachen untersucht worden. Dies kann
durch die folgenden Publikationen, die im Laufe der Jahre erschienen sind,
dokumentiert werden.
Die Grundproblematik mündlicher Prüfungen liegt sicherlich in ihrem
ephemeren Charakter, durch den die Leistungsbewertung bei diesem Prüfungstyp
besonderen Schwierigkeiten unterworfen ist. Eine dieser Schwierigkeiten besteht
darin, dass mündliche Prüfer zugleich Bewerter sind, was die Objektivität der
Notengebung beinträchtigen kann, da diese komplexe Situation die Konzentration
der Prüfer in zweifacher Weise beansprucht: Zum einen müssen sie das
Prüfungsgespräch in Gang halten und adäquate Fragen stellen, zum anderen jedoch
Distanz zum Geschehen aufbauen, um die Leistungen des Prüflings bzw. der
Prüflinge zuverlässig beurteilen zu können. Hinsichtlich dieser Problematik
macht Lutz (1993: 69ff) einen wichtigen Vorschlag, indem er fordert, beide
Rollen zu separieren, also den Gesprächspartner des Prüflings nicht mit dem
Bewerter von dessen Leistung identisch sein zu lassen, was aus seiner Sicht
durch eine entsprechende Zusammenarbeit der Prüfer geschehen kann.
Einen Übersichtsartikel zu diesem Prüfungstyp liefert Tschirner (2001:
87ff) und stellt diejenigen Elemente dar, die für die Konzeption mündlicher
Leistungstests von Relevanz sind. Von besonderem theoretischen Interesse ist
für ihn dabei die Konstruktvalidität. Von praktischem Interesse sind seine
Analysen der mündlichen Teile bestehender Sprachtests zum Deutschen, wie des
Zertifikats Deutsch, der einschlägigen, vom Goethe-Institut entwickelten Tests
sowie des Oral Proficiency Interview
des ACTFL (American Council on the
Teaching of Foreign Languages).
Gewichtete „Beurteilungskriterien für mündliche Prüfungen“ entwickelt
Jung in seinem gleichnamigen Aufsatz (1995: 26ff) und orientiert sie an der
kommunikativen Ausrichtung dieses Prüfungstyps. Dabei verfolgt er das Ziel, zu
einer gerechteren, adäquateren Benotung der von den Prüflingen erbrachten
Leistungen beizutragen. Eine in
diesem Zusammenhang interessante, in der Forschungsliteratur aufgeworfene Frage
ist diejenige, ob eine mündliche Sprachprüfung vergleichbar sei mit einem „normalen“
Gespräch. So fand Lazaraton (1992: 373ff) deutliche Konvergenzen zwischen
beiden, aber auch erhebliche Divergenzen. Ein Forschungsdesiderat der
Prüfungsdidaktik wird darin bestehen, diese Frage weiter zu untersuchen.
Mit Blick auf die damals „neuen Europäischen Sprachenzertifikate“, über
deren modifizierte Teile er eine Übersicht liefert, beschäftigt sich von der
Handt (1999: 110ff) primär mit den in diesem Rahmen durchgeführten mündlichen
Prüfungen, die aus seiner Sicht nach ihrer Revision eine größere Realitätsnähe
aufweisen, was eine Verbesserung darstelle. Die sich in die-sem Zusammenhang
aufdrängende Problematik - dies sei hier angefügt - ist diejenige, wie
realistisch und realitätsnah Prüfungen im Allgemeinen und mündliche Prüfungen
im Besonderen sein können. Ist Realitätsnähe immer positiv zu bewerten? Kann es
vorteilhaft sein, mündliche Prüfungen stärker zu standardisieren – sie also
weniger spontan, somit „künstlicher“ zu gestalten -, sie dadurch jedoch
zuverlässiger werden zu lassen? Dies sind Fragen, die ein zentrales Dilemma der
Prüfungsplanung und Prüfungsgestaltung berühren.
Anregungen für die optimierte Bewältigung der mündlichen Prüfung in der
Abiturprüfung Englisch gibt Altvater (1997:134ff), indem er im Englischunterricht
verwendbare Einzel- und Gruppenübungen vorstellt, die der Simulation und
Antizipation der Prüfungssituation dienen sollen. In der Zukunft wird es von
Bedeutung sein zu erforschen, ob und inwieweit Vorschläge wie die von Altvater
gemachten wirklich zu einer Verbesserung des Prüfungsverhaltens einerseits und
der erzielten Ergebnisse andererseits führen können.
Dem Russischunterricht der ehemaligen DDR widmet sich Klaus Günther
(1985: 179ff), der im Hinblick auf die mündliche Prüfung deren situative Einbettung
als bedeutsam behandelt - eine Erkenntnis, die nicht hoch genug eingeschätzt
werden kann.
Ein interessanter Ansatz besteht darin, mündliche Prüfungen nicht in
einer face-to-face Situation
durchzuführen, sondern - mit Hilfe der modernen technischen Medien - als eine
Prüfung auf Distanz, wobei Prüfer und Prüfling zwar zur gleichen Zeit
miteinander interagieren, sich jedoch nicht an demselben Ort befinden. Diese
Art der Abnahme mündlicher Prüfungen erhöht zwar die geographische Flexibilität
der Interaktanten erheblich, bringt jedoch potentiell Probleme juristischer Art
mit sich und solche, die zu einer Verfälschung der Ergebnisse im Vergleich zu
herkömmlich durchgeführten mündlichen Prüfungen führen können. Nach den
bisherigen Erkenntnissen scheint die Verlässlichkeit dieser mit Hilfe des Computers
auf Distanz durchgeführten mündlichen Prüfungen den face-to-face Prüfungen jedoch im Wesentlichen vergleichbar zu sein
(vgl. Clark / Hooshmand 1992: 293ff). Dennoch kann nach unserem Verständnis diese
Form der Prüfungsabnahme nicht mehr als eine - jedoch ernst zu nehmende -
Notlösung sein.
Ein spezifischer Gesichtspunkt mündlicher Fremdsprachenprüfungen besteht
sicherlich in der Problematik, wie die Aussprache der Kandidaten zu prüfen und
zu bewerten sei, zumal diese gleichsam das „Kleid“ darstellt, in dem ein Lerner
die jeweilige Fremdsprache präsentiert. Für den Bereich Deutsch als
Fremdsprache hat Mebus (1995: 26ff) sich hierzu Gedanken gemacht und
diskutiert mögliche Lösungen dieser Frage.
In der graphischen Darstellung zu diesem Prüfungstyp ergibt sich insgesamt
folgendes Bild:
Abb. 5: Forschungsfelder im Bereich Mündliche Prüfungen
1.6
Prüfungsaufgaben und Aufgabentypen
Prüfungsaufgaben und Aufgabentypen werden in der Literatur im Vergleich
zu den übrigen, hier untersuchten Aspekten eher punktuell und weniger häufig
beschrieben - wenn jedoch, dann tendenziell umfassend und detailliert. Dies
trifft auf Doyé (1986 und 1988) zu, der jeweils eine Testaufgaben-Typologie für
Englisch und Deutsch als Fremdsprache vorgelegt und mit diesen Publikationen einen
wichtigen Beitrag auf diesem Gebiet geleistet hat. Das Verdienst beider
Monographien liegt - neben der theoretischen Fundierung des
Gegenstandsbereiches - sowohl in dem Rückmeldungspotential der vorgestellten
Aufgabentypen für den Lehrer und den Erfolg seiner unterrichtlichen Bemühungen
als auch in der Systematizität der vorgestellten Prüfungsaufgaben hinsichtlich
ihrer Form und Funktion und ihrer damit verbundenen Bedeutung für die einzelnen
sprachlichen Fertigkeiten.
Eine reichhaltige Sammlung von Vorschlägen und Aufgaben(typen) für eine
kreative Bewertung von Schülern und ihren Leistungen, die neue Wege aufzeigt
und Lehrern helfen will, eingefahrene Bahnen zu verlassen, bietet Brown (1998).
Der von ihm vorgelegte Band macht deutlich, dass Leistungsbewertung im
schulischen Kontext eine für Lehrer - und Schüler - interessante und anregende
Angelegenheit sein kann. In Aufsatzform hat sich beispielsweise Sacher (1999:
43ff) zu diesem Bereich geäußert und dabei die Vor- und Nachteile
unterschiedlicher Prüfungsaufgaben herausgearbeitet, wobei er auf die
Bedeutung von Aspekten wie deren Breite, deren sprachliche Fassung oder auch
deren Abfolge zueinander verweist. Diese Ausführungen sind ein Hinweis darauf,
mit welch akribischer Sorgfalt Prüfungsaufgaben gestellt sowie Klausuren und
Tests konzipiert werden müssen, soll die entsprechende Leistungsmessung
erfolgreich und zuverlässig vonstatten gehen.
Ein heftig kritisierter Aufgabentyp ist derjenige der Übersetzung, dem als
wesentliches Manko mangelnde Validität vorgeworfen wird. So ist Götz (2005)
uneingeschränkt zuzustimmen, wenn er im Hinblick auf die Herübersetzung
schreibt:
Bei der Übersetzung aus der Fremdsprache in die
Muttersprache sehen die didaktischen Überlegungen etwas anders aus.
Diese Übersetzung wird oft als Test dafür
eingesetzt, ob der Text "verstanden" wurde. Allerdings handelt es
sich dabei um eine Testform, die man als nicht valide oder als kaum valide
bezeichnen muss, d.h., sie testet nicht, was sie zu testen vorgibt. Das
„Verständnis" des Textes ist in den vorangehenden Kapiteln ausführlich
problematisiert worden, und demzufolge müssen bei der Korrektur Abstriche
gemacht werden (fragt sich nur, welche). Zufällige Lücken in der Sachkenntnis
können vorhanden sein - wie sind sie einzukalkulieren? Es gibt auch Texte,
deren Verständnis, wie man sagt, an einem Wort hängt: Wenn ein Text z.B. von subscription 'Abonnement' handelt und subscription aber als 'Beitrag, Artikel'
interpretiert wird, dann sind falsche Folgeinterpretationen im gesamten Text
wahrscheinlich. Ist dies dann ein einziger Fehler, mit lässlichen Folgefehlern,
oder ist damit der gesamte Text "nicht verstanden"?
Wenn man das Verständnis an der resultierenden
Übersetzung misst, misst man es an einem deutschen Text - und dabei ist es kein
Wunder, wenn Schüler mit schlechten Noten in Deutsch bei solchen Übungen
ebenfalls schlecht abschneiden. Es muss ihnen nicht unbedingt am Verständnis
mangeln, möglicherweise liegen grundsätzliche Probleme bei der Textproduktion
vor. Damit mangelt es der englisch-deutschen Übersetzung, als Testform für das
Verständnis von Texten, an Validität. (Götz 2005: 81f)
Ein weiteres Beispiel sind die von Vogel (1995: 358f) vorgelegten,
kurzen, jedoch den Kern der Problematik treffenden Reflexionen zur
Herübersetzung, der er u. a. ein generelles Benotungsproblem sowie letztendlich
eine Testung der Muttersprache - nicht der Fremdsprache - attestiert.
Eine umfassende Darstellung der Testung von Wortschatz repräsentiert die
Monographie von Read (2000), der - nach der Behandlung einführender Aspekte -
den state of the art in
unterschiedlicher Hinsicht behandelt: in forschungsspezifischer Sicht (Kap. 3
und 4), mit Blick auf konkrete Fallstudien (Kap 5), mit Bezug auf das Design spezifischer
Wortschatztests (Kap. 6) sowie in umfassender Testung (Kap. 7) und somit
unterschiedliche Zielgruppen vom Studenten bis zum Testforscher anspricht. Dieser
breite Ansatz ist eines der Hauptverdienste der Monographie. Ein anderes ist
ihre Forschungsorientierung. Im Rahmen dieser wird gleich zu Beginn die
Entwicklung zur modernen Testung von Wortschatz beschrieben, wobei letztere
sich wie folgt darstellen lässt:
Today’s language proficiency tests do not set out to determine whether
learners know the meaning of magazine
or put on or approximate; whether they can get the sequence of tenses right in
conditional sentences; or whether they can distinguish ship and sheep. Instead,
the tests are based on tasks
simulating communication activities that the learners are likely to be engaged
in outside of the classroom. (Read 2000: 4)
Und etwas später fährt er resümierend fort:
The test-takers are judged on how adequately they meet
the overall language demands of the task. (Read 2000: 4)
Nicht zuletzt diese Entwicklung hin zu kommunikativ orientierten Tests
lässt die intensive Beschäftigung mit dem Testen von Wortschatz interessant
erscheinen. Es wird hier deutlich, dass die Testung von Teilbereichen der
Sprache vergleichbaren Veränderungen unterworfen war und ist, wie dies für die
umfassende Testung von Sprache gilt. Ohne die inhaltliche Breite der vorliegenden
Monographie hierdurch einengen zu wollen, sei an dieser Stelle hinzugefügt,
dass es in den Teilbereichen der Sprache lediglich noch schwieriger ist, ein
akzeptables Gleichgewicht zwischen der Validität der Tests und den Ansprüchen
an die gewünschte Realitätsnähe der Testaufgaben herzustellen.
Eine die Theorie und Praxis wie auch die Forschung zur Testung des fremdsprachlichen
Leseverstehens behandelnde Monographie hat Alderson (2000) vorgelegt. Darin
beschreibt er nicht nur die psychologischen, sozialen und kognitiven Faktoren,
die beim Lesen eine Rolle spielen, sondern zudem in detaillierter Form die
Beziehungen, die zwischen dem Lesen einerseits und der Erstellung von
Sprachtests und Beurteilungsverfahren andererseits bestehen. Für die
Gründlichkeit seines Beschreibungs- und Analyseansatzes spricht, dass er sich
des diffizilen, bisweilen an die Grenzen des Unmöglichen heranreichenden
Charakters der Testung des Leseverstehens bewusst ist:
How can we possibly test whether somebody has understood a text if we do
not know what we mean by ‚understand’? How can we possibly diagnose somebody’s
‚reading problems’ if we have no idea what might constitute a problem, and what
the possible ‚causes’ might be? How can we possibly decide on what ‚level’ a
reader is ‚at’ if we have no idea what ‚levels of reading’ might exist, and
what it means to be ‚reading at a particular level’? In short, those who need
to test reading clearly need to develop some idea of what reading is, and yet
that is an enourmous task. (Alderson 2000: 2)
Die hier aufgezeigten Probleme scheinen nahezu unlösbar, zumal wir nicht
einmal in einer für die Testung des Leseverstehens auswertbaren Form wissen,
was im menschlichen Gehirn vorgeht - ein Gesichtspunkt, den Alderson hier nicht
benennt und der das geschilderte Problem geradezu potenziert. So verwundert es
nicht, wenn die von ihm in Betracht gezogene Lösung eine recht bescheidene ist:
The consolation, however, is that by designing
admittedly imperfect tests, we are then enabled to study the nature of the
tests and the abilities that appear to be being measured by those tests. This
will in turn hopefully lead to a better understanding of what one has assessed,
which should feed back into theory, and further research. Thus by doing
testing, provided that we research what we design, we can contribute to a
growing understanding of the construct. (Alderson 2000: 2)
Hier soll auf der Basis dieser Zitate keineswegs Kritik an Alderson
geübt werden. Es soll vielmehr aufgezeigt werden, wie viel - trotz aller bisher
geleisteten, nicht selten herausragenden Forschung - noch zu tun ist, bis wir
auch nur in die Nähe der wirklich befriedigenden Testung der einzelnen sprachlichen
Fertigkeiten gelangen. Was hier anhand des Leseverstehens angedeutet worden
ist, lässt sich dabei mühelos auf die Testung des Hörverstehens sowie auf diejenige
der Schreibfertigkeit und der Sprechfertigkeit übertragen.
Das Problemfeld Prüfungsaufgaben und Aufgabentypen zeigt die folgende Abbildung in graphischer Darstellung:
Abb. 6: Forschungsfelder im Bereich Prüfungsaufgaben und Aufgabentypen
1.7
Einstellungen zum Phänomen Fehler
Einstellungen zum Fehler im
Allgemeinen wie
auch zum Sprachfehler im Besonderen wechseln - provokativ formuliert - in
vergleichbarer Häufigkeit zu der Veränderung der Perspektive zu
Fremdsprachenunterricht und Sprachvermittlung: Fehler sind in der Geschichte dieser Disziplin in
wechselnder Folge als unerfreulich, jedoch unvermeidlich, als unvermeidlich,
jedoch verzeihlich, als mit dokumentarischem Wert für das Lernen des
Individuums behaftet und sogar als lernförderlich angesehen worden, um an
dieser Stelle lediglich einige konträre Einstellungen zu benennen. Der
Perspektiven-wechsel der sich diachronisch in der Einstellung zum Phänomen Fehler vollzogen hat, kann an dieser
Stelle nicht exhaustiv dokumentiert werden. Unser Bestreben ist es hier
lediglich, einige dieser Positionen, wie sie sich in der Forschungsliteratur
ergeben (haben), darzustellen, um auf diese Weise die jeweilige Rolle, die dem
Fehler im Fremdsprachenunterricht wie auch im Fremdsprachenerwerbsprozess
zugeschrieben wird, zu beschreiben. In aller Kürze nachzulesen ist diese
Entwicklung von der negativen zur positiven Einschätzung von Fehlern bei
Knapp-Potthoff (1987: 205ff), die sie, ausgehend vom behavioristischen über den
kommunikativen Ansatz Piephos bis hin zu Chomskys Theorie der creative construction nachzeichnet. Nur
eine differenzierte Einstellung zum Phänomen Fehler, die dann jedoch nicht nur auf theoretischer Ebene, sondern
auch im alltäglichen Fremdsprachenunterricht zum Ausdruck kommen muss, kann
somit adäquat sein.
In der wissenschaftlichen Literatur ist sogar so weit gegangen worden, die
Ersetzung des Begriffs ‚error (Fehler)’ durch ‚linguistic deviation
(sprachliche Abweichung)’ zu fordern (Gnutzmann 1987: 221ff), was dem Begriff
zweifellos die ihm inhärente negative Konnotation nehmen würde und das Phänomen
auf diese Weise einer neutralen Sichtweise zuführen könnte. Dieser Ansatz ist -
obwohl bereits vor zwei Jahrzehnten gefordert und nicht allgemein aufgegriffen -
in der Tat ein konsequenter und auch vielversprechender, da negative Begriffe
negative Vorstellungen induzieren und die Zeit inzwischen gekommen zu sein
scheint, die immer positiver gewordene Einstellung zu Fehlern auch sprachlich
zu reflektieren.
Eine in diesem Sinne neutrale Darstellung des Phänomens liefert James
(1998), der sich umfassend mit dem Phänomen Fehler
beschäftigt. Für uns interessant ist im gegebenen Zusammenhang das Faktum, dass
er die Fehlerdefinition auf der Basis der vier Kategorien grammaticality, acceptability,
correctness and strangeness vornimmt und auf diese Weise weder dem
kompetenzorientierten noch dem performanzorientierten Ansatz das Wort redet.
Damit entscheidet James sich zwar nicht für einen der beiden
Beschreibungsansätze, was kritisiert werden könnte, er zwängt sich mit dieser
ausgeglichenen Sichtweise jedoch auch nicht in ein deskriptives Korsett, was
ihm viel Analysefreiheit gibt und daher positiv zu sehen ist. Das Phänomen Fehler wird somit einer möglichst
objektiven Beschreibungsebene zugeführt und kann dann - was James auch tut - anhand
aussagekräftiger Beispiele wertfrei sowie sprach- und situationsrelevant
analysiert werden.
Auf die zwischen dem großzügigen Umgang mit Fehlern im kommunikativ orientierten Fremdsprachenunterricht und
der oft unflexiblen und strengen Bewertung von Fehlern in Prüfungen und Tests
herrschende Widersprüchlichkeit und das damit verbundene, grundsätzliche Dilemma,
in dem eine großzügigere Bewertung der Leistungen von Prüflingen die angelegten
Maßstäbe infrage stelle, verweist Bolitho (1995: 61). Folgerichtig fordert er
eine neue Evaluation von Prüfungsanforderungen und Prüfungsverfahren - mit dem
Ziel einer verbesserten Abstimmung dieser auf den Unterricht und die Behandlung
von Fehlern in diesem.
Ausgehend von einem mit Zügen der Toleranz ausgestatteten, präskriptiven
Konzept des Phänomens ‚Fehler’ nimmt Gnutzmann (1992: 16ff) die intentional
von Muttersprachlern mit dem Ziel humorvoller Aussagen realisierten
sprachlichen Abweichungen, wie beispielsweise Wortspiele sie darstellen, und
deren zu kreativem Umgang mit ihnen führendes analytisches Verständnis als
Basis für die Entstehung von Sprachbewusstsein (language awareness). Dieses Konzept kann in die affektive, soziale,
politische, kognitive und die performative Dimension untergliedert werden. Auf
die hier angedeutete Weise werden in der Fremdsprache gemachte Fehler
konstruktiv umgedeutet, da Muttersprachler sich die Freiheit, sprachliche
Abweichungen zu generieren, nehmen, ohne dafür negativ sanktioniert zu werden:
Was bei Muttersprachlern humorstiftend und somit kommunikationsfördernd wirkt,
kann folglich bei Nichtmuttersprachlern nicht negativ gewertet werden - unter
der Voraussetzung jedoch, dass sie die diesem Phänomen zu Grunde liegenden
Mechanismen erkennen und entsprechend interpretieren. Diese Interpretation
führt zu der allmählichen Entstehung von Sprachbewusstsein, welches beim
Fremdsprachenlerner wiederum eine graduelle Verringerung der Produktion
genuiner Fehler bewirkt.
Allgemein mehr Toleranz und Gelassenheit im Umgang mit Fehlern - konkret
bei der Bewertung von Fehlern in freien Textaufgaben im Französischen - fordert
Wernsing (1998: 258ff) und legt ein entsprechendes Programm zur
Fehlervermeidung vor, das an Freinets Klassenkorrespondenz angelehnt ist. Den
Schülern werden spezielle Techniken der Fehlervermeidung offeriert; von den
Lehrern wird gefordert, der Verständlichkeit der Schüleräußerungen bei der
Bewertung den Vorrang vor sprachsystematischen Fehlern zu geben. Auch wenn
Wernsing Gelassenheit im Umgang mit Fehlern fordert, so kann sein Ansatz nicht
darüber hinwegtäuschen, dass Fehler - auch für ihn - ein Phänomen darstellen,
dessen Vermeidung seiner fortgesetzten Produktion vorzuziehen ist. Dennoch
leistet er einen Beitrag zur „Entdramatisierung“ des Phänomens.
Für einen spielerischen, gar humorvollen Umgang mit Fehlern - als
kreative Leistung und Indiz eines Lernfortschritts - spricht sich Köhring
(1987: 259ff) aus und ergänzt seine Reflexionen durch die Beigabe
praxisorientierter Materialien. Köhring erkennt zu Recht - dies sei hier
bemerkt -, dass es durchaus schädlich sein kann, Sprachfehler mit Missmut und
Groll zu behandeln, da sie dadurch zu etwas Schlechtem, etwas den Lerner
Herabwürdigendem stilisiert werden. Nimmt man sie dagegen (vermeintlich)
leichter und lässt ein gewisses Maß an Humor walten, dann nimmt man ihnen das
tragische Element und redefiniert sie zu etwas Natürlichem, Menschlichem, das
Leben sowie menschliche Beziehungen Erheiterndem und zuweilen gar Bereicherndem
(vgl. hierzu ergänzend auch Krumm 1990).
Fehler allgemein - und auch sprachliche Fehler - können sogar als hilfreich
für den Lernprozess angesehen werden, als Lösungsstrategien des Lernenden
betrachtet werden und von deren Richtigkeit er auf einem gegebenen Stand seines
Lernens ausgeht, wie Wiater (2004: 4ff) dies beschreibt. Es wäre somit nicht adäquat, fehlerhafte
Leistungen leichthin als ‚falsch’ einzustufen - sie seien vielmehr Reflex
geistiger Prozesse und verweisen auf Hypothesenbildungen des Lerners. Wollte
man diese Reflexionen logisch weitertreiben, so könnte man formulieren, dass
Fehler erst dann vollkommen vermieden werden könnten, wenn Denken auf Null
reduziert würde. Positiv ausgedrückt, bedeutet dies nichts anderes, als dass
immer dort Fehler entstehen, wo Reflexionsprozesse einsetzen: Reflexion
generiert Fehler, Fehler jedoch speisen die Reflexion auf sachlicher Ebene, und
das Streben nach ihrer weitgehenden Vermeidung oder Eliminierung stellt auf
psychologischer Ebene eine zentrale motivatorische Komponente dar. In diesem
Licht wäre ohne das Phänomen ‚Fehler’ keinerlei menschlicher Fortschritt
möglich.
Für einen personalisierten Ansatz im Umgang mit Fehlern spricht sich
Nieweler (2005a: 32ff) aus, der eine individuelle Analyse von Fehlern und eine
Entwicklung entsprechender Lösungsstrategien als für ihren Umgang und ihre
langfristige Verringerung notwendig erachtet. Die Ermittlung individueller
Fehlerquellen kann dabei durch C-Tests erfolgen, für die Korrektur von Fehlern
schlägt Nieweler die Verwendung von Fehlerstatistiken und Fehlerkorrekturgittern
vor. Diese Reflexionen spiegeln die Veränderungen wider, die in den vergangenen
Jahren in der Fremdsprachendidaktik vonstatten gegangen sind und die - in
Forschung und Unterricht - den einzelnen Lerner in den Vordergrund stellen und
seine Lerngeschichte und seine Lernschwierigkeiten zu dokumentieren versuchen,
um auf diese Weise neue Wege zu finden, Lernen zu beschreiben und schließlich
zu erleichtern. Einem vergleichbaren Ansatz folgt auch Röbe (1998: 4ff), der -
auf die Grundschule bezogen - die Analyse von Fehlern als Basis für die
Aufzeigung neuer, individueller Lernmöglichkeiten sieht, um bislang nicht
befriedigend Gelerntes zu kompensieren. Der einzelne Schüler wird in seinem
sozialen Umfeld beobachtet, und es wird ihm durch das Leben und Lernen mit
anderen sowohl eine Stärkung der eigenen Persönlichkeit als auch (soziales)
Lernen ermöglicht.
Jedem Schüler sein eigenes Lerntempo und seinen eigenen Lernfortschritt
zuzugestehen, kann sein Lernen und seine persönliche Entwicklung auf äußerst
förderliche Art und Weise bestimmen. Nicht nur der Unterricht kann auf diesem
Prinzip aufbauen, sondern ebenso die Bewertung und Benotung, was dazu führen
kann, dass Schüler nicht absolut - mit Blick auf das „optimal“ erzielbare
Ergebnis - beurteilt werden, sondern relativ - im Verhältnis zu sich selbst
und zu ihrem eigenen Lernfortschritt. Gegenwärtig scheint man sich in der
Forschung - zwar noch zaghaft, jedoch nicht ohne Nachhaltigkeit - dieser
Zusammenhänge bewusst zu werden, was dauerhaft zu einer Neubewertung und
Redefinition von Leistung und Leistungsbeurteilung führen könnte (vgl. hierzu
auch Engstler 1999: 40ff).
Eine interessante Untersuchung, in der drei unterschiedlichen Gruppen - Englischlehrern als Muttersprachlern,
griechischen Englischlehrern sowie nicht als Lehrer arbeitenden, englischsprachigen
Muttersprachlern - Englischaufsätze
griechischstämmiger Schüler der zweithöchsten Klasse einer High School in den
USA vorgelegt wurden, beschreiben Hughes / Lascaratou (1982: 175ff) und
dokumentieren - neben den zum Teil erheblichen Unterschieden in der Bewertung
zwischen diesen drei Gruppen -, dass die Muttersprachler
des Englischen die von den Schülern gemachten Fehler weniger streng
bewerteten als die griechischen Lehrer. Auch wenn die relativ geringe Größe der
einzelnen Gruppen mit jeweils zehn Lehrern prinzipiell kritisiert werden kann,
gebührt diesem Ergebnis dennoch Aufmerksamkeit - umso mehr, als Hecht / Green
(1989: 3ff) einen vergleichbaren Zusammenhang nachweisen konnten, als sie die
Frage untersuchten, ob deutsche Fremdsprachenlehrer sich bei der Bewertung
fehlerhafter kommunikativer Äußerungen von Schülern in Muttersprachler und
deren Art der Fehlerbewertung einfühlen können. Auch ihre Untersuchung verweist
darauf, dass deutsche - also ausgangssprachliche - Lehrer hinsichtlich der
zielsprachlichen Leistungen ihrer Schüler durchaus großzügiger sein dürften,
wodurch der hier herausgefundene Zusammenhang noch verstärkt würde.
Ein zu diesem Ansatz komplementäres Untersuchungsdesign verfolgten Birdsong
/ Kassen (1988: 1ff), die nicht die Fehlereinschätzung von Lehrenden, sondern
diejenige von Lernenden untersuchten. Ihre mit englisch und französischsprachigen
(= muttersprachlichen) Studenten und Lehrern an der University of Texas
durchgeführte Untersuchung zielte ab auf die Fähigkeiten der Erkennung und Bewertung
von Fehlern durch Schüler und Studenten sowie auf die Frage, ob und in welchem
Maße sie mit derjenigen von Lehrern koinzidierten. Die Autoren fanden heraus,
dass die Koinzidenz zwischen Studenten und Lehrern dann am am höchsten war,
wenn deren Muttersprache die gleiche war und wenn es sich bei den Studenten um
fortgeschrittene Lernende handelte.
Über die genannten Stoßrichtungen und Ansätze hinaus werden in der
Literatur bestimmte Fehlerbereiche sowie Fehlertypen beschrieben. So befasst
sich Dieling (1991: 111f) mit der Problematik der Aussprachefehler im
Fremdsprachenunterricht und beschreibt unterschiedliche Arten von
Normverstößen. Mit Interferenzfehlern deutscher Französischlerner beschäftigt
sich Nicolas (2005: 53f) und verdeutlicht dabei die Rolle des einsprachigen
Wörterbuches wie auch die Bedeutung der Befähigung der Schüler zur
selbständigen Erklärung von Fehlern.
Die hier behandelte Forschung zu dem Phänomen Fehler lässt sich graphisch wie folgt darstellen:
Abb. 7: Forschungsfelder im Bereich der Einstellung zum Phänomen Fehler
Interessanterweise existiert den eigenen Befunden nach ungleich weniger
Literatur zum Korrigieren, als gemeinhin erwartet werden mag und als es der
Bedeutung des Korrigierens im Alltag von Fremdsprachenlehrern an Schule und
Hochschule gerecht wird. In den einschlägigen Publikationen geht es dabei zum einen
um das Korrigieren und die Korrekturarbeit im Allgemeinen und zum anderen um
Einzelaspekte des Korrigierens bzw. um die Darstellung singulärer Prüfungen mit
Blick auf Korrigieren und Korrektur.
Im Kontext der Redefinition von Fehlern weg von einem demotivierenden
und hin zu einem als lernförderlich angesehenen, bisweilen gar motivierenden
Phänomen (vgl. Kap. 1.7) werden auch das Korrigieren
und das Berichtigen weniger als
Sanktionsmechanismen früherer Ausprägung verstanden, sondern vielmehr als
doppeltes Feedback des Lehrers - zum einen für den Schüler und seinen jeweils
aktuellen Leistungsstand, zum anderen jedoch auch für ihn selbst und den
(Miss)Erfolg seiner Arbeit (vgl. Nieweler 2005b: 2ff). Interessant ist in
diesem Zusammenhang, dass diese Entwicklung eine vollkommene Umkehrung der
Sichtweise bewirkt hat: Während im Schul- und Fremdsprachenunterricht
traditioneller Prägung die Korrektur des Lehrers mit direkten Sanktionen für
den Schüler verbunden war, die über die Verteilung von Karrierechancen
unmittelbar in sein weiteres Leben eingriff, tritt dieser Aspekt nunmehr immer
weiter in den Hintergrund - auch wenn er niemals vollkommen zu eliminieren sein
wird - und wird mehr und mehr gefüllt von einem schülerorientierten, auf das
eigentliche Lernen und dessen erfolgreiche Bewältigung abzielenden Ansatz, in dem
die Lehrerkorrektur vom Schüler als hilfreich angesehen wird - und vom Lehrer
auch so gemeint ist - und in dem der zu früheren Zeiten beim Schüler durch sie
bewirkte Stressfaktor nunmehr auch den Lehrer trifft, indem sie ihm vermittelt,
was seine Schüler gelernt - oder gegebenenfalls auch nicht gelernt - haben, was sich wiederum negativ auf die
Karrierechancen des Lehrers auswirken kann.
Dretzke (1991: 391ff) beschreibt die schriftliche Abiturprüfung im
Schulfach Englisch mit Blick auf die Problematik der Korrektur, wobei er sich
insbesondere der Identifizierung von Fehlern und deren Bewertung widmet. In
demselben Jahr forderte Klein (1991: 199ff) eine Angleichung der Kriterien der
Beurteilung der Schreibleistungen der Schüler in den neuen Bundesländern - weg
von der ausschließlichen Bewertung nach Inhalt und sprachlicher Korrektheit und
hin zu der Mitberücksichtigung von Ausdrucksvermögen und kommunikativen
Fähigkeiten und Fertigkeiten der Schüler.
Die verschiedenen Ausprägungen des Korrigierens können synoptisch wie
folgt veranschaulicht werden:
Abb. 8: Forschungsfelder im Bereich Korrigieren
1.9 Weitere
Formen der Leistungsevaluation
Im Folgenden sollen kurz solche Formen der Leistungsevaluation angesprochen
werden, die über die bisher behandelten Bereiche hinausgehen und sich von einer
standardisiert-objektiven Leistungsbewertung wegbewegen. Diese werden in der
aktuellen Forschung als „alternative“ Formen der Leistungsbewertung beschrieben
und können durchaus als Chance für die Realisierung von mehr Gerechtigkeit und
mehr Freude an Leistung gesehen werden (vgl. hierzu auch Winter 2004).
Eine generelle Grundproblematik des Bewertens, in der dieser Ansatz
durchaus Abhilfe zu schaffen vermag, zeigt sich in solchen Situationen, in
denen individuelle Schülerleistungen nicht separat ermittelbar sind, sondern in
einen größeren Zusammenhang eingehen, was beispielsweise bei der Gruppenarbeit der Fall ist. Eine
weitere Sozialform, für die diese Problematik gilt, ist der in den vergangenen
Jahrzehnten immer beliebter gewordene und immer mehr institutionalisierte Projektunterricht. Die Leistungen
einzelner Schüler im Rahmen solcher, oft eine erhebliche Zahl an
Unterrichtsstunden umfassender Projekte zu messen und gerecht zu bewerten, ist
für Lehrer nicht selten ein nahezu unlösbares Unterfangen. Diesem
Problembereich widmet sich Feuser (1997: 41) und plädiert für eine
Berücksichtigung nicht nur des Projektergebnisses, sondern auch des prozeduralen
Charakters des Projektes, der zusammen mit den Schülern diskutiert wird.
Eine in den vergangenen Jahren immer bedeutsamere Bewertungsform ist das
Portfolio. Es dient dazu, die
Lerninhalte und Lernerfahrungen des Schülers bzw. Lerners individuell zu
dokumentieren und ermöglicht ihm im Idealfalle, eine systematische
Lernstrategie zu entwickeln. Der Portfolio-Ansatz drückt wie kaum eine andere
Beurteilungs- und Bewertungsform den Respekt vor dem Schüler und seiner
Persönlichkeit aus. Der Schüler wird vom Lernsubjekt zum Lernpartner, dessen
Leistungen und Verständnis vom Lehrer individuell analysiert und in fruchtbarer
Weise gesteuert werden. Die Arbeit mit Portfolios zwingt Lehrer und Schüler
dazu, sich als Persönlichkeiten zu begegnen und sich in konstruktiver Art und
Weise miteinander, mit den Lerninhalten sowie mit Lern- bzw.
Vermittlungsstrategien auseinanderzusetzen. Erfahrungen mit dem Portfolio als
Lern-, Bewertungs- und Evaluierungsinstanz dokumentiert beispielsweise Schwarz
(2004: 127ff), die anhand des gymnasialen Lernkontextes unterschiedliche Typen
von Portfolios exemplifiziert. Dlaska / Krekeler (2009: 163ff) geben Beispiele
für die Beurteilung zweier Portfolio-Typen - dem Sprachenportfolio für Grundschüler
und dem Nachrichten-Portfolio.
O’Malley / Pierce (1996) sehen das Portfolio als eine wichtige Form des authentic assessment und definieren
die Qualität eines gegebenen Tests anhand seiner Nähe zu der jeweiligen
kommunikativen Aufgabe, die durch den vorangehenden Unterricht vorbereitet
wurde. Die Autoren, die die Praktikabilität beider - des authentic assessment im Allgemeinen und des Portfolios im
Besonderen - auf der Basis zahlreicher Beispiele zu verschiedenen sprachlichen
Fertigkeiten
aufzeigen, sehen durchaus mögliche Probleme dieses Ansatzes hinsichtlich der
Gütekriterien von Tests, machen jedoch bereits im Vorwort ihre Prioritäten
deutlich, indem sie schreiben:
Procedures for ensuring reliability and validity are clearly outlined in
language and content areas across the curriculum, thereby addressing concerns
that authentic assessment entails sacrificing objectivity. (O’Malley / Pierce
1996: IV)
und wenn sie im weiteren Fortgang feststellen:
(…) it is only through authentic assessment that
real validity can be attained. (O’Malley / Pierce 1996: IV)
Hier wird die Bedeutung der Validität herausgestellt. Wie immer man auch
zu dieser Entscheidung stehen mag, ist sie im Rahmen des von den Autoren
gewählten Ansatzes konsequent.
Eine Verbindung der Entwicklung der Schreibfertigkeit bei Schülern mit
dem Portfolio-Ansatz beschreibt Hewitt (1995), indem er in praxisnaher Form für
Lehrer darstellt, wie sie ihre Schüler - in Ergänzung zu traditionellen Bewert-ungsverfahren
- in Richtung auf bessere Schreibleistungen hin beglei-ten und dabei Portfolios
als Basis benutzen können. In seiner Publikation drückt sich die besondere
Affinität dieser Fertigkeit - des Schreibens - zum Instrument Portfolio aus: Schriftliche Produkte des
Schülers lassen sich mit diesem Instrument in ihrer - auch langfristigen -
Entwicklung funktional verfolgen, wodurch die Leistungsfähigkeit des Schülers
nachhaltig beurteilt und entsprechend gefördert werden kann.
Einen in diesem Zusammenhang interessanten - weil recht weit gehenden -
Ansatz verfolgt Gipps (1994), indem sie einen breiteren Zugang zum Testen im allgemeinsten
Sinne des Wortes fordert: weg von der psychometrischen und hin zur
pädagogischen Leistungsmessung, die zudem das Lehren und Lernen unterstützen,
Informationen über Schüler, Lehrer und Schule bereitstellen, der Selektion wie
auch der Zertifizierung dienen und Rückwirkungen auf Lehrplan und Unterricht
haben soll:
Assessment is undergoing a paradigm shift, from psychometrics to a
broader model of educational assessment, from a testing and examination culture
to an assessment culture. There is a wider range of assessment in use now than
there was twenty-five years ago: teacher assessment, standard tasks,
coursework, records of achievement as well as practical and oral assessment,
written examinations and standardized tests. There is criterion-referenced
assessment, formative assessment and performance-based assessment, as well as
norm-referenced testing. In addition, assessment has taken on a high profile
and is required to achieve a wide range of purposes: it has to support teaching
and learning, provide information about pupils, teachers and schools, act as a
selection and certificating device, as an accountability procedure, and drive
curriculum and teaching. These new forms and range of purposes mean that the major
traditional model underpinning assessment theory, the psychometric model, is no
longer adequate, hence the paradigm shift. (Gipps 1994: 1)
Bereits in diesen einleitenden Worten wird deutlich, dass das rein auf
der Psychometrie beruhende Testen die an die moderne Leistungsbewertung
gestellten Erwartungen nicht erfüllen kann: Es wird hier laut Gipps somit ein
Paradigmenwechsel notwendig, der sich an vielen Stellen bereits vollzogen hat,
wie in allgemeiner, nicht direkt auf Sprachtests bezogener Hinsicht anhand des
britischen Bildungswesens aufgezeigt wird. Es soll hier eine neue Testkultur
begründet werden, wobei die Autorin jedoch - mitgerissen von ihrer eigenen
Begeisterung - bisweilen ein wenig zu weit geht. Dennoch ist diese Publikation
in der Entwicklung der verschiedenen - gerade auch neueren - Ansätze des
Prüfens und Bewertens als ein wichtiger Schritt zu werten: Ohne Publikationen
wie diese wären solche Formen der Leistungsmessung wie der soeben beschriebene
Portfolio-Ansatz nicht denkbar und mit großer Wahrscheinlichkeit auch niemals
entstanden.
Diese Formen der Leistungsevaluation lassen sich graphisch wie folgt
darstellen:
Abb. 9 :Forschungsfelder im Bereich Weitere
Formen der Leistungsevaluation
1.10
Psychologische und lerntheoretische Aspekte von Prüfungen
Abgesehen von einer langen Reihe von populären bzw. im besten Falle
populärwissenschaftlichen Prüfungsratgebern
existieren zahlreiche wissenschaftliche Veröffentlichungen, in denen sich die
Autoren mit solchen Gesichtspunkten befassen, die im weiteren Sinne als
psychologisch eingestuft werden können.
Der Zusammenhang zwischen Prüfungsangst und fremdsprachlicher Leistungsfähigkeit,
gemäß dem jene diese hemme, hat sich in einer, eine Population von 60
Teilnehmern - 20 Teilnehmer für Französisch, 20 Teilnehmer für Deutsch und 20
Teilnehmer für Spanisch - umfassenden Studie in den USA nicht nachweisen lassen
(Young 1986: 439ff). Dieses Ergebnis kann jedoch nicht generalisiert werden, da
den Versuchspersonen bekannt war, dass ein schlechtes Abschneiden in der
mündlichen Prüfung, der sie ausgesetzt waren, für sie kaum negative Folgen
haben würde. Das festgestellte Ergebnis könnte - zumindest partiell - durch
dieses Wissen der Versuchspersonen beeinflusst worden sein, da dadurch deren
Angstwerte auf niedrigem Niveau verblieben. Hätte die Autorin ihre Versuchspersonen
hohen Stressfaktoren ausgesetzt, so hätte das Ergebnis durchaus anders - zugunsten
eines Zusammenhanges zwischen hohen Angstwerten und niedrige(re)r fremdsprachlicher
Leistungsfähigkeit - ausfallen können. Eine Möglichkeit der Überwindung von
Prüfungsangst kann es sein, mündliche Prüfungen in der Klassenzimmersituation
in Form von Partnerübungen zu trainieren. Ein Beispiel dafür sind die
Reflexionen von Schäfer (1986: 264f), die sich auf die Meisterung der mündlichen
Abiturprüfung beziehen und in deren Rahmen nicht nur taktisches Verhalten
beschrieben, sondern auch Möglichkeiten der Gesprächsführung auf Seiten der
Prüflinge aufgezeigt werden.
Eine kritische Analyse der Leistungsfähigkeit von Noten nimmt Ratzki
(2003: 4ff) vor und berücksichtigt dabei die Benotenden wie auch die Benoteten,
also Lehrer einerseits und Schüler andererseits. Dass Noten nicht so aussagekräftig
und zuverlässig sind, wie dies zuweilen suggeriert wird und wie ihre
Offizialität dies unbefragt vermuten lassen mag, ist evident. Die Tatsache, dass
Noten im Schul- und gegebenenfalls auch im Universitätsalltag als eine Form der
Repression verwendet werden können, bewirkt zudem, dass ihnen von Seiten der
Lernenden nicht selten mit Angst begegnet wird. Noten können jedoch auch in
anderer, fruchtbarer Weise genutzt werden: als Orientierungsgröße, die den
Schülern ihren aktuellen Stand im Lernprozess wie auch in der Lerngruppe aufzeigt,
und sogar als Element der Ermutigung, das den Schülern einen hohen
Motivationswert vermitteln und sie langfristig dazu führen kann, eine einmal
gegebene, etwas zu gute Note in der Folge durch Leistungen zu bestätigen, die
in der Tat dieser Note entsprechen oder sogar noch über dieser liegen (vgl.
hierzu auch Haas 1999: 10ff).
Die Bedeutung der Vermittlung kognitiver Fertigkeiten - und damit die
Chance, ebenso wie die Notwendigkeit, Prüfungen und ihre Vorbereitung mit lerntheoretischem
Nutzen, also mit Erkenntnisgewinn für die Prüflinge zu verknüpfen - zeigen Egbert / Maxim (1998: 19ff) auf, die das
Fehlen von Elementen kritischer Reflexion und von Problemlösungsstrategien in
zwei konkreten Prüfungen für das Fach Deutsch - der Prüfung Wirtschaftsdeutsch International und dem Zertifikat Deutsch für den Beruf -
beklagen und Möglichkeiten zu deren Integration aufzeigen. Dieser Gesichtspunkt
der Bereitstellung von Lernen und lerntheoretischer Weiterentwicklung der
Teilnehmer an Prüfungen ist von großer Bedeutung und wird im Folgenden weiter im Blick zu behalten sein: Prüfungen
sollten nie selbstgenügsam sein; sie sollten im Idealfall immer über sich
selbst hinausweisen.
Graphisch stellen sich diese Zusammenhänge wie folgt dar:
Abb. 10: Forschungsfelder im Bereich Psychologische und
lerntheoretische Aspekte von Prüfungen
1.11 Folgerungen
für die Prüfungsdidaktik
Anhand unserer Darstellung ist implizit deutlich geworden, dass die bisher
zu durchaus bedeutenden Fragen der Prüfungsdidaktik angestellte Forschung
ungleich effizienter hätte systematisiert und von einer höheren Ebene aus koordiniert
werden können, hätte es das Fach Prüfungsdidaktik
bereits früher gegeben. In der bislang unbefriedigenden Situation jedoch, in der
es noch nicht existiert(e), konnte und kann forschungsseitig nicht mehr
erwartet werden als bisher geleistet worden ist - und dies ist in der Tat bereits
jetzt nicht wenig.
Für die Zukunft wird jedoch zu hoffen sein, dass die nunmehr auf diesem
Gebiet angestellten Untersuchungen in fruchtbarerer Weise als bisher einem
höheren Ziel zugeführt werden können - demjenigen, mehr Licht in das immer noch
immense Dunkel von Prüfungen, ihrer Vorbereitung und Durchführung zu bringen,
als es ohne das Fach Prüfungsdidaktik jemals möglich (geworden) wäre.
Unsere Darstellung hat somit auch unter dem Blickwinkel der Forschungsdokumentation
gezeigt, wie wichtig - nachgerade zwingend - dieser im Jahre 2002 vorgenommene,
hier erneuerte und noch nachhaltiger geforderte Schritt der Schaffung dieses
neuen Faches geworden ist - und welche Chance verpasst würde, vollführte man
ihn nicht in folgerichtiger - also in der hier geforderten - Art und Weise.
Es ist in diesem Forschungsüberblick zudem der Bereich herausgearbeitet
worden, den das Fach Prüfungsdidaktik
in Zukunft abdecken sollte. Wir wer-den uns dieser Frage im folgenden Kapitel noch
eingehender widmen. An dieser Stelle sei jedoch bereits darauf hingewiesen,
dass der hier vorgenommene Kapitelaufbau zugleich auch die Struktur darstellen mag,
der dieses neue Fach folgen kann. Auch in dieser Hinsicht liegt jedoch nichts
Endgültiges: Es kann durchaus weitere Bereiche geben, die hierin einbezogen
werden könnten, es können sich in der Zukunft neue Bereiche entwickeln, die ihrerseits
einzubeziehen sind, und umgekehrt kann es notwendig werden, Bereiche aus diesem
Kontext herauszunehmen. Für eine erste Untergliederung des Faches Prüfungsdidaktik haben wir jedoch mit der
vorliegenden Darstellung eine Basis geschaffen.
Die Rolle der Prüfungsdidaktik hat nunmehr darin zu bestehen, die bisher
und in der Zukunft erarbeiteten Forschungsergebnisse zu integrieren und umzusetzen,
und zwar in:
- weitere theorieorientierte, aber auch
praxisnahe Forschung,
- die Ausbildung von Prüfern sowie
- die Durchführung realer Prüfungen.
Wie dies geschehen kann, wird uns zu einem späteren Zeitpunkt
beschäftigen. Festgestellt sei jedoch bereits hier, dass diese Arbeit nicht
diejenige eines einzelnen Forschers sein kann, sondern dass dafür ein
konzertiertes Handeln von Forschern, Lehrern und Prüfern vonnöten ist. Nur
unter dieser Bedingung - und unter derjenigen, dass alle drei genannten Gruppen
ein Bewusstsein dafür entwickeln, dass sie in der wohldefinierten Disziplin Prüfungsdidaktik tätig sind - wird es
möglich sein, Prüfungen in allen ihren Stadien von der Konzeption über ihre
Durchführung bis hin zum Feedback für die Prüflinge nachhaltig zu verbessern.
Hierin liegt eine immense Aufgabe. Diese Aspekte sind für unsere weiteren
Überlegungen im Blick zu behalten.
In dem nun folgenden Kapitel konkretisieren wir unsere Überlegungen und
wenden uns der Prüfungsdidaktik hinsichtlich ihrer Aufgaben und Ziele, ihres
Geltungsbereiches und ihrer Prinzipien zu.
Vgl hier
besonders die Beiträge von Purpura. (1998: 111ff) zur Entwicklung und
Konstruktvalidierung eines Fragebogens zur Messung der kognitiven Strategien
von Testteilnehmern und denjenigen von Clapham (1998: 141ff), die sich mit der
Rolle des Hintergrundwissens der
Testteilnehmer in fachsprachlich orientierten Tests zum Leseverstehen
beschäftigt, sowie - ebenfalls zu der Rolle des Hintergrundwissens in
fachsprachlich orientierten Prüfungen - Krekeler (2006).
Vgl. in dieser
Sektion besonders den Beitrag von Davidson / Turner / Huhta (1997: 303ff) zu
Standards des Sprachtestens wie auch denjenigen von Hamp-Lyons (1997: 323ff) zur
Frage der Ethik im Bereich des Sprachtestens.