Prüfung der Reliabilität und der Validität von Conjoint-Analysen

(Auszug aus Melles, T. (2001). Framing-Effekte in der Conjoint-Analyse. Ein Beispiel für Probleme der Merkmalsdefinition (S. 90-98). Aachen: Shaker.)

Maße:

Anpassungsgüte (goodness of fit)

Reliabilität (Zuverlässigkeit)

Validität (Genauigkeit)

Maße der Anpassungsgüte

Die Anpassungsgüte (goodness of fit) beschreibt das Ausmaß, in dem sich die geschätzten TNW, also der Datenoutput, auf die Urteile, den Dateninput, zurückführen lassen. Anhand der geschätzten TNW werden Urteile simuliert, die mit den tatsächlichen Urteilen verglichen werden. Die passende Maßzahl hängt dabei vom angenommenen Skalenniveau des Dateninputs und dem eingesetzten Schätzverfahren ab. Sind die Antworten ordinalskaliert, und werden die Parameter mit MONANOVA geschätzt, kommen Kruskals Streß 1 oder PRECAP (Wallsten, 1972) als Fit-Maße in Frage. Wird zur Parameterschätzung LINMAP eingesetzt, gibt LINMAP C das Maß der Anpassung an. Liegen intervallskalierte Antworten vor, und werden die Nutzenwerte auf dem Wege einer OLS-Regression bestimmt, ist R² ein geeignetes Maß der Anpassung.

Die Anpassungsgüte gilt als ein im wesentlichen durch die Konsistenz der Antworten des Probanden bestimmtes Maß und wird daher als Indikator für die Zuverlässigkeit (Reliabilität) seiner Urteile herangezogen. Neben der Antwortkonsistenz beeinflussen jedoch auch andere Faktoren die Höhe des Koeffizienten. Zu diesen Faktoren zählen Eigenschaften der zugrundeliegenden Nutzenfunktionen der einzelnen Merkmale, wie Bandbreite (Range) und Verlauf (Darmon & Rouziès, 1991) sowie die Anzahl der zu schätzenden Parameter und die Anzahl der „Beobachtungen“ (Stimuli) (Umesh & Mishra, 1990; Weisenfeld, 1987).

Reliabilitätsmaße

Verschiedene Methoden sind zur Überprüfung der Reliabilität geeignet. Daher ist ein Reliabilitätskoeffizient kein absolutes Maß für die Reliabilität einer Messung. Diese läßt sich stets anhand mehrerer Koeffizienten beschreiben. Um die Reliabilität eines Verfahrens zu schätzen, ist der zufällige Meßfehler von der systematischen Varianz der Daten zu trennen. Dies sollte am ehesten gelingen, indem eine zweite Messung mit demselben Verfahren unter denselben Bedingungen erfolgt (Retest). Ein solcher Retest birgt jedoch die Gefahr, daß die Messung aufgrund von Gedächtniseinflüssen zu konsistenteren Ergebnissen führt, als der zufällige Meßfehler erwarten ließe. Probanden erinnern sich möglicherweise an Antworten in der früheren Befragung und könnten ihre Urteile daran anpassen. Die Reliabilität würde folglich überschätzt werden. Daher darf das Zeitintervall zwischen den Erhebungen nicht zu knapp bemessen sein. Ein breites Zeitintervall birgt wiederum die Gefahr, daß sich das zu messende Merkmal - in diesem Fall die Präferenzstruktur - verändert.

Die Prüfung der Reliabilität einer Conjoint-Analyse kann wie im Falle der Validität auf der Ebene der Input-Daten (d.h. der Urteile des Probanden), auf der Ebene der geschätzten Teilnutzenwerte als auch der Gesamtnutzenwerte aller Optionen oder einer Teilauswahl von diesen erfolgen.

Auf der Ebene der Input-Daten überprüfte beispielsweise Acito (1977) die Retest-Reliabilität einer CA. Er ließ seine Probanden an sechs aufeinander folgenden Tagen eine Rangfolge derselben 27 Photokameras erstellen. Die Reliabilität der Messungen wurde durch Rangkorrelationen zwischen den aufeinander folgenden Replikationen sowie durch ein Konkordanzmaß (Kendalls W) ermittelt. Während die mittlere Korrelation zwischen den Rängen der ersten beiden Messung bei .89 lag, betrug das Maß beim Vergleich der fünften und sechsten Messung 1. Acito (1977) nimmt an, daß Probanden ihr Antwortverhalten der Aufgabe so anpassen, daß sie zu konsistenten Urteilen gelangen. Dies kann durch eine vereinfachte Urteilsstrategie erfolgen. Eine solche Anpassung stellt ein zusätzliches Problem der Reliabilitätsmessung zu den bereits genannten Gedächtniseffekten dar.

Neben der Retest-Reliabilität gibt es nach Bateson et al. (1987) sowie Green und Srinivasan (1990) drei weitere Methoden, die zur Bestimmung der Reliabilität von Conjoint-Analysen geeignet sind:

1) Reliabilität über verschiedene Stimuli-Sets

Die Auskunftsperson beurteilt die Stimuli verschiedener Sets. Die zusätzlichen Stimuli-Sets entsprechen Paralleltests oder Teiltests eines Gesamtsets. Dabei können getrennte Präferenz­schätzungen vorgenommen werden, deren Übereinstimmung als Reliabilitätsmaß interpretiert wird. Es kann jedoch ebenso die Übereinstimmung der Urteile auf der Ebene des Dateninputs mit den Parameterschätzungen der CA geprüft werden.

2) Reliabilität über verschiedene Merkmalssätze

Bei dieser Art der Reliabilitätsbestimmung lassen sich zwei verschiedene Formen unter­scheiden: Zum einen wird häufig die Anzahl der Merkmale der einzelnen Erhebungen variiert, zum anderen lassen sich bei gleicher Anzahl die Merkmale variieren. Die Reliabilität wird aus der Übereinstimmung der Beurteilung von Merkmalen bestimmt, die in beiden bzw. allen Erhebungen vorgegeben wurden.

3) Reliabilität über verschiedene Datenerhebungsmethoden

Wird eine „maximal ähnliche“ Methode zur Bestimmung der Reliabilität verwendet, entspricht dieses Verfahren einem Paralleltest zur ersten Methode. Im Rahmen der Conjoint-Analyse wird die Konvergenz von Präferenzurteilen beim Einsatz verschiedener Verfahrens­varianten geprüft. Als Verfahrensvarianten kommen in erster Linie die in Abschnitt 4.4 aufgeführten Erhebungsmethoden in Frage. Es muß beachtet werden, daß ein solches Verfahren außerdem eine Variation des Stimulus-Sets bedingt. Insofern ist die Reliabilität über verschiedene Datenerhebungsmethoden nicht unabhängig von der Reliabilität über verschiedene Stimuli-Sets.

Weitere methodische Varianten der Reliabilitätsbestimmung ergeben sich dadurch, daß sowohl die Übereinstimmung von Urteilen auf der Ebene des Inputs als auch das Endprodukt, die Präferenzschätzungen auf der Ebene des Datenoutputs geprüft werden kann. Es ist durchaus möglich, stabile Schätzungen der Gesamtnutzenwerte bei gleichzeitig weniger stabilen Teilnutzenwerten zu erreichen. So untersuchten Leigh et al. (1984) die Retest-Reliabilität verschiedener Verfahren der Conjoint-Analyse (darunter Vollprofil-CA und Paarvergleiche) und einer direkten Nutzenmessung auf allen drei Ebenen (Urteile, TNW, Gesamtnutzen). Sowohl für die metrisch skalierten Urteile, die geschätzten Teilnutzenwerte als auch die geschätzten Gesamtnutzenwerte wurden u.a. jeweils die quadrierten Korrelatio­nen zwischen Test und Retest berechnet. Das Verfahren der direkten Nutzenschätzung wies in diesem Fall auf der Ebene der Gesamtnutzenwerte die höhere Reliabilität auf. Die anderen Ebenen deuteten auf keine signifikanten Unterschiede hin.

Zudem läßt sich auch die Konvergenz von Parameterschätzung der ersten Messung mit Präferenzurteilen (Input) der zweiten Erhebung testen. Wird die Reliabilität über verschiedene Stimuli-Sets ermittelt, wird häufig eine Holdout-Aufgabe als Kriterium verwendet, dessen Rangordnung (oder Ratings) anhand der Präferenzschätzungen der Conjoint-Messung prognostiziert wird. In diesen Fällen sind die Unterschiede der „Paralleltests“ zur Messung zum Teil recht groß, so daß die meisten Autoren dieses Verfahren zur kriterienorientierten Validitätsbestimmung zählen.

Kriterienorientierte Validität

Der Begriff „kriterienorientierte Validität“ bezieht sich auf die Vorhersage eines Kriteriums durch Prädiktoren. Prädiktoren können die multiattributiven Urteile, die geschätzten Nutzenwerte oder auch die geschätzten Marktanteile der Conjoint-Analyse sein. Als Kriterium kommen Größen, die zur Messung desselben Merkmals geeignet sind, in Frage. Die kriterienorientierte Validität läßt sich anhand eines internen Kriteriums, das wie die Prädiktoren experimentell - also im Zuge der Untersuchung - gewonnen wird, oder anhand eines externen Kriteriums prüfen, das in einem externen Kontext („in vivo“) gemessen wird. Ein Sonderfall der kriterienorientierten Validität ist die prognostische Validität. Wird das Kriterium einige Zeit nach der Conjoint-Analyse gewonnen, wird von prognostischer Validität gesprochen. Gelegentlich werden auch beide Begriffe synonym verwendet, d.h. es wird auch von prognostischer oder Prognose-Validität gespochen, wenn das Kriterium während oder direkt im Anschluß an die Datenerhebung gewonnen wurde (z.B. Hensel-Börner & Sattler, 1998).

Messung anhand eines internen Kriteriums

Die häufigste Methode zur Messung der Validität einer Conjoint-Analyse besteht aus einer zusätzlichen Beurteilung multiattributiver Stimuli, die nicht zur Schätzung der Teilnutzen­werte herangezogen werden, und der Prüfung, inwieweit die Urteile mit den aus Teilnutzen­werten prognostizierten Urteilen übereinstimmen. Eine solche Urteilsaufgabe wird als Holdout-Aufgabe, das damit erhobene Validitätsmaß als Holdout-Kriterium bezeichnet. Im einfachsten Fall wählt der Proband dasjenige Holdout-Objekt aus, das er am meisten präferiert bzw. für das er sich entscheiden würde. Der Anteil (in %) richtig prognostizierter Wahlentscheidungen (First-Choice-Treffer) an der Gesamtheit aller Entscheidungen auf aggregierter Ebene ist in diesem Fall das Maß der kriterienorientierten Validität (z.B. Tscheulin, 1991). Bei Wahlentscheidungen eines Probanden in mehreren Holdout-Aufgaben läßt sich eine entsprechende Maßzahl auch auf individueller Ebene bestimmen (z.B. Elrod et al., 1992; Huber et al., 1993). Anhand der Wahlentscheidungen auf aggregierter Ebene läßt sich außerdem eine „Marktsimulation“ durchführen. Dabei wird angenommen, daß jeweils diejenige Option, die individuell den höchsten Gesamtnutzen erzielt (Maximum-Utility-Modell), von dieser Person gewählt wird. Für jede Option der Holdout-Aufgabe, läßt sich auf diese Weise schätzen, wieviele Personen diese wählen würden und wie hoch ihr Wahlanteil an einer bestimmten Menge von Optionen ist. Diese prognostizierten Wahlanteile werden mit den empirischen Wahlanteilen (bestimmt durch die Holdout-Urteile) verglichen. Zur Prognose der Wahlanteile kommen prinzipiell auch andere Modelle (z.B. BTL) als das Maximum-Utility-Modell in Frage. Mögliche Maßzahlen sind der Prozentsatz richtig prognostizierter Wahlanteilsplätze, der mittlere absolute Fehler (MAE) zwischen empirischen und prognostizierten Wahlanteilen (z.B. Elrod et al., 1992; Huber et al., 1993; Zwerina, 1997), die Produkt-Moment-Korrelation zwischen empirischem und vorhergesagtem Wahlanteil (z.B. Oppewal, Louviere & Timmermans, 1994) sowie eine ein transformiertes Maß des mittleren quadrierten Fehlers (Proportional Reduction in Mean Square Error of Prediction, PRMSEP) (Elrod et al., 1992).

Besteht die Holdout-Aufgabe aus einer Rangordnung der Holdout-Objekte, kann als Validitätsmaßzahl ein Zusammenhangsmaß zwischen der vorhergesagten und der empirischen Rangreihe bestimmt werden (Spearman Rho oder Kendalls Tau) (z.B. Acito & Olshavsky, 1980; Agarwal, 1989; Jain et al., 1979; Safizadeh, 1989). Neben den Korrelationen sind auch der Prozentsatz von Rangpositionstreffern (z.B. Agarwal & Green, 1991; Jain et al., 1979; Akaah & Korgaonkar, 1983; Green, Schaffer & Patterson, 1991) und die Summe der absoluten Rangplatzabweichungen (z.B. Acito & Jain, 1980; Jain et al., 1979) übliche Maßzahlen. Huber und Hansen (1986) bestimmten als Maßzahl der Validität ihrer Conjoint-Analyse den Anteil der korrekt prognostizierten impliziten Paarvergleiche. Die Probanden gaben in drei Holdout-Aufgaben mit jeweils vier Stimuli das Konzept der ersten und der zweiten Wahl an. In jeder Aufgabe sind somit fünf implizite Paarvergleiche enthalten (1 > 2, 1 > 3a, 1 > 3b, 2 > 3a, 2 > 3b). Die Anzahl der korrekt prognostizierten Vergleiche wird durch die Anzahl der impliziten Paarvergleiche insgesamt dividiert.

Beurteilen die Probanden die Holdout-Objekte durch Ratings oder ein Konstantsummen­verfahren, ist die Produkt-Moment-Korrelation (Pearson r) zwischen diesen Urteilen und den geschätzten Gesamtnutzenwerten ein geeignetes Maß für die kriterienorientierte Validität (z.B. Agarwal & Green, 1991; Akaah & Korgaonkar, 1983; Moore et al., 1994).

Das Holdout-Kriterium ist allerdings mit einigen Problemen behaftet. Die Urteile sind nicht genauer und zuverlässiger als andere multiattributive Urteile, wie etwa die der Conjoint-Analyse selbst. Im Zusammenhang mit Marktprognosen führt Wittink (2000) an, daß eine große Ähnlichkeit der Holdout-Aufgabe mit der realen Entscheidung nicht unbedingt ein valides und reliables Kriterium gewährleistet. Während Personen beim Kauf teurer Güter, wie dem eines Autos, sehr viel Zeit investieren und die Vor- und Nachteile der Optionen möglicherweise genau abwägen, werden die experimentellen Urteile zumeist in wenigen Sekunden gefällt. Bei komplexen Aufgaben besteht daher eine Tendenz zur Simplifizierung. Entscheidungen in der Holdout-Aufgabe werden somit durch vereinfachte Entscheidungsstrategien getroffen, die keine genaue und zuverlässige Vorhersage des tatsächlichen Entscheidungsverhaltens ermöglichen.

Orme, Alpert und Christensen (1997) empfehlen daher, nicht allein die Reliabilität der Conjoint-Analyse zu bestimmen, sonderen auch die Reliabilität der Holdout-Aufgabe zu messen. Sie schlagen vor, die Aufgabe zu diesem Zweck zu wiederholen. Damit läßt sich bestimmen, wie groß der Fehleranteil ist, der den TNW oder der Holdout-Aufgabe zuzuschreiben ist. Praktisch wenden Huber et al. (1993) ein solches Verfahren an. Gelingt es, den Fehleranteil zu schätzen, der auf die mangelnde Zuverlässigkeit des Kriteriums zurückzuführen ist, läßt sich das Maß der kriterienorientierten Validität anhand einer Minderungskorrektur der Kriteriumsreliabilität statistisch korrigieren (z.B. McLauchlan, 1991).

Ferner ist ein Vergleich verschiedener Verfahrensvarianten der Conjoint-Analyse (z.B. klassischer Vollprofilansatz und ACA mit Teilprofilen) oder auch der Conjoint-Analyse mit anderen Verfahren der Präferenzmessung aufgrund der unterschiedlichen Ähnlichkeit mit dem Holdout-Kriterium (Vollprofile) strenggenommen nicht möglich (vgl. Leigh et al., 1984; Teichert, 2000). Morera und Budescu (1998) weisen auf einen methodischen Bias hin, der aus einer solchen Prüfung von Daten holistischer Beurteilungen resultieren kann. Dieses Problem haben auch Huber et al. (1993) erkannt und verwenden daher beim Vergleich einer Vollprofil-CA mit ACA mehrere Holdout-Aufgaben, aus denen die Probanden jeweils das meistpräferierte Objekt auswählen. Durch eine unterschiedliche Anordnung der Objektattribute und die unterschiedliche Skalierung der Antworten in den Conjoint-Analysen und den Kriterienaufgaben (Rating versus Auswahl) sollen die Aufgaben zum Zwecke der Validierung hinreichend verschieden sein.

Ein weiteres Problem des Holdout-Kriteriums folgt aus der Tatsache, daß die Höhe des Koeffizienten stark durch die Anzahl und die Auswahl der Holdout-Stimuli beeinflußt wird (Kamakura, 1988; Loveland, 1995). Eine geringere Anzahl von Parametern in der Holdout-Aufgabe (Bateson et al., 1987) wie auch eine größere Nutzenähnlichkeit der Stimuli (Reiners, 1996) scheinen zu einer Minderung des Koeffizienten zu führen. Ein Vergleich der Ergebnisse zwischen unterschiedlichen Studien mit verschiedenen Holdout-Aufgaben ist daher ebenso unmöglich wie ein Vergleich der Ergebnisse verschiedener Probanden (-gruppen), für die dieselbe Holdout-Aufgabe aufgrund der unterschiedlichen Präferenzen eine unterschiedliche Schwierigkeit aufweist.

Anstelle einer Holdout-Aufgabe kann auch eine zweite Nutzenschätzung als Kriterium für die Validität herangezogen werden. Diese zweite Nutzenschätzung kann sowohl anhand einer weiteren Conjoint-Analyse als auch durch ein anderes Verfahren erfolgen. Green und Wind (1973) verglichen beispielsweise die Nutzenschätzungen für Merkmale von Restaurant-Menüs, die durch ein Verfahren der direkten Nutzenmessung bestimmt wurden, mit denen einer Conjoint-Analyse. Ähnliche Vergleiche liegen von Wind, Green und Robinson (1968) sowie von Wright und Kriewall (1980) vor. Als Maßzahl der Validität kommt die Produkt-Moment-Korrelation zwischen beiden Schätzungen in Frage (z.B. Leigh et al., 1981; Scott & Wright, 1976) sowie verschiedene Distanzmaße (Acito, 1979; McCullough & Best, 1979). Alternativ zu diesem Verfahren lassen sich auch die relativen Attributwichtigkeiten der Schätzungen korrelieren (z.B. Segal, 1982).

Da die Anzahl der Teilnutzenwerte zumeist gering und die Korrelation zwischen den Teilnutzenwerten zweier Schätzungen daher wenig stabil ist, empfiehlt Acito (1979), Zusammenhangsmaße zwischen den geschätzten Gesamtnutzenwerten zu verwenden. Leigh et al. (1981) wenden allerdings ein, daß dadurch nur scheinbar zusätzlich Freiheitsgrade gewonnen werden, da die Gesamtnutzenwerte anhand einer Verknüpfungsfunktion der Teilnutzenwerte geschätzt werden und somit von den TNW abhängig sind. Sie schlagen daher eine Korrektur solcher Korrelationen vor.

Messung anhand eines externen Kriteriums

Im Unterschied zu internen Kriterien werden externe Kriterien in der Regel nicht im Rahmen des Untersuchungssettings gewonnen, sondern in der natürlichen Lebensumwelt der Zielpopulation. Die Eignung eines externen Kriteriums hängt von dessen Übereinstimmung mit dem zu messenden Konstrukt und den Zielen der Untersuchung ab. Sollen anhand der Conjoint-Analyse Entscheidungen prognostiziert werden, eignet sich das tatsächliche Entscheidungsverhalten des Probanden als Validitätskriterium (z.B. Krishnamurthi, 1988; Montgomery & Wittink, 1979; Wright & Kriewall, 1980). Aus praktischen Gründen wird diese Art der Validitätsprüfung allerdings nur selten vorgenommen. Um das tatsächliche Entscheidungsverhalten zu messen, ist eine - in der Regel zeitversetzte - Follow-up-Untersuchung erforderlich, die mit hohen Kosten und meßtechnischen Problemen (z.B. drop-out von Probanden und ungenaue Angaben zum eigenen Verhalten) behaftet ist. Vor dem Hintergrund dieser Probleme schlagen einige Autoren vor, Maße zu verwenden, die eine Annäherung an das zu prognostizierende, reale Entscheidungsverhalten darstellen. Leigh et al. (1984) führten zu diesem Zweck unter den Probanden eine Verlosung von Taschenrechnern durch. Im Gewinnfall bekam der Proband den in der Kriteriumsaufgabe gewählten Taschenrechner. In einer Studie von Anderson und Donthu (1988) bekamen die Probanden einen Coupon für das gewählte Produkt, der ihnen bei einem Kauf einen Rabatt von 15 bis 20% gewährleistete.

Wird eine Schätzung von Wahl- bzw. Marktanteilen angestrebt, können die prognosti­zierten Anteile mit den gegenwärtigen Marktanteilen (z.B. Clarke, 1987; Davidson, 1973; Page & Rosenbaum, 1987) oder mit zukünftigen Marktanteilen zu einem späteren Zeitpunkt (Benbenisty, 1983; Robinson, 1980; Vavra, Green & Krieger, 1999) verglichen werden. Fiedler (1988) vergleicht die mit ACA gemessenen Apartmentpräferenzen von Personen mit dem Wert einzelner Apartmenteigenschaften, die er anhand des Marktwertes von Apartments regressionsanalytisch berechnet.

Die berichteten Ergebnisse sind zum größten Teil positiv, d.h. die Conjoint-Analyse führt zu genauen Vorhersagen. Bislang fehlen allerdings Metaanalysen, die auch Vergleiche zu anderen Verfahren zur Nutzenmessung ermöglichen. Zudem darf nicht vergessen werden, daß positive Ergebnisse eher publiziert werden als negative. Eine maximal genaue Vorhersage ist nur unter folgenden notwendigen Bedingungen möglich (vgl. Wittink, 2000):

Die Erfüllung dieser Bedingungen hängt auch von der zeitlichen Nähe der Conjoint-Analyse und der Messung des externen Kriteriums ab. Präferenzen wie auch die Entscheidungs­situation verändern sich. So ist beispielsweise beim Angebot und der Nachfrage von Konsumgütern von Feedbackschleifen zwischen Entscheidungen der Konsumenten und den Marketingstrategien der Händler sowie Lerneffekten bei wiederholten Entscheidungen auszugehen (Louviere, Meyer, Bunch, Carson, Dellaert, Hanemann, Hensher & Irwin, 1999).

Viele Autoren (z.B. MacLachlan et al., 1988) nehmen an, daß die Validität der Conjoint-Analyse um so geringer ist, je weiter die Beurteilungsaufgabe von der tatsächlichen Entscheidungssituation entfernt wird bzw. je stärker sich beide Situationen unterscheiden. Geht man davon aus, daß die experimentellen und die realen Entscheidungsprozesse sich nicht unterscheiden, kann diese Annahme durchaus zutreffen. Die von Wittink (2000) genannten Bedingungen lassen jedoch vermuten, daß kein monotoner Zusammenhang zwischen der Validität und der Ähnlichkeit der Entscheidungssituationen besteht. Dazu ein Beispiel:

Angenommen, Sie beabsichtigen ein Auto zu kaufen. Da bei diesem Kauf eine Menge Geld im Spiel ist und Sie der Entscheidung eine hohe Bedeutung beimessen, wägen Sie alle Vor- und Nachteile der ins Auge gefaßten Optionen genauestens ab. Dabei werden viele Merkmale - auch wenn es schwerfällt - gleichzeitig berücksichtigt. Beabsichtigen Sie dagegen nicht unbedingt, ein Auto zu kaufen und werden von einem Marktforschungsinstitut zu ihren Fahrzeugpräferenzen im Rahmen einer Conjoint-Analyse befragt, dürften Sie kaum motiviert sein, in der gleichen Weise abzuwägen und sämtliche Merkmale zu berücksichtigen, wenn Sie mit ähnlich komplexen Stimuli konfrontiert werden. Wird die Aufgabe dagegen vereinfacht, indem Ihnen beispielsweise nur Teilprofile zur Beurteilung vorgegeben werden, sind Sie eher in der Lage und bereit meßgenaue Urteile abzugeben. In gleicher Weise kann auch die Verwendung von einer geringeren Anzahl von Merkmalen zu genaueren Schätzungen führen. In beiden Fällen ist der Unterschied zur tatsächlichen Entscheidungssituation zwar größer, doch die Validität der Messung ist höher.