AQUAD 7 Manual – R Integration Leo Gürtler und Günter L. Huber

AQUAD 7 Manual – R Integration
Leo Gürtler∗ und Günter L. Huber†
22.07.2014 (erste Version/ DE: 08.05.2013), v2
Zusammenfassung
Dieses Manual beschreibt die Integration von R innerhalb von
AQUAD 7. Neben grundsätzlichen Bemerkungen zum Einsatz von Mixed Methods wird das technische Zusammenspiel von AQUAD 7 und R
erläutert. Dem folgen Grundlagen zum Arbeiten im R sowie der Gebrauch
der R-Skripte, die auf AQUAD 7 zugeschnitten sind. Der statistische bzw.
logische Teil arbeitet gemäß dem Typus der Verfahren die R-Skripte, deren
theoretischen Hintergrund, Eingaben und Ausgaben sowie Ergebnisse und
Interpretation auf. Pro Verfahren liegt ein Beispieldatensatz vor. Im Anhang
werden die Einstellungen der R-Skripte tabellarisch aufgelistet.
∗ Kontakt:
† Kontakt:
www.aquad.de | [email protected] | www.guertler-consulting.de
www.aquad.de | [email protected]
Copyright
Ohne ausdrückliche, schriftliche Zustimmung der Autoren ist es nicht gestattet,
das Manual oder Teile davon in irgendeiner Form durch Druck, Fotokopie, Mikrofilm oder Einspeicherung und Verarbeitung in elektronischen Systemen zu
vervielfältigen oder zu verbreiten. Dasselbe gilt für die Rechte der öffentlichen
Wiedergabe und der Übersetzung in andere Sprachen.
Für den Schutz des Urheberrechts am Programmpaket AQUAD Sieben, das
zum Download auf www.aquad.de erhältlich ist, gelten die Lizenzbestimmungen, die mit dem Programm ausgeliefert werden – die GNU General Public License der Free Software Foundation in der Version 3. Eine Kopie dieser Lizenz
ist im Programm enthalten, s.a. www.gnu.org/licenses/.
Einschränkung der Gewährleistung
Für das in diesem Manual beschriebene Programm AQUAD Sieben und die Zusammenarbeit mit der Statistiksoftware R (R-Skripte, erhältlich mit dem Programm AQUAD Sieben) übernehmen die Autoren keine Garantie irgendeiner
Art, folglich auch keine Haftung, bezüglich jeglicher Konsequenzen, die auf irgendeine Art und Weise aus der Benutzung des Programmpakets oder Teilen
davon hergeleitet werden sollten.
Die Lizenz der Statistiksoftware R obliegt der R Foundation, die offizieller
Teil der Free Software Foundation GNU Projekt ist.
c
1. Auflage 2013, aktuelle Version vom 22.07.2014
Autoren: Leo Gürtler und Günter L. Huber
Softwarevertrieb Günter Huber, Viktor-Renner-Str. 39, 72074 Tübingen
Telefon ++49 (0) 7071 – 88 51 47
Kontakt: [email protected], [email protected]
Inhaltsübersicht
Inhaltsübersicht
3
Abbildungen
8
Tabellen
12
I Grundlagen
15
1
2
Einführung und Vorbemerkungen
1.1 Kurzfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Wofür ist dieses Manual – und wofür nicht? . . . . . . . . . . . . .
1.3 Möglichkeiten und Grenzen der Integration von AQUAD 7 und R
1.4 Roadmap – zukünftige Entwicklungen . . . . . . . . . . . . . . . .
1.5 R-Lizenzierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
17
17
17
20
21
22
Problemstellung
2.1 Intelligente Forschung designen – Mixed Methods
2.1.1 Nicht immer! . . . . . . . . . . . . . . . . .
2.1.2 Aber manchmal! . . . . . . . . . . . . . . .
2.1.3 Und machmal nicht! . . . . . . . . . . . . .
2.2 Beispielstudien im Kontext von AQUAD 7 . . . .
.
.
.
.
.
25
25
26
26
27
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
II Praxis – AQUAD 7 und R
29
3
R Installation und Initialisierung
31
4
Aufruf von R-Skripten in AQUAD 7
33
4.1 Warn- und Fehlermeldungen . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Hilfseiten im R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 R lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4
INHALTSÜBERSICHT
4.4
5
6
Weiterführende Links und Literatur zu R . . . . . . . . . . . . . . . 39
Diverses
5.1 Ergebnisse sichern . . . . . . . . . . . .
5.1.1 Output und Logdatei . . . . . . .
5.1.2 Tabellen . . . . . . . . . . . . . .
5.1.3 Graphiken und Graphikformate
5.1.4 R-Session . . . . . . . . . . . . .
5.2 Bibliotheken . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
41
42
42
43
43
R-Skripte
47
6.1 Normalmodus und Expertenmodus . . . . . . . . . . . . . . . . . . 47
6.1.1 Veränderung der R-Skripte . . . . . . . . . . . . . . . . . . . 48
6.1.2 Arbeit mir R unabhängig von AQUAD 7 . . . . . . . . . . . 49
III Statistik und Logik
51
7
Vorbemerkungen
53
8
Deskriptive Statistik
8.1 Verteilungsdeskriptionen . . . . . . .
8.1.1 Sinn und Zweck . . . . . . . .
8.1.2 Theorie . . . . . . . . . . . . . .
8.1.3 Datenbasis . . . . . . . . . . . .
8.1.4 R-Skript und Einstellungen . .
8.1.5 Ausgaben . . . . . . . . . . . .
8.1.6 Ergebnisse und Interpretation .
8.1.7 Beispieldatensatz . . . . . . . .
8.2 Explorative Datenanalyse mit Plots . .
8.2.1 Sinn und Zweck . . . . . . . .
8.2.2 Theorie . . . . . . . . . . . . . .
8.2.3 Datenbasis . . . . . . . . . . . .
8.2.4 R-Skript und Einstellungen . .
8.2.5 Ausgaben . . . . . . . . . . . .
8.2.6 Ergebnisse und Interpretation .
8.2.7 Beispieldatensatz . . . . . . . .
8.3 Worthäufigkeiten . . . . . . . . . . . .
8.3.1 Sinn und Zweck . . . . . . . .
8.3.2 Theorie . . . . . . . . . . . . . .
8.3.3 Datenbasis . . . . . . . . . . . .
8.3.4 R-Skript und Einstellungen . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
55
55
55
56
59
59
59
59
61
62
62
63
63
63
64
65
66
70
70
71
73
73
INHALTSÜBERSICHT
8.4
9
8.3.5 Ausgaben . . . . . . . . . . . .
8.3.6 Ergebnisse und Interpretation .
8.3.7 Beispieldatensatz . . . . . . . .
Korrelation . . . . . . . . . . . . . . . .
8.4.1 Sinn und Zweck . . . . . . . .
8.4.2 Theorie . . . . . . . . . . . . . .
8.4.3 Datenbasis . . . . . . . . . . . .
8.4.4 R-Skript und Einstellungen . .
8.4.5 Ausgaben . . . . . . . . . . . .
8.4.6 Ergebnisse und Interpretation .
8.4.7 Beispieldatensatz . . . . . . . .
Klassifikation und Gruppierung
9.1 Hierarchische Clusteranalyse . . . . .
9.1.1 Sinn und Zweck . . . . . . . .
9.1.2 Theorie . . . . . . . . . . . . . .
9.1.3 Datenbasis . . . . . . . . . . . .
9.1.4 R-Skript und Einstellungen . .
9.1.5 Ausgaben . . . . . . . . . . . .
9.1.6 Ergebnisse und Interpretation .
9.1.7 Beispieldatensatz . . . . . . . .
9.2 Lineare Diskrimination . . . . . . . . .
9.2.1 Sinn und Zweck . . . . . . . .
9.2.2 Theorie . . . . . . . . . . . . . .
9.2.3 Datenbasis . . . . . . . . . . . .
9.2.4 R-Skript und Einstellungen . .
9.2.5 Ausgaben . . . . . . . . . . . .
9.2.6 Ergebnisse und Interpretation .
9.2.7 Beispieldatensatz . . . . . . . .
9.3 Multidimensionale Skalierung . . . . .
9.3.1 Sinn und Zweck . . . . . . . .
9.3.2 Theorie . . . . . . . . . . . . . .
9.3.3 Datenbasis . . . . . . . . . . . .
9.3.4 R-Skript und Einstellungen . .
9.3.5 Ausgaben . . . . . . . . . . . .
9.3.6 Ergebnisse und Interpretation .
9.3.7 Beispieldatensatz . . . . . . . .
9.4 Prototypen . . . . . . . . . . . . . . . .
9.4.1 Sinn und Zweck . . . . . . . .
9.4.2 Theorie . . . . . . . . . . . . . .
9.4.3 Datenbasis . . . . . . . . . . . .
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
74
74
74
78
78
78
81
81
82
82
82
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
85
85
87
95
95
96
96
99
105
105
107
110
110
111
111
112
113
114
115
116
117
117
117
118
120
120
121
122
6
INHALTSÜBERSICHT
9.4.4
9.4.5
9.4.6
9.4.7
R-Skript und Einstellungen . .
Ausgaben . . . . . . . . . . . .
Ergebnisse und Interpretation .
Beispieldatensatz . . . . . . . .
10 Inferenzstatistik
10.1 Chi-Quadrat . . . . . . . . . . . . . . .
10.1.1 Sinn und Zweck . . . . . . . .
10.1.2 Theorie . . . . . . . . . . . . . .
10.1.3 Datenbasis . . . . . . . . . . . .
10.1.4 R-Skript und Einstellungen . .
10.1.5 Ausgaben . . . . . . . . . . . .
10.1.6 Ergebnisse und Interpretation .
10.1.7 Beispieldatensatz . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
123
123
123
125
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
129
129
129
130
133
133
134
134
135
11 Qualitativ komparative Analyse
11.1 Implikantenanalyse und Boolesche Algebra
11.1.1 Sinn und Zweck . . . . . . . . . . .
11.1.2 Theorie . . . . . . . . . . . . . . . . .
11.1.3 Datenbasis . . . . . . . . . . . . . . .
11.1.4 R-Skript und Einstellungen . . . . .
11.1.5 Ausgaben . . . . . . . . . . . . . . .
11.1.6 Ergebnisse und Interpretation . . . .
11.1.7 Beispieldatensatz . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
141
141
141
142
145
146
147
147
149
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Literatur
151
IV Anhang
159
A R-Skripte, Parameter und Beispiele
161
A.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
B R Skripte – Parameter
B.1 Transponierung [tparameter] . . . .
B.2 Verteilungsdeskriptionen [descstats]
B.3 Plots [descplot] . . . . . . . . . . . .
B.4 Worthäufigkeiten [wordfreq] . . . .
B.5 Korrelationen [descorr] . . . . . . . .
B.6 Clusteranalyse [hcluster] . . . . . . .
B.7 Lineare Diskrimination [lda] . . . . .
B.8 Multidimensionale Skalierung [mds]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
163
163
163
164
165
166
167
168
169
INHALTSÜBERSICHT
7
B.9 Prototypen [optcut] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
B.10 Chi Quadrat [chisquare] . . . . . . . . . . . . . . . . . . . . . . . . . 171
B.11 Implikanten [booleanalgebra] . . . . . . . . . . . . . . . . . . . . . . 172
C R-Lernskripte
173
Abbildungen
3.1
3.2
3.3
3.4
3.5
Eingangsfenster AQUAD 7 .
Auswahlmenü Statistik . . .
R initialisieren . . . . . . . .
Anweisungen R initialisieren
Auswahl R-GUI Programm .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
32
32
32
32
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
Menüpunkt R-Statistik . . . . . . . . . . .
Anweisung Code in R-GUI einfügen . . .
Code in R-GUI einfügen . . . . . . . . .
Skripte in R-GUI . . . . . . . . . . . . . .
Warnmeldung R-Paket Versionsnummer
Warnmeldung Abkürzung von Namen .
Warnmeldungen Graphikausgabe . . . .
Aufruf Hilfeseite im R . . . . . . . . . .
Hilfeseite im R . . . . . . . . . . . . . . .
Sourcecode R Befehl . . . . . . . . . . . .
Aufruf R Befehl . . . . . . . . . . . . . .
R Lernskript in Tinn-R . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
34
34
35
35
35
36
37
37
37
37
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
Ausgabedateien Verteilungsdeskription . . . . . . . . .
Ausgabedateien Korrelation . . . . . . . . . . . . . . . .
Ausgabe ; (csv) Tabelle Verteilungsdeskription . . . . .
Ausgabe \t (tab) Tabelle Verteilungsdeskription . . . . .
R Image gespeicherte Objekte im Speicher . . . . . . .
erfolgreiche Prüfung installierte Bibliotheken . . . . . .
automatische Prüfung und Installation von Bibliotheken
Abfrage Installation Bibliotheken unter Nutzeraccount
Fehlermeldung Installation fehlende Bibliothek . . . . .
Auswahl Mirror . . . . . . . . . . . . . . . . . . . . . .
Installation Bibliotheken . . . . . . . . . . . . . . . . .
R als Admin ausführen . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
42
42
43
43
44
44
44
44
45
45
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Abbildungen
9
5.13 Verzeichniswechsel im R-GUI . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.14 Verzeichniswechsel nach /scripts . . . . . . . . . . . . . . . . . . . . . . 46
6.1
6.2
Auswahl Default-Einstellungen . . . . . . . . . . . . . . . . . . . . . . . 47
Auswahl Experten-Einstellungen . . . . . . . . . . . . . . . . . . . . . . 47
7.1
Menü R-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8.1
8.2
8.3
8.4
8.5
8.6
8.7
8.8
8.9
8.10
8.11
8.12
8.13
8.14
8.15
8.16
8.17
8.18
8.19
8.20
8.21
8.22
Untermenü Deskriptive Statistik . . . . . . . . . . . . . . . . . . . .
Menüpunkt Verteilungsdeskription . . . . . . . . . . . . . . . . . .
Auswahl Datendatei . . . . . . . . . . . . . . . . . . . . . . . . . . .
Experteneinstellungen Verteilungsdeskription . . . . . . . . . . . .
Ausgabe R-Skript Verteilungsdeskription . . . . . . . . . . . . . . .
Ausgabe deskriptive Statistiken . . . . . . . . . . . . . . . . . . . .
Menüpunkt Explorative Datenanalyse mit Plots . . . . . . . . . . .
Experteneinstellungen explorative Datenanalyse . . . . . . . . . . .
Warnmeldung Überschreitung Dimensionen . . . . . . . . . . . . .
Warnmeldung Aussehen Histogramme . . . . . . . . . . . . . . . .
Ausgabedateien explorative Plots . . . . . . . . . . . . . . . . . . . .
Beispieldatensatz explorative Plots . . . . . . . . . . . . . . . . . . .
Menüpunkt Worthäufigkeiten . . . . . . . . . . . . . . . . . . . . .
Experteneinstellungen Worthäufigkeiten . . . . . . . . . . . . . . . .
Beispieldatensatz Boxplots Anzahl Zeichen nach Sprechercode . . .
Beispieldatensatz Boxplots Anzahl Wörter nach Sprechercode . . .
Beispieldatensatz QQ-Plot Anzahl Zeichen . . . . . . . . . . . . . .
Beispieldatensatz Histogramme Anzahl Wörter nach Sprechercode
Menüpunkt Korrelation . . . . . . . . . . . . . . . . . . . . . . . . .
Experteneinstellungen Korrelation . . . . . . . . . . . . . . . . . . .
Beispieldatensatz Korrelationsplot . . . . . . . . . . . . . . . . . . .
Beispieldatensatz p-Werte der Korrelationskoeffizienten . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
55
55
58
59
60
60
62
64
65
65
65
67
70
73
76
76
76
76
78
82
83
84
9.1
9.2
9.3
9.4
9.5
9.6
9.7
9.8
9.9
Untermenü Klassifikation und Gruppierung . . . . . . . . . . . . . . .
Menüpunkt hierarchische Clusteranalyse . . . . . . . . . . . . . . . . .
Auswahl Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Experteneinstellungen hierarchische Clusteranalyse . . . . . . . . . . .
Ausgabe Test auf hierarchische Clusterbarkeit . . . . . . . . . . . . . .
Ausgabe γ-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ausgabe Anzahl Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ausgabe Zuordnung zu Cluster . . . . . . . . . . . . . . . . . . . . . .
Beispieldatensatz Test auf hierarchische Clusterbarkeit (Histogramm
Dep f ui A ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
85
85
95
95
98
98
99
99
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 100
10
Abbildungen
9.10 Beispieldatensatz Test auf hierarchische Clusterbarkeit (Dep f ui A vs.
Normalverteilung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.11 Beispieldatensatz Test auf hierarchische Clusterbarkeit (Scatterplot
Dep f ui A vs. Dep f ui B ) . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.12 Beispieldatensatz Dendrogramm Ward Verfahren . . . . . . . . . . . .
9.13 Beispieldatensatz Treppenfunktion . . . . . . . . . . . . . . . . . . . . .
9.14 Beispieldatensatz Bootstrap Simulation (pvclust) . . . . . . . . . . . .
9.15 Beispieldatensatz Konvergenz posteriorer Wahrscheinlichkeiten
(bayesclust) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.16 Beispieldatensatz Simulation Nullverteilung (bayesclust) . . . . . . .
9.17 Beispieldatensatz optimale Cluster (bayesclust) . . . . . . . . . . . . .
9.18 Menüpunkt Lineare Diskrimination . . . . . . . . . . . . . . . . . . . .
9.19 Experteneinstellungen lineare und quadratische Diskriminanzanalyse
9.20 Ausgabe Simulation lineare Diskriminanzanalyse . . . . . . . . . . . .
9.21 Beispieldatensatz Boxplot Gruppenfaktor . . . . . . . . . . . . . . . . .
9.22 Beispieldatensatz Scatterplot lineare Diskriminanzachsen . . . . . . . .
9.23 Beispieldatensatz Histogramme erste Diskriminanzachse (Vorhersage
aufgrund Modell) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.24 Beispieldatensatz LD und PCA . . . . . . . . . . . . . . . . . . . . . . .
9.25 Menüpunkt multidimensionale Skalierung . . . . . . . . . . . . . . . .
9.26 Experteneinstellungen multidimensionale Skalierung . . . . . . . . . .
9.27 Beispieldatensatz Scatterplot Achsen I und II (MDS) . . . . . . . . . . .
9.28 Beispieldatensatz Scatterplot Achsen I, II und III (MDS) und optimaler
Schnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.29 Beispieldatensatz Visualisierung MDS (2D) und optimaler Schnitt . . .
9.30 Beispieldatensatz räumliche Darstellung (MDS 3D) . . . . . . . . . . .
9.31 Beispieldatensatz Screeplot Eigenwerte (MDS) . . . . . . . . . . . . . .
9.32 Ergebnisausgabe multidimensionale Skalierung . . . . . . . . . . . . .
9.33 Menüpunkt Prototypen . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.34 Experteneinstellungen Prototypen . . . . . . . . . . . . . . . . . . . . .
9.35 Beispieldatensatz Plot kophenetische Korrelationen . . . . . . . . . . .
9.36 Beispieldatensatz Visualisierung optimaler Schnitt und MDS . . . . . .
9.37 Ergebnisausgabe volle Distanzmatrix . . . . . . . . . . . . . . . . . . .
9.38 Ergebnisausgabe Prototypenmatrix . . . . . . . . . . . . . . . . . . . . .
10.1
10.2
10.4
10.5
10.6
10.3
Menüpunkt Chi2 -Analyse . . . . . . . . . . . . . . . . . . . . .
Experteneinstellungen Chi2 -Test . . . . . . . . . . . . . . . . . .
Beispieldatensatz Ergebnisse Chi2 -Test . . . . . . . . . . . . . .
Beispieldatensatz Marginalsummen und Zellbeitrag Chi2 -Test
Beispieldatensatz Effektstärke und Power Chi2 -Test . . . . . .
Ausgabe Datenbasis Chi2 -Test . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 100
.
.
.
.
101
101
101
101
.
.
.
.
.
.
.
.
102
102
102
105
110
111
113
113
.
.
.
.
.
114
114
114
117
119
.
.
.
.
.
.
.
.
.
.
.
119
119
119
120
120
121
123
126
126
126
126
.
.
.
.
.
.
129
134
135
136
136
136
Abbildungen
11
10.7 Beispieldatensatz Plots Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . 137
11.1
11.2
11.3
11.4
11.5
11.6
11.7
Menüpunkt Implikantenanalyse . . . . . . . . .
Experteneinstellungen Implikantenanalyse . . .
Datenbasis Implikantenanalyse . . . . . . . . .
Ergebnisse Boolesche Minimierung . . . . . . .
Ergebnisse primäre und essentielle Implikanten
Beispieldatensatz Venn-Diagramm (Ragin) . .
Beispieldatensatz Venn-Diagramm (Krook) . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
141
147
148
148
148
149
150
Tabellen
8.1
8.2
8.3
8.4
8.5
8.6
Ausgabedateien Verteilungsdeskription
Ausgabedateien explorative Plots . . . .
Tabellen Worthäufigkeiten . . . . . . .
Graphiken Worthäufigkeiten . . . . . .
Ausgabedateien Worthäufigkeiten . . .
Ausgabedateien Korrelation . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
65
75
77
77
82
9.1
9.2
9.3
9.4
9.5
9.6
9.7
9.8
Distanzmaße auf Basis der Minkowski r Metrik
Hierarchische Agglomerationsverfahren . . . .
Bewertung γ-Koeffizient . . . . . . . . . . . . .
Ausgabedateien hierarchische Clusteranalyse . .
Fehler bei Gruppenzuordnung . . . . . . . . .
Ausgabedateien lineare Diskrimination . . . . .
Dateiausgaben multidimensionale Skalierung .
Dateiausgaben Prototypen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
88
90
93
97
106
111
118
124
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10.1 Basis Vier-Felder Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.2 Bedeutung Effektstärken nach Cohen . . . . . . . . . . . . . . . . . . . . 132
10.3 Dateiausgaben Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.1
11.2
11.3
11.4
Beispiel Quine-McCluskey Algorithmus (AQUAD 7 style)
Beispiel Quine-McCluskey Algorithmus (truthtable) . . .
Bildung essentielle Implikanten . . . . . . . . . . . . . . .
Dateiausgaben Implikantenanalyse . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
143
143
146
147
A.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
B.1
B.2
B.3
B.4
B.5
Transponierung . . . .
Verteilungsdeskription
Plots . . . . . . . . . . .
Worthäufigkeiten . . .
Korrelation . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
163
163
164
165
166
Tabellen
B.6
B.7
B.8
B.9
B.10
B.11
Clusteranalyse . . . . . . . . . .
Lineare Diskrimination . . . . .
Multidimensionale Skalierung .
Prototypen . . . . . . . . . . . .
Chi Quadrat . . . . . . . . . . .
Implikanten . . . . . . . . . . .
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
167
168
169
170
171
172
C.1 Lernskripte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Teil I
Grundlagen
Kapitel 1
Einführung und
Vorbemerkungen
1.1
Kurzfassung
Dieses Manual zur Integration von R-Skripten und AQUAD 7 hat zum Ziel,
häufig verwendete statistische und logische Verfahren sowie quantitative Beschreibungen zu ermöglichen, die sich als hilfreich im Kontext qualitativer Forschungsdesign erweisen können. Hierzu zählen in erster Linie Verfahren der
multivariaten Statistik (s. Kap. 9), da diese den Zusammenhang von vielen Variablen besonders gut darstellen können. Der Konjunktiv “können” wird gewählt,
weil der Einsatz statistischer Verfahren im Kontext qualitativer Forschung nicht
per se immer hilfreich oder sogar sinnvoll ist. Ob dies so ist, muss fallangemessen entschieden werden anhand des eigenen, individuellen Forschungsdesigns.
Hinzu kommt die logische Analyse mittels Boolescher Algebra, die auch als Implikantenanalyse (s. Kap. 11.1 bzw. AQUAD 7 Manual, Huber und Gürtler, 2012)
bzw. qualitativ-komparative Analyse bekannt ist. Als letztes ist die reine Beschreibung von Daten (s. Kap. 8) zu nennen, die sich sowohl graphisch (s. Kap. 8.2) als
auch durch reine Zahlenkennwerte (s. Kap. 8.1) realisieren lässt. Inferenzstatistische Analysen wurden bis auf die Chi2 -Analyse (s. Kap. 10.1) nicht implementiert.
1.2
Wofür ist dieses Manual – und wofür nicht?
Prinzipiell gilt für die Nutzung aller R-Skripte, dass als Voraussetzung eine geeignete Forschungsfrage bzgl. der qualitativen Daten vorliegen muss.
Qualitative Daten sind zunächst in Tabellen umzuwandeln (s. Huber und
Gürtler, 2012, Kap. 8.2.2). Diese Aufgabe lässt sich in AQUAD 7 erledigen. Diese
Tabellen sind einer wie auch immer gearteten Analyse zugänglich. Sie können
18
KAPITEL 1. EINFÜHRUNG UND VORBEMERKUNGEN
auch ohne AQUAD 7 bequem in R oder eine andere Software zur statistischen
Analyse (von Tabellen) importiert werden. Häufig eignet es sich, zuerst Daten
graphisch zu visualisieren im Sinne einer explorativen Datenanalyse (EDA, Tukey, 1977) bzw. sich deskriptive statistische Kennwerte für Kodierungen oder Gruppen von Kodierungen (Metacodes bei AQUAD 7, also Kategorien auf einer abstrakteren Ebene) auszugeben. Eine andere Möglichkeit ergibt sich durch die Anwendung von Klassifikations- bzw. Gruppierungsverfahren. Hier ermöglichen Verfahren der multivariaten Statistik die räumliche Darstellung von Kodierungen
bzw. Metacodes inkl. einer intelligenten Unterteilung nach Subgruppen (hier:
Sprechercodes). Es resultiert eine (hoffentlich) neue Perspektive auf die Daten.
So können diese hinsichtlich ihrer Verteilung im 2D-Raum untersucht oder die
Frage der Clusterbildung aufgeworfen werden und welche Vertreter sich welchem
Cluster zuordnen lassen. Genauso kann die Frage der Prototypizität leiten, also welche Kodierungen bzw. Metacodes die Daten am besten repräsentieren im
Sinne der geringsten Nähe zu allen andere Vertretern derselben Klasse.
Die Boolesche Minimierung (Implikantenanalyse, s. Kap. 11.1) erlaubt ein flexibles heuristisches Testen von Hypothesen auf Basis logisch-kausaler Zusammenhänge zwischen Kodierungen, um minimal wirksame Sets von Kodierungen bzgl. ihrer kausal-logischen Auswirkungen auf ein festgelegtes positiv oder
negativ definiertes Kriterium zu identifizieren. Dieses von Ragin (1987) in die Sozialwissenschaften eingeführte und numehr allgemein bekannte Verfahren wird
im R nunmehr so umfassend unterstützt, so dass die originäre Programmierung der Implikantenanalyse in AQUAD 7 langfristig wegfallen wird. R visualisiert Lösungen in Form von Venn-Diagrammen bis zur Größe von Quintupel
(5-Tupel). Das entspricht vier Bedingungen und einem Kriterium.
Auf R-Skripte zur Inferenzstatistik wurde praktisch komplett verzichtet, bis
auf ein sporadisch und sparsam einzusetzendes Skript zur Chi2 -Analyse von kleinen Häufigkeitstabellen. Der Grund ist, dass dem AQUAD 7 Entwicklerteam
keine breitbandig und intelligent anwendbaren R-Skripte einfallen, die tatsächlich originär qualitative Analysen inferenzstatistisch pauschal ergänzen können.
Uns erscheint dies als eine schwierige Vermischung von unterschiedlichen Forschungsansätzen – ohne eine Seite zu bevorzugen oder die andere abzuwerten.
Wer Statistik machen möchte, sollte direkt mit dem R arbeiten und nicht den
Umweg über AQUAD 7 gehen. Dann ist eine auf die Forschungsfrage genau
passende statistische Analyse auszuwählen. R bietet das unserer Erfahrung nach
mächtigste und eleganteste statistische Instrumentarium zur statistischen Datenanalyse. Jeder wie auch immer geartete GUI (graphical user interface) – und
AQUAD 7 ist aus dieser Sicht nichts anderes – zwischen Anwender und dem
R führt eher zu Problemen als zur Vereinfachung.
Die anderen Verfahren können jedoch bedenkenlos eingesetzt werden, um
qualitative Daten und die jeweiligen Zusammenhänge der Fällen untereinan-
1.2. WOFÜR IST DIESES MANUAL – UND WOFÜR NICHT?
der besser zu verstehen. Voraussetzung ist jedoch immer ein profundes Wissen um
die eingesetzte Analyse. Alle Verfahren ausser der Chi2 -Analyse (da inferenzstatistisch) und der Booleschen Algebra (da ein rein logisches Verfahren) werden hier
ausschließlich heuristisch und explorativ benutzt. Selbst wenn inferenzstatistische Kennwerte ausgegeben werden (z.B. Test auf hierarchische Clusterbarkeit,
zufallskritische Absicherung von Korrelationskoeffizienten, etc.) macht es häufig
keinen Sinn, diese zu ernst zu nehmen. Häufig findet sich keine Forschungsfrage, die eine statistische Absicherung zwingend verlangt. Noch häufiger können
statistisch signifikante Ergebnisse zufällig aus einer Kombination von Kodierungen hervorgehen, sind aber in einer geringfügig anderen Stichprobe nicht replizierbar. Diese Ergebnisse sind u.U. jedoch nicht robust gegenüber Änderungen der Datenbasis. Manche Verfahren wiederum sind so heterogen (z.B. clusteranalytische
Verfahren, s. Kap. 9.1), dass ein gewisse Beliebigkeit systemimmanent ist. Beispielsweise ist es nicht ohne Weiteres möglich, den bekannten Datensatz der Diskriminanzanalyse, die Iris-Daten, durch eine Clusteranalyse zu reproduzieren.
Diese Daten sammelte Edgar Anderson (1936) und sie wurden von Fisher (1936)
zur Demonstration der von ihm entwickelten Diskriminanzanalyse verwendet
(s. Kap. 9.2). Erst der Einbezug qualitativen Vorwissens (hier: drei Cluster liegen
vor) führt zu valideren Ergebnissen. Der Einbezug qualitativen Vorwissens ist
jedoch Domäne der bayesischen Statistik (Studer, 1998, 2006).
Liegen derartige Verfahrensbedingungen vor, ist Vorsicht bei deren Einsatz
angebracht. Trotzdem sollten die statistischen Kennwerte genau untersucht werden, um den Schritt von Datensatz → Verfahren → Ergebnis nachvollziehen zu
können. Erst eine Warnung auszusprechen und dann den Hinweis hinzuzufügen, die Verfahren möglichst exakt durchzuführen, klingt widersprüchlich. Und
das ist es auch. Folglich besteht die Aufgabe für alle Anwender darin, diesen Widerspruch am konkreten Datenmaterial und vor dem Hintergrund der eigenen
Forschungsfrage aufzulösen. Das trägt dazu bei, ein fundiertes Ergebnis zu erhalten. Unser Anliegen ist es, möglichst dabei behilflich zu sein, dass Verfahren
sauber eingesetzt und interpretiert werden. Das geht nicht standardmäßig auf
Knopfdruck. Die angebotenen Verfahren arbeiten nicht automatisiert im Sinne
eines automatischen Data-Minings.
Das Manual gibt einen kurzen Einblick in die zugrundeliegenden Annahmen
der jeweiligen Verfahren. Es ist hier nicht intendiert, eine tiefere theoretische Herleitung oder Erörterung der angebotenen Verfahren zu geben. Wir beschränken
uns darauf, was das Verfahren zu leisten vermag und was es erwartet und was es
ausgibt. Für alles weitere gibt es genügend Fachliteratur, auf die verwiesen wird.
Das Manual stellt die Default-Einstellung der Skripte vor, die standardmäßig aktiv sind. Hinzu kommen die Einstellungen, die für diejenigen sind, die wissen,
was sie tun. Manche Einstellungen sind jedoch erst durch direkte Bearbeitung
der Parameterdateien zugänglich oder direkt über die R-Skripte. Einen umfas-
19
20
KAPITEL 1. EINFÜHRUNG UND VORBEMERKUNGEN
senden Überblick über alle Einstellungen der R-Skripte geordnet nach Verfahren
bietet Anhang B. Zusätzlich gibt es in Kap. 6 und jeweils bei den Verfahren ein
paar kurze Hinweise über den Aufbau der R-Skripte, deren Modifikation sowie
zum generellen Arbeiten mit R. Das Ziel ist, dass jede, die mit R arbeitet, leicht
die Skripte an die eigenen Bedürfnisse anpassen oder sie ergänzen kann.
All diejenigen Personen, die mit R bereits umgehen können, wird empfohlen, direkt mit den R-Skripten zu arbeiten. Es ist dann leichter, diese entsprechend für die eigenen Bedürfnisse zu modifizieren und AQUAD 7 bestenfalls
zum Aufruf zu nutzen. Jedes R-Skript nutzt eine zentrale Parameterdatei und
greift auf einen Stamm von nützlichen Funktionen zurück, die zentral in der
Datei aquad_func.r in /scripts liegen. Die AQUAD 7 Entwickler machen es
genauso – direkt mit R arbeiten. Das R bietet eine Fülle von auch freier Literatur und unendlich viele Beispielskripte, so dass nur vereinzelt auf R im engeren
Sinne eingegangen wird. Was R angeht: Am besten lernt es sich am Modell und
durch die Modifikation des Modells. Die R Hauptseite ist ein guter Ansatzpunkt.
Ebenso sind es die Hilfeseiten (manpages) der einzelnen R-Kommandos und die
teilweise vorhandenen Vignetten. R-Code wird darüber hinaus im Manual nicht
behandelt, sondern nur, wie von AQUAD 7 aus die R-Skripte aufgerufen werden
können und was als Ergebnis ausgegeben wird. Die Referenz der verwendeten
R-Modulpakete ist ein weiterer Ansatzpunkt, um eine präzise Interpretation der
Ergebnisse zu ermöglichen.
AQUAD 7 kommt mit Beispieldatensätzen zu jedem R-Skript bzw. Verfahren.
Anhang A.1 listet diese tabellarisch auf und welches Verfahren auf sie zugreift.
Diese Datensätze sind alle mit R version 3.0.2 (2013-09-25) erfolgreich getestet
worden. Einige der notwendigen Bibliotheken liegen nunmehr in Version 3.0.3
vor. Auch hier gab es keine Probleme beim Durchlauf. Sollten doch R-Skripte
nicht erwartungsgemäß funktionieren, schreiben Sie bitte an das AQUAD 7 Entwicklerteam. Bitte testen Sie vorher das R-Skript mit dem beiliegenden und von
uns getesteten Beispieldatensatz, um ein mögliches Problem frühzeitig eingrenzen zu können.
1.3
Möglichkeiten und Grenzen der Integration von
AQUAD 7 und R
R (2013) ist eine Interpreterprogrammiersprache für jegliche statistische Berechnungen, die gerne als lingua franca for statistical computation bezeichnet wird. In
Erweiterung eines beträchtlichen Standardprogramms von Analysen und graphischen Ausgaben existieren weit mehr als 5000 Pakete, um spezielle Analysen
für unterschiedlichste Fachgebiete zu ermöglichen. Diese Pakete sind als Bibliotheken frei verfügbar und können beliebig im R eingesetzt werden. So sind Ana-
1.4. ROADMAP – ZUKÜNFTIGE ENTWICKLUNGEN
lysen und graphische Ausgaben für praktisch jede denkbare Anwendung möglich. Sie liefern außerdem Grundbausteine, um fehlende Analysen und graphische Ausgaben mit überschaubaren Aufwand selbst zu erstellen – das statistische
Hintergrundwissen vorausgesetzt.
Aus dieser Fülle an Möglichkeiten wurden sehr wenige und wie bereits begründet vor allem multivariate Analysen herausgefiltert, die der empirischen
Erfahrung nach sich wirklich eignen, um aus qualitativen Daten sinnvolle Informationen zu schöpfen. Das Ziel ist die Unterstützung qualitativer Datenanalysen
und nicht, das olympische Rennen zwischen QUAN und QUAL um eine neue
Runde zu ergänzen. Sektiererische Auseinandersetzungen haben hier nichts zu
suchen. Integration trotz bestehender Widersprüche – anstatt eines Entweder-oder
lautet der Leitgedanke. Da nicht jede und jeder jedoch Zeit und Resourcen hat,
um R zu lernen, liegt so eine Schnittstelle bereit, um mit minimalen Aufwand R
zu nutzen. Der Vorteil ist die einfache Bedienbarkeit. Der bzw. die Nachteile sind
eine fehlende Anpassung an individuelle Bedürfnisse (Fragestellungen, Datensätze). Das fängt bei der Farbgebung und Dimensionierung von Plots an oder deren graphischen Ausgabeformat und geht über zur Frage der Verwendung von
Abkürzungen von Kodiernamen in Plots. Es endet bei der Frage, warum diese
oder jene Spezialanalyse oder bestimmten Einstellungen der R-Kommandos fehlen. Der Aufwand, all dies bibliotheksartig zu realisieren, wäre ungemein hoch
und ineffizient. Leichter ist es, für diese Aspekte etwas R zu lernen und selbst
die Skripte dahingehend zu modifizieren oder gleich eigene zu schreiben. Die
R-Skripte liegen alle offen vor und können direkt über einen Editor wie TinnR, NppToR (R in Notpad++) oder RKWard unter Windows bzw. ESS (Emacs
Speaks Statistics) unter Linux verändert werden. Diese Editoren erlauben die
direkte Ansteuerung von R, indem Skripte direkt an R gesendet und ausgeführt
werden.
Unsere Zielgruppe sind all diejenigen, die auf einfache Weise die Vorteile von
R nutzen möchten, ohne alles selbst zu programmieren. Wir greifen vollständig
auf vorhandene R-Bibliotheken zurück. Der Hauptteil der Skripte besteht deshalb aus Anpassungen bereits existierender R-Skripte, um vorhandene R-Pakete
für AQUAD 7 nutzen zu können. Zusätzlich gibt es ein paar eigens programmierte Funktionen, die nützliche Dinge verrichten (z.B. sämtliche deskriptive
Kennwerte berechnen und in eine Tabelle schreiben).
1.4
Roadmap – zukünftige Entwicklungen
[Stand März 2014]
Die kurzfristige Zielsetzung ist es, Anwendern die Vorteile von R im Rahmen von AQUAD 7 zu ermöglichen, wie bereits ausführlich dargelegt wurde.
Die langfristige Zielsetzung ist es, von AQUAD 7 aus R ständig offen zu haben
21
22
KAPITEL 1. EINFÜHRUNG UND VORBEMERKUNGEN
und AQUAD 7 Programmteile auch intern an R auszulagern. Dies hätte den Vorteil des geringeren Programmieraufwandes, weil R unglaublich mächtig ist und
für viele Operationen – insb. die Arbeit mit Vektoren, Matrizen, etc. – bereits auf
Geschwindigkeit optimierte Funktionen bereitstellt und vektorwertiges Arbeiten erlaubt. Trotz des Charakters einer Interpretersprache sind diese Funktionen
vermutlich kaum noch zu beschleunigen und machen sie so für viele interne
AQUAD 7 Aufgaben interessant1 . Ebenso sind Teile der bayesischen Statistik
interessant, da sie für sehr kleine Stichproben geeignet sind und die Probleme
klassisch frequentistischer Forschung sich nicht ergeben.2
1.5
R-Lizenzierung
R unterliegt der der GNU General Public License in der Version 2 vom Juni 1991.
R ist mit Quellcode frei verfügbar, genauso wie alle verfügbaren R-Pakete auf
der R-Seite. AQUAD 7 steht unter der GNU General Public License in der Version 3 vom Juni 2007. Für die Praxis unterscheiden sich die beiden Lizenzen,
jedoch nicht in einem Ausmaß als dass es Anwender von AQUAD 7 in ihrer Arbeit beeinträchtigen könnte. Für die R-Skripte, die im Kontext von AQUAD 7
angeboten werden, gilt damit auch die GNU GPL v3. Für modifizierte R-Skripte,
die ihren Ursprung klar in originalen R-Funktionen haben, gilt letztlich die Lizenz des R. Bei jeder Funktion bzw. jedem Skript ist deshalb vermerkt, woher es
kommt. Daraus lässt sich die Lizenz ableiten.
Anmerkungen
1 Dafür ist es jedoch notwendig, eine ordentliche Interprozesskommunikation zwischen
AQUAD 7 und R zu etablieren. Diese fehlt bisher.
2 Eine weitere zukünftige Entwicklung soll die vollständige Implementierung des Artikel von
G.L. Bretthorst (1993) “on the difference in means” sein, eine vollständige bayesische Lösung
des Behrens-Fisher Problems. Das Behrens-Fisher Problem untersucht die Frage von gleichen
bzw. ungleichen Standardabweichungen und Mittelwerten bezogen auf zwei Gruppen. Es repräsentiert quasi das Grundproblem klassischer frequentistischer Inferenzstatistik. Die vorgeschlagene Lösung von Bretthorst ist bayesisches Natur. Damit können Grenzen bzgl. der
individuellen Konfidenzen und der subjektiven Erwartungen aufgrund von Experten- bzw.
Vorwissen formuliert werden. Dieses Wissen geht in die Gleichungen ein. Das macht es interessant, da qualitative Informationen sinnvoll nutzbar sind. Zusätzlich ergibt sich nicht das
Problem des multiplen Testens gleicher Art, das in der klassischen Statistik häufig übersehen
wird und zu prinzipiell nicht interpretierbaren Ergebnissen führen kann oder rigorose Korrekturen benötigt. Vielmehr können beliebige Sets auf Zwei-Gruppenbasis miteinander gegeneinander getestet werden. Gerade die Eignung für kleine Stichproben macht dieses Verfahren als Ergänzung zu qualitativen Analysen interessant. Die Probleme kleiner Stichproben
im Kontext klassischer Statistik können hier ignoriert werden. Die Aussagen sind naturgemäß
unsicherer bei geringeren Stichprobengrößen und das Expertenwissen spielt eine größere Rolle. Wachsende Stichproben führen zu einem abnehmen Einfluss von Expertenwissen und zu
1.5. R-LIZENZIERUNG
einer Stabilisierung der Effekte auf empirischer Basis. Derzeit liegt das R-Skript (basierend auf
einem Mathematica Skript von Studer, 1998) vor, funktioniert jedoch nur für kleine Stichproben. Sobald es für beliebig große Stichproben verfügbar ist, wird es in AQUAD 7 verfügbar
gemacht. Ein empirisches Beispiel bzgl. der wirklich gelungen Integration von qualitativer
Methodik (Sequenzanalyse, Rekonstruktion von Fallstrukturen) und bayesischer Statistik bei
kleinen Stichproben findet sich bei erwähnter Studie von Studer (ebd.). Diese Studie stellt für
uns eine Art Referenz für ein durchdachtes kombiniertes Design dar, um die Erfolgswahrscheinlichkeiten einer stationären Suchteinrichtung über mehrere Jahre hinweg sauber zu berechnen als auch die Arbeitsweise der Institution anhand von ausgewählten qualitativen Fällen präzise zu rekonstruieren. Sie ist über das Bundesamt für Justiz der Schweiz (BAJ) der
Schweiz erhältlich.
23
Kapitel 2
Problemstellung
2.1
Intelligente Forschung designen – Mixed Methods
Mixed Methods (u.a. Tashakkori und Teddlie, 2003, s.a. AQUAD 7 Manual, Hubr
und Gürtler, 2012, Kap. 12) gilt seit mittlerweile mehr als 15 Jahren als etabliertes
und akzeptiertes Vorgehen in den Sozialwissenschaften. Hierzu liegen eine Fülle von theoretisch fundierenden Büchern (u.a. ), Leitartikeln (u.a. Morse, 2003;
Mayring, 2001; Flick, 2000; Fielding und Schreier, 2001) und empirischen Studien (u.a. Gläser-Zikuda et al., 2012) vor. Außerdem gibt es selbstverständlich eine
ebenso unüberschaubare Fülle an Literatur, die jegliches Vermischen ablehnen
und entweder die eine oder andere Seite aus unterschiedlichsten Gründen präferieren (u.a. Smith, 1983).
Das Mischen von Verfahren kann auf allen Ebenen stattfinden und lässt sich
einfach kombinatorisch herleiten: Theorie, Erhebungsmethodik, Datenanalyse, etc.
können in der logisch-zeitlichen Abfolge miteinander und iterativ mit wechselnder Bezugsebene kombiniert werden – sofern es inhaltlich und forschungsfragetechnisch überhaupt Sinn macht. In der Ausbildung und bei Qualifikationsarbeiten scheint jedoch ein Trend immer mehr aufzutauchen, dass eine kombinierte
Methodik fast schon erwünscht scheint und zwar unabhängig von der leitenden
Forschungsfragestellung.
Davon hält das AQUAD 7 Entwicklerteam gar nichts.
Gemäß einer ordentlichen Forschungslogik muss die Forschungsfrage essentiell
ein methodisch kombiniertes Vorgehen einfordern. Nur aus methodischen oder
Modegründen sollten Forschende vom Einsatz von Mixed Methods tunlichst die
Finger lassen. Das käme nämlich einer Bevorzugung der Methodik über den Inhalt (Forschungsfrage) gleich. Sofern nicht die Methodologie im Zentrum des
Interesses steht und eine (emprische) Studie nur Beiwerk ist, hat die Forschungsfrage die leitende Funktion, was methodologisch geht und was nicht. Eine rein
26
KAPITEL 2. PROBLEMSTELLUNG
quantitative oder qualitative Studie ist nicht nur einer kombinierten ebenbürtig
bei ordentlicher Ausführung, sondern kann u.U. Sachverhalte sogar besser herausarbeiten, weil sie sich auf das Wesentliche konzentriert und nichts verkompliziert. Die Forschungsfrage hat im Mittelpunkt zu stehen.
Da jedoch die Interpunktion von Ereignissen (Bateson, 1985) und damit von
Forschung per se nicht zwangsläufig eindeutig ist, braucht es grundsätzlich die
begründende Rechtfertigung des eigenen Vorgehens. Der gesunde Menschenverstand und die Plausibilität des Vorgehens sind hier die Kriterien, da Wissenschaft sich immer entlang relativer Wahrheitsregionen bewegt. Damit gibt
es auch keine endgültige Entscheidung in strittigen Fragen. So kann etwa eine
bereits abgeschlossene Untersuchung im Rahmen eines größeren Projektes Vorstufe für einen Methodenwechsel darstellen. Ebenso könnte eine Studie aus der
Literatur genommen werden und derselbe Gegenstand aus einer anderen theoretischen bzw. methodologischen Perspektive exploriert werden. Ist dies dann
bereits die Anwendung von Mixed Methods oder nicht?
2.1.1
Nicht immer!
Quantitative Analysen sind nicht immer erforderlich oder überhaupt erwünscht.
Beispielsweise sind sie vermutlich komplett uninteressant, wenn es darum ginge, Briefe zu analysieren und Fallstrukturen zu rekonstruieren. Hier würde sich
eher das Kodierparadigma oder noch besser die Sequenzanalyse im Rahmen objektiv hermeneutischer Forschungsmethodik (Oevermann, 2000; s.a. AQUAD 7
Manual, Huber und Gürtler, 2012, Kap. 5) eignen. Über Fälle hinweg könnte
dann die Boolesche Algebra etwas beitragen, etwa um eine Typologie aufzubauen. Gerade bei der Anwendung der Sequenzanalyse fällt es dem AQUAD 7 Entwicklerteam sehr schwer, überhaupt eine intelligente Anwendung der Statistik
zu konstruieren, die das Verfahren ergänzen könnte und zwar bezogen auf dasselbe Datenmaterial. Genausowenig erscheint es bei der Analyse von Genogrammen sinnvoll, auf Statistik zurückgreifen (z.B. McGoldrick und Gerson, 2000).
Dann würde es sich möglicherweise lohnen, auch nicht mit AQUAD 7 zu arbeiten, sondern in einem Gruppenkontext und die Analyseergebnisse später einfach
zu verschriftlichen.
2.1.2
Aber manchmal!
Sinn macht der Einsatz von Statistik, wenn es beispielsweise darum geht, Interviews zu kategorisieren. So können etwa n=20 (willkürliche Zahl) kodierte Interviews zur Frage vorliegen, warum Studierende ihr Studium abbrechen oder
weiterführen. Dann macht es Sinn, diese Interviews auf Basis ausgewählter und
begründeter Kodierungen räumlich anzuordnen (s. Kap. 9.3) oder Cluster zu bilden (s. Kap. 9.1). Diese räumliche Anordnung erlaubt eine visuelle Perspektive,
2.1. INTELLIGENTE FORSCHUNG DESIGNEN – MIXED METHODS
die das Wissen um die Interviews sehr gut ergänzen kann. Bei der Clusterung
wäre zusätzlich zu fragen, ob sich die Daten besser als der Zufall clustern lassen,
so dass ein solcher Test den Einsatz des Verfahrens vorab legitimiert. Hingegen
würde es sehr schwer fallen, sowohl die Wahl des Distanzmaßes als auch des
eingesetzten Agglomerationsverfahrens anders als durch den gesunden Menschenverstand und die Bevorzugung einer gewissen Einfachheit zu begründen.
Manchmal mag es sogar lediglich die subjektive Präferenz für die Gestaltung von
Klumpen sein, die jedoch zu begründen ist. Trotzdem inspirieren diese Verfahren, da je nach gewählter Methodik keine weiteren subjektiven Einflüsse in die
Analyse getragen werden. Algorithmen laufen wie Uhrwerke ab und das birgt
immer wieder einen entscheidenden Vorteil, quasi eine Meinung unabhängig der
eigenen, zu erlangen.
2.1.3
Und machmal nicht!
Was wäre nun eine Anwendung der Statistik, die am besten gleich im R umgesetzt wird und ohne den qualitativen Analyseteil auskommen könnte, obwohl
prinzipiell qualitativ analysierbare Daten vorliegen? Beispielhaft sei eine psycholinguistische Fragestellung aufgeführt, die nach statistischen Kennwerten von
Texten aus unterschiedlichen Sprachen fragt, um bestimmte Kennwerte so zu
identifizieren, um die Sprache oder einen Wortschatz oder etwas anderes (z.B.
Anspruchsniveau) vorherzusagen. Ebenso kann die Morphologie von Texten untersucht werden. Mit Hilfe von einschlägigen Wörterbüchern und Datenbanken
sind statistische Analysen denkbar, die genau dies leisten können. Aber eine qualitative Analyse wäre in dem Falle unnötig bzw. uninteressant. Im R gibt es zum
Thema natural language processing eine eigene Webseite, die R-Pakete auflistet, die
hier etwas beitragen können. Dies umfasst ausschließlich quantitative Analysen.
Eine qualitative Analyse wäre angesichts der Fülle des Materials (z.B. Umfang
von mehreren Büchern) kaum umsetzbar oder zu begründen – hier hat die Statistik einen klaren Vorteil, weil es eben die Forschungsfrage verlangt.
Ebenso wäre es denkbar zu fragen, ob bestimmte Programme zur Prävention
oder Intervention sinnvoll sind oder nicht. Hier wäre ein klares Zielkriterium zu
operationalsieren, was an einer großen und repräsentativen Stichprobe erhoben
werden müsste. In Kombination mit einer Kosten-Nutzen Analyse, die in den Sozialwissenschaften sträflich vernachlässigt wird, könnte auf Basis quantitativer
Kriterien eine Entscheidung über den Ausbau oder die Verringerung bestimmter Aktivitäten entschieden werden. Dies kann viele verschiedene Fächer wie
Medizin, Psychologie, Erziehungswissenschaft, Soziologie, Politikwissenschaft,
etc. abdecken, so dass Mixed Methods weniger auf der Datenanalyseebene, sondern vielmehr integrativ auf der theoretischen Ebene stattfindet. Trotzdem kann
es legitim sein, eine solche Fragestellung ausschließlich mit nüchternen Zahlen
27
28
KAPITEL 2. PROBLEMSTELLUNG
zu bearbeiten und sämtlich qualitative Verfahren außen vor zu lassen.
2.2
Beispielstudien im Kontext von AQUAD 7
In Teil III werden pro Verfahren Beispielstudien gegeben, die großteils mit
AQUAD 7 durchgeführt wurden und das entsprechende Verfahren nutzen. Teilweise finden sich diese bereits im Manual zu AQUAD 7 beschrieben. Die entsprechenden Studien werden nur kurz skizziert, um die grundsätzliche Fragestellung zu verstehen. Exemplarisch werden legitime Deutungen der Ergebnisse
besprochen. Es sind jeweils die kompletten Datensätze und die Resultate der RAnalysen im AQUAD 7 Paket enthalten, so dass die Analysen und Ergebnisse
exakt reproduziert werden können.
Teil II
Praxis – AQUAD 7 und R
Kapitel 3
R Installation und Initialisierung
Abb. 3.1.
Eingangsfenster AQUAD 7
Zunächst muss R installiert und initialisiert werden. Zur Installation von R lesen
Sie bitte auf der Website von R nach. Im Prinzip ist es ein Durchklicken durch den
32
KAPITEL 3. R INSTALLATION UND INITIALISIERUNG
Abb. 3.2.
Auswahlmenü Statistik
Abb. 3.3.
Abb. 3.4.
Anweisungen R initialisieren
R initialisieren
Abb. 3.5.
Auswahl R-GUI Programm
Installations-GUI. Wenn Sie nach den Hilfeseiten gefragt werden, so wählen Sie
die html Hilfeseiten ab und stattdessen Textdateien. Das erleichtert Ihnen das
Arbeiten. Es wird dann ein einfaches Textfenster aufgemacht und nicht immer
ein Browserfenster. Ebenfalls eignet es sich, R Hilfeseiten in eigenen Fenstern
ausführen zu lassen und nicht alles innerhalb eines großen Fensters. Darüber
hinaus gibt es keine wichtigen Auswahlpunkte. Das vorgeschlagene Standardverzeichnis merken Sie sich, sofern Sie ändern.
Nach der Installation wechseln Sie nach AQUAD 7, wählen den Menüpunkt
Statistik (s. Abb. 3.1), und dann R initialisieren (s. Abb. 3.2 bzw. Abb. 3.3) und
folgen den Anweisungen (s. Abb. 3.4). Hierzu ist es notwendig, im Verzeichnisbaum bis zum Executable des R-GUI zu gehen und diesen auszuwählen, damit
AQUAD 7 weiss, mit welchem Programm Sie arbeiten möchten (s. Abb. 3.5). Dies
ist wichtig, da mehrere Instanzen von R parallel installiert und betrieben werden
können. Mehr gibt es hier nicht zu tun.
Kapitel 4
Aufruf von R-Skripten in
AQUAD 7
[Stand März 2014]
Über den Menüpunkt R-Statistik kommen Sie zu den verschiedenen Verfahren (s. Abb. 4.1). Jeder Menüpunkt ruft dann ein eigenes R-Skript auf. Jedes RSkript besitzt eine Parameterdatei, aus der es die individuellen Angaben liest,
bevor die eigentliche Arbeit beginnt. Hierzu zählen u.a. Dateinamen (Input, Output), die Art des tabellarischen Outputformats (csv, tab), die Anzahl der Nachkommastellen, die Frage der Abkürzung von Kodierungsnamen und weitere
verfahrensspezifische Parameter. AQUAD 7 sammelt diese Eingaben und erstellt
bei jedem Durchgang die Parameterdatei neu.
Abb. 4.2.
Abb. 4.1.
Menüpunkt R-Statistik
Anweisung Code in R-GUI
einfügen
Dann wird das R-Skript aus der R-Skriptdatei in den Zwischenspeicher kopiert und der R-GUI aufgerufen. Derzeit ist es noch notwendig, dass Anwender
dann mit STRG-v (Tastatur, s. Abb. 4.2) oder rechts-Klick (Maus, s. Abb. 4.3) sowie
Einfügen das R-Skript in den R-GUI einfügen. Dieses wird dann sofort ausgeführt
(s. Abb. 4.4) und der R-GUI bleibt offen und sollte danach geschlossen werden.
Das bedingt sich daraus, dass AQUAD 7 derzeit (noch) jedesmal den R-GUI neu
aufruft. Wird der R-GUI nicht geschlossen, ergeben sich bei mehreren Durchgän-
34
KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7
Abb. 4.3.
Code in R-GUI einfügen
Abb. 4.4.
Skripte in R-GUI
gen lauter offene R-GUIs. Fehlermeldungen können direkt im R-GUI abgelesen
werden. Der R-GUI ist derzeit nach einer Session zu schließen.3
4.1
Warn- und Fehlermeldungen
Nicht jeder Fehler führt zu einem Abbruch der R-Skripte, wie die folgenden
Abbildungen zeigen. So gibt R eine Warnung aus, wenn ein Paket unter einer
anderen Versionsnummer erzeugt wurde (s. Abb. 4.5). Bei einigen Operationen
4.1. WARN- UND FEHLERMELDUNGEN
Abb. 4.5.
Warnmeldung R-Paket Versionsnummer
Abb. 4.7.
35
Abb. 4.6.
Warnmeldung
von Namen
Abkürzung
Warnmeldungen Graphikausgabe
(z.B. Erstellung von Abkürzungen für Kodierungen, s. Abb. 4.6) werden standardmäßig Warn- bzw. Fehlermeldungen ausgegeben. Solche Meldungen können Sie häufig getrost ignorieren. Es gibt auch Warnmeldungen zu Problemen
mit Schriften und graphischer Ausgabe (s. Abb. 4.7), etwa wenn ein Plot (halb)transparente Objekte erzeut, das graphische Ausgabeformat dies jedoch nicht
unterstützt.
Solange das Skript durchläuft und alle Operationen ausführt, so dass Sie verwertbare Ausgaben erhalten, läuft alles in bester Ordnung. Erhalten Sie keine
Ausgabe, bedarf es einer sorgfältigen Analyse der konkreten Fehlermeldung. Besteht dieses Problem auch bei der Anwendung der R-Skripte auf die beiliegenden Beispieldatensätze (s. Anhang A.1), kontaktieren Sie bitte die Autoren von
AQUAD 7. Ansonsten schauen Sie bitte zuerst, was Sie selbst gemacht haben.
Bei eigenen Skripten sollten Sie ähnlich vorgehen. Schauen Sie zunächst, ob
Ihr Skript das Resultat erzeugt, dass Sie benötigen und was für eine Form eine
Warn- bzw. Fehlermeldung annimmt. Häufig können Sie diese ignorieren, da
sie die grundsätzliche Funktionalität nicht ausser Kraft setzen, sondern lediglich
bestimmte Funktionen eingeschränkt sind. Wenn ein wirklicher “echter” Fehler
auftritt, bricht normalerweise das R-Skript ab. Dies tut es nicht, wenn Sie explizit
(z.B. mit try) dies verhindern bzw. Fehlermeldungen abfangen.
36
KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7
4.2
Hilfseiten im R
Hilfeseiten im R sind essentiell. Sie bieten alle Informationen, um einen R Befehl
bzw. ein Paket anwendungsrichtig einzusetzen. Die Hilfseiten lassen sich durch
ein vorgestelltes Fragezeichen vor ein R-Kommando aufrufen: ?help.search,
?lm, ?cor.test, etc. (s. Abb. 4.8). Je nach Konfiguration erscheint eine Textseite (s. Abb. 4.9) oder die Seite innerhalb des Browsers. Den Überblick über eine Bibliothek erhält eine Anwenderin über library(help=lme4). Eine einfache
Suche lässt sich mit help.search(linear model) durchführen. Bei den Ergebnissen ist zu beachten, dass R-Kommandos innerhalb von Paketen mit einem
zweifachen Doppelpunkt gekennzeichnet sind. So führt die eben genannte Suche
nach “linear model” etwa zu boot::glm.diag, MASS::rlm und vielen anderen
Befehlen. Hiermit sind die Pakete boot, MASS, etc. bezeichnet und deren Pakete
glm.diag, rlm, etc.
Der Aufruf eines R-Befehls ohne Parameter führt i.A. zum Anzeigen des
Sourcecodes, etwa cat (s. Abb. 4.10). Werden Klammern hinzugenommen,
wird der Befehl quasi leer aufgerufen so wie ls() oder cat() (s. Abb. 4.11).
Mit entsprechenden Parametern erzeugt der Befehl eine Ausgabe, etwa
cat(\ttest\n\n). Der Sourcecode von Funktionen ist eines der wichtigsten Modelle, um R zu lernen.
R pflegt eine hervorragende Mailingliste, deren Archiv online zugänglich ist.
Beachten Sie bitte die Hinweise und den Posting Guide, bevor Sie dort Fragen
stellen, damit Sie auch Antworten für Ihr konkretes Problem erhalten. Für verschiedene Fachgebiete existiert die Suchmaschine rdocumentation.
4.3
R lernen
Abb. 4.8.
Aufruf Hilfeseite im R
4.3. R LERNEN
37
Abb. 4.9.
Abb. 4.10.
Sourcecode R Befehl
Hilfeseite im R
Abb. 4.11.
Aufruf R Befehl
Folgend wird vorausgesetzt, dass R installiert ist
sowie Tinn-R oder ein anderer Editor der eigenen Wahl. Es soll möglich sein, vom Editor aus R
aufzurufen und Befehle an R zu senden. Im Verzeichnis /skripte liegen drei Beispielskripte zum
Lernen der Grundfunktionen von R (s. Abb. 4.12).
Sie sind nach dem Modell der worked-out examples (Stark et al., 1996) aufgebaut. Es empfiehlt sich,
diese Skripte zeilenweise abzuarbeiten, je zu verAbb. 4.12. R Lernskript in Tinn-R
ändern und den Output im R-GUI genau zu beobachten, um die zugrundeliegende Logik zu verstehen. Die R-Befehle wurden dahingehend ausgewählt, dass sie diejenigen repräsentieren, die aus der Sicht der AQUAD 7 Entwickler zu Beginn wichtig sind, um
ein grundlegendes Arbeitsverständnis von R zu erlangen. Später ändert sich die
Auswahl der Befehle durch die Erstellung eigener Skripte und ein fortgeschrittenes Verständnis vektorwertigen Arbeitens. Aber diese Grundbefehle bleiben
38
KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7
immer aktuell.
Werden die Skripte beherrscht, lohnt es sich, zu speziellen Analysen überzugehen, die real gebraucht werden. So lässt sich die eigene Kompetenz im Umgang mit R erweitern – an echten Problemen und am besten an den eigenen Datensätzen.
Mit den folgenden Imperativen können Sie versuchen, sich das Leben beim
Erlernen von R zu erleichtern:
⇒ Speichern Sie Ihre Skripte immer und in regelmäßigen Abständen ab.
⇒ Kommentieren Sie Ihren Code soweit möglich und zwar so, dass Sie nach
zwei Wochen immer noch verstehen, um was es geht. Insbesondere eignet
es sich, Codeteile mit Überschriften zu versehen. Es muss nicht der ganze
Code begründet werden. Möchten Sie das nicht, müssen Sie zumindest einmal R als Administrator aufrufen und dann das jeweilige Skript durchlaufen lassen – etwa wenn verschiedene Personen an einem Computer mit getrennten Accounts arbeiten und alle auf dieselben R Bibliotheken zurückgreifen sollen. Nach einmaliger Installation sind die Bibliotheken immer
verfügbar. Prinzipiell können Sie Bibliotheken auch manuell herunterladen
und als .zip Datei im R-GUI manuell einspielen.
⇒ Übernehmen Sie Code, der fast das tut, was Sie möchten und ändern Sie
den Code so ab, dass das erzeugt wird, was Sie benötigen. Code modifizieren ist leichter als alles selbst schreiben und es wirkt zusätzlich die
inspirierende Vorbildfunktion des Modells.
⇒ Arbeiten Sie mit Funktionen. Beginnen Sie zunächst zeilenweise, um mit
den minimalen Erfordernissen das zu realisieren, was Sie sich vornehmen.
Funktioniert dies, basteln Sie eine Funktion darum.
⇒ Erweitern Sie ihre Funktionen um nützliche Zusatzfunktionen. Funktioniert eine Funktion, erweitern Sie diese über die Hinzunahme von Variablen, die Ihnen quasi bibliotheksartig erlauben, nicht nur ein Problem, sondern ähnliche Probleme mit derselben Funktion zu bearbeiten. Basteln Sie
sich möglichst viele Funktionen, weil dies die Flexibilität und Übersichtlichkeit erhöht und viel Arbeit erspart, z.B. bei Änderungen von langen
Skripten.
⇒ Lagern Sie Funktionen in einer eigenen Datei aus, die nur Funktionen enthält – eine Skriptsammlung. Sind alle nützlichen Funktionen in einer eigenen Datei enthalten, können sie von verschiedenen Skripten aufgerufen
und genutzt werden.
4.4. WEITERFÜHRENDE LINKS UND LITERATUR ZU R
⇒ Denken Sie immer dran – R ist eine objektorientierte Programmiersprache.
Alles ist ein Objekt, was ausgegeben wird. Das erlaubt ein sehr elegantes Arbeiten, sichert Ergegbnisse und diese können sofort weiterverarbeitet
werden. Häufig geschieht dies sogar in einem Einzeiler.
⇒ Arbeiten Sie vektorwertig (Ligges, 2009, Kap. 5). Vektorwertiges Arbeiten
führt zu einer Beschleunigung der Rechenleistung. Zusätzlich macht es den
Code elegant und leicht lesbar. Beginnen Sie jedoch mit Schleifen, um den
Überblick zu behalten. Der Nachteil von Schleifen ist jedoch, dass bei komplizierten Berechnungen diese deutlich bremsen (ebd.). Nehmen Sie sich
aber vor, Schleifen später durch vektorwertiges Arbeiten zu ersetzen. Vergleichen Sie beide Lösungen, um sicher zu sein, dass Schleifenprogrammierung und vektorwertiges Arbeiten zu identischen Ergebnissen führt.
Klappt dies, gehen Sie direkt zu vektorwertigem Arbeiten über und vergessen die Schleifen. Haben Sie einmal die grundsätzliche Struktur vektorwertigen Arbeitens verstanden, können Sie dies überall anwenden. Diese
Struktur ändert sich nicht mehr.
4.4
Weiterführende Links und Literatur zu R
Heutzutage liegt eine riesige Auswahl an Literatur zu R bereit. Nutzen Sie hierfür die Website von R. Dort ist auch die hauseigene Zeitschrift, das R-Journal, ein
Wiki, die FAQs und weitere Dokumentationen zu finden. Die R-Pakete sind nach
Namen geordnet. Für bestimmte Fachgebiete gibt es Sammlungen für diejenigen
R-Pakete, die hier etwas beitragen können. Eine weitere Seite zum Suchen ist die
von Jonathan Baron.
Im deutschsprachigen Bereich ist Ligges (2009) eine hervorragendes Nachschlagewerk. Aus didaktischen Gründen ist es für Einsteiger aber nicht immer
einfach zu lesen und für Profis an manchen Stelle zu wenig ausführlich und tiefgehend. Dalgaard (2002) eignet sich für den Einstieg, Fox (2002) für den Umgang mit linearen Modellen. Für hierarchisch lineare Modelle sind Pinheiro und
Bates (2009) exzellent. Graphische Analysen können bei Murrell (2005) gelernt
werden. Handl (2002) zur multivariaten Analyse mit R sowie seine Skriptsammlungen bieten einen sehr guten Einstieg für die Bereiche, die für qualitative Analysen interessant sind.
Viele R-Pakete bringen Vignetten mit. Eine Übersicht ist mit vignette() bzw.
browseVignettes() möglich. In diesen wird Beispielcode verarbeitet, die sich
sehr gut als Lernmaterial im Sinne der worked-out examples eignen. Ein freies R-Einführungsbuch gibt es auf Wikibooks. Ein sehr umfangreiche Sammlung
von inspirierenden Skripten bietet Zoonekynd (2007). Die R-Seiten bieten weitere Bücher für verschiedene Anwendungen.
39
40
KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7
Anmerkungen
3 In Zukunft ist geplant, dass R im Hintergrund aufgerufen wird und Anwender sich darum
nicht kümmern müssen. Dann wird eine Logdatei erstellt, so dass etwaige Fehlermeldungen
nachgelesen werden können und überprüft, ob das Skript sauber durchgelaufen ist.
Kapitel 5
Diverses
5.1
Ergebnisse sichern
Ergebnisse landen alle im Verzeichnis /res ausgehend vom AQUAD 7 Hauptverzeichnis. Sie können von dort herauskopiert werden. Die R-Skripte
schreiben automatisch alle relevanten Ergebnisse
in tabellarischer Form im .csv Format bzw. Plots
Abb. 5.1. Ausgabedateien
Verteilungsdeim .emf Format. Ergebnisse, die sich von ihrer
skription
Struktur her nicht in tabellarischer Form ausgeben lassen, werden als einfache Textdateien .txt
geschrieben. Wenn ein anderes Format gewünscht wird (z.B. .tab statt .csv), kann
dies teilweise über die Experteneinstellungen gesteuert werden. Anhang B gibt
hierzu einen tabellarischen Überlick über alle Experteneinstellungen. Pro Verfahren werden diese Einstellungen in Teil III erläutert.
5.1.1
Output und Logdatei
Solange AQUAD 7 den R-GUI aufruft und nicht
im Hintergrund mit R CMD BATCH arbeitet,
kann der Output direkt aus dem R-GUI auch
in eine Textdatei als Logdatei geschrieben werden. Wenn AQUAD 7 standardmäßig mit R CMD
BATCH arbeitet, wird im Hintergrund R lauAbb. 5.2. Ausgabedateien Korrelation
fen und es werden Logdateien standardmäßig als
Textdateien geschrieben.
Die R-Skripte geben Dateien (s. Abb. 5.1 bzw. Abb. 5.2), Tabellen (s. Kap. 5.1.2)
sowie Graphiken (s. Kap. 5.1.3) aus.
42
KAPITEL 5. DIVERSES
Abb. 5.3.
Abb. 5.4.
5.1.2
Ausgabe ; (csv) Tabelle Verteilungsdeskription
Ausgabe \t (tab) Tabelle Verteilungsdeskription
Tabellen
Tabellen sind das bevorzugte Ausgabeformat – entweder csv (; comma separated values, s. Abb. 5.3) oder tab (\t tabulator-getrennt, s. Abb. 5.4). Dies kann je in
den Einstellungen verändert werden. Die Standardeinstellung ist immer .csv. Die
Dateien erhalten die entsprechende Dateiendung angehangen. All diese Dateien
(entweder .csv oder .tab) können mit einem beliebigen Tabellenkalkulationsprogramm oder direkt im R geöffnet und auch geschrieben werden. Im R sind die
entsprechenden Aufrufe read.table bzw. write.table.
5.1.3
Graphiken und Graphikformate
Als Standardausgabeformat wurde .emf gewählt. Dieses Format unterstützt jedoch keine Transparenz, was manche R-Bibliotheken jedoch beim Output unterstützen. Deshalb können vereinzelt Fehlermeldungen oder Warnungen erscheinen. Dies können ignoriert werden. Ansonsten eignet das Format als guter Kompromiss, um Grafiken direkt und gut skalierbar in Präsentationen oder Dokumente zu integrieren. Eine Alternativ wäre .pdf, was jedoch je nach Software
und Versionsnummer nur schwierig oder gar nicht nutzbar ist (Ausnahmen: z.B.
LATEX 2ε , Adobe InDesign, neueste Word-Versionen, etc.). Die Aufrufe für .pdf sind
nicht identisch zu dem Aufruf von .emf in R, d.h. es wird ein anderer Befehl
verwendet und nicht nur ein anderer Parameter in deselben Funktion gesetzt.
Derzeit wird nur .emf unterstützt, um möglichst vielen Anwendern einen vernünftigen Output zu ermöglichen. Wer eine Ausgabe als pdf benötigt, kann dies
direkt in den R-Skripten für sich ändern. Der Aufruf für .pdf lautet pdf. Die Hilfeseite zu pdf ist bzgl. der Skalierungsparameter heranzuziehen. Häufig sind die
5.2. BIBLIOTHEKEN
43
Parameterbezeichnung im R bei ähnlichen Aufrufen identisch oder sehr ähnlich,
so dass durch suchen & ersetzen (copy & paste) relativ zügig und mit nur geringem Aufwand Änderungen problemlos durchführbar sind.
5.1.4
R-Session
Am Endes jedes R-Skriptes wird die R-Session mit
allen zu dem Zeitpunkt verfügbaren Objekten abgespeichert (s. Abb. 5.5). Diese Image-Datei mit
Endung .RData kann direkt geöffnet werden, so
dass der R-GUI sich öffnet. Ab hier kann die Session untersucht, weitergeführt, etc. werden. Alle Objekte sind enthalten, die zum Speicherzeitpunkt vorhanden waren. Geben Sie hier ls() ein,
um diese Objekte angezeigt zu bekommen. Damit
ist eine vollständige Reproduktion jeder Session
und jedes Ergebnisses immer möglich. Ergebnisse
im R sind so vollständig transparent.
Abb. 5.5.
5.2
R Image gespeicherte Objekte im
Speicher
Bibliotheken
Als Standard ist ein gewisser Umfang an RPaketen bereits aktiv. Alle weiteren Pakete (Bibliotheken) müssen extra geladen bzw. installiert
werden, um sie nutzen zu können. Die vorliegenden R-Skripte überprüfen (s. Abb. 5.6), ob die
skriptrelevanten Pakete installierte sind. Fehlen
sie, wird versucht, diese automatisch Bibliotheken zu installieren (s. Abb. 5.7). Hierfür ist eine funktionsfähige Internetverbindung notwendig und eine (Personal) Firewall entsprechend zu
konfigurieren. Wenn R nicht als Administrator
ausgeführt wird, bietet Ihnen R an, die Bibliotheken unter Ihrem Benutzernamen zu speichern
(s. Abb. 5.8). Ansonsten können sie nicht instal- Abb. 5.6. erfolgreiche Prüfung installierte
Bibliotheken
liert werden (s. Abb. 5.9). Wird eine Bibliothek installiert, fragt R nach, von welchem Mirror die Dateien geladen werden sollen (s. Abb. 5.10). Folgend werden die fehlenden Pakete
installiert (s. Abb. 5.11).
44
KAPITEL 5. DIVERSES
Abb. 5.7.
Abb. 5.8.
Abb. 5.10.
automatische Prüfung und Installation von Bibliotheken
Abfrage Installation Bibliotheken unter Nutzeraccount
Auswahl Mirror
Abb. 5.9.
Fehlermeldung Installation
fehlende Bibliothek
Möchten Sie das nicht, müssen Sie zumindest
einmal R als Administrator aufrufen (s. Abb. 5.12)
und dann das jeweilige Skript durchlaufen lassen – etwa wenn verschiedene Personen an einem Computer mit getrennten Accounts arbeiten
und alle auf dieselben R Bibliotheken zurückgreifen sollen. Hierzu starten Sie R als Administrator und wechseln in das AQUAD 7 Verzeichnis
(s. Abb. 5.13) und dort in /skripte (s. Abb. 5.14).
Ansonsten kann R die Skripte nicht finden, da
immer relative Pfade ausgehend vom AQUAD 7
Hauptverzeichnis gewählt werden.
Nach einmaliger Installation sind die Bibliotheken immer verfügbar. Werden Sie als Administrator installiert, sind sie für alle verfügbar, sonst
ist es nutzergebunden. Prinzipiell können Sie Bibliotheken auch direkt herunterladen und als .zip
Datei im R-GUI manuell einspielen.
5.2. BIBLIOTHEKEN
45
Abb. 5.11.
Installation Bibliotheken
Abb. 5.13.
Abb. 5.12.
R als Admin ausführen
Verzeichniswechsel im RGUI
46
KAPITEL 5. DIVERSES
Abb. 5.14.
Verzeichniswechsel nach /scripts
Kapitel 6
R-Skripte
6.1
Normalmodus und Expertenmodus
Abb. 6.1.
Auswahl
DefaultEinstellungen
Abb. 6.2.
Auswahl ExpertenEinstellungen
Alle R-Skripte laufen mit Standardeinstellungen. Das heißt, es werden nur
wenige Abfragen gestellt, um die Skripte laufen lassen zu können. Im DefaultModus ist dies meist nur die Auswahl der Datei, die als Basis der Analyse genommen wird. Weitere auszuwählende Parameter sind etwa Dateinamen für
Input und Output. So können Ergebnisse zügig erzielt werden. Im Normalmodus können Parameter geändert werden, ohne das jeweilige R-Skript bzw. gewählte Verfahren tiefgreifend zu verstehen. Für den Expertenmodus sind detaillierte Kenntnisse erforderlich, um Anpassungen inhaltlich sinnvoll durchführen
zu können. Grundsätzlich sollten die Verfahren nur angewandt werden, wenn
deren Prinzip verstanden wird. Beim Aufruf von jedem Skript kann zwischen
Normal- und Expertenmodus gewählt werden (s. Abb. 6.1 bzw. Abb. 6.2)
Pro Verfahren (d.h. Skript) können als ein paar mehr Einstellungen in einem
Expertenmodus verändert werden. Hierzu werden weitere Parameter der zum
Verfahren zugehörigen Parameterdatei angezeigt und können verändert werden.
Ein Reset Knopf stellt auf Wunsch alle Standardeinstellungen wieder her. Dies ist
im Normalmodus wie im Expertenmodus möglich. Sonst merkt sich AQUAD 7
die gewählten Einstellungen für den nächsten Durchlauf. Anhang B listet tabellarisch noch ein paar mehr Einstellungen als es der Expertenmodus ermöglicht.
48
KAPITEL 6. R-SKRIPTE
Diese Einstellungen sollten nur geändert werden, wenn das Verfahren (z.B. bayesclust, s. Kap. 9.1.2) wirklich verstanden wird, da ab diesem Zeitpunkt Originalparameter der R-Funktionen geändert werden (z.B. auch bei der Implikantenanalyse, s. Kap. 11). AQUAD 7 reicht diese Änderungen direkt an die originalen
R-Funktionen weiter. Änderungen können auch direkt in den Parameterdateien
durchgeführt werden, die AQUAD 7 einliest. Es handelt es sich um reine Textdateien, die auch als csv-Tabelle einlesbar sind. Ebenso ist es möglich, die R-Skripte
selbst zu ändern. Machen Sie dann eine Kopie davon, benennen diese entsprechend um und arbeiten mit der Kopie, sonst funktioniert möglicherweise die
Funktion aus AQUAD 7 heraus nicht mehr ordnungsgemäß.
Die Default-Parameterdateien liegen in /scripts ausgehend vom AQUAD 7
Hauptverzeichnis und haben alle das Muster D_*.aqd. Funktioniert eine Parameterdatei nicht mehr, kann sie entsprechend durch diese Default-Datei ersetzt
werden. Änderungen an dieser Datei gehen dann verloren und es ist das Kürzel
D_ zu Beginn des Dateinamens zu entfernen.
6.1.1
Veränderung der R-Skripte
Es wird empfohlen, die R-Skripte so zu lassen wie sie sind und für eigene Zwecke
eine Kopie zu erstellen. Wenn das Verzeichnis gewechselt wird, müssen die relativen Pfade im Skript angepasst werden. Die R-Skripte sollten mit einem Editor bearbeitet werden, der auf R angepasst ist (s.u.). Bitte beachten Sie – AQUAD 7 läuft
derzeit nur unter Windows und nicht nativ unter Linux oder Mac. Da AQUAD 7
in Delphi geschrieben ist und es bis dato keinen ordentlichen Delphi Compiler für Linux gibt, wird es in nächster Zukunft keine native Linuxversion von
AQUAD 7 geben. R läuft jedoch auf allen drei Plattformen.
Speichern Sie Ihre Skripte immer ab. Beginnen Sie zunächst zeilenweise, um
mit minimalen Veränderungen das zu realisieren, was Sie sich vornehmen. Funktioniert dies, basteln Sie eine Funktion darum. Funktioniert diese auch, erweitern
Sie diese über die Hinzunahme von Variablen, die Ihnen quasi bibliotheksartig erlauben, nicht nur ein Problem, sondern ähnliche Probleme mit derselben
Funktion zu bearbeiten. AQUAD 7 Funktionen liegen alle in aquad_func.r und
werden zu Beginn jedes Skriptes eingelesen. Erstellen Sie sich eine eigene Skriptsammlungsdatei, die mit source eingelesen wird. Dann können Sie Ihre Funktionen in jedem Skript verwenden. Basteln Sie möglichst viele Funktionen, weil
dies sowohl den Code übersichtlich hält, viel Arbeit erspart (insb. Änderungen
bei langen Skripten) und Funktionen in eine zentrale und offen zugängliche Datei ausgelagert werden können. Das erleichtert das Arbeiten.
Denken Sie immer dran, dass R eine objektorientierte Programmiersprache
ist. Arbeiten Sie außerdem vektorwertig. Vektorwertiges Arbeiten führt zu einer
Beschleunigung der Rechenleistung, weil die R-Kommandos hierfür optimiert
6.1. NORMALMODUS UND EXPERTENMODUS
sind. Zusätzlich macht es den Code elegant und leicht lesbar. Für den Anfang ist
es aber häufig einfacher, Schleifen zu programmieren statt vektorwertig zu arbeiten. Nehmen Sie sich aber vor, Schleifen später durch vektorwertiges Arbeiten zu
ersetzen. Klappt dies, gehen Sie direkt zu vektorwertigem Arbeiten über.
6.1.2
Arbeit mir R unabhängig von AQUAD 7
Wie mehrfach erwähnt, lohnt es sich, R zu lernen, um sehr speziell und an die
eigenen Forschungsbedürfnisse angepasste Skripte und Analysen anfertigen zu
können. Hierzu eignet es sich als ersten Einstieg, die vorliegenden Skript zu nehmen und zu modifizieren. Später können eigene Skripte geschrieben werden.
Hilfreich ist es, die Pfade unverändert zu lassen, da dann auch alle Daten gefunden und richtig geschrieben werden. Die R-Skripte für AQUAD 7 arbeiten
grundsätzlich mit relativen Pfaden.
Wenn keine Vorkenntnisse zu R oder einer ähnliche Programmiersprache
vorliegen, sollten die in Kap. 4.3 vorgestellten Lernskripte zunächst abgearbeitet
werden. Dann liegt einer erstes Verständnis für R bereit, auf dem weiter durch
Modifikation, eigene Skripte und Literaturstudium aufgebaut werden kann.
R ist eine kommandozeilenorientiere Interpretersprache. Im R-GUI haben Sie
immer nur eine Zeile zur Verfügung, um Befehle einzugeben. Das ist zur Erstellung eigener Skripte nicht nur umständlich, sondern hochgradig ineffizient.
Installieren Sie sich deshalb einen Editor, der direkt Befehle an R schicken kann.
Unter Windows bieten sich die freien Editoren Tinn-R oder auch Notepad++ und
dessen Erweiterung NppToR an. Tinn-R kann nach der Installation mit Tastenkombinationen (hotkeys) belegt werden, die festlegen, wie die Kommunikation
mit dem R-GUI funktioniert. Diese Tastenkombinationen sind zusätzlich zu aktivieren. Es gibt in dem entsprechenden Auswahlfenster hierzu einen kleinen
Punkt ganz unten, der die Tastenkombinationen aktiviert. Der Weg zum R-GUI
Executable muss wie bei AQUAD 7 angegeben werden.
In Tinn-R können Sie Ihr Skript abspeichern, direkt die Befehle an R senden
und so sehr leicht auch Fehler eingrenzen. Tinn-R hat den Vorteil, die gängigsten
R-Befehle und ihren korrekten Syntax zu kennen, so dass Sie Ihren Code leichter
pflegen können. Lesen Sie hierzu das Manual zu Tinn-R.
49
Teil III
Statistik und Logik
Kapitel 7
Vorbemerkungen
Starten Sie die R-Skripte über den Menüpunkt RStatistik (s. Abb. 7.1). Hier gibt es für die Bereiche deskriptive Statistik, Klassifikation und Gruppierung, Inferenzstatistik sowie Implikantenanalyse je
getrennte Menübereiche bzw. Menüpunkte.
Abb. 7.1.
Menü R-Statistik
Kapitel 8
Deskriptive Statistik
Das Untermenü deskriptive Statistik befindet sich
im Menü R-Statistik (s. Abb. 8.1). Die deskriptive
Statistik wird in die Bereiche Verteilungsdeskription, explorative Datenanalyse mit Plots, Worthäufigkeiten und Korrelation unterteilt.
Abb. 8.1.
8.1
Verteilungsdeskriptionen
Untermenü Deskriptive Statistik
Der Menüpunkt Verteilungsdeskription findet sich
im Untermenü Deskriptive Statistik (s. Abb. 8.2).
8.1.1
Sinn und Zweck
Datenanalysen sind grundsätzlich Reduktionsversuche an Datensätzen, um diese durch wenige,
idealerweise minimale, Regeln möglichst umfassend zu beschreiben. Praktisch ist eine exakte Beschreibung nie möglich, deshalb gibt es verschiedene miteinander konkurrierende Datenanalyseverfahren. Deskriptive Analysen sind statistische Abb. 8.2. Menüpunkt Verteilungsdeskription
Verfahren, die Datensätze lediglich beschreiben, ohne hierbei zufallskritisch abgesicherte Schlussfolgerungen daraus zu ziehen.
Deskriptive Analysen sind deshalb hypothesengenerierend bzw. im Rahmen inferenzstatistischer Verfahren eine Art Vorsortierung der Daten. Es gelten damit
dieselben Bedingungen wie bei der EDA (s.u., Kap. 8.2). Deskriptive Analysen
sind das quantitative Äquivalent zu den graphischen Outputs der EDA. Kombiniert beschreiben beide einen Datensatz so umfassend und erschöpfend, wie
dies eine Beschreibung eben leisten kann.
56
KAPITEL 8. DESKRIPTIVE STATISTIK
8.1.2
Theorie
Eine direkte und umfassende Theorie zur Beschreibung von Daten gibt es nicht,
sondern lediglich die Annahmen, dass bestimmte und teilweise miteinander
konkurrierende Kennwerte einen Datensatz beschreiben können. Eine solche Beschreibung ist zwar reduziert, kann aber trotzdem sehr effizient sein. Beschreibungen sind immer fehlerbehaftet, weswegen ein einziger Kennwert nicht ausreicht, um eine Verteilung bestehend aus vielen Datenpunkten angemessen zu
beschreiben. Beispielsweise kann das arithmetische Mittel manchmal sehr gut
eine zentrale Tendenz (Erwartungswert) beschreiben. Ebenso ist es aber denkbar, dass verschiedene extreme Ausreisser das arithmetische Mittel so verzerren,
dass ein anderes robusteres Maß (z.B. Median) den Datensatz besser hinsichtlich der zentralen Tendenz erfassen kann. Robustere Kennwerte werden häufig
jedoch mit einer Reduktion des Skalen- bzw. Datenniveaus erkauft (z.B. Rangniveau statt Intervallniveau im Falle des Median), so dass nachfolgende Analysen zwangsläufig unschärfere Ergebnisse liefern. Skalenniveaureduzierte Verfahren nutzen nicht alle Informationen in den Daten. Merke: Je höher das Skalenund Analyseniveau, desto weniger robust ist es. Es ist umso exakter und aussagekräftiger, je besser die Robustheit nicht verletzt oder Verletzungen derselben abgefangen werden können. Dies kann durch Zusatzannahmen (z.B. exakte
Verteilungsform), Elimination von Ausreissern (ergibt jedoch andere Probleme),
Datentransformation (z.B. logarithmisieren) oder andere Verfahren erreicht werden. Die Konsequenzen dieser Transformationen sind bei späteren Interpretationen zu berücksichtigen. Im Allgemeinen geht es darum, die Daten möglichst gut
an eine bekannte theoretische Verteilung (z.B. Normalverteilung) anzupassen,
so dass diese als Referenz dient und diese folgend den Einsatz zufallskritischer
Verfahren legitimiert.
Aufgrund der Unterscheidung zwischen empirischer Stichprobe und theoretischer Population in der klassischen Statistik wird auch von Schätzwerten gesprochen. Das heißt, dass die statistischen deskriptiven Werte eine Verteilung
und ihre theoretischen Kennwerte schätzen, da die wahren Werte nicht bekannt
sind. Zur besseren Unterscheidung werden häufig die empirischen Werte mit lateinischen Buchstaben und die theoretischen mit griechischen belegt. Für die Kennwerte gibt es mathematische Nachweise, dass und warum bzw. unter welchen
Bedingungen sie der beste Schätzer für die jeweiligen theoretischen Populationswerte sind. Gütekriterien sind hier Erwartungstreue, Effizienz, Konsistenz
und Suffizienz. Im Rahmen der klassischen Statistik wird das Gesetz der großen
Zahl (zentraler Grenzwertsatz) angenommen. Das bedeutet, dass bei endlicher
Varianz die Summe der Zufallsvariablen annähernd normalverteilt ist. Entsprechend lassen sich die Eigenschaften der Normalverteilung nutzen und a priori
vorausgesetzen.
8.1. VERTEILUNGSDESKRIPTIONEN
Erwartungstreue der Schätzer von Stichprobenkennwerte von unabhängigen
Zufallsvariablen ist dann gegeben, wenn diese mit wachsender Stichprobengröße im Mittel gegen ihren Populationswert konvergieren. Der Fehler wird damit
beliebig klein und in der Unendlichkeit Null. Pro Stichprobe können jedoch immer und auch extreme Ausreisser vorkommen. Das Gesetz der großen Zahl gilt
bezogen auf sehr große Stichproben, nicht jedoch pro Stichprobe und bestimmt
nicht bezogen auf eine bestimmte Abfolge von Stichprobenerhebungen.
Deskriptive Verfahren können grob in
⇒ allgemeine Beschreibungen des Datensatzes
– Anzahl der Fälle
– Anzahl der fehlenden Werte
– etc.
⇒ Momente einer Verteilung
– Werte der zentralen Tendenz (z.B. arithmetisches Mittel, Median, etc.)
– Streuungsmaße (z.B. Streuung, Varianz)
– Schiefe
– Exzess (Kurtosis oder Wölbung)
⇒ kombinierte Maße
– Interquartil Spannweite
– Standardfehler des Mittelwertes
– etc.
unterschieden werden. Dies spiegelt strukturell die Grundfrage jeglicher Statistik – das Behrens-Fisher Problem (Bretthorst, 1993), dass die Frage von gleichen
und ungleichen Erwartungswerten bzw. Streuungen zwischen Stichproben aufwirft. Deskriptive Maße liefern hierzu Grundlagenwerte, ohne Schlussfolgerungen statistisch nahezulegen. Kombinierte Maße geben spezielle Einblicke über
spezifische Abschnitte und Bereiche in der Verteilung, behalten aber das Grundthema – zentrale Tendenz und Streuung – bei.
Deskriptive Verfahren werden manchmal fast abwertend als Vorstufe zu den
“richtigen” – d.h. inferenzstatischen – Verfahren verstanden. Das ist falsch. Deskriptionen von Daten haben einen Eigenwert, obwohl sie zwar in der logischen
Abfolge zumeist vor der Inferenzstatistik durchgeführt werden und von ihrer
Natur her hypothesengenerierend sind.
57
58
KAPITEL 8. DESKRIPTIVE STATISTIK
Die jeweiligen Kennwerte lassen sich nach fixen Formeln berechnen. Sie alle versuchen, die Verteilung eines Datensatz nach bestimmten gewichteten Faktoren zu erfassen. Die Basis dieser Kennwerte sind in der klassischen Statistik
Häufigkeiten (Zählungen). Diese hat deshalb den Namen frequentistische Statistik und steht im Gegensatz zur bayesischen Statistik (Jaynes, 2003), bei der es um
Wahrscheinlichkeiten geht.
Die zentralen Momente einer Verteilung lassen sich wie folgt aus einer allgemein
Formel herleiten. Gegeben ist eine Zufallsvariable X und deren Erwartungswert
µ = E( X ), um den herum sich die Daten verteilen:
µk = E(( X − µ)k )
Wird für k nun 1, 2, 3, und 4 eingesetzt, so ergeben sich die Werte Null, Varianz, Schiefe und Exzess. Aus obiger Formel lassen sich weitere Ableitungen
machen, die hier nicht von weiterem praktischen Nutzen sind.
Wie auch bei der EDA bemerkt (s. Kap. 8.2) kann eine gut durchgeführte
deskriptive Analyse von Daten und den darin enthaltenen Subgruppen eine zufallskritische Testung von Kennwerten quasi vorwegnehmen bzw. fast schon ersetzen. Solange Modelle einfach gehalten sind und nicht zuviele Variablen eingehen, ist dies ohne weiteres möglich.
Effektstärkemaße, die technisch betrachtet zumeist standardisierte Mittelwertsdifferenzen, Varianzunterschiede oder Korrelationen sind, sind ebenfalls deskriptive Werte. Ohne sie ist eine isolierte zufallskritische Absicherung quasi
wertlos. Deskriptive Analysen sind also ungemein wichtig und wertvoll.
Abb. 8.3.
Auswahl Datendatei
8.1. VERTEILUNGSDESKRIPTIONEN
8.1.3
59
Datenbasis
Die Datenbasis ist eine Häufigkeitstabelle (s. Abb. 8.3). Ausgewertet wird nach
den Spalten. Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu
transponieren.
8.1.4
R-Skript und Einstellungen
Das R-Skript liest die Häufigkeitstabelle ein
und berechnet die deskriptiven Statistiken und
schreibt diese in eine Tabelle. Die Experteneinstellungen zeigt Abb. 8.4. Die Berechnung sämtlicher
Kennwerte wird über eine einzelne Funktion realisiert, die auch anderweitig nutzbar ist
:
Abb. 8.4.
Experteneinstellungen
lungsdeskription
⇒ allgemeine Werte: Anzahl Beobachtungen, Anzahl fehlender Werte, Anzahl Beobachtungen ohne fehlende Werte, Summe, Minimum, Maximum,
Spannweite
⇒ Momente einer Verteilung: arithmetisches Mittel, geometrisches Mittel,
harmonisches Mittel, Median, Varianz, Standardabweichung, Schiefe, Wölbung (Exzess oder Kurtosis)
⇒ kombinierte Maße: Variationskoeffizient, Median absolute Abweichung,
mittlere Abweichung, 1. Quantil, 3. Quantil, Interquartil Spannweite, Standardfehler des Mittelwertes, unteres Konfidenzintervall Mittelwert, oberes
Konfidenzintervall Mittelwert
8.1.5
Ausgaben
Eine typische Ausgabe eines R-Skriptes zeigt Abb. 8.5. Abb. 8.6 wiederum gibt
Einblick in die Ergebnisausgabe im Rahmen eines R-Skriptes.
Es werden die folgenden Dateien ausgegeben (s. Tab. 8.1). Die Dateinamen
orientieren sich an den Übergaben im Skript.
8.1.6
Ergebnisse und Interpretation
Deskriptive Statistiken laden dazu ein, Interpretationen kreativ zu erfinden und Hypothesen zu formulieren. Im Kontext qualitativer Forschung, die nicht auf eine inferenzstatistische Absicherung angewiesen ist, bedeutet dies, mit den aufgestellten
Hypothesen zurück zu den Originaldaten zu gehen. Anhand der Originaldaten
Vertei-
60
KAPITEL 8. DESKRIPTIVE STATISTIK
Abb. 8.5.
Ausgabe R-Skript Verteilungsdeskription
Abb. 8.6.
Ausgabe deskriptive Statistiken
Inhalt
Dateityp
R Session
Binärfile des R
alle deskriptiven Kennwerte
Text
alle deskriptiven Kennwerte
Tabelle
Tab. 8.1:
Dateiendung
.RData
.txt
.csv oder .tab
Ausgabedateien Verteilungsdeskription
können und sollen Hypothesen qualitativ untersucht werden. Es geht um das
Auffinden von Sinn und von plausiblen Zusammenhängen.
Die Hypothesengenerierung sollte immer verschriftlicht und als Notiz vermerkt (Variable, Datensatz, Analyseform, etc.) werden. Lesen Sie hierzu auch
den Abschnitt zu Memos (AQUAD 7 Manual, Huber und Gürtler, 2012 Kap 10).
8.1. VERTEILUNGSDESKRIPTIONEN
8.1.7
Beispieldatensatz
Der Beispieldatensatz entstammt einer Untersuchung von Gürtler (2006). Hierbei wurden n=363 Schülerinnen (n=142) und Schüler (n=221) aus Realschule (n=317) und Gymnasium (n=46) zu ihren Erfahrungen mit Humor im Unterricht befragt. Das Alter lag zwischen 14–25 Jahren (x¯ = 16.18, s = 0.49). Es
kamen Fragebögen mit offenen Fragen zum Einsatz. Die Themen deckten die
Bereiche Definition, Grenzen, Erwartungen, Ablauf bzw. Prozess, Initiierung, negative Erfahrungen, Meinung zur Quantität, verändern wollen bzw. würden sowie Folgen ohne Humor ab. Die Fragebögen wurden u.a. in AQUAD 6 kodiert
und die Kategorien tabellarisch aufgearbeitet. Die deskriptive Beschreibung der
Kategorien erlaubt die Formulierung von wenigen relativ groben Hypothesen:
⇒ Die größte Varianz lässt sich etwa bei der Initiierung von Humor beobachten,
die geringste bei den Möglichkeiten zur Veränderung.
⇒ Auch ist die Variation der Definition von Humor hoch, während negative Erfahrungen, Grenzen und Erwartungen deutlich varationsärmer ausgeprägt
sind.
⇒ Die Werte für die Spannweite unterstützen dies, gehen aber ja auch in die
Berechnung der Varianz ein.
⇒ Die Initiierung von Humor hat die größte Summe, während dann jedoch die
Grenzen, der Ablauf bzw. Prozess und die Meinung zur Quantität von Humor
folgen.
Dies ist nur ein Ausschnitt – bessere Hypothesen lassen sich in Kombination mit
der EDA (Kap. 8.2) und unter Rückgriff auf die originalen Daten aus AQUAD
ableiten. Inhaltliche Hypothesen könnten vorsichtig wie folgt formuliert werden:
⇒ Humor bzw. humoristische Episoden beginnen auf ganz verschiedene Wege. Aber wenn etwas bereits läuft, gibt es aus subjektiver Sicht deutlich weniger Möglichkeiten der Veränderung und damit der Einflussnahme. Unklar ist, ob eine Veränderung im schulischen Kontext überhaupt versucht
wird.
⇒ Was Humor ist, wird sehr unterschiedlich verstanden. Anders bei negativen Erfahrungen, Grenzen und Erwartungen – hier scheinen sich die Meinungen stärker zu ähneln oder zumindest stark zu überschneiden. Damit
sind die Grenzen des Humors in Form einer negativen Definition klarer zu
fassen als die Frage, was Humor eigentlich ist (positive Definition).
61
62
KAPITEL 8. DESKRIPTIVE STATISTIK
⇒ Die Initiierung von Humor wird umfangreich behandelt, ebenso die Grenzen, der Ablauf bzw. Prozess und die Meinung zur Quantität. Negative Erfahrungen und die Frage der Veränderung werden in geringerem Umfang
beantwortet.
⇒ etc.
Diese ersten Hypothesen sind weiter zu spezifizieren hinsichtlich ihrer Bedeutung für den schulischen Alltag, der Ausbildung von Lehrenden, notwendigen
Veränderungen im Unterricht, etc.
8.2
Explorative Datenanalyse mit Plots
Der Menüpunkt Plots zur Durchführung einer explorativen Datenanalyse anhand von Graphiken findet
sich im Untermenü Deskriptive Statistik (s. Abb. 8.7).
Abb. 8.7.
Menüpunkt Explorative Datenanalyse mit Plots
8.2.1
Sinn und Zweck
Die explorative Datenanalyse geht auf Tukey (1977) zurück und hat zum Ziel,
durch verschiedenste visuelle Darstellungen von Daten in Form von Plots einen
Eindruck über die internen Zusammenhänge zu erhalten. Das ist umso wichtiger, je weniger über ein Untersuchungsgebiet und die entsprechenden Daten
bekannt ist. EDA-Techniken werden auch im Data-Mining verwendet. Im Gegensatz zum statistischen Hypothesentesten lädt die EDA dazu ein, Hypothesen
überhaupt zu generieren. Forschungslogisch sollten an einem Datensatz generierte Hypothesen jedoch nicht am selben Datensatz statistisch getestet werden, um
dann Schlussfolgerungen abzuleiten. Dafür ist ein vergleichbarer Datensatz zu
nehmen. Inferenzstatistisch kann natürlich sehr wohl am selben Datensatz getestet werden. Nur dürfen die Ergebnisse nicht in Form wissenschaftlicher Schlussfolgerungen gemäß der Inferenzstatistik Verwendung finden.
Als Faustregel sollte jedoch gelten, dass bei überschaubaren Datensätzen eine statistische Analyse nicht viel mehr zeigen sollte als ohnehin bereits aus den
Plots abgeleitet werden kann – vorausgesetzt die Hypothesen werden nicht erst
durch die EDA generiert, sondern liegen vorab bereits vor. Das heißt, dass die
EDA im Groben die Ergebnisse der zufallskritischen statistischen Testung vorwegnehmen sollte. Dies gelingt nicht immer, ist aber anzustreben und auszuprobieren.
8.2. EXPLORATIVE DATENANALYSE MIT PLOTS
8.2.2
Theorie
Die häufigsten Plots sind der Boxplot, das Histogramm (mit Dichteschätzung),
der QQ-Plot, der Scatterplot und der Mosaikplot. Auch können Korrelationsplots, verschiedene Symbole oder kombinierte Plots den Erkenntnisgewinn vergrößern helfen. Kombinierte Plots erlauben verschiedene Visualisierungsformen
direkt nebeneinander und lassen sich mit deskriptiven Statistiken ergänzen. Im
R liegen eine riesige Fülle an Plotvarianten bereit, die je nach Fachgebiet ein sehr
gut angepasste Visualisierung von Daten ermöglichen. Wird nur im R gearbeitet,
lädt etwa rggobi zur Nutzung ein. Dies ist eine Open Source Visualisierungspaket zur Exploration mehrdimensionaler Daten. Das Paket lattice ermöglicht
gleichfalls eine exzellente und visuell sehr ansprechende Kombination verschiedener Datenquellen und Visualisierungstechniken nebeneinander auf einem einzigen Plot.
EDA-Techniken basieren alle darauf, deskriptiv die Verteilung eines Datensatz graphisch darzustellen. Hierbei ergibt sich die Möglichkeit, Subgruppen zu
bilden (z..B. unterteilt nach AQUAD 7 Sprechercodes), Ausreisser zu identifizieren oder zu eliminieren. Ebenso können bestimmte Grenzwerte gesetzt werden,
um den essentiellen Körper einer Verteilung zu betonen oder eine bestimmte
Untermenge der Daten zu selegieren (z.B. nur alle Daten zeigen, die +/-2s ausgehend vom arithmetischen Mittel abdecken).
Zur Skalierung von Plots sei an das Buch “So lügt man mit Statistik” (Krämer, 2011) erinnert. Obwohl EDA-Techniken explorativ und kreativ sind, müssen die jeweiligen Kennwerte, Spannbreiten etc. so angepasst werden, dass sie
intuitiv ein realistisches Verständnis der Daten fördern. Verzerrende Skalierungen (z.B. das Verhätlnis von X- zu Y-Achse) sind tunlichst zu unterlassen. Das
führt im Zweifel nur zu Selbst- und Fremdtäuschung und es werden Dinge gefunden, die nicht in den Daten sind. Weitere Überblicke über die EDA finden
sich bei Oldenbürger (1996).
8.2.3
Datenbasis
Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten.
Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu transponieren.
8.2.4
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 8.8. Das R-Skript gibt auf den Plots Abkürzungen aus, da Kodierungen häufig sehr lange Namen tragen können und
diese aber die Plots verunstalten würden. Die Datenpunkte, nicht die Namen stehen im Vordergrund.. Deshalb werden Tabellen für die abgekürzten Reihen- und
63
64
KAPITEL 8. DESKRIPTIVE STATISTIK
Spaltennamen ausgegeben. Pro Variable werden die folgenden Plots erstellt und
die Datei wird namenstechnisch mit dem Namen der Variablen versehen.Soweit
möglich sind die Koordinatenachsen beschriftet und die Plots sind eindeutig zuordenbar. Zur Vereinfachung wurde auf komplexe Plots auf der Basis von Gittern (Paket lattice) verzichtet, da diese häufig manuelle Anpassungen erfordern. Die verwendeten Diagramme sind Standardfunktionen im R, die aber dennoch elegant aussehen. Im R-Skript wurde der Koordinatenbereich graphisch
zur leichteren Orientierung verändert.
⇒ Scatterplot (Streudiagramm)
⇒ QQ-Plot (sample quantile- versus theoretical quantile plot) gegen die Normalverteilung
⇒ Histogramm mit Dichteschätzung und empirischen Häufigkeiten pro Balken
⇒ ECDF-Plot (empirical cumulative distribution function plot)
⇒ Boxplot mit Ausreissern
⇒ Boxplot ohne Ausreisser
⇒ alle obigen Plots auf einem einzigen zusammengefasst
Abb. 8.8.
Zum besseren Verständnis der Interpretation der Plots sind die jeweiligen Hilfeseiten der R-Funktionen heranzuziehen: plot, qqplot, hist, ecdf und boxplot.
Tabellen sollten nicht mehr als je 20 Spalten bzw. Reihen (max. 400 Zellen) beinhalten,
da Plots sonst unübersichtlich werden und
Beschriftungen nicht mehr möglich, weil unlesbar, sind. Entsprechend gibt das R-Skript
eine Warnmeldung aus, wenn dieser Wert
überschritten wurde (s. Abb. 8.9). Ebenso
wird zu Histogrammen eine Warnmeldung
ausgegeben, da die Auswahl der Daten (Zeilen) und die jeweilige Art der Bündelung sehr
Experteneinstellungen explorative Da- stark bedingt, wie das Histogramm (Balkentenanalyse
breite) aussieht (s. Abb. 8.10).
8.2.5
Ausgaben
Abb. 8.11 zeigt einen Ausschnitt der ausgegebenen Daten des Beispieldatensatzes (s. Kap. 8.2.7). Es werden die folgenden Dateien ausgegeben (s. Tab. 8.2). Die
Dateinamen orientieren sich an den Übergaben im Skript.
8.2. EXPLORATIVE DATENANALYSE MIT PLOTS
Abb. 8.9.
Warnmeldung
Überschreitung Dimensionen
Abb. 8.10.
Warnmeldung Aussehen Histogramme
Inhalt
Dateityp
R Session
Binärfile des R
Boxplot
Plot
.emf
ECDFplot
Plot
.emf
Histogramm
Plot
.emf
QQPlot
Plot
.emf
Scatterplot
Plot
.emf
several-descplots
Plot
Abkürzungen von Reihen
Tabelle
Tab. 8.2:
8.2.6
65
Dateiendung
.RData
.emf
.csv oder .tab
Ausgabedateien explorative Plots
Ergebnisse und Interpretation
Der Fokus liegt hier auf der hypothesengenerierenden Funktion von EDA-Techniken. Ergebnisse sind die Plots selbst und sollten mit den
deskriptiven Statistiken der Verteilungsdeskription (s. Kap. 8.1) kombiniert werden, um Graphiken und Zahlen miteinander zu vergleichen.
Durch den Vergleich von Gruppierungen, Ausreissern, der Hauptmasse der Daten, der Verteilungsform (Anzahl der Gipfel, Breite, Höhe, Aussehen an den Rändern, etc.) und anderen Merkmalen lassen sich Kontraste, Ähnlichkeiten und
Differenzen postulieren und explorieren. Wichtig sind die Subgruppenvergleiche. Beispielsweise können sehr leicht im R in einem gemeinsamen
Abb. 8.11.
Ausgabedateien explorative Plots
66
KAPITEL 8. DESKRIPTIVE STATISTIK
Histogramm (Balken) und in verschiedenen Farben die Dichteschätzungen von Subgruppen kontrastiert werden. Die Skala (Frequenz, Wahrscheinlichkeit) von Dichteschätzungen und Balken müssen jedoch
dieselbe sein.
Die Merkmale der Verteilungen gilt es genauer zu untersuchen. Sollte eine
inferenzstatistische Absicherung tatsächlich notwendig sein, ist diese nicht am
selben Datensatz durchzuführen, sondern an einem vergleichbaren Datensatz.
EDA-Techniken können auch im Gruppensetting untersucht und mit sequenzanalytischer Vorgehensweise (s. AQUAD 7 Manual, Huber und Gürtler, 2012,
Kap. 5) strukturell betrachtet werden. Damit gewöhnen Forschende sich an, nicht
nur auf die augenscheinlich “wichtigen” Merkmale eines Datensatzes zu schauen (z.B. Ausreisser), sondern gezielt und strukturiert alle Bereiche des Datensatzes fokussiert zu untersuchen, um Erkenntnisse und überprüfbare Hypothesen
daraus abzuleiten. Gleichzeitig erhöht dies die Qualität der Hypothesen. EDAAusgaben können also qualitativ “verarbeitet” werden, um qualitative wie quantitative Hypothesen über Zusammenhänge zu generieren und zu testen.
EDA-Techniken ermöglichen einen kreativen Umgang mit Daten, um den
qualitativen Prozess zu unterstützen. Für den Übergang zur quantitativen Inferenzstatistik sind jedoch einige Besonderheiten zu beachten wie der Wechsel zu
einem neuen Datensatz und die strikte Unterordnung der inferenzstatistischen
Perspektive unter die Forschungsfrage. Das bedeutet die Ableitung von statistischen Hypothesen, die entlang der gewählten statistischen Analysen zu beantworten sind. Ebenso sollten die Auswertungsstrategien der qualitativen Arbeit
sich nicht so mit denen des quantitativen vermischen, damit Schlussfolgerungen
je innerhalb der gewählten Forschungslogik bleiben. Vermschungen sind schriftlich zu fixieren. Bietet sich aus der Forschungslogik eine Vermischung an, ist
diese durchzuführen. Qualitative und quantitative Ergebnisse können bzw. müssen an geeigneten Zeitpunkten des Forschungsprozesses jedoch kontrastiert und
mitenander integriert werden.
8.2.7
Beispieldatensatz
Als Beispieldatensatz dient wiederum die oben bereits eingeführte Studie von
Gürtler (2006). Es handelt sich um die bereits besprochenen Fragebogendaten zu
Humor im Unterricht. Abb. 8.12 zeigt einen zusammenfassenden Plot für die Variable negative Erfahrungen mit Humor. Für die neun vorhandenen Variablen des
Datensatzes werden 63 Plots ausgegeben. Das zeigt, wie schnell sich Datenmaterial anhäufen können. Überlegen Sie es sich deshalb sehr genau, wieviele Plots
von wievielen Variablen Sie wirklich benötigen, um (noch) den Überblick zu behalten. Zu Beginn reicht es, grob die Zusammenfassung zu betrachten, d.h. den
Plot, der alle anderen in einer Graphik vereinigt. Die anderen werden standard-
8.2. EXPLORATIVE DATENANALYSE MIT PLOTS
67
Tabelle: FR_Codes_freq | Variable: neg.Erfahrungen.mit.Humor
ECDF Plot
Plot gegen Normalverteilung
50
0
100
200
300
lfd. Index
400
10
0
0
0.0
10
0.2
20
Werte
30
Kumulation
0.4
0.6
40
Stichproben Quantile
20
30
40
0.8
50
1.0
Scatterplot
0
-3
2.0
9 7 3 2 1 2 0 1 2 1 1
0.20
Dichteschätzung
0.05
0.10
0.15
0.00
0.0
370
0
Abb. 8.12.
3
Histogramm
50
Werte (ohne Ausreisser)
10
20
30
40
0
-2 -1 0
1
2
theoretische Quantile
Boxplot
Werte (ohne Ausreisser)
0.5
1.0
1.5
Boxplot
10 20 30 40 50 60
Werte
10 20 30 40 50 60
Beispieldatensatz explorative Plots
mäßig mit ausgegeben.
Zur beispielhaften Interpretation wird folgend die gewählte Variable negative
Erfahrungen mit Humor herangezogen: Es fällt auf, dass qualitative Daten häufig
nicht normalverteilt sind. Durch die strukturelle Unterschiedlichkeit, die durch
Kodierungen zutage treten können, ist dies auch nicht wirklich überraschend.
Die geringen Fallzahlen tragen auch nicht allzuviel zum Gesetz der großen Zahl
bei. Insbesondere Metacodes bilden als Kategorien auf einer abstrakteren Ebene vieles ab, was bestimmt nicht normalverteilt sein wird. Dies ist auch durch
die inhaltlich begründete Kategorienbildung im Rahmen des Kodierparadigmas
bedingt, die inhatlich gut begründet, aber sicherlich nicht nach dem Prinzip Zufallsexperiments durchgeführt wird. Dasselbe gilt für Ausreisser. Auch hier sind
68
KAPITEL 8. DESKRIPTIVE STATISTIK
häufig Extreme zu beobachten, da Einzelfällen eine ganz andere Bedeutung zukommt wie in der Statistik. In der Statistik werden Ausreisser häufig als störend
behandelt und eliminiert. In der qualitativen Forschung gilt eher das Gegenteil:
Hier kann ein Einzelfall eine neue und eigene Kategorie bilden, während dieser
in einer statistischen Analyse vielleicht einfach als Ausreisser aus dem Datenpool
geworfen werden würde.
Diese scheinbare Widersprüchlichkeit wird umso klarer, wenn überdacht
wird, dass die Kategorienbildung nicht auf statistischen Erwägungen basiert,
sondern auf der Rekonstruktion von Sinn und inhaltlichen Zusammenhängen.
Dem kommt per Definition kein Gesetz der großen Zahl zu. Vielmehr spielt die
Frage der plausiblen Strukturrekonstruktion eine tragende Rolle, wofür ein einziger Fall eben sehr aussagekräftig sein kann. Wichtig ist es sich zu erinnern,
dass die analysierten Tabellen reine Häufigkeiten beinhalten, die in sich betrachtet noch keine Struktur abbilden. Es sind – an diesem Punkt der Analyse – isoliert
nebeneinander stehende Kodierungen ohne strukturelle Verbindungen zueinander.
Interessanter wird es, wenn strukturelle Kodierungen (Sequenzcodes,
AQUAD 7 Manual, Huber und Gürtler, 2012, Kap. 8.2) als Basis von statistischen Analysen genommen werden, da hier Hypothesen bereits integraler
Bestandteil der Häufigkeiten sind. Jedoch gilt auch dann, dass diese nicht per
Definition nach dem Gesetz der großen Zahl zustandegekommen sind. Es handelt sich nicht um ein zufälliges Würfelexperiment, sondern um das Ergebnis
sorgfältiger Schlussfolgerungen auf inhaltlicher Ebene.
Konkret bedeutet dies am Datenmaterial, dass es (s. Boxplots in Abb. 8.12
und zwar mit und ohne Ausreisser) für negative Erfahrungen mit Humor sehr viele Unterkategorien (der Code hier ist ja ein Metacode) gibt, die zunächst wenig
zum Erkenntnisgewinn beitragen. Qualitativ macht es Sinn, die Ausreisser näher
zu untersuchen – genauso wie den Körper der Verteilung. So gibt es also einige
Codes, die sehr viel beitragen, jedoch zahlenmäßig eher selten anzutreffen sind,
aber dann vermutlich mit einer starken Häufigkeit vertreten sind. Sie können
trotz vieler weiterer Fälle die Verteilung nachhaltig verzerren, wenn ihre Häufigkeiten nur groß genug sind. Standardverfahren des Umgangs mit Ausreissern
verbieten sich aus den oben genannten Gründen.
Ferner fällt auf, dass die Daten oberhalb des Mittelwertes weitab von einer
Normalverteilung sind. Das ist zu erwarten, wenn die Boxplots mit den Ausreissern betrachtet werden. Dies hat Implikationen, sollte je die Idee aufkommen,
inferenzstatistisch mit den Daten weiterzuarbeiten. Voraussichtlich würden sich
dann robustere Verfahren auf Rangskalenniveau besser eigenen als diejenigen
auf Intervallskalenniveau, da deren Voraussetzungen vermutlich grob verletzt
sind. Ein unbegründete Vorabannahme “es wird schon normalverteilt sein in der
Unendlichkeit” verbietet sich, denn bei qualitativen Analysen geht es bekann-
8.2. EXPLORATIVE DATENANALYSE MIT PLOTS
termaßen nicht um unbekannte Populationen mit potentiell unendlicher Größe,
so dass das zentrale Grenzwerttheorem als Referenz gültig ist. Interessant sind
“nur” Populationen in realen Kontexten, die endlicher Natur sind.
Nichts anderes sagt auch das Histogramm aus. So gibt es n ~ 379 Fälle mit
Häufigkeiten <= 10, jedoch ein paar Fälle (Summe <= 10), bei denen die Häufigkeiten zwischen 20 und 60 liegen. Mit Fall wird eine in AQUAD 7 und erstmal unabhängig vom einzelnen Fragebogen kodierte Codesammlung bezeichnet. Diese Codesammlung wird bezogen auf den Sprechercode negative Erfahrungen ausgezählt. Das bedeutet aber, dass es sich hier nicht zwangsläufig um
Einzelpersonen handelt, sondern um Metacodes bzw. Einzelcodes. Der Ausreisser (Fall) ist somit entweder Einzelcode oder Metacode, aber keine Person. Dafür
ist der Fall bezogen auf einen Bereich im Fragebogen (Sprechercode) und darüber Personen prinzipiell zuordenbar. Im vorliegenden Fall wird aber bezogen
auf Bereiche in den Fragebögen (negative Erfahrungen) ausgezählt.
Die Ausreisser hier am Datenmaterial bilden sich also aus Metacodes bzw.
Einzelkodierungen auf mehr oder weniger abstrakter Ebene, die sich aus Kodierungen und nicht aus Personen ableiten. Diese Denkweise soll verdeutlichen, wie
wichtig es ist, sich im Klaren zu sein, wofür die Daten stehen und wofür nicht.
Ein Ausreisser kann sowohl für einen Fall (einen Code) stehen als auch für eine
Sammlung von Fällen (z.B. Metacodes) – operationalisiert über einzelne oder zusammengefasste Kodierungen. Das ist anspruchsvoll und bedarf vieler Memos,
um später bei der Verschriftlichung oder Interpretation einer Arbeit nicht den
Überblick zu verlieren. Geht es hingegen um Fälle bezogen etwa auf Personen
oder einzelne Fragebögen, Zeitpunkte, etc., so sind Tabellen entsprechend zu generieren. Dann sind Kodierungen bezogen auf ihr Vorkommen subsumiert unter
Sprechercodes auszuzählen. Sprechercodes müssen dann entsprechend im Text
eingesetzt worden sein. Der Vorteil ist, Analysen wirklich fallangemessen durchführen zu können. Der Nachteil ist eine sehr hohe Komplexität und die häufigen
Vermischungen von Kodierungen mit Metacodes.
Prinzipiell lassen sich mit Hilfe der Sprechercodes die Zuordnungen von
Codes bzw. Metacodes zu Personen oder anderen strukturellen disjunkten Einheiten (eben Sprechercodes) immer exakt nachvollziehen. Entsprechend lohnt
es sich, an dieser Stelle zurück zu den Einzelkodierungen zu gehen und deren
zahlenmäßigen Beiträge unter dem Sprechercode negative Erfahrungen näher zu
untersuchen. Ebenso sind die Extremfälle genauer inhaltlich anzuschauen. Eine
Hypothese lässt sich davon noch nicht ableiten, ausser der allgemeinen Feststellung, dass manche Kategorien bzw. Metacodes innerhalb der Fragebögen sich
sehr eng und geradezu exzessiv mit negativen Erfahrungen von Humor beschäftigen. Das dies vermutlich einen Grund hat, ist nicht schwer zu verstehen. Es
wird ja genau dieser Bereich untersucht. Unklar ist, welcher konkrete Grund
bzw. Gründe vorliegen und was diese zur Beantwortung der übergreifenden
69
70
KAPITEL 8. DESKRIPTIVE STATISTIK
Fragestellung beitragen können. Mithilfe der Originaldaten können weitere Hypothesen gefasst werden, etwa um wen es sich warum handelt und was diese
Person beitragen kann, um die subjektive Sicht von Schülerinnen und Schüler zu
Humor im Unterricht besser zu verstehen. Ebenso sollte gefragt werden, was die
Rolle derjenigen Kodierungen ist, die im Kontext negativer Erfahrungen zustandekommen, aber mit negativen Erfahrungen per se nichts zu tun haben. Auch
das ist interessant.
Für die anderen Sprechercodes und die assoziierten Kodierungen bzw. Metacodes ist entsprechend vorzugehen. Es sei erinnert, dass es sich hier um eine
kreative Hypothesengenerierung handelt und nicht um ein streng experimentelles Design. Es ist viel erlaubt, solange die Schlussfolgerungen fallangemessen
gezogen werden.
8.3
Worthäufigkeiten
Der Menüpunkt Worthäufigkeiten zur
Durchführung der Zählung von Wörtern findet sich im Untermenü Deskriptive Statistik (s. Abb. 8.13).
Abb. 8.13.
Menüpunkt Worthäufigkeiten
8.3.1
Sinn und Zweck
Worthäufigkeiten spiegeln den quantitativen Aspekt der Textanalyse. Aus Worthäufigkeiten können viele Folgeanalysen abgeleitet werden. Dazu gehören lexikalische Analysen, sprachliche Analysen (z.B. Variation, Anspruchsniveau, Art der Sprache, etc.), Verbreitungen
von Wörtern, Wortstämmen, etc. Ebenso können Hypothesen aufgestellt werden über Verhältnisse von Gruppierungen im Umgang mit Wörtern bzw. Wortsequenzen.
So gibt es in den Politikwissenschaften etwa die These (Sayre, 2001), dass
bei Präsidentschaftswahlkämpfen (z.B. in den USA) der Amtsinhaber auf die
eigenen Erfolge während der eigenen Amtszeit eingeht (“I”), wohingegen der
Herausforderer versucht, die Nation hinter sich zu bekommen und deshalb vermehrt zu “ingroup” (“we”) Formulierungen neigt. Entsprechend geht dieser auf
das “wir”, die Allgemeinheit (Nation), etc. ein. Daraus lassen sich konkrete Hypothesen für eine quantitative Textanalyse ableiten. Genauer kann dies im Beispieldatensatz zu den Worthäufigkeiten nachgelesen werden, der ersten Rededebatte zwischen Herausforderer J. Kerry und Amtsinhaber G.W. Bush4 vom
30.09.2004 in Florida.
Eine Analyse der Worthäufigkeiten kann also einiges beitragen, um Texte besser zu verstehen. Genauso ist es aber auch möglich, Texte zunächst in AQUAD 7
8.3. WORTHÄUFIGKEITEN
71
zu kodieren und anschließend ausgewählte Kodierungen oder Sequenzhypothesen, die genau vorab auszuformulierende Thesen repräsentieren, auszuzählen. Aufgrund der resultierenden Matrix können weitere Analysen folgen (z.B.
Mehrfelder-Chi2 -Test, Implikantenanalyse, etc.). In der bereits eingeführten Untersuchung von Gürtler (2006, s. Kap. 8.1.7) konnte anhand der Worthäufigkeiten (Fragebögen zu Humor im Unterricht bei RealschülerInnen und GymnasiastInnen) zufallskritisch abgesichert werden, dass Gymnasiasten (vs. Realschule)
und Mädchen (vs. Jungen) mehr schreiben. Interaktionseffekte wurden nicht beobachtet. Dieses Ergebnis kann Ausgangspunkt für weiterführende inhaltliche
Hypothesen oder eine Replikation der Studie sein.
8.3.2
Theorie
Eine dedizierte Theorie liegt zu Worthäufigkeiten nicht vor (s. AQUAD 7 Manual, Huber und Gürtler, 2012, Kap. 9). Es werden je nach Vorgaben Wörter gezählt bzw. Selektionen vorgenommen, d.h. Subgruppen gebildet und getrennt
für diese ausgezählt. Wortstämme werden nicht aufgefächert. Hier wären spezielle Algorithmen der lexikalischen Analyse anzuwenden, deren Implementation
in R ohne weiteres möglich ist. Vorgaben zu Auszählungen beziehen sich auf alle
Wörter oder verschiedene Wörter mit Nennungen n>crit oder Wörter basierend auf einer optionalen Wortliste. Selektionskriterien zur Subgruppenbildung sind u.a. keine (d.h. alles verwenden), nach Einzeldateien des Projekts, nach übergebener Wortliste
bzw. nach Sprechercode.
Eine Theorie zur Wortzählung ergibt sich etwa aus der übergreifenden Fragestellung und der Auseinandersetzung mit dem Material. und ist entsprechend
vorab auszuformulieren. Manchmal interessiert aber auch einfach, welche Wörter wie häufig in einem Text vorkommen und setzt gar nicht so viel Theorie,
sondern großes Interesse, voraus. Das ist ebenso legitim.
Bei den Auszählungen werden Korrekturformeln nicht durchgeführt (s. ebd.,
S. 139). Ein Ratio lässt sich jedoch leicht manuell berechnen, indem die absoluten
Wortanzahlen über die Dateien hinweg gemittelt werden. Pro Datei ergibt sich
dann der Korrekturfaktor durch den Quotienten
Korrektur f aktor =
¨
Mittelwert Wortanzahl (uber
alle Dateien)
Wortanzahl ( pro Datei )
Dieser ist als Korrektur jeweils für statistische Vergleiche anzuwenden. Andere Korrekturformeln sind denkbar, müssen jedoch manuell implementiert werden.
72
KAPITEL 8. DESKRIPTIVE STATISTIK
Redundanz
Die Redundanz von Texten ist ein Maß für die Variabilität von Sprache, also Anspruchsniveau bzw. kognitiven Komplexität (Klenner, 2004). Das Konzept geht
auf den amerikanischen Pragmatiker Charles S. Peirce (1839–1914) zurück und
dient der quantitativen Beschreibung der Morphologie von Texten. Als Token
wird die Gesamtheit der in einem Text vorkommenden Wortformen bezeichnet
und als Types die unterschiedlichen Wortformen. Das Verhältnis Types zu Token
(englisch: type-token-ratio, TTR, auch Diversifikationsquotient) gibt in der Psycholinguistik bzw. Computerlinguistik einen Hinweis darauf, ob ein Text in Anbetracht seiner Länge einen reichhaltigen oder einen eher armen Wortschatz beinhaltet. Ein reichhaltiger Text steht für hohe Komplexität, ein Text mit stark reduzierter
Wortwahl für einen geringer Komplexität.
Der TTR Quotient tendiert im Falle maximaler Reichhaltigkeit (es werden nur
verschiedene Wörter gebraucht) zu Eins und im Falle absoluter Armut zu Null
(dasselbe Wort wird immer wiederholt). Wird dieser Wert von Eins abgezogen,
ergibt sich ein Maß der Redundanz der verwendeten Sprache:
Redundanz = 1 −
Types
Token
Ein Text mit hoher Redundanz ist arm im Wortschatz, einer mit geringer Redundanz reichhaltig. Ausgangspunkt ist eine Tabelle mit Spalten (Wörter) und
Reihen (Bedingungen, z.B. Sprechercodes, Dateien, kombiniert Sprechercodes
und Dateien). Jeweils für die Bedingungen wird ausgezählt, wieviele Wörter
gleich Null oder ungleich Null sind. Types steht für die Anzahl der vorhandenen
verschiedenen Wörter und Token für die Gesamtheit der vorhandenen Wörter.
Pro Bedingung kann ein Wert gebildet und über alle Bedingungen hinweg tabellarisch zusammengefasst werden. Als Einschränkung ist zu bemerken, dass
dieser Koeffizient von der absoluten Textlänge abhängt. So sollten nur Texte mit
ungefähr derselben Länge oder einer vergleichbaren Skala (z.B. Zeitdauer eines
Gespräches) miteinander verglichen werden. Alternativ kann der oben erwähnte
Korrekturkoeffizient Verwendung finden, um vorab die absoluten Wortanzahlen
über verschiedene Texte hinweg anzugleichen. Ein weit verbreitetes Maß ist der
MTLD (measure of textual lexical diversity), der die absolute Textlänge berücksichtigt (McCarthy, 2005). Klenner (2004) listet einige Kennwerte des TTR bzw.
der kognitiven Redundanz auf, die sich auf bekannte Texte als Referenz beziehen. Ausgehend von den Originaltexten kann das R-Paket koRpus angewandt
werden, dass verschiedene Indizes (u.a. TTR, MTLD) ausgibt und besonders auf
die Textanalyse spezialisiert ist. koRpus arbeitet mit dem IDE/GUI RKWard zusammen.
8.3. WORTHÄUFIGKEITEN
8.3.3
73
Datenbasis
Die Datenbasis ist ein AQUAD 7 Text-Projekt. Daraus wird der Text automatisch
extrahiert, um eine Wortanalyse durchzuführen. Zusätzlich können Wortlisten
und Sprechercodes angegeben werden, nach denen getrennt ausgewertet wird.
8.3.4
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 8.14. Das RSkript liest die Texte ein und erstellt auf der Basis der Dateien, der angegebenen Wortlisten und
der Sprechercodes eine sehr große Tabelle mit den
entsprechenden Häufigkeiten. Alle Outputs sind
als Objekte zugänglich, auch wenn sie nicht in eine Tabelle geschrieben werden. Hierzu reicht es,
das R-Image zu öffnen und anhand des R-Skriptes
den Namen des entsprechenden Objekts zu su- Abb. 8.14. Experteneinstellungen Worthäuchen und dieses manuell weiterzuverarbeiten.
figkeiten
Leerzeichen, Satzzeichen, etc. werden soweit
möglich eliminiert, um auch wirklich einzelne Wörter für die Auszählung zu
erhalten. Bei komplexen Texten kann es vorkommen, dass dies nicht befriedigend genug funktioniert. In dem Falle wäre es ratsam, in das R-Skript zu gehen
und die regulären Ausdrücke zur Isolierung der Wörter manuell anzupassen. Manuell können ebenso zusätzliche R-Befehle implementiert werden, um eine noch
präzisere Selektion über reguläre Ausdrücke zu realisieren.
Zur Vereinfachung werden alle Buchstaben standardmäßig auf klein gesetzt.
Wörter, die nur einmal vorkommen, werden immer eliminiert. Als Standard werden ab n>=2 Nennungen Wörter berücksichtigt. Bei Bedarf lässt sich dies verändern. Eventuelle leere Zellen als Folge der Selektion werden folgend eliminiert.
Liegt eine Wortliste vor, wird diese als Basis weiterer Auszälungen genommen
und die Wortliste als Untermenge aus der Gesamtwörtermenge extrahiert. Wörter der Wortliste, die in den Texten nicht vorkommen, werden zur Information
ausgegeben und die kognitive Redundanz berechnet. Die Werte für die kognitive
Redundanz müssen kontextuell interpretiert werden. Wird als Basis eine Wortliste mit wenigen Wörtern genommen, können merkwürdige Werte entstehen
(z.B. Null). Ein solcher Wert ist häufig auf die Größe der Wortliste zurückzuführen und kein wirklicher Ausdruck von reichhaltiger Sprache – ausser bezogen
auf den Kontext der Wortliste. Dies zeigt sehr schön die Abhängigkeit des Koeffizienten von der Textlänge. Die Abhängigkeit der kognitiven Redundanz von der
Textlänge ist bei der Interpretation unbedingt zu beachten.
Die erzeugten Tabellen basieren auf den jeweiligen Selektionskriterien ihrer
Entstehung (s. Tab. 8.3). Graphische Outputs (Boxplots, Histogramm, QQ-Norm)
74
KAPITEL 8. DESKRIPTIVE STATISTIK
werden ebenfalls nach bestimmten Selektionskriterien erzeugt (s. Tab. 8.4).
8.3.5
Ausgaben
Es werden die folgenden Dateien ausgegeben (s. Tab. 8.5). Die Dateinamen orientieren sich an den übergebenen Namen im Skript.
8.3.6
Ergebnisse und Interpretation
Wortauszählungen sind in sich kein wirkliches Ergebnis, sondern eine Voraussetzung für weitere Analysen. Die Ergebnisse des R-Skriptes bilden die Grundlage
für diese Auszählungen und ordnen nach gängigen Kriterien (Wortlisten, Sprechercodes, Kriterium für Mindestnennungen) die Daten vor. Es bedarf einer leitenden Forschungsfragestellung, die sich direkt auf Wortzählungen bezieht oder
zu deren Beantwortungen Worthäufigkeiten beitragen können.
Die graphischen Outputs ergeben einen groben Überblick über die empirischen Verteilungen. Für Plots spezieller Untergruppen empfiehlt es sich, die entsprechenden Objekte aus dem R-Image zu extrahieren und eigene Plots zu generieren. Die Sammeldatei für R-Funktionen aquad_func.r bildet einen guten
Ausgangspunkt, da die in den verschiedenene R-Skripten benutzten Funktionen
dort zentral gespeichert und leicht zugänglich sind.
Für kognitive Redundanzwerte gilt: je kleiner, desto besser. Wie oben erwähnt
muss jedoch der Kontext (absolute Textlänge) beachtet werden, um die Aussagekraft der Koeffizienten hierzu einschätzen zu können. Am besten wird mit dem
globalsten Wert begonnen, der lediglich nach der Projektdatei unterscheidet. Je
kürzer die Texte, desto schneller kann ein hoher Wert erreicht werden. Dieser
Koeffizient ist deshalb immer relativ zu verstehen.
8.3.7
Beispieldatensatz
Als Beispieldatensatz dient das erste Rededuell zwischen dem Amtsinhaber, US
Präsident George W. Bush und seinem Herausforderer John Kerry aus dem Jahre
2004. Das Rededuell ist der Commission on Presidential Debates (CPD) entnommen,
die derartige Debatten seit 1988 archiviert und öffentlich zugänglich macht. Diese Datei wird ebenfalls beim Chi2 -Test besprochen (s. Kap. 10.1.7). Die verschiedenen Abbildungen ermöglichen unterschiedliche Perspektiven auf den Datensatz (s. Abb. 8.15, Abb. 8.16, Abb. 8.17 und Abb. 8.18). So können die Masse versus Ausreisser, die Verteilungen und deren Form sowie der Vergleich mit der
Normalverteilung herangezogen werden. Diese Plots liegen für die Anzahl der
Zeichen als auch der der Wörter vor.
Bei den QQ-Plots gegen die Normalverteilung ist ersichtlich, dass sowohl
die Anzahl der Zeilen, die Anzahl der Wörter als auch die Anzahl der Zeichen
alle Wörter (inkl. Einzelwörter)
Wortliste (alle)
Wortliste (alle)
Wortliste (alle)
tab.speaker
red.sp.wl
red.f.wl
red.comb.wl
Tab. 8.3:
Tabellen Worthäufigkeiten
! Wortliste (alle)
! Wortliste (alle)
tab.files.split.notwl.sorttext
tab.files.split.notwl.sortfreq
tab.files.sorttext diff
Wortliste (alle)
verschiedene Wörter (n>1)
tab.files.sorttext diff
Wortliste (alle)
verschiedene Wörter (n>1)
tab.all.notwl.sortfreq
tab.files.split.wl.sortfreq
! Wortliste (alle)
tab.all.notwl.sorttext
tab.files.split.wl.sorttext
Wortliste (alle)
! Wortliste (alle)
tab.all.wl.sortfreq
Wortliste (alle)
verschiedene Wörter (n>1)
tab.all.wl.sorttext
Häufigkeitstabelle
verschiedene Wörter (n>1)
tab.all.sorttext
tab.all.sortfreq
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Häufigkeitstabelle
Redundanz
verschiedene Wörter (n>1)
verschiedene Wörter (n>1)
red.comb
Redundanz
Redundanz
Redundanz
Redundanz
Redundanz
Häufigkeitstabelle
Häufigkeitstabelle
Überblicksstabelle
Überblicksstabelle
Operation
red.f
verschiedene Wörter (n>1)
alle Wörter (inkl. Einzelwörter)
tab.all
red.sp
alle Sprechercodes
nur selektierte Sprechercodes
cod.sp
Bedingung
cod.s
Objektname im R
nach Häufigkeit
nach Text
nach Häufigkeit
nach Text
nach Häufigkeit
nach Text
nach Häufigkeit
nach Text
nach Häufigkeit
nach Text
nach Häufigkeit
nach Text
Zeilen (.aco Datei)
Zeilen (.aco Datei)
Sortierung
×
×
keine
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
!×
!×
×
×
!×
!×
×
×
×
Wortliste
Basis (Reduktion nach)
Einzeldateien
×
×
×
×
×
×
×
Sprechercode
8.3. WORTHÄUFIGKEITEN
75
76
KAPITEL 8. DESKRIPTIVE STATISTIK
Tabelle: kerry_bush | Variable: nzeichen
Tabelle: kerry_bush | Variable: nwoerter
Boxplot
0
0
100
500
Werte (ohne Ausreisser)
200
300
Werte (ohne Ausreisser)
1000
1500
400
2000
Boxplot
Bsh
Abb. 8.15.
Krr
Mdr
Bsh
Beispieldatensatz
Boxplots Anzahl Zeichen nach
Sprechercode
Abb. 8.16.
Krr
Mdr
Beispieldatensatz
Boxplots Anzahl Wörter nach
Sprechercode
Histogramme | nwoerter | kerry_bush
Häufigkeiten
50 100
Tabelle: kerry_bush | Variable: nzeichen
0
100
200
300
Gruppe: /$Bush
400
500
0
100
200
300
Gruppe: /$Kerry
400
500
0
100
200
300
Gruppe: /$Moderator
400
500
0
0
Häufigkeiten
50 100
500
0
Häufigkeiten
50 100
Stichproben Quantile
1000
1500
0
2000
Plot gegen Normalverteilung
-3
-2
-1
0
1
theoretische Quantile
2
3
Abb. 8.18.
Abb. 8.17.
Beispieldatensatz
Anzahl Zeichen
QQ-Plot
Beispieldatensatz
Histogramme Anzahl Wörter nach
Sprechercode
8.3. WORTHÄUFIGKEITEN
77
Basis (Reduktion nach)
Plottyp
Bedingung
Sprechercode
Boxplot
Wörter
×
Boxplot
Wörter
Boxplot
Wörter
Boxplot
Zeichen
Boxplot
Zeichen
Boxplot
Zeichen
Histogramm
Wörter
Histogramm
Wörter
Histogramm
Zeichen
Histogramm
Zeichen
QQ-Norm
Wörter
QQ-Norm
Zeichen
QQ-Norm
Zeilen
Dateien
kombiniert Dateien & Sprechercode
×
×
×
×
×
×
×
×
×
Tab. 8.4:
Graphiken Worthäufigkeiten
Inhalt
Dateityp
R Session
Binärfile des R
Boxplot (Wörter, Zeichen)
Plot
.emf
Histogramm (Wörter, Zeichen)
Plot
.emf
QQ-Norm (Wörter, Zeichen, Zeilen)
Plot
Worthäufigkeiten (je nach Bedingung)
Tabelle
.csv oder .tab
Redundanz (je nach Bedingung)
Tabelle
.csv oder .tab
Tab. 8.5:
Dateiendung
.RData
.emf
Ausgabedateien Worthäufigkeiten
weitab der Normalverteilung angesiedelt sind. Die für Sprechercodes unterteilten Histogramme (Anzahl Zeichen, Wörter) zeigen den Unterschied der erwarteten Redebeteiligung des Moderators verglichen zu der von Bush und Kerry.
Über die Dateien (d.h. die drei Rededuelle) hinweg ergeben sich hingegen kaum
Unterschiede. Dies wird durch die Boxplots noch deutlicher gezeigt. Die Abkürzungen ermöglichen eine bessere Übersichtlichkeit innerhalb der Outputs. Diese deskriptiven EDA Analysen der Auszählungen sagen jedoch nichts über die
Qualität der Redebeiträge oder deren Struktur aus. Es sind rein formale Analysen, die eine inhaltliche Spezifikation erfordern.
78
KAPITEL 8. DESKRIPTIVE STATISTIK
8.4
Korrelation
Der Menüpunkt Korrelation befindet
sich im Untermenü Deskriptive Statistik (s. Abb. 8.19).
8.4.1
Abb. 8.19.
Sinn und Zweck
Menüpunkt Korrelation
Die Korrelation zeigt das gemeinsame lineare (Ko-)Variieren von Variablen auf einer deskriptiven Basis und ist ein Zusammenhangsmaß. Die Korrelation
stellt die standardisierte Kovariation da, so dass die Spannbreite des Korrelationskoeffizienten r zwischen -1 und +1 liegt. Eine Korrelation von Null bedeutet
keinen gemeinsamen linearen Zusammenhang und r=+1 bzw. r=-1 jeweils maximale Korrelation, d.h. lineare Abhängigkeit. Ein positiver Wert weist auf eine gleichläufige (je mehr, desto mehr), ein negativer Wert auf eine gegenläufige
Variation (je mehr, desto weniger und umgekehrt) hin. Es wird ein linearer Zusammenhang angenommen, was in vielen Kontexten unrealistisch ist und existierende nicht-lineare Zusammenhänge übersieht. Ebenso können anscheinend
linear unabhängige Zusammenhänge in Wirklichkeit nicht-linearer Natur sein
und existieren. In dem Falle kann die Korrelation die Zusammenhänge nicht entdecken. Eine Korrelation kann im Sinne klassischer Statistik zufallskritisch abgesichert werden mit einem resultierenden p-Wert und einer kritischen Überschreitungswahrscheinlichkeit p.crit zur Feststellung der statistischen Signifikanz.
8.4.2
Theorie
Der bekannte Korrelationskoeffizient (Produkt-Moment-Korrelation) wurde nach
Vorarbeiten von Auguste Bravais durch Karl Pearson entwickelt. Er ist wie folgt
definiert:
$( X, Y ) = r xy =
Cov( X, Y )
σ ( X ) σ (Y )
Es gilt die Formel für die Kovariation:
n
Cov( X, Y ) =
∑ (xi − x¯ )(yi − y¯)
i =1
und die der Standardabweichung:
8.4. KORRELATION
79
s
σ=
n
∑ (xi − x¯ )2
i =1
Die Korrelation wird offensichtlich Null, wenn gilt: Cov(X,Y)=0. Der Nenner
dient lediglich der Standardisierung auf den Bereich +1 bzw. -1. Die Kovariation
berechnet sich als Summe der Abweichungsprodukte der jeweiligen Messwerte von ihren empirischen Mittelwerten. Um die Schätzung des Populationsparameters $ erwartungstreu zu machen, wird die Schätzung der Varianzen bzw.
1
1
der Kovarianz jeweils mit dem Ausdruck n−
1 statt n multipliziert, wobei hier
n=Stichprobengröße (Anzahl der Messwerte) ist. Hierzu liegen jedoch Gegenargumente von Jaynes (2003), der diese Korrektur als falsch deklariert und hierzu einen Nachweis erbringt. Für die Korrelation ist dies unerheblich, weil der
Ausdruck n1 sowohl im Zähler als auch im Nenner vorkommt und sich dadurch
herauskürzt und folglich nicht weiter beachtet zu werden braucht.
Die zufallskritische Absicherung des Korrelationskoeffizienten berechtigt zur
der Aussage, dass der klassisch frequentistisch-statistische lineare Zusammenhang
zwischen zwei Variablen signifikant ist. Der entsprechende Test ist ein t-Test auf
Abweichung von Null und einschlägig zu interpretieren. Es resultiert eine tverteile Prüfgröße und es ist eine kritische Überschreitungswahrscheinlichkeit
p.crit zu wählen.
Die Voraussetzung zur Berechnung des Pearson’schen Korrelationskoeffizienten ist ein Intervallskalenniveau der Messwerte. Niedrigere Skalenniveaus verwenden andere Korrelationskonzepte (z.B. Rangkorrelation). Die zufallskritische
Absicherung des Korrelationskoeffizienten erfordert eine annähernde Normalverteilung beider Variablen in der Population. Bei Verletzungen der Voraussetzungen sollte auf ein rangniedrigeres Korrelationskonzept zurückgegriffen werden.
Zur Visualisierung des Zusammenhangs von zwei Variablen eignet sich der
Scatterplot. Ist die Korrelation perfekt (r=+1 bzw. r=-1), so ergibt sich je eine exakte Gerade, die zueinander im 90 Grad Winkel stehen, wenn sie beide im selben
Plot gezeichnet werden. In der Praxis ergeben sich jedoch mehr oder weniger
dichte Punktewolken, die als Tendenz (ellipsenförmig, nicht kreisförmig) einen
Eindruck der Größe von r vermitteln. Liegt im Plot eine (fast) perfekt waagerechte oder senkrechte Linie vor, so ist ein Korrelationskoeffizient nicht zu berechnen,
da die Variation einer Variablen gegen Null tendiert bzw. Null ist. Nach der aufgeführten Formel führt dies zu r=0. Gleiches gilt für diejenigen Fälle, wenn die
Werte symmetrisch vorliegen, so dass jeder in die Formel eingehende Wert quasi
einen invertierten Partner erhält, der exakt diesen Werte wieder auslöscht. Graphisch lässt sich dies mit R-Code darstellen.
Deshalb ist vor Berechnung des Korrelationskoeffizienten r immer ein Scatterplot durchzuführen.
80
KAPITEL 8. DESKRIPTIVE STATISTIK
Da die Produkt-Moment-Korrelation ein lineares Modell zugrundelegt, können trotz scheinbarer linearer Unabhängigkeit trotzdem nicht-lineare Zusammenhänge bestehen. Diese sind extra zu untersuchen und zu berechnen. In der
Praxis wird dies viel häufiger vorkommen als erwartet.
Die Bedeutung der Größe einer Korrelation ist strikt inhaltlich fachspezifisch
zu klären. Globale Aussagen über die Bedeutsamkeit lassen sich nicht treffen
und verbieten sich.
Korrelationskoeffiienten sind nicht normalverteilt, sondern schiefverteilt (eingipfelig, nach rechts verzerrt). Deshalb dürfen nicht einfach Summen, Differenzen oder Konfidenzintervalle gebildet werden. Vor einer solchen Operation sind
die Daten mit Hilfe der Fisher z-Transformation (1915, 1921) zu korrigieren, die
die Varianz stabilisiert. Nach Summierung oder anderen Operationen ist die Inversion der Fisher z-Transformation anzuwenden, um wieder einen interpretierbaren Korrelationskoeffizienten zu erhalten. Konfidenzintervalle von Korrelationen sind aus diesen Gründen nicht symmetrisch um ihren Mittelwert verteilt.
Korrelationen sind – da die Abweichungen vom Mittelwert linear eingehen
– nicht sehr robust gegenüber Ausreissern. Dies gilt es zu beachten und nach Bedarf auf andere Verfahren auszuweichen oder entsprechende Veränderungen im
Datensatz vorzunehmen.
Korrelationen können zeitgleich oder zeitlich versetzt betrachtet werden. Die
zeitlich versetzte Betrachtung führt zu einer Autokorrelation, d.h. einer Korrelation der Messwerte mit sich selbst zu einem anderen Zeitpunkt. Dies führt direkt
zu den Zeitreihenanalysen.
Partialkorrelationen
Da ein linearer Zusammenhang zwischen zwei Merkmalen X und Y auch durch
eine Drittvariable U verursacht werden kann, können bzw. müssen je nach Sachlage und Verdachtshinweisen Partialkorrelationen berechnet werden. Hierbei wird
die bereinigte Korrelation zwischen X und Y berechnet, so dass deren jeweilige
Korrelation mit U herausgerechnet wird.
Bestimmtheitsmaß R2
Der quadrierte Korrelationskoeffizient R2 wird in der Regressionsanalyse als Bestimmtheitsmaß der durch das formulierte Modell erklärten Varianz genutzt. Jedoch ist zu beachten, dass die Korrelation mit dem statistischen Kennwert r ein
zweiseitig formuliertes Zusammenhangsmaß ist, während in der einseitig formulierten Regressionsanalyse andere Bedingungen gelten. Auch wechselt die
Einheit bei Nutzung des Bestimmtheitsmaßes R2 . So werden Angaben in Prozent gemacht, z.B. r=0.5 führt zu R2 = 0.25 bzw. 25%. Es wird nichts darüber
8.4. KORRELATION
ausgesagt, welcher Teil der Varianz erklärt wird und welcher nicht. Das Bestimmtheitsmaß R2 trifft eine globale Aussagen bezogen auf ein konkretes Modell in
dessen Gesamtheit. Entsprechend ist aus dem Korrlationskoeffizienten r auch
nicht abzulesen, welche Teile der untersuchten Merkmale gemeinsam variieren
und welche nicht. Korrelation ist nicht Kausalität.
Grenzen der Korrelation
Die Korrelation beschreibt lediglich das gemeinsame (Ko-)Variieren
zweier Merkmale. Damit werden keinerlei Kausalaussagen (UrsacheWirkungsbeziehungen) getätigt und können auch nie davon abgeleitet werden,
da die Korrelation zweiseitig ausgerichtet ist. Für Kausalaussagen würden
jedoch selbst einseitig ausgerichtete statistische Analysen (z.B. Regression,
Varianzanalyse) nicht ausreichen. Für Kausalaussagen sind wiederholte wissenschaftliche Experimente und Rekonstruktionen notwendig, die denselben
Sachverhalt an verschiedenen vergleichbaren Stichproben reproduzierbar nachweisen, so dass Ergebnisse tatsächlich auf die Variation von Bedingungen
zurückgeführt werden können und diese sich inhaltlich sinnvoll begründen
lassen. Hinter Korrelationen stecken häufig ganz andere Faktoren, so dass korrelative Zusammenhänge lediglich einen Hinweis darauf liefern, dass mit hoher
Wahrscheinlichkeit Ursachenfaktoren für bestimmte Bedingungen vorliegen
(können). Statistik kann niemals Aussagen über Kausalität treffen, sondern
lediglich Kennwerte liefern, die dann in einem größeren Forschungskontext
sicherlich auch inhaltlich eine Rolle spielen.
Beispiele für bekannte Korrelationen sind die Anzahl der Störche und die Anzahl der Neugeburten, die miteinander korrelieren, ohne dass dieser Korrelation
ein realer Zusammenhang zugrundeliegt.
8.4.3
Datenbasis
Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten.
Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu transponieren.
8.4.4
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 8.20. Die Korrelationen und die zugehörigen p-Werte für die zufallskritische Begutachtung werden je in Tabellen geschrieben: Das Korrelogramm wird mit der Funktion corrgram erstellt. Hierbei können für die Hauptdiagonale, die untere und die obere Dreiecksmatrix
unterschiedliche Funktionen genutzt werden, die in den Variablen diagpanel,
lowerpanel und upperpanel gespeichert sind. Details gibt hierzu die Hilfeseite
81
82
KAPITEL 8. DESKRIPTIVE STATISTIK
Inhalt
Dateityp
R Session
Binärfile des R
Korrelationsplot
Plot
Korrelationskoeffizienten und assoziierte p-Werte
Text
Korrelationskoeffizienten
Tabelle
.csv oder .tab
p-Werte der Korrelationskoeffizienten
Tabelle
.csv oder .tab
Tab. 8.6:
Dateiendung
.RData
.emf
.txt
Ausgabedateien Korrelation
von corrgram. Standardmäßig wird eine Dichteschätzung auf der Hauptdiagonalen, ein Pie-Chart (Kuchendiagramm) in der oberen und ein Panel-Shade in der
unteren Dreiecksmatrix gezeichnet. Die Ausgaben sind intuitiv zu interpretieren: Eine höhere Farbintensität weist auf eine höhere Korrelation. Das Kuchendiagramm deckt umso mehr Fläche ab, je größer die Korrelation ist, etc.
8.4.5
Ausgaben
Es werden die folgenden Dateien ausgegeben
(s. Tab. 8.6). Die Dateinamen orientieren sich an
den Übergaben im Skript.
8.4.6
Abb. 8.20.
Ergebnisse und Interpretation
Die Ergebnisse sind zufallskritisch zu interpretieren mit angesetzter kritischer Überschreitungswahrscheinlichkeit p.crit. Die Stärke der linearen
Zusammenhänge ist inhaltlich zu interpretieren.
Aus den Plots kann direkt die Höhe der Korrelation im Vergleich zu den anderen abgelesen werExperteneinstellungen Korrelatiden.
on
8.4.7
Beispieldatensatz
Der Beispieldatensatz entstammt der bereits erwähnten Untersuchung von Gürtler (2006). Es zeigt sich, dass sowohl durchweg bescheidene Korrelationen
(s. Abb. 8.21) als auch sehr große p-Werte (s. Abb. 8.22, auf drei Stellen gerundete
Werte) vorliegen, was zusammenpasst. Hervorstechend ist r=0.5 (Grenzen und
negative Erfahrungen) sowie r=0.24 (Initiierung und negative Erfahrungen). Die
zufallskritische Absicherung unterstützt diesen Eindruck. Nur diese beiden Koeffizienten lassen sich als statistisch signifikant einordnen. Es muss jedoch beachtet werden, dass viele zufallskritische Absicherungen von Korrelationskoeffizi-
8.4. KORRELATION
83
FR_Codes_freq
Dfnt.H
Grn..H
Erw..H
Ab.P.U
Int..H
n.E..H
Mn.Q.H
vrä...
Flg..H
Abb. 8.21.
Beispieldatensatz Korrelationsplot
enten innerhalb einer Tabelle dem multiplen Testen gleicher Art gleichkommt und
die kritische Überschreitungswahrscheinlichkeit p.crit entsprechend nach unten
angepasst werden müsste. Oft ist es pragmatischer, den reinen Korrelationskoeffizient zu nehmen, die zufallskritische Absicherung zu lassen und sich zu erinnern, dass diese fehlt. Ergibt sich dann die Notwendigkeit, gezielt eine oder
wenige Korrelationen zufallskritisch abzusichern, kann dies angepasst durchgeführt werden.
Im Beispiel bedeutet es nicht, dass die anderen Variablen mit minimaler
Korrelation nicht zusammenhängen. Lediglich lineare Zusammenhänge können
84
KAPITEL 8. DESKRIPTIVE STATISTIK
Abb. 8.22.
Beispieldatensatz p-Werte der Korrelationskoeffizienten
durch das Analyseverfahren nicht gefunden werden. Die gefundenen statistisch
signifikanten Korrelationen erscheinen plausibel. Die kritische Überschreitungswahrscheinlichkeit p.crit müsste jedoch etwa durch eine Bonferroni-Korrektur
angepasst werden. Bei der Bonferroni-Korrektur wird p.crit durch den Wert
p.crit
p.crit adj = Anzahl der Testungen dividiert und adjustiert. Im vorliegenden Fall ergä2
be dies bei n=9 Variablen und ( 92 − 9) = 72 Paarvergleichen einen adjustierten
Wert von p.crit adj = 0.05
72 = 0.000694. Schon bei 100 Vergleichen ergäbe sich ein
p.crit adj ~5e-04 und bei n=10000 Vergleichen einen Wert von p.crit adj ~5e-06.
Kapitel 9
Klassifikation und Gruppierung
Das
Untermenü
Klassifikation/Gruppierung befindet sich im Menü
R-Statistik (s. Abb. 9.1). Dieser Bereich
wird in hierarchische Clusteranalyse, Lineare Diskrimination mittels
linearer Diskriminanzanalyse, Multidimensionale Skalierung und Prototypen
unterteilt.
9.1
Abb. 9.1.
Untermenü Klassifikation und Gruppierung
Hierarchische Clusteranalyse
Der Menüpunkt Clusteranalyse befindet sich im Untermenü Klassifikation/Gruppierung (s. Abb. 9.2).
9.1.1
Sinn und Zweck
Clusteranalysen werden den QAbb. 9.2. Menüpunkt hierarchische Clusteranalyse
Verfahren der multivariaten Statistik
zum “Erkennen von Strukturen in
einer Menge von Objekten” (Hartung und Elpelt, 1999, S. 443) zugeordnet.
Die hierarchische Clusteranalyse erlaubt es, Datensätze zu Klumpen (Cluster) zusammenzusetzen und zwar auf verschiedenen Verschmelzungs- bzw. Abstraktionsniveaus. Daraus erhält der Anwender eine Idee, wie nah und fern sich
die einzelnen Vertreter des Datensatzes sind und welche möglicherweise zusammengehören, um eine kontextabhängige eigenständige Untergruppe zu bilden.
Daraus lassen sich weitere Überlegungen und qualitative Hypothesen formulieren. Das Verfahren bzw. die Verfahrensklasse besteht aus zwei Schritten:
86
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
1. In einem ersten Schritt wird zunächst eine Distanzmatrix der originalen
Häufigkeitstabelle berechnet.
2. In einem zweiten Schritt werden auf Basis dieser Distanzmatrix die Cluster sukzessive nach bestimmten Regeln (Agglomerationsverfahren) zusammengesetzt, bis nur noch ein einziges Cluster vorhanden ist, welches alle
Daten beinhaltet.
Die Aufgabe besteht darin, das richtige Abstraktionsniveau zu finden, auf der
die Clusterbildung inhaltlich sinnvoll erscheint und das die Daten angemessen
repräsentiert. Das Ziel ist, die Beantwortung der leitenden Forschungsfrage zu
unterstützen.
Hier liegen bereits die Probleme der Clusteranalyse: Die Menge an Verfahren,
um Distanzmatrizen und folgend Distanzen zu agglomerieren ist sehr vielfältig (Bock, 1974; Oldenbürger, 1994). Es existieren aber keine verbindlichen objektiven oder inhaltlich immer begründbaren Kriterien, welches Verfahren mit
welchem bevorzugt für eine bestimmte Fragestellung anzuwenden ist und eindeutig den anderen Verfahren im jeweiligen Kontext überlegen ist. Aus diesem
Grund ähnelt die Anwendung der verschiedenen Verfahren der hierarchischen
Clusteranalyse ein bisschen einer Lotterie. Zwar steht ein zufallskritischer Test auf
hierarchische Clusterbarkeit bereit (s.u. Kap. 9.1.2, Oldenbürger und Becker, 1976;
Oldenbürger, 1981) und es gibt auch Gütekriterien, die die Anzahl der optimalen
Cluster untersuchen (s.u. Kap. 9.1.2, Handl, 2002). Jedoch gibt es keine brauchbaren Tests, um übergreifend die Güte des gesamten Verfahrens (Distanzbildung,
Agglomeration und die Kombination der beiden Verfahren) auf inhaltliche Angemessenheit hin exakt zu bestimmen. Deshalb ist der Einsatz der hierarchischen
Clusteranalyse grundsätzlich explorativ. Die Resultate sollten nicht bzw. niemals
im Sinne einer zwingenden Schlussfolgerungen benutzt werden. Folgend wird
hier vor allem die einfachste Distanzermittlung verwendet: euklidische Distanzen.
Andere Verfahren müssen direkt im R-Skript aktiviert bzw. eingefügt werden.
Neben der hierarchischen Clusteranalyse gibt es die partitionierenden Verfahren (k-means), bei denen die Anzahl der Cluster vorab festgelegt wird. Der iterative Algorithmus versucht nun, eine beste Passung der Einzelobjekte zu der
Anzahl der vorgegebenen Cluster zu finden. Clusterelemente können im Gegensatz zur hierarchischen Clusteranalyse ihr Cluster wechseln. Die Startposition ist
eigentlich zufällig, spielt jedoch eine wichtige Rolle für das Ergebnis. Das ist ein
Manko. Das Verfahren ist zwar brauchbar und schnell, aber es gibt keinen eindeutigen Weg, eine optimale Lösung zu finden bzw. zu validieren. Ein erneutes
Starten des Algorithmus mit neuen Parametern führt deshalb durchaus zu unterschiedlichen Lösungen.
9.1. HIERARCHISCHE CLUSTERANALYSE
9.1.2
Theorie
Es werden intervallskalierte Daten vorausgesetzt.
Distanzen
Die hierarchische Clusteranalyse setzt eine Distanzmatrix (Ähnlichkeits- bzw.
Proximitätsmatrix) voraus, um sukzessive Cluster zu bilden. Die einfachste
Form, die Bildung von euklidischen Distanzen, wird über die direkte Differenz
zwischen zwei Punkten ermittelt. Die Frage von Distanzen ist die Frage von Metriken, die prinzipiell hinsichtlich der Erfüllung ihrer Bedingungen begründet
werden müssen.
Die Menge an vorliegenden Distanzmaßen (z.B. euklidisch, Manhattan, Mahalanobis, etc.) ist unübersichtlich und erscheint willkürlich, da eine eindeutige Zuordnung von inhaltlichen Bedingungen zur Präferierung eines bestimmten Distanzmaßes fehlt. Verschiedene Maße werden in Oldenbürger (1981) und
Bock (1974) diskutiert. Oldenbürger, (1994) zitiert Milligan (1980), der die unterschiedlichen Fehlerarten in 15 verschiedenen Clusterverfahren untersucht. Oldenbürger (ebd.) bemerkt, dass es mindestens weitere zehn Distanzmaße gibt,
die genutzt werden können. Bock (1974) listet in seinem Werk “Automatische
Klassifikation” hierzu Verfahren auf. Von “automatischer Klassifikation” sollte
angesichts dieser Uneindeutigkeit lieber Abstand genommen werden. Viel stärker fließen andere Kriterien wie das Datenniveau oder das grundsätzliche statistische Verständnis (klassisch versus bayesisch) bei der Auswahl der geeigneten
Verfahren ein. Dies gilt umso mehr für die folgenden Gruppierungsverfahren,
die häufig eine Distanzmatrix als Ausgangsmatrix erwarten.
Eine Metrik ist eine Abstandsfunktion für zwei Punkte einer Menge, die dann
verallgemeinert wird. Eine Metrik muss gewisse Axiome erfüllen. Meiser und
Humbur, (1996, S. 280ff.) listen die Voraussetzungen von Distanzmaßen auf. Die
metrischen Eigenschaften einer Distanzfunktion, die eine Datenmatrix in eine
Distanzmatrix überführt, sind bei Oldenbürger (1981) definiert. Es handelt sich
um die Merkmale Positivität, Identität, Symmetrie und Dreiecksungleichung. Nach
Bock (1974, S. 26) ist “ein Distanzmaß d dann ... metrisch oder eine Metrik, wenn
für alle i, j, k e S die Dreiecksungleichung” erfüllt ist. S bezeichnet hierbei die
Objektmenge:
d jk 5 d ji + dik
Dann entsprechen metrische Distanzmaße dem intuitiven Verständnis von
Abständen, wie sie etwa auf Landkarten Verwendung finden. Wenn eine Verschärfung dieser Merkmale (Oldenbürger, 1994) hinzugefügt wird, heißt eine
Metrik auch Ultrametrik (Meiser und Humburg, 1996). Bei einer Ultrametrik gilt
87
88
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
r
Distanzmaß
1
City-Block (auch Manhattan-, Mannheimer-, Taxi-Metrik)
2
euklidisch
∞
Supremum
Tab. 9.1:
Distanzmaße auf Basis der Minkowski r Metrik
metaphorisch, “dass alle Tripel von Objekten gleichschenklige Dreiecke aufspannen, deren Basis kleiner ist als die gleichlangen Schenkel” (Oldenbürger, 1981,
S. 38ff.):
d jk 5 max (d ji , dik )
Die gängigsten Distanzmaße basieren auf der allgemeinen Minkowski r Metrik (Backhaus et al., 1996):
d(ok , ol ) = (∑ | xkj − xlj |r ) r ; r ≥ 1
1
j
Der Exponent r weist auf die verschiedenen Distanzmaße hin (Oldenbürger,
1994, s.a. Tab. 9.1). Die euklidischen Distanzen gelten jedoch nicht als robust, da
eine multivariate Verteilung der Daten nicht unbedingt gegeben ist und Ausreisser zusätzlich verzerrend wirken können (Oldenbürger, 1996, S. 400). Weitere
Ausführungen zu Lr -Metriken für r ≥ 1 geben hartung und Elpelt (1999).
Test auf hierarchische Clusterbarkeit
Oldenbürger (1981) hat einen zufallskritischen Test auf hierarchische Clusterbarkeit
von Daten auf Basis der Ultrametrik entwickelt. Dieser testet, ob Dendrogramme
geeignet sind, die erhobenen empirischen Daten zu repräsentieren. Der als Permutationstest (ebd., S.199ff.) konzipierte Test setzt an der Ultrametrik auf, da jede Ultrametrik sich durch ein Dendrogramm abbilden lässt (Venables und Ripley, 2002, S. 316). Es liegen zwei Prüfgrößen namens Dep f ui A bzw. Dep f ui B
vor (Departure from ultrametric inequality). Sie sind nach Oldenbürger (2003) wie
folgt definiert:
⇒ Dep f ui A – global mean of differences between the two largest triangle sides, relative to mean of the largest triangle side + t-exponentiation
⇒ Dep f ui B – mean of specific differences between two largest triangle sides,
relative to the largest triangle side + t-exponentiation
9.1. HIERARCHISCHE CLUSTERANALYSE
89
Die Formeln lauten:
Dep f ui A
v
u
u n
u
∑ | di0 jk − di0 j0 k |t
u 2
i < j<k
u
t
= u
; t ≥ 1
u
n
t
t
∑ | dij |
3
i< j
v
u
u 1
Dep f ui B = u
u
t t n
3
∑
i < j<k
| di0 jk − di0 j0 k |t
| di0 jk |t
; t ≥ 1
Hierbei bilden i, j, k Dreiecke mit di0 jk als längster Seite und di0 j0 k als zweitlängster Seite. Depfui A bzw. DepfuiB berechnen jeweils den Mittelwert der Differenzen der längsten (di0 jk ) mit der zweitlängsten (di0 j0 k ) Seite. Diese Differenz
wird entweder auf den Mittelwert aller Differenzen dij (Depfui A ) bzw. individuell auf die längste Seite di0 jk (DepfuiB ) relativiert. Das Verfahren testet also die
Abweichung der empirischen Distanzwerte von einer Ultrametrik (Meiser und
Humburg, 1996).
Die Prüfgrößen werden gemäß der angesetzten Anzahl an Simulationen berechnet. Ein Permutationstest gleicht dem Ziehen ohne Zurücklegen. Hierbei werden
pro Simulation die Werte innerhalb der Spalten der Datenmatrix permutativ vertauscht. Die Spalten an sich und deren statistischen Kennwerte bleiben jedoch
konstant. Daraus ergibt sich eine simulierte Prüfverteilung, innerhalb derer die
empirischen Werte der Prüfgrößen ermittelt werden. Die Lokalisation der empirischen Prüfgröße innerhalb der simulierten Prüfverteilung ergibt einen p-Wert.
Damit liegt ein Signifikanztest vor, der zufallskritisch die Durchführung der hierarchischen Clusteranalyse absichert. Dieser hat die Nullhypothese, dass keine
Unterschiede zwischen emprischen und simulierten Werten vorliegt. Die Ablehnung der Nullhypothese anhand einer kritischen Überschreitungswahrscheinlichkeit p.crit berechtigt zum Einsatz der verschiedenen hierarchischen Clusteranalyseverfahren. Die Beibehaltung der Nullhypothese verbietet diesen Einsatz
(eigentlich). Konsequenterweise sollten dann andere Verfahren eingesetzt werden. Nach Oldenbürger (1981, S. 207) fehlt jedoch eine Kontrolle des β-Fehlers
im Rahmen des Verfahrens. Ebenso fehlen Power-Tests auf Basis von Simulationsstudien.
Eine weitere Anwendungsmöglichkeit dieses Testes ist ein Homogenitätstest.
Hierfür wird eine Galanter- (Galanter, 1956) bzw. eine Restle-Metrik gebildet
(Restle, 1959) und mit dem beschriebenen Verfahren getestet. Eine Beibehaltung
90
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Verfahren
Kurzfassung
Definition der Distanz von zwei zu
single-linkage
minimaler Abstand
kleinste Distanz zwischen den
verschmelzenden Klassen
Elementen der jeweiligen
Klassen
complete-linkage
maximaler Abstand
größte Distanz zwischen den
Elementen der jeweiligen
Klassen
(group)-average-linkage
mittlerer Abstand
mittlere Distanz zwischen den
Elementen der jeweiligen
Klassen
centroid-linkage
centroider Abstand
centroide Distanz zwischen den
Elementen der jeweiligen
Klassen
Tab. 9.2:
Hierarchische Agglomerationsverfahren
der Nullhypothese berechtigt jedoch nach der Logik klassisch-frequentistischer
Statistik nicht zur Annahme der Homogenität, kann aber als ein empirischer
Hinweis gewertet werden.
Hierarchische Agglomerationsverfahren
Im R-Skript werden Agglomerationsverfahren eingesetzt, bei denen sukzessive die
Cluster aus den Einzelobjekten aufgebaut werden, bis nur noch eine einzige gesamte Klasse übrig bleibt. Im Gegensatz dazu gehen die divisiven Verfahren (Daumenlang, 1995) so vor, in dem ein großes Cluster sukzessive aufgeteilt wird, bis
nur noch Einzelobjekte übrig bleiben. Es gibt also top-down (divisiv) und bottomup (agglomerativ) Verfahren. Für beiden Verfahren gilt, dass die Struktur immer
mehr verfeinert bzw. verallgemeinert wird, aber Elemente einer Klasse nicht die
einmal erhaltene Klasse einfach wechseln können. Cluster können nach ihrer Bildung nicht mehr verändert werden. Deshalb heißen diese Verfahren hierarchisch.
Die ausgewählten Agglomerationsalgorithmen unterscheiden sich dahingehend, wie Klassen gebildet werden und miteinander verschmelzen. Diese Verfahren beginnen beim geringsten Abstand, verschmelzen Objekte zu Klassen,
nehmen dann diese Klassen als Objekte und verschmelzen sie wiederum nach
dem geringsten Abstand. Diese Abfolge wird wiederholt, bis alle Objekte in einer einzigen Klassen verschmolzen sind. Die Definition des geringsten Abstandes (auf jeder Stufe) unterscheidet die Verfahren voneinander (Handl, 2002). So
ist der Abstand zwischen den neu gewonnen Klassen und den restlichen Klassen nicht immer eindeutig bestimmt. So können zwei Klassen P und Q zu einer
9.1. HIERARCHISCHE CLUSTERANALYSE
neuen Klasse Z verschmolzen werden, jedoch kann die Distanz einer weiteren
Klasse R zu P und Q unterschiedlich sein. Somit bleibt unklar, was die exakte
Distanz der neu gebildeten Klasse Z zu R ist. Die gängigsten Verfahren singlelinkage, average-linkage, complete-linkage und centroid-linkage unterscheiden sich lediglich darin, was als möglicher Distanzwert genommen wird, um zwei Klassen
miteinander zu verschmelzen (s. Tab. 9.2). Technisch handelt es sich um eine
Berechnung der Unähnlichkeit von verschiedenen Klassen , die über die Distanz
operationalisiert wird.
Handl (2002, S. 370) visualisiert die Unterschiede der gängigen verschiedenen agglomerativen Verfahren. Backhaus et al. (1996, Tab. 6.17, S. 287) listen die
entsprechenden Gleichungen zur Berechnung der Distanzen für die verschiedenen Agglomerationsverfahren auf. Sie basieren auf der folgenden Grundgleichung, wenn zwei Klassen P und Q zu einer neuen Klasse Z verschmolzen werden. d(R,P+Q) bezeichnet hierbei die Distanz zwischen einer weiteren Klasse R
zu der neuen Klasse Z (P+Q). Die Konstanten a, b, e und g variieren je nach Agglomerationsverfahren zeichnen diese durch ihre Werte jeweils aus (ebd., S. 286,
Gleichung (4)):
d( R, P + Q) = ad( R, P) + bd( R, Q) + ed( P, Q) + g|d( R, P) − d( R, Q)|
Die typischen Eigenschaften der Verfahren nennen die Autoren ebenfalls (ebd., S. 298, Tab. 6.23). Nach diesen Ausführungen macht es Sinn, die Distanzen zunächst euklidisch zu bilden. Eine Abweichung hiervon benötigt eine
Erklärung. Zu bedenken ist, dass euklidische Distanzen nicht unbedingt robust
sind.
Das Ward-Verfahren wiederum fragt nach der Zunahme der Varianz durch Vereinigung der Klassen P und Q. Das Ziel ist es, durch Verschmelzung die Varianz nur minimal zu vergrößern. Deshalb erscheint es gerechtfertigt zu sein,
als Distanzmaß die Manhattan-Metrik zu nehmen, die zweidimensional gebildet wird. Das Ward-Verfahren wird im Vergleich zu den anderen Verfahren als
sehr valide bezeichnet (Backhaus et al., 1996, S.298, S. 298). Das Verfahren benötigt jedoch verschiedene Voraussetzungen (ebd.) und es neigt zur Bildung gleich
großer Cluster, was sich als problematisch erweisen kann. Ebenso wird das Problem genannt, sehr kleine Gruppen und Gruppen, die sich länglich erstrecken,
zu identifizieren. Die Voraussetzungen für Ward können jedoch auf die anderen
Algorithmen (teilweise) übertragen werden. Es ist offensichtlich, dass diese Voraussetzungen in der Praxis häufig nicht erfüllt werden. Die Voraussetzungen für
Ward sind:
⇒ Verwendung eines inhaltlich begründeten Distanzmaßes
⇒ metrisches Skalenniveau
91
92
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
⇒ keine Ausreisser bzw. diese vorab eliminieren
⇒ unkorrelierte Variablen
⇒ annähernd gleich große Elemente pro Gruppe
⇒ vergleichbar große Ausdehnung der Gruppen
Güte der Cluster-Lösungen
Handl (2002) bzw. Hartung und Elpelt (1999) bieten einen umfassenden Überblick über die Gütekriterien von hierarchischen Clusteralgorithmen.
Hierarchische Clusterlösungen lassen sich generell in einem Dendrogramm visualisieren. Dieses beschreibt, auf welcher Höhe zwei Objekte sich zum ersten
Mal in derselben Klasse befinden. Der (kleinste) Abstand zwischen zwei Objekten wird durch ihre Distanz in einer Abstandsmatrix festgehalten. Diese enthält
alle Abstände zwischen allen Objekten. Diese Distanzmatrix, die aus dem Dendrogram abgeleitet wird, heißt kophenetische Matrix. Daraus lässt sich der kophenetische Korrelationskoeffizient berechnen, indem die kophenetische Matrix mit der
ursprünglichen Distanzmatrix korreliert wird. Dies zeigt, wie gut die Clusterlösung die ursprüngliche Distanzmatrix reproduziert. Graphisch können die beiden Matrizen (besser: Dreiecksmatrizen) auch in einem Scatterplot gegeneinander geplottet werden. Es wird das Agglomerationsverfahren genommen, für das
der kophenetische Korrelationskoeffizient maximal wird. Oft zeigt sich auch, dass die
Koeffizienten sich nicht allzusehr voneinander unterscheiden.
Nach Huber (1974) eignet sich der γ-Koeffizient (Goodman und Kruskal, 1954) zur Bestimmung der Güte von Clusterlösungen. Das Verfahren ist bei
Handl (2002) detailliert und mit R-Code beschrieben. In Kürze arbeitet das Verfahren so, dass Paare von Distanzen innerhalb der Distanzmatrix mit ihren Pendants in der kophenetischen Matrix verglichen werden. Es wird dann gefragt, ob
eine konkordante Beziehung zwischen den Paaren in beiden Matrizen besteht
oder nicht (diskordant). Goodman und Kruskal (1954) fassen dies zusammen,
indem die Anzahl der konkordanten Paare (C) versus der Anzahl der diskordanten Paare (D) in eine direkte Beziehung gesetzt wird. Daraus leitet sich der
γ-Koeffizient ab:
γ =
C−D
C+D
Bacher (1994) gibt Anhaltspunkte, wie der resultierende γ-Koeffizient einzuordnen ist (s. Tab. 9.3).
9.1. HIERARCHISCHE CLUSTERANALYSE
untere Grenzen
oberer Grenze
0.9 ≤
γ
0.8 ≤
γ
0.7 ≤
γ
0.6 ≤
γ
0≤
γ
Tab. 9.3:
≤1
≤ 0.9
≤ 0.8
≤ 0.7
≤ 0.6
93
Einordnung
sehr gut
gut
befriedigend
gerade noch ausreichend
nicht ausreichend
Bewertung γ-Koeffizient
Optimale Anzahl der Cluster
Für die Anzahl der Cluster verweist Handl (2002) auf den Test von Mojena (Mojena, 1977), der die Anzahl der Klassen n mit den Verschmelzungsniveaus i in eine
Beziehung setzt. Dies lässt sich als Treppenfunktion (staircase) visualisieren. Es
liegen zwei Kriterien vor, wie das standardisierte Verschmelzungsniveau zu interpretieren ist. Mojena schlägt das Verschmelzungsniveau mit Index i vor, wenn
zum ersten Mal gilt:˜αi > 2.75. Aus i und der Gesamtzahl der Klassen n wird die
optimale Anzahl der Cluster wie folgt bestimmt:
Anzahl der Cluster = n + 1 − i
Milligan und Cooper (1985) stützen sich auf Simulationen und schlagen vor,
α˜ i > 1.25 zu wählen. Handl (2002) hält sich an den Wert dieser Autoren. Das
R-Skript liefert beide.
Bootstrapsimulation und p-Werte
Im Paket pvclust steht eine gleichnamige R-Funktion zur Berechnung von pWerten für hierarchische Clusterlösungen bereit. Sie arbeitet mit der R-Funktion
hclust zur Erstellung der Cluster, die auch sonst hier Verwendung findet. Die
Funktion pvclust führt eine Bootstrap-Simulation für jedes Cluster durch mit resultierenden p-Werten und Standardfehlern auf Basis der Simulation. Eine Bootstrap Simulation führt ein Ziehen mit Zurücklegen Prozedere durch, um pro Simulation die jeweilige Stichprobe zu generieren. Es sollten mindestens 1000 und
mehr Simulationen durchgeführt werden, um zu aussagekräftigen Ergebnissen
zu kommen, damit sich die Werte im Mittel stabilisieren. Dies dauert auch auf
schnellen Computern seine Zeit. Es können Dendrogramme mit p-Werten geplottet werden. Clusters mit bedeutsamen p-Werte können hervorgehoben werden. Details sind der Hilfeseite von pvclust zu entnehmen. Es gibt verschiedene
Möglichkeiten der Distanzbildung im Unterskript dist.pvclust im namespace
von pvclust. Das R-Skript hier verwendet die euklidische Distanz.
94
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Bayesischer Test auf Anzahl der Cluster
Das Paket bayesclust erlaubt auf Basis bayesischer Statistik den Test auf eine
bestimmte Anzahl von Clustern. Bayesische Statistik muss von der klassischen Statistik unterschieden werden (Jaynes, 2003; Bolstad, 2007). Die klassische Statistik bemüht sich um die Wahrscheinlichkeit von Daten angesichts (zumeist unspezifischer) Nullhypothesen mit dem Ziel der Berechnung statistischer Signifikanz. Die bayesische Statistik hat hingegen zum Ziel, den gesunden Menschenverstand zu unterstützen, um Expertenwissen in die Gleichungen einfließen zu
lassen – insbesondere wenn wenige Daten vorliegen – und die Wahrscheinlichkeit von miteinander konkurrierenden Hypothesen angesichts der empirischen
Daten zu kalkulieren.
Zahlentechnisch ähneln sich viele Ergebnisse durchaus. Von der inhaltlichen
Interpretation her bestehen jedoch große Differenzen zwischen klassischer Statistik und bayesischer Statistik. Erstere wird heute als ein Konglomerat der eigentlich miteinander nicht vereinbaren Ansätze von Ronald A. Fisher bzw. Jerzey Neyman und Egon Pearson gelehrt. Historische Hintergründe liefert Jaynes (2003). Der Bayes-Ansatz geht auf die Arbeiten von Reverend Thomas Bayes,
Laplace und in neuerer Zeit Harold Jeffreys (1891–1989) bzw. Edwin Thompson Jaynes (1922–1998) zurück. In der Quanten-, Plasma- oder Astrophysik sind
ohne bayesische Statistik keine vernünftigen Ergebnisse möglich, wie bei Loredo nachzulesen ist (Loredo, 1990, 1992). Die klassische Statistik versagt hier
völlig. Gerade bei geringen Häufigkeiten (z.B. Astrophysik mit n=1) ermöglicht der bayesische Ansatz konsistentes Schlussfolgern bei kleinen Stichproben
(Bretthorst, 1993; Studer, 1996).
Die Unterschiede aufzuzählen wäre zu aufwendig für dieses Manual. Es sei
hier auf die Arbeiten von Jaynes (2003), Loredo (1990, 1992) ode Bolstad (2007)
verwiesen, die sehr gut die Unterschiede herausarbeiten. Anwendungen in der
Sozialwissenschaft sowie eine kurze Einführung in die bayesische Denkweise
findet sich bei Studer (1996, 1998, 2006).
Die Anwendung und besonders die Veränderung der Parameter von
bayesclust erfordern eine intensive Beschäftigung mit Bayes, um zumindest die Kernthesen zu verstehen, so dass eine Interpretation der Daten möglich
ist. Diese Einstellungen müssen deshalb direkt in der Parameterdatei geändert
werden.
Die Funktion cluster.test berechnet die empirische posteriore Wahrscheinlichkeit der Nullhypothese H0 (keine Cluster) versus H1 (k Cluster). Für den Parameter k gilt strikt, dass k>1. Es wird wie bei den anderen Funktionen zur Clusteranalyse nach den Spalten ausgewertet. Der Bayes Factor (BF) der Hypothese
wird auf Basis des bekannten Metropolis-Hastings (MH) MCMC Algorithmus berechnet. Die Anzahl der Simulationen hierfür ist anzugeben. Damit eine Kon-
9.1. HIERARCHISCHE CLUSTERANALYSE
95
vergenz der Simulationen möglich ist, sollte dieser Wert nsim>=500’000 liegen.
Wie bei pvclust dauert das eine ganze Zeit. Der Test selbst wiederum kann auch
wiederholt werden. Dies regelt die Variable replications. Das erlaubt eine Konvergenz der Schätzungen aus der posterioren Wahrscheinlichkeitsverteilung. Die
Hilfeseiten empfehlen hier keine bestimmte Anzahl wie etwa bei nsim.
Für alle weiteren Parameter lesen Sie bitte die Hilfeseiten bzw. Grundlagenliteratur zur bayesischen Statistik, um das zugrundeliegende Konzept und die
Begrifflichkeiten zu verstehen. Es unterscheidet sich wie bemerkt deutlich von
dem der klassischen Statistik, wie sie in den Sozialwissenschaften gelehrt wird.
9.1.3
Datenbasis
Die Datenbasis ist eine Häufigkeitstabelle
(s. Abb. 9.3). Ausgewertet wird nach den Reihen
zur Bildung von Distanzmatrizen. Standardmäßig
wird deshalb die AQUAD 7 Matrix transponiert,
damit die Spalten (z.B. nach Sprechercodes) ausgewertet werden. pvclust analysiert hingegen
Spalten. Deshalb wird für diesen Aufruf die
Matrix intern automatisch transponiert.
9.1.4
Abb. 9.3.
Auswahl Datenbasis
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 9.4. Das RSkript führt auf Basis der euklidischen Distanzen den hierarchischen Clustertest von Oldenbürger (1981) aus. Die permutativen Simulationen
werden als Standard n=1000 mal durchgeführt.
Als kritische Überschreitungswahrscheinlichkeit
wird im gesamten R-Skript p.crit=0.06 angesetzt.
Dem folgt die Berechnung der verschiedenen hierarchischen Clusterlösungen und der in
Kap. 9.1.2 aufgeführten Gütekriterien, die von
Handl (2002) und dessen S-PLUS/ R-Skripten
übernommen wurden. Diese haben die Anzahl
der Cluster und die Zuordnung der Objekte zu
den jeweiligen Cluster zum Ziel.
Das Paket pvclust ermittelt p-Werte auf Basis
von Bootstrap-Simulation und plottet diese innerhalb eines Dendrograms. pvclust nutzt intern die
Abb. 9.4.
Experteneinstellungen hierarchische Clusteranalyse
96
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Funktion hclust zur Bildung der hierarchischen Cluster, die auch an den anderen Stellen im R-Skript Verwendung findet. Der Standardwert lautet 2500 Simulationen.
Das Paket bayesclust erlaubt die Testung auf eine vorgegebene Anzahl von
Clustern auf bayesischer Basis. Die Parameter zur Steuerung von bayesclust
müssen direkt in der Parameterdatei geändert werden (s. Tab. B.6 in Anhang B.6).
Sie setzen ein profundes Wissen um das Verfahren voraus. Für den Beginn lohnt
es sich, hier nichts zu verändern. Standardmäßig wird im R-Skript nsim>5’00’000
angesetzt für den MH Algorithmus und repli>1 Replikationen für den gesamten Test. Möchten Sie diese Werte ändern, ändern Sie dies bitte direkt in der Parameterdatei. Falls Sie falsche bzw. ungünstige Eingangswerte gewählt haben,
kann es sein, dass Sie die Berechnung abbrechen müssen und mit verbesserten
Eingangswerten neu starten.
Sowohl pvclust als auch bayesclust werden standardmäßig nicht ausgeführt, sondern müssen über die Experteneinstellungen aktiviert werden.
9.1.5
Ausgaben
Es werden die folgenden Dateien ausgegeben (s. Tab. 9.4). Die Dateinamen orientieren sich an den Übergaben im Skript.
9.1.6
Ergebnisse und Interpretation
Der zufallskritische Test auf hierarchische Clusterbarkeit liefert die Mittelwerte
und Standardabweichungen für die empirischen und die simulierten Werte der
Prüfgrößen Dep f ui A und Dep f ui B (s. Abb. 9.5). Dazu gehört die initiale Distanzmatrix auf der Basis von euklidischen Distanzen. Entlang einer kritischen Überschreitungswahrscheinlichkeit p.crit ist die statistische Signifikanz festzustellen.
Auf die Berechnung von Effektstärken wurde verzichtet, da die Simulation die
Anwendung der hierarchischen Clusteranalyse legitimiert, aber von keinem weiteren Nutzen ist und insbesondere Aussagen auf inhaltlicher Ebene bisher nicht
vorliegen. Graphisch wird die Simulation durch Histogramme (je getrennt für
Dep f ui A und Dep f ui B ) und Scatterplot (Dep f ui A vs. Dep f ui B ) dargestellt.
Bedingt durch die vielfältigen Möglichkeiten, Distanzmatrizen und Agglomerationsverfahren zu kombinieren, wurden die gängigsten Kombinationen
ausgesucht: single-linkage, complete-linkage, average-linkage und Ward. Für
Ward wurde die Manhattan-Matrix anstatt euklidischer Distanzen berechnet.
Speziellere Varianten müssen direkt im R-Skript umgesetzt werden. Dort sind
die entsprechenden Hinweise zu finden. Jede der genannten Kombinationen
aus Distanzmatrix und Agglomerationsverfahren wird als Dendrogramm ausgegeben. Hinzu kommt jeweils die Treppenfunktion mit der Anzahl der Gruppen
versus ihrem Verschmelzungsniveau.
9.1. HIERARCHISCHE CLUSTERANALYSE
Inhalt
R Session
bayesclust (Zwischenergebnisse, insb.
Simulationen)
Test auf hierarchische Clusterbarkeit
(Histogramm und Dichteschätzung der
simulierten Verteilung bzw. der zwei
Prüfgrößen Depfui A bzw. B, Scatterplot
der zwei Prüfgrößen, QQ-Plot der beiden
Prüfgrößen gegen die Normalverteilung)
Hierarchischer Clustertest (Dendrogramm
und Treppenfunktion pro
Verfahrenskombination aus Distanzmatrix
und Agglomerationsverfahren
pvclust.boot (Dendrogramm pro
Verfahrenskombination aus Distanzmatrix
und Agglomerationsverfahren)
bayesclust (Histogramm Simulation
Nulldistribution, optimale Cluster,
posteriore probabilities)
Ergebnisse Test auf hierarchische
Clusterbarkeit
Ergebnisse Distanzmatrizen (Manhattan, 3x
euklidisch), hierarchische Clusteranalyse
(ward, single, average, complete),
Klassenzugehörigkeit, Kophenetische
Korrelationen, Gammakoeffzienten, Test
von Mojena (Anzahl der Cluster)
Ergebnisse pvclust.boot Analyse
Ergebnisse bayesclust Analyse
initiale Distanzmatrix (Basis des Tests auf
hierarchische Clusterbarkeit)
Abkürzung Reihennamen
simulierte Werte Test auf hierarchische
Clusterbarkeit
Tab. 9.4:
97
Dateityp
Binärfile des R
Binärfile des R
Dateiendung
.RData
.RData
Plot
.emf
Plot
.emf
Plot
.emf
Plot
.emf
Text
.txt
Text
.txt
Text
Text
Text
.txt
.txt
.txt
Tabelle
Tabelle
.csv oder .tab
.csv oder .tab
Ausgabedateien hierarchische Clusteranalyse
98
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Abb. 9.5.
Ausgabe Test auf hierarchische
Clusterbarkeit
Abb. 9.6.
Ausgabe γ-Koeffizient
Auf der Basis der bei Handl (2002) diskutierten Gütekriterien wird folgend
die Klassenzugehörigkeit der Objekte berichtet auf Basis der angegeben Anzahl
von Clustern. Die kophenetischen Matrizen, kophenetischen Korrelationenskoeffizienten und γ-Koeffizienten (s. Abb. 9.6) und der Test von Mojena (mit beiden Kriterien,
s. Kap. 9.1.2) geben weiteren Aufschluss über die Güte der Lösungen sowie die
vermutete Anzahl der Cluster (s. Abb. 9.7) bzw. die Zuordnung der Objekte zu
den Clustern (s. Abb. 9.8).
pvclust.boot testet via Bootstrapping die jeweiligen Cluster auf statistische
Signifikanz. Hierzu liegen Dendrogramme vor, die statistisch bedeutsame Cluster hervorheben (s. Hilfeseiten des Pakets pvclust).
bayesclust liefert einen Test auf eine bestimmte Anzahl von Clustern.
Pflichtlektüre ist der Artikel der Autoren des R-Paketes (Gopal et al., 2012). Der
Plot der posterioren Wahrscheinlichkeitsverteilung ist auf Konvergenz zu untersuchen. Mit emp2pval kann die von cluster.test berechnete empirische posteriore Wahrscheinlichkeitsverteilung in einen frequentistischen p-Wert umgerechnet werden. Dies erlaubt einen klassisch statistischen Signifikanztest. Es ist zu
fragen, ob das wirklich sinnvoll ist, wenn schon der bayesische Aufwand betrieben wurde und eine wahrscheinlichkeitstheoretische Interpretation vorliegt, die
9.1. HIERARCHISCHE CLUSTERANALYSE
99
Abb. 9.8.
Abb. 9.7.
Ausgabe Anzahl Cluster
Ausgabe Zuordnung zu Cluster
den plausiblen Umgang mit Ungewissheit erlaubt. Wozu braucht es dann noch
einen p-Wert? Vor der Konvertierung in einen p-Wert ist mit nulldensity eine
Nullverteilung zu generieren, die exakt dieselben Parameter verwenden muss
wie cluster.test, da ansonsten die Konvertierung fehlschlägt und ein frequentistischer Signifikanztest nicht möglich ist. Mit cluster.optimal können die vier
besten Clusterlösungen zu der vorgegebenen Anzahl an Clustern ausgegeben
werden.
9.1.7
Beispieldatensatz
Als Beispieldatensatz dient ein Datensatz von Gürtler (2006) zu Humor bei Lehrenden. Es wurden n=10 Lehrende zu Humor und ihren Versuchen, diesen in
die eigene Lehre zu implementieren, untersucht. Die Interviews wurden mit
AQUAD 6 kodiert und Kodierungen teilweise zu Metacodes zusammengefasst.
Die Codeliste wurde tabellarisch ausgezählt und zwar getrennt nach Sprechercodes (d.h. Fall bzw. Person). Der Datensatz findet auch bei der multidimensionalen Skalierung (s. Kap. 9.3.7) und der Prototypenbildung (s. Kap. 9.4.7) Verwendung, da es jedesmal um eine räumliche Anordnung von Nähe und Distanz von
Merkmalsträgern geht. Der Datensatz kann so trianguliert untersucht werden,
jeweils mit etwas anderer Methodik.
In der Studie von Gürtler (ebd.) wurde aus den Daten eine Typologie zum Einsatz von Humor in Lehr-Lernkontexten gebildet. Hierbei gingen noch Ergebnisse
der Implikantenanalyse (s. Kap. 11.1) desselben Datensatzes ein.
100
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Test auf hierarchische Clusterbarkeit:
Test auf hierarchische Clusterbarkeit: Int_MC_x_Person_110504
Depfui A vs. Normalverteilung
0.0
0.1
0.20
emp. Wert:-1.554
krit. Wert:-1.555
Stichproben Quantile
0.25
Dichteschätzung
0.2
0.3
0.30
0.4
Histogramm Depfui A
-3
-2
0
2
-2
-1
0
1
theoretische Quantile
2
4
z-Wert
simuliert vs. empirisch
Abb. 9.10.
Abb. 9.9.
Beispieldatensatz Test auf
hierarchische
Clusterbarkeit
(Histogramm Dep f ui A )
Beispieldatensatz Test auf
hierarchische Clusterbarkeit
(Dep f ui A vs. Normalverteilung)
Die graphischen Outputs der Analysen zeigen das Histogramm der simulierten Prüfgrößenverteilung Dep f ui A (s. Abb. 9.9) sowie den zugehörigen empirischen Wert, ein Scatterplot der beiden simulierten Verteilungen
für Dep f ui A und Dep f ui B (s. Abb. 9.11), ein Plot von Dep f ui A gegen die
Normalverteilung (s. Abb. 9.10) sowie ein Dendrogramm (Manhattan-Matrix,
Ward-Verfahren, s. Abb. 9.12). Hinzu kommt die zugehörige Treppenfunktion (s. Abb. 9.13) sowie das Ergebnis der Bootstrapsimulation (Dendrogramm)
mit pvclust (s. Abb. 9.14). Hinsichtlich der bayesischen Lösung zur Testung
der Anzahl von bedeutsamen Clustern liegen Plots für die Konvergenz posteriorer Wahrscheinlichkeiten (s. Abb. 9.15), die Simulation der Nullverteilung
(s. Abb. 9.16) sowie die optimalen Cluster (s. Abb. 9.17) vor.
Wie aus dem Histogramm ersichtlich wird, liegt der empirisch Wert für
Dep f ui A quasi direkt auf der angesetzten kritischen Überschreitungswahrscheinlichkeit p.crit=0.06 mit einem z-Wert von z=-1.55. Dies kann sich durch eine noch höhere Anzahl von Simulationen sowohl in die eine als auch die andere
Richtung verschieben. Im Beispiel wurden 1000 Simulationen berechnet.
Ausgehend von der heuristischen Natur des Gesamtverfahrens liegen keine Hinweise vor, die die Anwendung hierarchischer Agglomerationsverfahren
3
9.1. HIERARCHISCHE CLUSTERANALYSE
101
Test auf hierarchische Clusterbarkeit: Int_MC_x_Person_110504
Scatterplot Depfui A vs. B
AA
MR
GD
KK
0.25
Depfui A
0.30
CH
0.20
AH
20
UV
DK
0.12
KL
40
30
0.14
EN
0.16
Höhe
Depfui B
0.18
0.20
50
0.22
0.24
60
0.26
Cluster Dendrogramm
Int_MC_x_Person_110504
Distanz: manhattan | Agglomeration: ward
hclust (*, "ward")
Abb. 9.11.
Beispieldatensatz Test auf
hierarchische Clusterbarkeit
(Scatterplot Dep f ui A vs.
Dep f ui B )
Abb. 9.12.
Beispieldatensatz Dendrogramm Ward Verfahren
Cluster Dendrogramm (Bootstrap)
60
Staircase Plot: Int_MC_x_Person_110504
50
50
60
au bp
edge #
74 13
8
83 32
6
76 11
5
77 24
3
9
Abb. 9.13.
8
7
6
5
4
Anzahl Gruppen
Beispieldatensatz
funktion
3
2
KK
CH
0
AH
20
10
95 87
1
10
1
Distanz: manhattan | Agglomeration: ward
Treppen-
Abb. 9.14.
62 24
2
Beispieldatensatz Bootstrap
Simulation (pvclust)
UV
MR
GD
DK
30
EN
62 38
4
KL
40
Höhe
AA
Verschmelzungsniveau
20
30
40
74 14
7
102
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Running Posterior Prob
0.2 0.4 0.6 0.8 1.0
Histogramm
8
84
8e+05
0e+00
4e+05
iterations
4e+05
iterations
Abb. 9.15.
2
0
0
8e+05
0e+00
4e+05
iterations
8e+05
Beispieldatensatz Konvergenz posteriorer Wahrscheinlichkeiten (bayesclust)
60
50
x2
0
10
20
30
40
50
40
30
20
10
0
20
30
40
50
10
20
30
40
x1
Optimal Clusters
Rank 3
Optimal Clusters
Rank 4
50
50
40
x2
20
10
0
0
10
20
30
30
40
50
60
x1
60
10
10
20
30
x1
Abb. 9.17.
40
50
10
20
30
x1
Beispieldatensatz optimale
Cluster (bayesclust)
0.0
Abb. 9.16.
Optimal Clusters
Rank 2
60
Optimal Clusters
Rank 1
x2
6
4
1
1
1
1
2
0
0.0
0.0
0e+00
x2
8e+05
Running Posterior Prob
0.2 0.4 0.6 0.8 1.0
4e+05
iterations
Running Posterior Prob
0.2 0.4 0.6 0.8 1.0
0e+00
Dichteschätzung
4
6
0.0
0.0
Running Posterior Prob
0.2 0.4 0.6 0.8 1.0
Bayesclust | Simulation Nulldistribution
40
50
0.2
0.4
0.6
0.8
Beispieldatensatz
Simulation
Nullverteilung
(bayesclust)
1.0
9.1. HIERARCHISCHE CLUSTERANALYSE
komplett verbieten würden. Es ist aber zu bedenken, dass die Daten evtl. nicht
vollständig clusterbar sind. Eine spätere Interpretation hat dies zu berücksichtigen.
Der Plot der simulierten Prüfgrößenverteilung Dep f ui A zeigt sehr schön,
dass diese ziemlich normalverteilt ist. Würde bei Dep f ui B geschaut (nicht abgebildet, s. Verzeichnis \res), wäre ersichtlich, dass diese Prüfverteilung nur
bedingt normalverteilt ist und in den Extremen relativ deutlich abweicht. Der
empirische Wert für Dep f ui B ist folgend weitab festzustellender statistischer Signifikanz mit z=-0.955, was p=0.34 entspricht.
Der Scatterplot der beiden Prüfgrößen Dep f ui A versus Dep f ui B gegeneinander zeigt die Unterschiedlichkeit der beiden Größen. Die grüne Linie im Plot
wurde mit lowess gezeichnet, also eine lokale Regressionslinie. Die blaue Linie
ist diejenige der normalen Regression. Einerseits weisen sie eine sehr hohe Korrelation auf (r=0.85, R2 =72.5%), andererseits zeigt sich gerade in den Extremen
eine sehr große Unterschiedlichkeit. Die Korrelation und der Determinationskoeffizient lassen sich leicht aus dem Ergebnisobjekt mit etwas R-Code extrahieren:
> cor(clt.res$DepfuiAB[,1],clt.res$DepfuiAB[,2])
#r
[1] 0.8514415
> cor(clt.res$DepfuiAB[,1],clt.res$DepfuiAB[,2])^2 #R^2
[1] 0.7249527
Werden die deskriptiven Werte der Prüfverteilungen genommen, so ergibt sich
folgendes Bild:
> summary(clt.res$DepfuiAB)
DepfuiA
DepfuiB
Min. :0.1604
Min. :0.1221
1st Qu.:0.2182
1st Qu.:0.1620
Median :0.2355
Median :0.1752
Mean :0.2353
Mean :0.1765
3rd Qu.:0.2528
3rd Qu.:0.1891
Max. :0.3410
Max. :0.2474 >
Das arithmetische Mittel ist deutlich unterschiedlich. Die Streuungen zeigen:
> apply(clt.res$DepfuiAB,2,sd)
DepfuiA DepfuiB
0.02603799 0.02093271
Wird aus Interesse ein t-Test durchgeführt:
> t.test(clt.res$DepfuiAB[,1],clt.res$DepfuiAB[,2])
Welch Two Sample t-test
103
104
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
data: clt.res$DepfuiAB[, 1] and clt.res$DepfuiAB[, 2]
t = 55.7065, df = 1909.846, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.05678096 0.06092492
sample estimates:
mean of x mean of y
0.2353324 0.1764795
zeigt sich, dass die beiden Verteilungen tatsächlich unterschiedlichen Prüfverteilungen entstammen und die Formeln für die Prüfgrößen (s. Kap. 9.1.2) sich
unterschiedlich auswirken.
Das Dendrogramm (Manhattan-Metrik, Ward-Verfahren) legt zwei Cluster nahe mit verschiedenen Unterclustern. Ebenso zeigt es Ausreisser (EN, AA), die
erst spät in einer Klasse verschmolzen werden. Selbiges – ohne Referenz zur Person – zeigt die Treppenfunktion, die Einblick in das Verhältnis von Anzahl der
Cluster versus Verschmelzungsniveau gibt.
Die Ergebnisse der Boostrap Simulation unterstützen obige Annahme von n=2
Clustern. Die entsprechenden Cluster sind rot umrandet und spiegeln das intuitive Verständnis des Dendrogramms, was bereits auf inhaltlicher Ebene ausformulierbar war. Für die anderen Verfahren (euklidische Distanzen, single, complete und average als Agglomerationsverfahren) wird jedoch nur ein großes
Cluster und ein Ausreisser nahegelegt. Aus dieser Sicht erscheinen n=2 Cluster
nicht gerechtfertigt.
Die bayesische Lösung testet auf n=2 Cluster gemäß obiger Ausführungen.
Werden die Schaubilder der Konvergenz der posterioren Wahrscheinlichkeiten
für die Replikationen betrachtet, fällt auf, dass diese ausnahmslos sehr schnell
Nähe Null konvergieren. Die Umrechnung der bayesischen Lösung in einen frequentistischen p-Wert resultiert in p=0.22. Dies ist nach Standardkonventionen
nicht statistisch signifikant. Dies legt nahe, dass die Daten vermutlich doch nicht
clusterbar sind. Entsprechend ist mit größter Vorsicht die Ausgabe der optimalen
Cluster zu interpretieren, da dies voraussetzt, dass die Daten auf die gewählte
Anzahl von Clustern erfolgreich getestet wurden.
Werden alle Ergebnisse der verschiedenen Verfahren sorgfältig gegeneinander abgewägt, kann geschlussfolgert werden, dass es Hinweise auf Cluster gibt,
dieser aber nicht deutlich genug in Erscheinung treten, um klar genug erkannt
zu werden. Wäre dies statistisch wichtig, müsste zurück zu den Originaldaten
gegangen werden und es wäre zu überprüfen, ob die Kodierungen, die die Datenbasis der berichteten Analysen bilden, auf einem angemessenen Niveau angesiedelt sind. Evtl. sind Kodierungen zusammenzufassen oder zu splitten. Dann
wären die Analysen zu wiederholen und die neuen Ergebnisse mit denen des
ersten Durchganges zu vergleichen.
9.2. LINEARE DISKRIMINATION
105
Trotz der vorangegangenen Warnungen über die Unsicherheit im Umgang
mit Clusteranalysen und die berichteten empirischen Ergebnisse konnte in der
Arbeit von Gürtler (2006) durch die Kombination der geschilderten Verfahren eine Typologie aufgestellt werden. Ebenso war es möglich, aus einem einzelnen Fall
– statistisch betrachtet ein Ausreisser – eine eigene Typenklassen zu bilden. So
kommt in der Tat heraus, dass ein hervorstechender und extremer Typ des Umgangs mit Humor auf fehlenden Grenzsetzungen basiert und als sehr ungünstiges Muster mit den eigenen und fremden Emotionen formuliert werden kann
– quasi ein Grenzgänger (Borderliner) zwischen gesund und fast schon pathologisch. Besonders an einem Fall wurde dies deutlich. Hierbei handelt es sich um
eine Person, die tatsächlich mehrere Jahre nach dieser Studie für über ein Dreivierteljahr mit “Burn-out” – besser – Diagnose “schwere Depression” krankgeschrieben wurde und psychotherapeutischer Betreuung bedurfte. In der multidimensionalen Skalierung (s. Abb. 9.29, S. 119) ist diese Person deutlich erkennbar.
In der Clusteranalyse zeigt diese Person auch eine gewisse Isolierung, wird aber
nicht als letztes durch die Algorithmen in das Hauptcluster verschmolzen. Die
Gründe wiederum werden – statistisch betrachtet – aus dem Schaubild der multidimensionalen Skalierung ersichtlich (Gürtler, 2006, S. 251ff.). Diese Ergebnisse
spiegeln diejenigen der Prototypenanalyse (s. Abb. 9.36, S. 126) sehr eindrücklich
wieder.
9.2
Lineare Diskrimination
Der Menüpunkt Lineare Diskrimination zur Durchführung der linearen bzw. quadratischen Diskriminanzanalyse befindet sich im Untermenü Klassifikation/ Gruppierung
(s. Abb. 9.18).
Abb. 9.18.
9.2.1
Menüpunkt Lineare Diskrimination
Sinn und Zweck
Die Diskriminanzanalyse versucht Objekte zu vorab bekannten Gruppen zuzuordnen bzw. aufgrund von bekannten Merkmalen ihre jeweilige Gruppenzugehörigkeit vorherzusagen. Der Algorithmus entwickelt also eine Zuordnungsregel, um mit binären oder kontinuierlichen unabhängigen Prädiktorvariablen die
abhängige Variable (Gruppenzugehörigkeit) vorherzusagen. Die Gruppen sind
demnach a priori bekannt, die Prädiktoren nicht. Dies ist in etwa der invertierte
Fall der Varianzanalyse, bei der eine abhängige kontinuierliche Variable durch
unabhängige kategoriale Prädiktorvariablen (Gruppen) vorhergesagt wird. Sind
also inhaltlich interessante Gruppierungen vorhanden, erlaubt es die Diskrimi-
106
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
prognostizierte Gruppenzugehörigkeit
echte Gruppenzugehörigkeit
A
B
A
wahr
falsch
B
falsch
wahr
Tab. 9.5:
Fehler bei Gruppenzuordnung
nanzanalyse, Objekte (Prädiktoren) aufgrund ihrer bekannten Merkmale diesen
Gruppen zuzuordnen. Diese Zuordnung kann richtig oder falsch sein. Die Fehlerrate bzw. Trefferquote der Vorhersage der Gruppenzugehörigkeit kann in einer Matrix festgehalten werden (s. Tab. 9.5 für den Fall von zwei Kategorien). Bei
der Klassifikation können Fehler wie folgt vorkommen:
⇒ ein Objekt wird einer falschen Gruppe zugeordnet bzw.
⇒ ein Objekt wird einer Gruppe eben nicht zugeordnet.
Dies spiegelt die grundsätzliche Gestalt wissenschaftlichen oder überhaupt
allgemeinen Schlussfolgerns: falsche Negative und falsche Positive – neben richtigen Negativen und richtigen Positiven
Ist die wahre Zuordnung bekannt, können die Fehlerraten bei der Zuordnung
durch das aufgestellte Modell berechnet werden. Klassische Zuordnungsaufgaben finden sich im Versicherungswesen (z.B. Hochkostenfälle), Krankheitssystem (z.B. Risikopatienten), Bankenwesen (z.B. Zahlungsfähigkeit von Personen
und Organisationen) und Politik (z.B. politische Aktivitäten von Staaten) oder
der Spamerkennung. Es lässt sich jeweils die Güte der gefundenen Lösung bestimmen.
Zu beachten ist, dass eine Diskriminanzfunktion einer zufälligen Zuordnung
überlegen sein muss. Empirisch ist die Trefferquote überhöht, wenn das Modell
an derselben Stichprobe zur Vorhersage eingesetzt wird, welche bereits zur Erstellung des Modells Verwendung fand. Das Modell ist hier natürlich optimiert.
Deshalb ist die Modellschätzung an einer Unterstichprobe oder einer anderen
Stichprobe vorzunehmen. Modellschätzung und Vorhersage sind zu treffen. Mit
wachsendem Stichprobenumfang wird dieser Effekt jedoch geringer (s. Backhaus et al., 1996, S. 116).
Klassifikationsfehler und deren Konsequenzen
In der Realität wäre zu fragen, ob die beiden Zuordnungsfehler inhaltlich gleich
bedeutsam sind und welche Kosten hiermit verbunden sind. Kosten-NutzenRechnungen sind leider in den Sozialwissenschaften noch nicht weit verbreitet.
9.2. LINEARE DISKRIMINATION
Im Versicherungs- oder Bankenwesen ist es deshalb leichter nachvollziehbar,
dass Kosten-Nutzen-Rechnungen essentiell sind. Sie sind abe auch wichtig, weil
sich aus ihren Ergebnissen zusätzlich ethische und professionelle Konsequenzen
zwingend ergeben können. So könnte die Frage lauten, einer Patientengruppe eine teure oder gar eine gefährliche Behandlung zuzuweisen. Wird hierbei die Zuweisung falsch durchgeführt, erhält ein gesunder Patient entweder eine gefährliche Behandlung und wird dadurch überhaupt erst krank oder einer kranker
Patient erhält gar keine Behandlung und stirbt im schlimmsten Fall oder erleidet
andere (Dauer-)Schäden aufgrund der fehlenden Behandlung. Beide Fehler können schwerwiegende Konsequenzen haben und sind ein schwerer Fall für die
Haftpflicht oder – im großen Stil – für Rückversicherer.
Die aufgeführten Fehler sind in der Realität aber nicht immer gleichbedeutsam. So kann es auch sein, dass eine Behandlung für Gesunde ungefährlich
ist, das Ausbleiben dieser ungefährlichen Behandlung im Krankheitsfall aber
lebensbedrohlich. Dann wäre die Fehlerrate der Zuordnung so zu adjustieren,
dass möglichst nie ein kranker Patient eine Behandlung nicht erhält, wohingegen
die Zuweisung eines gesunden Patienten hier nicht so schlimme Konsequenzen
hätte wie im ersten Beispiel. Aus wirtschaftlicher Sicht ist natürlich eine exakte
Zuweisung in jedem Fall wünschenswert.
Die Aufstellung einer guten Zuordnungsregel kann auch einen anderen täglichen Nutzen erfüllen – etwa die Klassifikation von Emails anhand ihres Spamfaktors. Wer will schon wichtige Mails im Spamfilter suchen bzw. von Werbemails im Hauptmailverzeichnis überschwemmt werden? Spamfilter basieren
sehr häufig auf bayesischer Statistik (Klassifikation).
9.2.2
Theorie
Die Ausgangslage der Diskriminanzanalyse ist die Suche einer Entscheidungsregel, um Objekte Gruppen zuzuordnen, wobei die Gruppen unbekannt sind.
Backhaus et al. (1996) geben das Diskriminanzkriterium Γ vor, dass die Varianzen
zwischen und in den Gruppen in einen direkten Zusammenhang bringt:
Γ =
Varianz zwischen den Gruppen
SSb
=
Varianz innerhalb der Gruppen
SSw
SSb (sum of squares between) und SSw (sum of squares within) bezeichnen die Quadratsummen zwischen bzw. innerhalb der Gruppen. Diese Größen
sind bereits aus der Varianzanalyse bekannt. Die Schätzung der Diskriminanzfunktion versucht den Quotienten Γ zu maximieren. Die Varianz zwischen den
Gruppen wird als – durch die Diskriminanzfunktion – erklärte Varianz, die innerhalb der Gruppen als nicht erklärte Varianz bezeichnet. Das Optimierungsproblem ist also ein Problem der maximalen Erklärung der Varianz zwischen
107
108
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
den Gruppen bei minimaler Varianz innerhalb derselben. Die Herleitung dieser
Schätzung ist bei den Autoren (ebd., S.157) nachzulesen. In Kürze läuft dies auf
ein Eigenwertproblem hinaus, wobei jede der möglichen Diskriminanzfunktionen
auf dem nächsten Eigenwert basiert (ebd., S.159). Jede neue Diskriminanzfunktion ist orthogonal zu den vorherigen und erklärt einen Restteil der verbliebenen und bisher nicht erklärten Varianzen in den Gruppen. Durch den Charakter
des Eigenwertproblems liegt rechnerisch jeder Diskriminanzanalyse somit eine
Hauptkomponentenanalyse zugrunde. Die weiteren Unterscheidungsmerkmale
von Hauptkomponentenanalyse und linearer Diskriminanzanalyse können bei
Martinez und Kak (2001) nachgelesen werden..
Handl (2002) listet zwei große Entscheidungsregeln auf und zwar das
Likelihood-Prinzip (Maximum-Likelihood-Regel) und die Zuordnung mittels bayesischer Statistik.
Liegen quantitative und nicht qualitative Merkmale vor, so wird davon ausgegangen, dass diese aus normalverteilten Grundgesamtheiten stammen mit je
Varianz-Kovarianz-Matrix und Vektor der Mittelwerte. Gegeben sind zufällige Beobachtungen aus diesen Populationen, wobei die wahren Gruppenzugehörigkeiten dieser Beobachtungen unbekannt sind. Die Aufgabe besteht nun darin, diese
Gruppenzugehörigkeit aufgrund der erhobenen Merkmale korrekt vorherzusagen.
Wenn über die Gruppenzugehörigkeiten Vorwissen besteht, kann dieses
prinzipiell einfließen. Dann wird anstatt die Population zu finden, die die Likelihood der Beobachtungen maximiert, die posteriore Wahrscheinlichkeit der
Beobachtungen maximiert, einer bestimmten Gruppe zugehörig zu sein.
Lineare und quadratische Diskriminanzanalyse
Es wird die quadratische von der linearen Diskriminanzanalyse unterschieden. Bei
der linearen sind die Varianz-Kovarianz-Matrizen der p-dimensionalen Zufallsvariablen X in der i-ten Gruppe identisch, was die Gleichungen deutlich vereinfacht. Bei der quadratischen unterscheiden sich diese (Handl, 2002). In der Praxis
sind die Parameter (Mittelwerte und Varianz-Kovarianz-Matrizen) der zugrundeliegenden Normalverteilung unbekannt und müssen empirisch aus den Daten geschätzt werden. I.A. werden hierfür die Maximum Likelihood Schätzer
genommen.
Eine weitere Form ist die regularisierte Form der Diskriminanzanalyse (RDA),
die als vermittelnde Methode zwischen linearer und quadratischer Diskriminanzanalyse gilt (Friedman, 1989; Guo et al., 2007).
Der Ansatz von Fisher (1936) kommt ohne die Annahme der Normalverteilung und identischer Varianz-Kovarianz-Matrizen aus (Handl, 2002, S.333ff.).
Dies ist die Basis der R-Funktion lda. Die quadratische Form wird über qda er-
9.2. LINEARE DISKRIMINATION
möglicht. Das Ziel ist es, eine Entscheidungsregel zu finden, bei der die Gruppen die vorliegenden bekannten Merkmale besitzen. Die Gruppenstruktur soll
möglichst gut wiedergegeben werden. Dafür muss die Streuung zwischen den
Gruppen maximal, die innerhalb der Gruppen minimal sein. Das entspricht dem
Kriterium der Likelihood-Funktion. Handl (ebd.) merkt an, “[d]er Ansatz von
Fisher kommt ohne die Annahme der Normalverteilung und identischer Varianzen aus, wobei er ein sinnvolles Zielkriterium formuliert. Dies deutet darauf
hin, dass man die lineare Diskriminanzanalyse in vielen Situationen anwenden
kann.”
Über eine Matrix können die genannten Fehlerraten kontrolliert werden: Auf
der Hauptdiagonalen liegen die richtigen Zuordnungen und auf den Nebendiagonalen jeweils die falschen.
Weitere Verfahren zur Klassifikation sind etwa die logistische Diskriminanzanalyse, Klassifikationsbäume, neuronale Netze und self-organisierte Karten (SOM, selforganized maps).
Klassifikation und Simulation
Sowohl für die Zuordnung der linearen als auch der quadratischen Diskriminanzanalyse können Simulationen durchgeführt werden, um die Güte der Zuordnung im Vergleich zu einer zufälligen zu bewerten. Hierbei stehen die Verfahren
⇒ Bootstrap
⇒ Permutation
⇒ Jack-knife
zur Validierung zur Verfügung. Beim Bootstrap (Efron, 1979; Efron und Tibshirani, 1993, s.a. die Ausgabe der Zeitschrift Statistical Science zum 25-jährigen
Jahrestag des Bootstrap) werden Daten durch Ziehen mit Zurücklegen simuliert.
Bei der Permutation wird mittels Ziehen ohne Zurücklegen simuliert. Die Anzahl
der möglichen Permutationen ohne Wiederholung bei n Objekten ergibt sich aus
n! = n · (n − 1) · ... · 1 oder auch n Fakultät. Die Jack-knife Methode (Quenouille, 1956) lässt jeweils einen Fall (Datum) weg und berechnet darüber das (reduzierte) Modell. Sie ist auch als leave-one-out cross validation bekannt. Aus den simulierten Verteilungen (Zuordnungen) können jeweils Tabellen erzeugt werden, die
die Simulationen mit den “wahren” Klassifikationen bzw. den empirischen auf
Basis der Modellrechnung vergleichen. Daraus lässt sich ablesen, ob ein empirisches Modell tendentiell eher zufällige Zuordnungen vergibt oder ob die Klassifikationen jenseits von Zufälligkeit angesiedelt sind. Angesichts der via Simulation erzeugten Prüfverteilung lässt sich hier immer eine Lokalisation der empirischen Werte innerhalb der simulierten Verteilung angeben bzw. der wahren Wer-
109
110
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
te innerhalb der simulierten Prüfverteilung. Ausgehend vom Gesetz der großen
Zahl kann die Normalverteilung für die genannten Simulationen angesetzt werden und alles lässt sich in z-Werten berechnen und ausgegeben. Am eindrucksvollsten ist jedoch die Tabelle: Auf der Hauptdiagonalen sind die jeweils identischen Zuordnungen und auf den Nebendiagonalen die falschen. Diese Werte
können summiert oder gemittelt ausgegeben werden.
9.2.3
Datenbasis
Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten.
Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu transponieren.
9.2.4
Abb. 9.19.
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 9.19. Das RSkript führt standardmäßig sowohl die lineare als
auch die quadratische Diskriminanzanalyse aus.
Der Gruppenvektor wird deskriptiv beschrieben
und als Boxplot ausgegeben. Im Falle einer zu geringen Stichprobengröße gibt das Skript eine Fehlermeldung aus, da dann qda kein Ergebnis liefert.
Der Berechnung der linearen und der quadratischen Diskriminanzanalyse sowie der Vorhersage aufgrund des Modells folgt eine Simulation. Diese ermöglicht eine Evaluation der Güte des gefundenen Modells. Via Parameter kann
zwischen den Methoden Bootstrap, Permutation,
internes Jack-knife (interne Funktion von lda)
Experteneinstellungen
lineare und Jack-knife (leave-one-out cross-validation)
und quadratische Diskriminanz- gewählt werden.
analyse
Als Ergebnisse werden zunächst für beide Versionen der Diskriminanzanalyse die Vorhersagen
aufgrund des Modells gegen die empirischen Daten tabellarisch aufgelistet und
die Anzahl der richtigen und falschen Zuordnungen ausgegeben. Dasselbe wird
für die simulierten Datensätze durchgeführt, jeweils für die lineare und die quadratische Version. Für die Ergebnisse der linearen Diskriminanzanalyse werden
Histogramme und Dichteschätzungen ausgegeben sowie ein Plot der ersten beiden Diskriminanzachsen (wenn möglich). Zusätzlich werden lineare versus quadratische Version bzgl. ihrer korrekten Klassifikationen untersucht.
Ein Hauptkomponentenanalyse mittels princomp (Eigenwertanalyse der
Korrelations- bzw. Kovarianzmatrix) ergänzt die Analysen sowie ein Mehrfach-
9.2. LINEARE DISKRIMINATION
Inhalt
111
Dateityp
Dateiendung
R Session
Binärfile des R
Boxplot Gruppenfaktor, Ergebnisse Lineare
Plot
.RData
.emf
Text
.txt
Text
.txt
Diskriminanzanalyse,
Hauptkomponentenanalyse sowie deren
Eigenwerte, Histogramme und
Dichteschätzungen Lineare
Diskriminanzanalyse (pro Gruppe, pro
Diskriminanzfaktor), Scatterplot Datensatz (auf
Diskriminanzfaktoren)
Ergebnisse Lineare und Quadratische
Diskriminanzanalyse sowie Simulation und
Hauptkomponentenanalyse
Datensatz Gruppenfaktor (Beschreibung/
Häufigkeiten)
Abkürzungen Reihennamen
Tab. 9.6:
Tabelle
.csv oder .tab
Ausgabedateien lineare Diskrimination
Plot der linearen Diskriminanzanalyse versus der Hauptkomponentenanalyse
für jeweils die ersten zwei Achsen (Biplot, Screeplot der Eigenwerte der Hauptkomponentenanalyse) – wenn möglich.
9.2.5
Ausgaben
Das R-Skript gibt im R-GUI Nummern für den jeweiligen Simulationsdurchlauf aus (s. Abb. 9.20).
Das ermöglicht eine Abschätzung der Geschwindigkeit bei längeren Berechnungen. Es werden die
folgenden Dateien ausgegeben (s. Tab. 9.6). Die
Dateinamen orientieren sich an den Übergaben im
Skript.
Abb. 9.20.
9.2.6
Ergebnisse und Interpretation
Ausgabe Simulation lineare Diskriminanzanalyse
Die Ergebnisse der Analysen geben die Koeffizienten der Diskriminanzachsen
aus für die jeweiligen Gruppen sowie Gruppenmittelwerte und die prioren
Wahrscheinlichkeiten für die Gruppenzugehörigkeiten. Die Untersuchung der
korrekten versus falschen Zuordnungen lässt sich wie bereits erwähnt tabellarisch direkt ablesen (Haupt- bzw. Nebendiagonalen). Die Güte der Zuordnungen
112
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
wird jeweils summarisch zusammengefasst. Identisch sind die Ausgaben für die
Simulationen zu interpretieren. Das empirische Modell wird zusätzlich innerhalb der Simulationsverteilung verortet, so dass dieses zufallskritisch interpretierbar ist. Die Ergebnisse der Hauptkomponentenanalyse werden ausgegeben
(Standardabweichungen, etc. für die Hauptachsen). Weitere und detailliertere
Analysen können direkt durch Öffnen der abgespeicherten R-Ression durchgeführt werden. Es sind die Hilfeseiten der die Objekte erzeugenden Funktionen
zu Rate zu ziehen, um die richtigen Werte aus den Objekten zu extrahieren.
Die Plots sind einschlägige Standardplots, die wie gewohnt zu interpretieren
sind. Weiteres ist den Hilfeseiten zu lda bzw. qda zu entnehmen, die im Paket
MASS enthalten sind.
9.2.7
Beispieldatensatz
Es handelt sich um den klassischen und im R (iris) verfügbaren Datensatz von
Edgar Anderson (1936) zu den Iris-Arten, den Fisher (1936) zur Demonstration
der von ihm entwickelten Diskriminanzanalyse heranzog. Der Datensatz besteht
aus 50 Beobachtungen dreier Arten von Schwertlilien (iris setosa, iris virginica,
irisi versicolor), an denen jeweils vier Merkmale erhoben wurden: Länge und
Breite des Kelchblattes der Blüte sowie des Kronblattes. Die Blüteneigenschaften
verweisen auf die Zuordnung zur Art. Die Originaldaten sind als Boxplot und
geordnet nach ihrer Gruppe zu sehen (s. Abb. 9.21).
Die Ergebnisse (s. Textdatei in /res ausgehend vom AQUAD 7 Haupverzeichnis) zeigen sehr schön die Unterscheidung der drei Lilienarten anhand ihrer
Eigenschaften, die jeweils in die Analyse eingehen.
Die empirische Zuordnung zeigt die entsprechenden Vorhersagewerte und
zwar sowohl die richtigen (Hauptdiagonale) als auch die falschen Zuordnungen aufgrund der aufgestellen Regel durch den Algorithmus auf Basis der Eigenschaften. Die quadratische Diskriminanzanalyse zeigt in der Vorhersagegüte
keine Überlegenheit gegenüber der linearen Version. Der direkte Vergleich zeigt,
dass beide identisch zuordnen. In einem solchen Fall kann das einfachere Modell
Verwendung finden. Ein Scatterplot der linearen Diskriminanzachsen zeigt die
Trennung der Gruppen durch das Verfahren (s. Abb. 9.22).
Die Simulation zeigt, dass das empirische Modell (linear wie quadratisch)
den simulierten Werten weitaus überlegen ist, so dass dadurch die Validität des
Modells sehr plausibel erscheint. Die zugehörigen Histogramme der linearen
Diskriminanzachsen (Vorhersage durch das Modell) demonstrieren ebenfalls die
klare Trennung der Gruppen aufgrund ihrer Merkmale (s. Abb. 9.23).
Das Ergebnis der Hauptkomponentenanalyse und hier der Plot der beiden
Hauptachsen gegeneinander zeigt, dass auch hier die Lilienarten gut voneinan-
9.3. MULTIDIMENSIONALE SKALIERUNG
113
Boxplot
Scatterplot: iris
20
c
cc
c
c
c
2
c
s
s
c
s
18
s
s
LD2
0
s
-1
14
Werte
16
1
s
s s
s
c
c
s
c
v
s
c
c
v
v
v
v
s
vv
v
v
c
c
v c
v
c
c
c
vv
v
vv
v
vv
v
vvvvv
v
v
v
v
v vv
v
v
12
vv
c
c
c
v
v
cc
c
c
v
s
ss ss
s s s
s
s
s
s s
s
ss
s ss s
ss
s s
ss
sss
s s s
s ss
s
cc
c c
c
cc c c
c
c c
c
c
c
c
v
cc
c
v
v
vv
c
v
v
v
10
-2
cc
8
v
-10
c
s
v
-5
0
LD1
5
Gruppen
Abb. 9.22.
Abb. 9.21.
Beispieldatensatz
Gruppenfaktor
Boxplot
Beispieldatensatz Scatterplot lineare Diskriminanzachsen
der getrennt werden (s. Abb. 9.24). Im Screeplot der Eigenwerte ist ein Knick bei
Achse 2 zu sehen.
Wie in der Literatur angemerkt wird, ist jedoch anzumerken, dass die Clusteranalyse (s. Kap. 9.1) und die Diskriminanzanalyse nicht zwangsläufig zu denselben Ergebnissen führen müssen. Ohne Vorwissen resultieren lediglich zwei
Cluster anstatt der richtigen drei. Die Auftrennung in drei Cluster benötigt spezielles Vorwissen. Es gilt eben, dass die Clusteranalyse zuallererst ein exploratives Verfahren repräsentiert, dass nicht blind angewandt werden sollte. Der interessierte Anwender ist eingeladen, mit dem Datensatz die clusteranalytischen
Ergebnisse zu reproduzieren und mit denjenigen der Diskriminanzanalyse zu
vergleichen.
9.3
Multidimensionale Skalierung
Der Menüpunkt Multidimensionale Skalierung befindet sich im Untermenü Klassifikation/Gruppierung (s. Abb. 9.18).
c
c
114
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Histogramme | LD1 | iris
Dichteschätzung
0.0
0.2
0.4
LDA vs. PCA | iris
Hauptkomponentenanalyse
ccc
c ccccc c
c c
v
v c cc
v v cc ccc cc
v vvvvvvvvvv v cccccccc ccc c
cc c
vvvvvvvvv
v vvvv
vcc
c c
v v vvv vvvvv vcv
c
vv
v
cc
v
c
-10
-5
0
LD1
5
-3
-2
Eigenwerte PCA
0.2
4
0.1
PC2
0.0
10
-0.2
5
Comp.1
Abb. 9.23.
9.3.1
Abb.
Beispieldatensatz
Histogramme erste Diskriminanzachse (Vorhersage aufgrund
Modell)
2
3
Comp.2
Abb. 9.24.
Comp.3
Comp.4
0
10
20
v c
v
s
v c
v vvvv
vvv vcccc
sss
v
v vvvvvvv vvcc
sss
vvv vvccccccc
sssssss
vvvvvvcc cc
Petal.Width
ss
c
ssssssss
vvvvvccccccc
Sepal.Length
sssSepal.Width
vvvvccccccccc c
sssss
v v cc cc
ssss
v
s
cc
ss
1
0
Gruppe: v
0
-5
0
1
PC1
-20
Variances
2
3
Dichteschätzung
0.0
0.2
0.4
-10
-1
10
ss
s
-0.2
c
c
0.0
PC1
Beispieldatensatz LD und
PCA
Sinn und Zweck
Bei der metrischen mehrdimensionalen Skalierung (MDS) nach Torgerson (1958) wird eine Konfiguration von
Punkten gesucht, so dass die Verhältnisse der Distanzen zwischen den
Punkten möglichst denen der Distanzen in der Distanzmatrix gleichen.
9.25. Menüpunkt multidimensionale Skalierung
Dabei sind bei n Objekten n-1 Dimensionen möglich. Die Vorgabe ist, möglichst wenige dieser zu verwenden und die angemessene Anzahl der Dimensionen zu finden. Das Verfahren ist deswegen zumeist dimensionsreduzierend.
Der gesuchte Raum mit minimaler Dimensionalität soll möglichst gut die Monotoniebedingung erfüllen. Das bedeutet, dass die Rangreihe der Distanzen in der
gesuchten Konfiguration die tatsächliche Rangreihe der Unähnlichkeit zwischen
den Objekten exakt wiedergibt. In der Praxis kann sich dem nur angenähert werden.
Demnach ist die Basis der MDS eine Distanzmatrix. Es gelten die Eigenhei-
0.1
20
5
10
0
Gruppe: s
0
-5
-20
-10
v
c
vv
v vvvvvv v cccc
vv vvvvvvvvvvvvv ccvvcccccccc
vvvvvvvv c cccc cc
vvvvv vvc cccccc
c
v v v cc c c cc cc
v
cc
cc
s
s ssss
ssssssss
s ssssssssssss
ss
sssss
ss ss
sss
-2
s
-6
Dichteschätzung
0.0
0.2
0.4
-2
s
sss s ss s
ssssssssss s
ssss ss s
ssssssss
sssssss
1
10
PC2
0
5
-1
0
Gruppe: c
4
-5
LD2
0 2
-10
2
6
Lineare Diskriminanzanalyse
0.2
9.3. MULTIDIMENSIONALE SKALIERUNG
ten bei der Bildung von Distanzmatrizen (s. Kap. 9.1.2). Die Lösung einer MDS
ist nicht absolut, sondern relativ. Das heißt, dass Lage und Ausrichtung sowie
Skalierung nicht eindeutig sind. Deshalb kann für eine inhaltliche Interpretation
der Lösung diese beliebig um den Nullpunkt gedreht werden, um eine solche zu
erleichtern. Sowohl Verschiebungen als auch Drehungen um den Nullpunkt verändern nichts strukturell. Gleiches gilt für eine gleichmäßige Vergrößerung der Abstände der Punkte voneinander vom Nullpunkt, da die Koordinaten gleich bleiben.
Die Distanzen zwischen den Punkten bleiben gleich. Inhaltlich eindeutiger wird
die Konfiguration zumeist dadurch, dass der Nullpunkt als Zentrum genommen
wird. Nun kann es für eine leichtere Interpretation noch gedreht werden.
Die Lösung einer MDS kann im zweidimensionalen Fall leicht visualisiert
werden. Sie ähnelt einer Landkarte und steht für eine Darstellung der Punkte (Objekte) im zweidimensionalen Raum. Die Lösung der metrische MDS auf
Basis euklidischer Distanzen entspricht derjenigen der Hauptkomponentenanalyse auf Basis einer Datenmatrix mit quantitativen (metrischen) Merkmalen. Der
Unterschied besteht in einer 180 Grad Drehung der Lösungen zueinander, wie
Handl (2002) zeigt. Die MDS im dreidimensionalen Fall lässt sich ebenfalls visualisieren. Sie ähnelt dann einer intuitiv verstehbaren dreidimensionalen Landschaft.
Die nicht-metrische multidimensionale Skalierung (Kruskal, 1964) entspricht der
metrischen MDS, nur dass hier die Reihenfolge der Distanzen und nicht die Distanzen selbst im Fokus stehen.
9.3.2
Theorie
Die Ausgangslage bilden metrische Daten.
Eine Herleitung ist bei Handl (2002) zu finden. Vereinfacht ist die Lösung
einer multidimensionalen Skalierung ein Eigenwert- bzw. Eigenvektorproblem einer aus der Distanzmatrix umgeformten Matrix nach bestimmten Kriterien. Die
Koordinaten der Daten ergeben sich aus den m größten Eigenwerten zu einem
m-dimensionalen Raum.
Zunächst werden die euklidischen Distanzen zwischen den Punkten der Datenmatrix gebildet. Folgend wird eine Konfiguration gesucht in R2 , die diese
Distanzmatrix besitzt. Eine solche Lösung ist uneindeutig bzgl. Nullpunkt und
Drehung um den Nullpunkt. Das heißt, die Konfiguration kann verschoben werden, ohne dass sich die Distanzen ändern.
Es gibt jedoch Distanzmatrizen, für die keine exakte Darstellung im Raum gefunden werden kann. In den Fällen sind mindestens ein oder mehrere Eigenwerte negativ. Durch Addition einer Konstanten c ausserhalb der Hauptdiagonalen
der Distanzmatrix lässt sich dies umgehen. Dann “existiert eine exakte Darstellung in R2 ” (ebd., S. 155). Es gilt, dass für jeden größeren Wert von c eine exakte
115
116
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Darstellung in R2 möglich ist. Den Beweis liefern Cox und Cox (1994, S. 35ff.).
Eine Konstante c lässt sich bei metrischem Niveau immer addieren.
Es werden zwei goodness-of-fit (GOF) Kriterien gelistet (Mardia et al., 1979).
Es ist zu schauen, wie nah an Eins diese Werte kommen. Ihre Berechnung basiert
grob auf einem Quotienten der Summe der Eigenwerte, wobei im Zähler bis zur
gewählten Dimension k aufsummiert wird (max. n-1) und im Nenner bis zur Anzahl n der Beobachtungen (maximale Summe). Zusätzlich wird im Nenner unterschieden, ob absolute Eigenwerte summiert werden oder nur die Eigenwerte
größer Null. Daraus resultieren zwei Gütewerte.
Obwohl die Analyse einer multidimensionalen Skalierung auch nach der Anzahl der angemessenen Dimensionen fragt, erscheint im qualtitativen Bereich alles
über zwei bzw. drei Dimensionen unangemessen. In einem solchen Fall fällt es schwer
bzw. wird es unmöglich, die Dimensionen noch inhaltlich zu verstehen und ordentlich zu interpretieren. Deshalb wird empfohlen, mit zwei Dimensionen anzufangen und interessehalber die dritte Dimension zusätzlich zu betrachten oder
direkt einzubeziehen, wenn dies theoretisch sinnvoll erscheint. Vieles wird deutlicher, wenn nur zwei oder manchmal drei Dimensionen betrachtet werden, weil
dann die reine Nähe und Distanz von Fällen so betont wird, dass es unserem intuitiven menschlichen Verständnis von Nähe und Distanz entgegenkommt. Die
Konfigurationen ähneln dann immer einer Landkarte, auf der es leicht fällt sich
zu orientieren. Die angemessene Wahl der Dimensionen basiert auf einer Analyse der Eigenwerte. Details hierzu liefert Handl (2002).
Zusammenhang von metrischer MDS und Hauptkomponentenanalyse
Der Zusammenhang zwischen metrischer multimensionaler Skalierung und
Hauptkomponentenanalyse (PCA) ist, dass die Resultate identisch sind, nur um
180 Grad zueinander verdreht. Da die Ergebnisse aber nicht bezüglich Nullpunkt
und Drehung eindeutig sind, gelten die Ergebnisse deshalb als identisch. Die Datenbasis ist aber eine unterschiedliche. Bei der Hauptkomponentenanalyse werden metrische Merkmale in Form einer Datenmatrix untersucht. Bei der multidimensionalen Skalierung handelt es sich um eine metrische Distanzmatrix auf
Basis euklidischer Distanzen. Eine Datenmatrix kann aber in eine Distanzmatrix
überführt werden. Den Beweis liefern Mardia et al. (1979).
9.3.3
Datenbasis
Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Reihen
zur Bildung von Distanzmatrizen. Standardmäßig wird deshalb die AQUAD 7
Matrix transponiert, damit die Spalten (z.B. nach Sprechercodes) ausgewertet
werden. Ist dies nicht erwünscht, ist die Matrix vorab zu transponieren.
9.3. MULTIDIMENSIONALE SKALIERUNG
9.3.4
117
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 9.26. Das RSkript skaliert standardmäßig vor Berechnung der
Distanzen. Die Frage der Normierung von Daten
wird bei Handl (2002, S. 86ff.) bzw. Meiser und
Humburg (1996, S. 289) hinsichtlich von Vorteilen
und Nachteilen gleicher Varianz diskutiert. Wird
eine Normierung (Skalierung) nicht gewünscht,
kann dies in der Parameterdatei verändert werden. Entsprechende Konsequenzen beim Wegfall
der Normierung – eben unterschiedliche Skalenkennwerte – sind zu beachten. Es wird die Distanzmatrix und der zweidimensionale bzw. dreidimensionale Fall der MDS berechnet und ausge- Abb. 9.26. Experteneinstellungen multidigeben. Eigenwerte, Plots und Scatterplots der Dimensionale Skalierung
mensionen werden standardmäßig für den zweibzw. dreidimensionalen Fall der MDS generiert. Im zweidimensionalen Fall werden die Ergebnisse mit denjenigen der Prototypenanalyse in der Graphik kombiniert (s. Kap. 9.4), so dass diese Analyse quasi en passent zur Generierung der
Plots zusätzlich im Hintergrund durchgeführt wird. Tabellen zu den Eigenwerten und die doppelt zentrierten symmetrischen Distanzmatrix vervollständigen
das R-Skript jeweils für den zwei- bzw. dreidimensionalen Fall.
9.3.5
Ausgaben
Es werden die folgenden Dateien ausgegeben (s. Tab. 9.7). Die Dateinamen orientieren sich an den Übergaben im Skript.
9.3.6
Ergebnisse und Interpretation
Zur Interpretation von cmdscale ist dessen Hilfeseite zu Rate zu ziehen. Das
Objekt enthält zunächst die Koordinaten der Punkte auf den Dimensionen der
gefundenen Konfiguration. Hinzu kommen die Eigenwerte und die doppelt zentrierte Distanzmatrix. Die optionale additive Konstante c wird ebenfalls gelistet
sowie die beiden goodness-of-fit (GOF) Kriterien.
Die graphischen Outputs verorten die Punkte und ihre Benennungen – deshalb Abkürzungen verwenden! – im den zwei- bzw. dreidimensionalen Raum.
Zusätzlich werden für den zwei- bzw. dreidimensionalen Fall die Eigenwerte
geplottet. Eine richtige dreidimensionale Darstellung erlaubt einen räumlichen
Blick auf diese Konfiguration. Alle Plots sind letztlich intuitiv interpretierbar im
118
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Inhalt
Dateityp
Dateiendung
R Session
Binärfile des R
Plots der Multidimensionalen Skalierung
Plot
.RData
.emf
Distanzmatrix der Datenmatrix
Text
.txt
Ergebnisse der Multidimensionalen Skalierung
Text
.txt
(Eigenwerte 2D, Scatterplot 2D & 3D, 2D
zusammen mit optimaler Schnitt, 3D)
(2D, 3D)
Distanzmatrix der Datenmatrix
Tabelle
.csv oder .tab
2D Eigenwerte
Tabelle
.csv oder .tab
3D Eigenwerte
Tabelle
.csv oder .tab
2D doppelt zentrierte symmetrische
Tabelle
.csv oder .tab
Tabelle
.csv oder .tab
Tabelle
.csv oder .tab
Distanzmatrix
3D doppelt zentrierte symmetrische
Distanzmatrix
Abkürzungen Reihennamen
Tab. 9.7:
Dateiausgaben multidimensionale Skalierung
Rahmen des menschlichen Verständnisses von Landkarten sowie Nähe und Distanz.
Es gilt – mit den Eindrücken und Hypothesen zurück an die Originaldaten,
um konkrete Hypothesen bzgl. der Zusammenhänge in den Daten auszuformulieren und sukzessive durchzutesten.
9.3.7
Beispieldatensatz
Der Beispieldatensatz entstammt der Studie von Gürtler (2006), die bereits in den
Kap. 9.1.6 bzw. 9.4.7 Verwendung findet. Zur Interpretation stehen zunächst die
Scatterplots der zwei bzw. drei Achsen des zwei- bzw. dreidimensionalen Falles
(s. Abb. 9.27 bzw. Abb. 9.28) zur Verfügung. Dem folgt eine kombinierte Darstellung aus MDS und Prototypenanalyse (s. Kap. 9.4) ebenfalls für den zwei- bzw.
dreidimensionalen Fall (s. Abb. 9.29 bzw. Abb. 9.30), die das Landkartenschema
repräsentieren. Dies wird durch einen Screeplot der Eigenwerte des zweidimensionalen Falles ergänzt (s. Abb. 9.31).
In Ergänzung bzw. Kontrastierung zu den Ausführungen zur hierarchischen
Clusteranalyse (s. Kap. 9.1.7) werden durch die Hinzunahme des optimalen
Schnitts nicht nur Nähe und Distanz der Personen (Fälle) deutlich, sondern auch
ihre Verknüpfungen – wer also welche Verbindungen mit wem aufzeigt und
zwar im binären Sinne (Verbindung vorhanden bzw. nicht).
9.3. MULTIDIMENSIONALE SKALIERUNG
119
Int_MC_x_Person_110504 | Scatterplot MDS (3D)
Int_MC_x_Person_110504 | Scatterplot MDS (2D)
-50
0
0
50
50
50
100
100
-50
-100
0
-100
50
-50
0
Achse I
-50
50
0
Achse I
0
60
50
-50
Achse II
20
40
Achse II
0
-40
-20
-50
Achse III
-100
-50
Abb. 9.27.
0
50
100
-100
Beispieldatensatz
terplot Achsen I
(MDS)
Scatund II
-50
0
Abb. 9.28.
50
100
-40
-20
0
20
40
60
Beispieldatensatz
Scatterplot Achsen I, II und III
(MDS) und optimaler Schnitt
Int_MC_x_Person_110504
Int_MC_x_Person_110504 | MDS (3D)
Optimaler Schnitt | MDS (2D)
4
AA
80
EN
3
DK
GD
AH
60
40
EN
20
CH
UV
MR
-20
100
50
-40
-4
AH
0
-60
-50
-150
-6
-4
-2
0
2
4
-100
-100
Achse I
Abb. 9.29.
Beispieldatensatz Visualisierung MDS (2D) und optimaler Schnitt
-50
0
50
100
150
6
Achse I
Abb. 9.30.
Beispieldatensatz räumliche
Darstellung (MDS 3D)
Achse II
KL
-3
-2
GD
UVKL
KK
MR
KK
DK
0
Achse III
0
1
AA
-1
Achse II
2
CH
120
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Int_MC_x_Person_110504
0
10000
20000
Wert
30000
40000
Eigenvalues (MDS | (2D)
2
Abb. 9.31.
4
6
lfd. Index
8
10
Beispieldatensatz Screeplot
Eigenwerte (MDS)
Abb. 9.32.
Ergebnisausgabe multidimensionale Skalierung
Der Screeplot zeigt einen Knick bei der dritten Achse, so dass eine dreidimensionale Lösung gerechtfertigt erscheint. Die goodness-of-fit Kriterien des zweidimensionalen Falles zeigen mit jeweils GOF=0.46 eine eher bescheidenere Größe (s. Abb. 9.32). Somit ist dieses Modell nicht unbedingt eine gute Anpassung
an die Daten. Ebenfalls sind die Koordinaten der Punkte sowie die Eigenwerte
abzulesen. Für den dreidimensionalen Fall (nicht abgebildet) steigen die Werte
jeweils of GOF=0.74, was ein deutlicher Zugewinn ist. Dies spricht für die Verwendung von drei anstatt zwei Dimensionen.
9.4
Prototypen
Der Menüpunkt Prototypen
on/Gruppierung (s. Abb. 9.33).
9.4.1
befindet
sich
im
Untermenü
Klassifikati-
Sinn und Zweck
Prototypen lassen sich als diejenigen Vertreter eine Klasse definieren, die zu allen
anderen Vertretern derselben Klassen die geringste Distanz aufweisen. Die Identifikation eines Prototypen kann helfen, eine Typologie aufzubauen. Dies kann
etwa in Kombination mit der Implikantenanalyse (s. Kap. 11.1) stattfinden. Eben-
9.4. PROTOTYPEN
so hilft es manchmal, bestimmte Vertreter im Datensatz zu identifizieren, die den
Datensatz nach diesem Kriterium maximal oder minimal repräsentieren. Solche
Repräsentanten mit maximaler Distanz zu allen anderen müssen nicht zwangsläufig Ausreisser im statistischen Sinne sein – etwa operationalisiert über eine
sehr große Entfernung vom Mittelwert.
Es ist also zu fragen, welche Vertreter eines Datensatzes besonders typisch oder besonders untypisch sind.
Aus dieser Differenz heraus lässt
sich im Sinne des maximalen Kontrastes im Rahmen der Methodologie der Grounded Theory (Glaser und
Abb. 9.33. Menüpunkt Prototypen
Strauss, 1998; s.a. Hildenbrand, 2005,
Schaubild S. 69) einiges über das Forschungsfeld und die Strategie der Stichprobengenerierung erlernen, so dass Schlussfolgerungen gezogen und weitere Hypothesen formuliert werden können. Ziel ist es, ein Forschungsfeld zu erfassen
und die dortigen typischen und untypischen Vertreter zu rekonstruieren, um die
Bandbreite eines Themas möglichst suffizient zu erheben. Dies ist sicherlich kein
statistisches Vorgehen, sondern ein genuin qualitatives.
9.4.2
Theorie
Das eingesetzte Verfahren orientiert sich an Oldenbürger (1981). Der Autor nennt
das Verfahren den optimalen Schnitt durch eine Proximitymatrix. Dieser ist nach
(ebd., S.155) wie folgt definiert:
“Für eine beliebige Proximitymatrix wähle man das Cutkriterium c
so, dass die kophenetische Korrelation zwischen der adjunkten (0,1)Matrix der repräsentierenden Relation und der repräsentierten Proximitymatrix ein Maximum ist. Die Höhe von r cc liefert eine Maßzahl
für die globale Bewertung der Abbildungsleistung.”
Das Verfahren des optimalen Schnitts erzeugt aus einer Proximitätsmatrix eine Binärtabelle. Auf der Basis von Distanzmatrizen wird diejenige gesucht, die maximal mit sich selbst in Form einer Null-Eins Matrix korreliert, da die größte
Abbildungsleistung zu realisieren.
Ausgangspunkt ist also eine Distanzmatrix. Nun wird die obere (oder untere) Dreiecksmatrix der Distanzmatrix ohne Diagonale genommen. Für jeden Distanzwert wird die Dreiecksmatrix gesplittet und zwar so, dass all diejenigen
Werte di < crit eine Null erhalten und all diejenigen, für die di ≥ crit gilt, eine
Eins. Ob das Gleichheitszeichen beim ≤ Zeichen oder ≥ Zeichen verortet wird,
ist inhaltlich zu begründen und hat keine statistische Begründung. In gewisser
121
122
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Weise ist es subjektiver Natur, ob größere oder kleinere Werte bezogen auf das
Kriterium als Cut-off bevorzugt werden.
Das Verfahren führt also einen einfacher Split (Cut-off) der Distanzmatrix
durch, indem diese in eine Null-Eins Matrix überführt wird. Als Cut-off dienen alle empirisch vorhandenen Distanzwerte der Distanzmatrix. Die resultierende Null-Eins-Dreiecksmatrix wird mit der originalen Dreiecksmatrix korreliert. Dies wird für jeden Distanzwert durchgeführt. So entsteht ein Vektor v mit
Korrelationen r cc . Der Korrelationsvektor v kann als Kurve visualisiert werden.
In den meisten Fällen hat sie ein einziges Maximum. Es wird derjenige Distanzwert genommen, für den die Distanzmatrix mit der Null-Eins Matrix maximal
korreliert. Die resultierende Null-Eins Dreiecksmatrix wird um die Diagonale
ergänzt und die untere (bzw. obere) Dreiecksmatrix, so dass eine volle Prototypenmatrix entsteht. In dieser werden die Zeilen- oder Spaltensummen berechnet,
aus denen der Prototyp über Summierung (Zeilen oder Spalten) direkt abgelesen
werden kann. Der Prototyp entspringt dem Fall mit der maximalen Zeilen- bzw.
Spaltensumme. Der Cut-off wird empirisch bestimmt und der Prototyp ebenfalls.
Den Prototypen gilt es inhaltlich zu verstehen und zwar über den Kontrast
mit allen anderen Fällen. Hierzu eignen sich Kontraste und Gemeinsamkeiten
mit ähnlich prototypischen bzw. mit protountypischen Fällen, die am unteren
Ende der Prototypizitätsbestimmung liegen (minimale Zeilen- bzw. Spaltensummen). Diese Vergleiche können anhand von Kodierauszählungstabellen (Matrixanalyse bei Miles und Huberman, 1984) sowie durch qualitative Analyse zustandekommen.
Das Verfahren ist explorativ und ohne zufallskritische Absicherung.
Ausgangsbasis ist eine Distanzmatrix – genauso wie bei der hierarchischen Clusteranalyse und der multidimensionalen Skalierung. Entsprechend
(s. Kap. 9.1 bzw. 9.3) sind dieselben Hürden zu überwinden, nämlich die Wahl
der angemessenen Distanzmatrix. Standardmäßig wird die euklidische Distanz gewählt. Andere Distanzmaße (Manhattan, Mahalanobis, etc.) sind theoretisch zu
begründen und müssen im R-Skript direkt geändert werden. Prinzipiell ist das
möglich.
9.4.3
Datenbasis
Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Reihen
zur Bildung von Distanzmatrizen. Standardmäßig wird deshalb die AQUAD 7
Matrix transponiert, damit die Spalten (z.B. nach Sprechercodes) ausgewertet
werden. Ist dies nicht erwünscht, ist die Matrix vorab zu transponieren.
9.4. PROTOTYPEN
9.4.4
123
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 9.34. Das RSkript berechnet zunächst die Distanzmatrix auf
Basis euklidischer Distanzen, die als volle Distanzmatrix ausgegeben wird. Folgend wird ein
geordneter Vektor erstellt und ausgegeben, der sowohl die einzelnen Distanzen als auch die korrespondierenden Korrelationskoeffizienten zwischen Distanzmatrix und Null-Eins Matrix beinhaltet. Daraus lässt sich die maximale Korrelation
und das empirische bestimmte Cut-off Kriterium
direkt ablesen, dass als Basis der Null-Eins Matrix
Abb. 9.34. Experteneinstellungen Prototyzur Prototypizitätsbestimmung dient.
pen
Graphisch wird der Korrelationsvektor geplottet und die maximale Korrelation und der zugehörige Distanzwert farblich
hervorgehoben.
In der Prototypenmatrix werden die Zeilen- bzw. Spaltensummen gebildet,
um den Prototypen zu identifizieren.
Eine graphische Ausgabe mit Hilfe multidimensionaler Skalierung
(s. Abb. 9.29, S. 119) erweitert und ergänzt die Ergebnisse der Prototypenanalyse. Jede Verbindung zwischen den Punkten entspricht einer Eins in der
Prototypenmatrix. Keine sichtbaren Verbindungen zwischen Fällen stehen für
eine Null in der Prototypenmatrix. Graphisch spannt sich ein Netz von Verbindungen zwischen den Matrixelementen auf, die sehr schön die Zusammenhänge
aufzeigen.
Parametereinstellungen betreffen zumeist die graphische Ausgabe und sollten nicht verändert werden. Veränderungen lohnen sich dann, wenn die graphische Ausgabe unübersichtlich ist. Es wird standardmäßig mit Abkürzungen der
Kodierungsnamen gearbeitet, da AQUAD 7 Kodierungen als Namen sehr lang
sein können und sich dies für Graphiken ungünstig erweist.
9.4.5
Ausgaben
Es werden die folgenden Dateien ausgegeben (s. Tab. 9.8). Die Dateinamen orientieren sich an den Übergaben im Skript.
9.4.6
Ergebnisse und Interpretation
Der Prototypenvektor wird automatisch nach dem Maximum (Cut-off) ausgewertet, der Split durchgeführt und empirisch die Prototypenmatrix bestimmt.
Dies ist auch aus den Graphiken einfach ablesbar. Die zusammenfassende Er-
124
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Inhalt
Dateityp
Dateiendung
R Session
Binärfile des R
Korrelationskoeffizienten Distanzmatrix und
Plot
.RData
.emf
Plot
.emf
volle Distanzmatrix
Text
.txt
Vektor optimaler Schnitt (Distanzwerte,
Text
.txt
Null-Eins Matrizen
Multidimensionale Skalierung (2D) unEinmald
Prototypenmatrix (inkl. Verbindungen zwischen
den Punkten)
Korrelationskoeffizient, wenn Distanzwert
Cut-off ist)
Prototypenmatrix (Null-Eins Matrix)
Text
.txt
Ergebnisse Prototypenanalyse
Text
.txt
(Prototypenmatrix, Cut-off, maximale
Korrelation, Prototypenvektor nach
Prototypizität geordnet)
Tabelle
.csv oder .tab
Prototypenmatrix (Null-Eins Matrix)
Tabelle
.csv oder .tab
volle Distanzmatrix
Tabelle
.csv oder .tab
Abkürzungen Reihennamen
Tabelle
.csv oder .tab
Vektor optimaler Schnitt (Distanzwerte,
Korrelationskoeffizient, wenn Distanzwert
Cut-off ist)
Tab. 9.8:
Dateiausgaben Prototypen
gebnisdatei listet die Ergebnisse der Prototypenanalyse auf: Prototypenmatrix,
Cut-off, maximale Korrelation und Prototypenvektor nach Prototypizität geordnet. Dies ist fast selbsterklärend.
Der Prototypenvektor ist inhaltlich zu untersuchen hinsichtlich seiner Aussagekraft. Dafür ist es notwendig, zurück zu den qualitativen Daten zu gehen
und die Fälle in ihrer Gesamtheit zu kontrastieren. Die Prototypenanalyse kann
und sollte hierbei leiten. Sie ist jedoch kein zufallskritisch abgesichertes Ergebnis
und darf nicht dementsprechend interpretiert werden. Gerade bezogen auf die
Zusammensetzung der Kodierungen dürfte das Verfahren nicht sehr robust reagieren, da euklidische Distanzen per se nicht sehr robust sind. Ebenfalls spielt
die Anzahl der Eingang findenden Kodierungen eine große Rolle. Auch hier hält
sich die Robustheit über verschiedene Ausgangsmatrizen vermutlich in sehr engen Grenzen. Das Verfahren ist vermutlich sehr kontextabhängig. das bedeutet, dieser ist vorab zu definieren. Genaueres könnten Simulationsstudien zeigen.
Das Verfahren ist jedoch in einem empirischen Kontext durchaus sehr brauch-
9.4. PROTOTYPEN
bar. Gürtler (2006) führte eine Prototypizitätsbestimmung humoristischer Lehrhandlungen durch. Im Rahmen einer qualitativen Videoanalyse wurden Lehrdiskurse eines Meditationsretreats untersucht. Die Forschungsfrage lautete, was
das Typische nach einer humoristischen Sequenz war – also was bezogen auf Lehrhandeln typischerweise auf den Humor folgte. Die Intention war die Untersuchung der Rolle von Humor in einem solchen ernsthaften Lehrkontext.
Technisch wurden auf Basis der qualitativen Kodierungen mit AQUAD 6
über 16’000 Sequenzhypothesen kombinatorisch in R formuliert und in
AQUAD 6 eingelesen und durchgetestet. Diese Liste wurde reduziert, um
eine Prototypenanalyse durchzuführen. Als Ergebnis konnte ein von der Literatur postuliertes Ergebnis empirisch reproduziert werden. So wurde als Prototyp
eine Sequenz gefunden, die darauf hinwies, dass typischerweise auf eine humoristische Sequenz ein sehr ernsthafter Teil des vermittelnden Lehrmaterials folgte. Dies
spiegelt Thesen und empirische Ergebnisse der Humorliteratur, dass nämlich
Humor in Lehr-Lernkontexten nicht isoliert eingesetzt werden darf, ausser bei
sehr kleinen Kindern. Humor ist kein Selbstzweck. Vielmehr ist es notwendig,
Humor streng unter den roten Faden des Lehrstoffes zu subsumieren. Ohne das
Zustandekommen dieses Ergebnisses zufallskritisch absichern zu können weist
es darauf hin, dass das Verfahren zu interessanten Ergebnissen führen kann,
die auch noch plausibel sind. Obwohl bei 16’000 untersuchten Sequenzkodierungshypothesen viel Spielraum für einige sehr ähnliche und durchaus genauso
plausible Konfigurationen sein dürfte, wurde durch den Algorithmus ein Ergebnis gefunden, dem aus Expertensicht inhaltlich eine sehr hohe Plausibilität
zukommt. Und das ist eine ganze Menge.
Es empfiehlt sich deshalb, bei einem größerem Umfang von Hypothesen oder
Kodierungen, die die Ausgangsdatenmatrix bilden, eine gewisse Unschärfe für
die Interpretation bewusst zu berücksichtigen und nicht streng inferenzstatistisch zu denken. Die Grenzen aufzuweichen entspricht dem weniger ist mehr.
Viele Grauzonen zusammengenommen erlauben durchaus scharfe Grenzen zu
erkennen. Ebenso macht es Sinn, Daten bzw. Kodierungen zu aggregieren, um ein
sehr hohes Niveau großer Abstraktion zu erreichen. Es geht hier nicht um Details, sondern um die großen Tendenzen. Zusätzlich sind Sequenzkodierungen zu
verwenden und nicht Einzelkodierungen, da dann Interpretationen leichter fallen und vor allem kontextuell verankert sind.
9.4.7
Beispieldatensatz
Es gilt der Datensatz von Gürtler (2006) zu den Interviews mit Lehrenden
aus den Bereichen Schule, Universität und Erwachsenenbildung zum Thema
Humor. Es liegen Graphiken zu dem Vektor der kophenetischen Korrelationen (s. Abb. 9.35) vor sowie die zweidimensionale Darstellung durch die Mul-
125
126
KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG
Int_MC_x_Person_110504
Int_MC_x_Person_110504
Optimaler Schnitt | MDS (2D)
4
1.0
Optimaler Schnitt durch Proximity Matrix
EN
3
DK
0.8
0.78
AH
2
0.7
0.68
0.68
0.66
0.65
0.62
0.58
0.56
1
0.68
0.67
0.61
AA
0
0.66
0.77
0.76
0.75
0.75
0.74
0.73
0.72
0.71
Achse II
Korrelationskoeffizient
0.4
0.6
CH
0.77
0.76
0.76
0.75
0.74
0.74
0.73
0.72
0.72
0.71
0.71
0.7
0.7 0.7
0.69
0.69
0.68
0.52
-1
0.51
0.46
0.43
-2
GD
UVKL
KK
MR
-4
0.2
-3
0.34
0.0
Optimaler Schnitt bei 8.23 mit max. r= 0.78
-6
-4
-2
0
2
4
Achse I
6
7
8
Werte
9
10
Abb. 9.35.
Beispieldatensatz Plot kophenetische Korrelationen
Abb. 9.37.
Ergebnisausgabe volle Distanzmatrix
Abb. 9.36.
Beispieldatensatz Visualisierung optimaler Schnitt und
MDS
Abb. 9.38.
Ergebnisausgabe
penmatrix
Prototy-
tidimensionale Skalierung, ergänzt um die Ergebnisse der Prototypenanalyse
(s. Abb. 9.36). Linien zwischen den Fällen stehen für eine Verbindung (Wert
Eins), fehlende Verbindungen für eine Null in der Prototypenmatrix. Hinzu kommen Ausgaben aus dem R-GUI. Hier sind die volle Distanzmatrix und ein Ausschnitt aus der Matrix der Cut-offs und der assoziierten kophenetischen Korrelationen rcc zu sehen (s. Abb. 9.37). Das letzte Schaubild zeigt die Prototypenmatrix, maximale Korrelation, Cut-off und den Prototypenvektor (s. Abb. 9.38).
6
9.4. PROTOTYPEN
Die beiden Graphiken können eigenständig durch die Leser exploriert werden. Die Protoypen bzw. Protountypen sind qualitativ-inhaltlich zu untersuchen.
Deshalb wird folgend näher auf die formalen Ergebnisse eingegangen.
Die Ausgaben aus dem R-GUI zeigen eine maximale Korrelation von rcc =
0.78 mit dem Cut-off bei einem Distanzwert von d=8.2. Der Distanzwert ist zunächst inhaltlich nicht weiter relevant. Der Prototypenvektor zeigt einen Prototypen (mehrere sind prinzipiell möglich), der Verbindungen mit allen Fällen aufweist. Am untypischsten ist ein Typ, der lediglich zwei Verbindungen aufweist
– einen mit dem Prototypen und den anderen mit sich selbst. Verbindungen mit
sich selbst werden in der Prototypenmatrix gezählt. Sie könnten aber auch weggelassen werden. In dem Falle müsste manuell die Hauptdiagonale der Prototypenmatrix auf Null gesetzt werden.
Von den maximal 100 möglichen Verbindungen
> prod(dim(outZO$prototype.mat))
[1] 100
werden 64 (64%) erreicht und 36 (36%) nicht:
> sum(outZO$protovec)
[1] 64
Das ergibt ein Ratio von 1.8:1 Verbindungen versus keine Verbindungen. Es gibt
also fast doppelt soviele Verbindungen wie keine Verbindungen in der Prototypenmatrix. Unklar ist, was dies im Vergleich zu anderen empirischen Studien
bedeutet. Hier fehlen Erfahrungswerte bzgl. von Homogenität versus Heterogenität von Gruppen. Eine vollständig homogene Gruppe hat keinen Prototypen
(oder nur welche) und eine vollkommen heterogene Gruppe keinen (oder nur).
Die Kurve der Prototypizität kann geplottet werden:
> plot(outZO$protovec, col=red)
127
Kapitel 10
Inferenzstatistik
Zur Inferenzstatistik wird derzeit lediglich der Chi-Quadrat Test angeboten.
10.1
Chi-Quadrat
Der Menüpunkt Chi-Quadrat zur
Durchführung
des
Vier-Felderbzw. Mehrfelder Chi2 -Tests befindet
sich im Untermenü Inferenzstatistik
(s. Abb. 10.1).
10.1.1
Sinn und Zweck
Abb. 10.1.
Menüpunkt Chi2 -Analyse
Der Chi2 -Test testet eine Häufigkeitstabelle (Kontingenztafel) auf eine mögliche
statistische Abhängigkeit ihrer Reihen und Spalten. Fällt ein solcher Test statistisch
signifikant aus, so können Reihen und Spalten nicht mehr unabhängig voneinander interpretiert werden. Geläufig ist der Vier-Felder bzw. Mehrfelder Chi2 -Test.
Die Frage nach einer generalisierten Analyse und nach gerichteten Zusammenhängen führt zu den log-linearen Modellen (Dalgaard, 2002, Kap. 11 für R-Code
mit glm). Hierbei wird durch logarithmische Transformation die Analyse mehrdimensionaler Häufigkeitstabellen nachvollziehbar ermöglicht, indem Haupteffekte und Interaktionen einer solchen sich linear zusammensetzen und Varianzen den jeweiligen Effekte zugeordnet werden können.
Zu unterscheiden sind allgemeine log-lineare Modelle und die logit Modelle, die
auf der logistischen Regression (binomial bzw. multinomial) basieren. Je nach
formuliertem Modell kommen häufig die Linkfunktionen Binomial bzw. Poisson
als zugrundeliegende Verteilungen zum Einsatz.
Hier wird lediglich der einfache Chi2 -Test diskutiert, in R mit chisq.test
realisierbar. Im R können log-lineare Modelle durch verschiedene Funktionen
130
KAPITEL 10. INFERENZSTATISTIK
berechnet werden (z.B. loglin, glm). Die Pakete MASS, nnet und vcd bieten weitere Funktionen zur Berechnung und visuellen Darstellung von log-linearen Modellen. Die Erweiterungen hin zu hierarchisch linearen Modellen (Pinheiro und Bates, 2009), die auch unter den Namen multi-level models, mixed models, nested
models oder random coefficient models bekannt sind, befinden sich in den Paketen HGLMMM, NLME und LME4. R ist hier sehr mächtig. Die Analysen mittels LME4
können sowohl frequentistisch als auch bayesisch interpretiert werden.
10.1.2
Theorie
Der hier angewandte Chi2 -Test wurde von Karl Pearson (1900) entwickelt. Es ist
ein Test, der darauf testet, ob die frequentistische Nullhypothese H0 der vereinten Zellhäufigkeitsverteilung ein Produkt der Reihen- bzw. Spaltenrandwerte ist.
Wird die Hypothese statistisch abgelehnt, so sind Reihen und Spalten abhängig
voneinander. Kann die Nullhypothese nicht abgelehnt werden, so liegen keine
Hinweise auf eine Abhängigkeit von Reihen und Spalten vor. Die Beibehaltung
bzw. Unfähigkeit, die der Nullhypothese H0 abzulehnen ist kein Beweis für die
Unabhängigkeit von Spalten und Reihen, sondern steht im Sinne der klassischen
Statistik und ihrer Testlogik lediglich für den Status Quo, dass aktuell nicht das
Gegenteil bewiesen werden kann im Rahmen der erhobenen empirischen Daten. Es sei daran erinnert, dass der Signifikanztest der klassischen Statistik die
Wahrscheinlichkeit von Daten angesichts der Nullhypothese p(D|H0 ) als Kriterium zur Feststellung statistischer Signifikanz nimmt. Dies steht im Gegensatz
zur bayesischen Logik, bei der die exakte Wahrscheinlichkeit von miteinander
konkurrierenden Hypothesen H1 , H2 , ..., Hx mit p(Hx |D) bezogen auf einen empirischen Datensatz zum aktuellen Stand des Irrtums berechnet wird.
Der Chi2 -Test kann prinzipiell als Verteilungs- bzw. Anpassungstest, Unabhängigkeitstest bzw. Homogenitätstest angewandt werden. Im ersten Fall wird die Frage einer bestimmten Verteilung untersucht. Im zweiten Fall wird nach stochastischer Unabhängigkeit von Reihen und Spalten gefragt. Der dritte Fall wiederum
überprüft, ob die Daten (mind. zwei Stichproben) einer homogenen Population
entspringen und somit dieselbe Verteilung aufweisen. Der erste und der letzte
Fall ähneln sich.
Für qualitative Zwecke bietet sich zumeist der Unabhängigkeitstest an. Das
Verfahren findet im Rahmen klassischer Statistik statt. Die Nullhypothese H 0
lautet, dass die Merkmale X (Reihen) und Y (Spalten) stochastisch voneinander unabhängig sind. Wird die Nullhypothese H 0 aufgrund der Datenlage abgelehnt, ist von einer Abhängigkeit auszugehen. Wird sie nicht abgelehnt, ist
dies wie oben bereits erwähnt nicht gleichbedeutend mit einem Beweis für die
Unabhängigkeit von Reihen und Spalten. Eine solche Situation verweist lediglich auf die Beibehaltung der Nullhypothese H 0 , die wie der Name schon sagt,
10.1. CHI-QUADRAT
131
Merkmal Y
Merkmal X
Ausprägung 1
Ausprägung 2
Zeilensumme
Ausprägung 1
a
b
a+b
Ausprägung 2
c
d
c+d
Spaltensumme
a+c
b+d
n=a+b+c+d
Tab. 10.1:
Basis Vier-Felder Chi2 -Test
nicht viel aussagt. Getestet wird immer gegen die Nullhypothese H 0 , so dass bei
Nichtablehnung derselben der Erkenntnisgewinn doch eher bescheiden ausgeprägt ist.
Technisch berechnet der Algorithmus die Reihen- und Spaltensummen und
die resultierenden absoluten Randhäufigkeiten. Daraus lassen sich relative Häufigkeiten bzw. relative Randhäufigkeiten berechnen. Stochastische Unabhängigkeit bedeutet, dass die Wahrscheinlichkeit für das gemeinsame Auftreten von
zwei Ereignissen gleich dem Produkt der Einzelwahrscheinlichkeiten entspricht:
P( A
\
B) = P( A) P( B)
Daraus lassen sich erwartete Häufigkeiten ableiten und mit den eingetretenen
empirischen in einen Bezug setzen. Es resultiert eine Prüfgröße, die χ2 verteilt
ist mit (m-1)(r-1) Freiheitsgraden. Hierbei entspricht m der Anzahl der Reihen
(Merkmal X) und r der Anzahl der Spalten (Merkmal Y). Es gilt: Je größer die
Prüfgröße, desto stärker wird die Nullhypothese H 0 abgelehnt. Der Ablehnungsbereich für H 0 liegt auf der Prüfverteilung rechts. Es sind die entsprechenden
Freiheitsgrade einzusetzen. Daraus lässt sich ein Signifikanztest nach Vorgabe
einer kritischen Überschreitungswahrscheinlichkeit p.crit ableiten und die statistische Signifikanz ist zu bestimmen.
Damit die Prüfgröße überhaupt χ2 verteilt sein kann, braucht es eine Mindestgröße bzw. Mindestzellbesetzungen. Pro Zelle sollten deshalb mindestens
80% der Zellen mit n>=5 Fällen vorliegen bzw. eine Gesamtstichprobe von
n>=30. Sonst ist von dem Einsatz des Testes aufgrund fehlender Robustheit in
diesem Bereich tendentiell abzusehen. Bei Zellbesetzungem kleiner als fünf wird
allgemein empfohlen, den exakten Test von Fisher (1970) durchzuführen. Bei größeren Tabellen ist dieser jedoch sehr rechenintensiv und damit zeitaufwendig.
Die Basis des Vier-Felder Chi2 -Test bilden zwei dichotome Merkmale X
und Y mit vier kreuztabellierten Werten a, b, c und d die in Form einer 2×2Kontingenztafel (Häufigkeiten) vorliegen (s. Tab. 10.1). Ebenso kann es ein dichotomes Merkmal sein und die Frage lautet dann, ob dieses in zwei Gruppen
identisch verteilt ist. Die χ2 -verteilte Prüfgröße des zweiseitigen Tests kann wie
folgt verkürzt berechnet werden mit einem Freiheitsgrad und Stichprobengröße n:
132
KAPITEL 10. INFERENZSTATISTIK
Tab. 10.2:
χ2 =
Effektstärke
Bedeutung
ES ~ 0.1
gering
ES ~ 0.3
mittel
ES ≥ 0.5
groß
Bedeutung Effektstärken nach Cohen
n( ad − bc)2
( a + b)(c + d)( a + c)(b + d)
Aber statistische Signifikanz ist nicht alles.
Effektstärke
Effektstärken und Poweranalysen ergänzen die Feststellung statistischer Signifikanz zwingend (Cohen, 1988; Buchner et al., 1996).
Zum Verhältnis von Effektstärke, Power, Stichprobengröße und angesetzter kritischer Überschreitungswahrscheinlichkeit zur Bestimmung von Signifikanz gilt, dass
die Größen zusammenhängen und bei freier Wahl von drei dieser Größen die
vierte automatisch fixiert ist. Das R-Paket pwr ermöglicht Power- und Effektstärkeanalysen für verschiedene Tests. Entsprechend lässt sich für jede Größe deshalb ein Wert berechnen, so dass immer einer nicht übergeben wird, der dann
aus den anderen Größen empirisch zu bestimmen ist.
Die Effektstärke gibt an, welche Bedeutung ein statistisch bedeutsames Ergebnis erhält und zwar bezogen auf die Skala der Rohdaten. Im Falle von Mittelwertsvergleichen wird häufig ein standardisiertes Effektstärkemaß verwendet,
das Cohen (1988) vorschlägt: Cohen’s d. Alternative Berechnungen standardisierter Mittelwertdifferenzen sind etwa Glass’ 4 oder Hedges’ g. Im Falle von linearen Modellen (Regression, F-Test) eignen sich Cohens’ f 2 bzw. η 2 . Diese Größen beschreiben Varianzunterschiede. Auch die Korrelation wird als Effektstärke
verwendet. Für kategoriale Variablen liegen der φ-Koeffizient bzw. Cramer’s V
(auch Cramer’s φc genannt) bereit. Je nach Effektgröße muss die Interpretation
sorgfältig durchgeführt werden, wie Aaron et al. (1998) anmerken.
Je nach Fachgebiet und Anwendungsfall ist zu entscheiden, was als effektstark oder effektschwach gilt. Nach Cohen (1960) wird für die Sozialwissenschaften eine bestimmte Einordnung von inhaltlicher Bedeutung pauschal angenommen und ist kontextuell deshalb immer kritisch zu hinterfragen (s. Tab. 10.2), ob
es angemessen ist.
10.1. CHI-QUADRAT
Die ausschließliche Angabe statistischer Signifikanz ohne exakte Angaben
von exaktem p-Wert, kritischer Überschreitungswahrscheinlichkeit, Stichprobengröße, Power und Effektstärke sowie gegebenenfalls Konfidenzintervall (das
jedoch streng genommen in der klassischen Statistik nur eine Umformung des
Signifikanztests bzw. von p-Werten darstellt) ist prinzipiell nichtssagend. Dies
findet langsam und stetig Eingang in Fachzeitschriften und in die Richtlinien
von Berufsverbänden (u.a. APA). Die Angabe der kritischen Überschreitungswahrscheinlichkeit zur Feststellung statistischer Signifikanz ist grundsätzlich
theoretisch-inhaltlich zu begründen und sollte nicht aus Unwissenheit oder unreflektierter Übernahme von überlieferten Standardwerten mit 5% (p.crit=0.05)
bzw. 1% (p.crit=0.01) angegeben werden (Hubbard, 2004). Fisher selbst nahm in
seinem letzten Buch Abstand von den habituell und mechanisch angewandten
Konventionen des x% Signifikanzniveaus und bemerkte sehr weise hinsichtlich
der Annahme, dieses würde Aussagen über wiederholte Experimente erlauben
(Fisher, 1956, S.42):
“[It is] absurdly academic, for in fact no scientific worker has a fixed
level of significance at which from year to year, and in all circumstances, he rejects hypotheses, he rather gives his mind to each particular
case in the light of his evidence and his ideas.”
10.1.3
Datenbasis
Die Datenbasis bildet eine Häufigkeitstabelle mit mindestens zwei Spalten und
zwei Reihen. Ausgewertet wird nach Spalten und Reihen. Die Frage der Tansponierung der Matrix wie bei den anderen vorgestellten Verfahren ergibt sich somit
nicht.
10.1.4
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 10.2. Der Chi2 -Test kann im R sowohl
auf Basis der empirischen Daten als auch mittels Monte-Carlo (MC) Simulation
(Bootstrap) durchgeführt werden. Hierbei werden zufällige Stichproben aus simulierten Kontingenztafeln gezogen, wobei gilt, dass die Randwerte identisch
sind zu denjenigen des empirischen Datensatzes und sie müssen positiv sein.
Der p-Wert für die χ2 verteilte Prüfgröße wird dann aus der simulierten Prüfverteilung berechnet. Ansonsten ergibt sich der p-Wert aus der asymptotischen
Chi2 -Verteilung der Prüfgröße (Teststatistik). Der Parameter B im Skript gibt die
Anzahl der Wiederholungen (Simulationen) vor. Für den Spezialfall Vier-Felder
Chi2 -Test oder wenn die Variable HC auf TRUE gesetzt ist, wird zusätzlich der
exakte Fisher-Test berechnet.
133
134
KAPITEL 10. INFERENZSTATISTIK
Inhalt
Dateityp
Dateiendung
R Session
Binärfile des R
verschiedene Mosaik- und
Plot
.RData
.emf
Ergebnisse Chi2 -Test
Text
.txt
Ergebnisse Power/
Text
.txt
Assoziationsplots
Effektstärkenberechnung
Ergebnisse Power/
Tabelle
.csv oder .tab
Tabelle
.csv oder .tab
erwartete Randsummen
Tabelle
.csv oder .tab
empirische Randsummen
Tabelle
.csv oder .tab
Effektstärkenberechnung
Beitrag pro Zelle bzgl.
Zustandekommens Prüfgröße/
Chi2 -Wertes
Tab. 10.3:
Dateiausgaben Chi2 -Test
Zusätzlich zur zufallskritischen Absicherung
wird die Effektstärke des Chi2 -Tests basierend
auf dem empirischen Datensatz berechnet sowie jeweils Power, Stichprobengröße und kritische Überschreitungswahrscheinlichkeit zur Bestimmung der Signifikanz. Das R-Skript übergibt
jeweils die Werte bis auf einen, der dann berechnet wird. So lassen sich für alle Werte Kalkulationen aufstellen.
10.1.5
Abb. 10.2.
Experteneinstellungen
Ausgaben
Chi2 -Test
Es werden die folgenden Dateien ausgegeben
(s. Tab. 10.3). Die Dateinamen orientieren sich an den Übergaben im Skript.
10.1.6
Ergebnisse und Interpretation
Die Plots sind entsprechend gängiger Plots von Kontingenztafeln zu interpretieren. Es empfiehlt sich, die Hilfeseiten zu mosaic, mosaicplot, assocplot zu
lesen. Die Ergebnisse des Chi2 -Tests sind entlang klassischer Statistikstests zu
interpretieren. Für die Simulation (Bootstrap) kommt hinzu, dass die Datenbasis
eben simulierte Randverteilungen sind, aus denen eine Prüfverteilung als Basis
des Tests generiert wird. Die Power- bzw. Effektstärkeberechnungen werden ver-
10.1. CHI-QUADRAT
Abb. 10.4.
135
Beispieldatensatz Ergebnisse Chi2 -Test
standen, wenn das entsprechende Konzept als theoretische Grundlage genommen wird (Buchner et al., 1996). Die Hilfeseite zu pwr.chisq.test führt hier
weiter.
10.1.7
Beispieldatensatz
Wie bereits ausgeführt (s.a. Kap. 8.3.7) entstammt der Datensatz der Kodierung
eines Rededuells zwischen J. Kerry und G.W. Bush im Jahre 2004. Es handelt sich
in der Ausgangsmatrix um Kodierungen, die für die Begriffe “Nation”, “I” und
“we” stehen (Spalten). Die Reihen unterscheiden Bush von Kerry (Sprechercodes, s. Abb. 10.3). Die Hypothese testet also, ob die beiden Redner ähnlich mit
136
KAPITEL 10. INFERENZSTATISTIK
Abb. 10.5.
Abb.
Beispieldatensatz Marginalsummen und Zellbeitrag Chi2 Test
Abb. 10.6.
Beispieldatensatz Effektstärke und Power Chi2 -Test
den Begriffen umgehen oder nicht und zwar bezogen auf ihre absolute Häufigkeit. Dies beinhaltet in keinster Weise eine Hypothesenbildung über die Art und Weise
der Verwendung, lediglich das reine isolierte Vorkommen der Kodierungen.
Die Nullhypothese H 0 geht davon aus, dass
sich keine Unterschiede zeigen und die Kategorien bei beiden Rednern identisch verteilt sind.
Die Ablehnung der Nullhypothese bedeutet, dass
Kerry und Bush die genannten Kategorien unterschiedlich häufig zeigen, was inhaltlich bedeuten
2
10.3. Ausgabe Datenbasis Chi -Test
würde, dass die Verwendungshäufigkeit der Begriffe nicht unabhängig vom Redner gesehen werden darf. Und dann bedarf es weiterer Untersuchungen am Text, um genau zu
rekonstruieren, wie die beiden mit Sprache unterschiedlich umgehen. Darüber sagt
der Test nichts aus.
Die Ergebnisse sowohl des Chi2 -Tests als auch der Simulation zeigen
(s. Abb. 10.4), dass bei Annahme einer – nicht wirklich inhaltlich begründbaren – kritischen Überschreitungswahrscheinlichkeit p.crit=0.05 die beiden Redner sich nicht unterscheiden. Die Nullhypothese kann nicht zurückgewiesen
10.1. CHI-QUADRAT
137
Plots für Kontingenztabellen
/$Kerry
/$Bush
/$Kerry
X_we
word
X_we
word
X_i
/$Bush
<-4-4:-2-2:0 0:2 2:4 >4
X_nation
kerrybush.csv
X_i
X_nation
kerrybush.csv
speaker
speaker
X_we
word
X_i X_nation
kerrybush.csv
/$Bush
/$Kerry
speaker
Abb. 10.7.
Beispieldatensatz Plots Chi2 -Test
138
KAPITEL 10. INFERENZSTATISTIK
werden. Es gibt aber eine Tendenz hin zu verschiedenen Häufigkeiten. Wird also inhaltlich die Grenze etwas unschärfer gefasst – oder auch inhaltlich angemessener, erscheint eine p.crit=0.1 realistischer angesichts des Datensatzes. Dann
würde die Nullhypothese klar zurückgewiesen werden. Wird die Originalmatrix
(s. Abb. 10.6, oberste Tabelle in blau) näher untersucht, fällt auf, dass Kerry doppelt so häufig die “Nation” erwähnt wie Bush und ein Drittel mal so häufig aber
auch von sich selbst (“I”) redet. Bush hingegen ist nur minimal im Vorteil, die
Verallgemeinerung des “wir” zu verwenden. Die Tabelle in demselben Schaubild
darunter zeigt die erwarteten Häufigkeiten und Marginalsummen aufgrund des
Chi2 -Tests. Die unterste Tabelle zeigt den individuellen Beitrag jeder Zelle für
das Zustandekommen der χ2 -Prüfgröße.
Die Effektstärke- und Poweranalysen (s. Abb. 10.6) zeigen sowohl eine bescheidene Effektstärke als auch Power. In rot steht jeweils darüber, welche Größe
berechnet wurde, was bedeutet, dass alle anderen Größen vorgegeben wurden.
Eine angemessene Stichprobe für ein p.crit=0.05 müsste mehr als doppelt so hoch
sein, um den Test ordentlich durchzuführen. Ein angemessenes p.crit würde bei
ungefähr p.crit=0.28 liegen, um eine faire Testchance zu ermöglichen. Dies liegt
noch um einiges von dem entfernt, was weiter oben versucht wurde, inhaltlich
zu begründen. Daraus wird deutlich, dass der statistische Signfikanztest – alleine betrachtet – wertlos ist, ohne dessen Entstehungskontext (Effektstärke, Power,
Stichprobengröße) näher zu beachten. Leitend ist die Erkenntnis: Wird eine Stichprobe nur groß genug, wird alles signifikant. Also müssen angesichts einer bestimmten Stichprobengröße die anderen Parameter sorgfältig gewählt werden. Dies
kann durch inhaltliche Begründung, auf Basis von Simulationen, durch früheren Studien, etc. vonstatten gehen.
Die deskriptiven Plots (s. Abb. 10.7) ergänzen die Visualisierung der Kontingenztafeln und reichen häufig schon aus, um eine Tendenz zu erkennen. Ein
statistischer Test sollte diesen visuellen Eindruck lediglich auf Zahlenbasis erhärten, aber nichts wirklich Neues zeigen.
Die Ergebnisse sagen überhaupt nichts darüber aus, in welchem Kontext oder
in welcher Form Bush bzw. Kerry die Begriffe nutzen und einsetzen, ob positiv
oder negativ, ob rechtfertigend oder in einem sinnvollen Handlungskontext, etc.
Dies ist Aufgabe der qualitativen Analyse. Interessant wäre hier, entsprechende
Sequenzhypothesen zu formulieren und diese dann mit Hilfe eines Mehrfelder
Chi2 -Tests näher zu untersuchen oder direkt mittels log-linearer Modelle. Dann
können strukturelle Informationen in den Test eingehen, was die reine Häufigkeit von Kategorien nicht ermöglicht. Statistische Hypothesen sollten möglichst
immer strukturelle Informationen beinhalten, weil die Ergebnisse sonst häufig
nichtssagend bzw. wenig erkenntniserhellend sind. Gerade im qualitativen Bereich geht es nicht um reine Häufigkeiten, sondern um Sinn- und Handlungsrekonstruktion. Ebenfalls sollten Hypothesen gegeneinander getestet werden und
10.1. CHI-QUADRAT
nicht Hypothesen gegen eine unspezifische Nullhypothese (Mehl, 1978; Waller, 2004).
139
Kapitel 11
Qualitativ komparative Analyse
Der Menüpunkt QCA (Implikanten) befindet sich im Menü R-Statistik
(s. Abb. 11.1).
11.1
Implikantenanalyse und Boolesche Algebra
11.1.1
Sinn und Zweck
Das Verfahren der Implikantenanalyse wird im
AQUAD 7 Manual (Huber und Gürtler, 2012,
Kap. 11) ausführlich besprochen. Die Lektüre dieses Kapitels wird folgend vorausgesetzt.
Das Verfahren der Implikantenanalyse erlaubt
die heuristische Identifikation von minimalen Sets
Abb. 11.1. Menüpunkt Implikantenanalyse
von Variablen bzgl. ihres logisch-kausalen Einflusses auf ein Kriterium. Damit wird untersucht, welche Bedingungen (Sets
von Variablen) notwendig sind, damit ein Kriterium eintritt (positiver Fall) oder
nicht (negativer Fall). Die Implikantenanalyse kann somit den Generalisierungsverfahren zugeordnet werden. Ebenso eignet sie sich für Meta-Analysen. Genealisiert wird dann über Kodiersets bzw. über Fälle (z.B. Personen) hinweg. Im
engeren Sinne wird es den abduktiven Verfahren (Peirce, 1965, 1997) zugerechnet.
Das Ziel kann etwa die Erstellung einer Typologie (Kluge, 2000 bzw. Kelle und
Kluge, 1999) sein oder die Identifikation wirksamer Bedingungskombinationen
innerhalb einer Meta-Analyse. Sets von Variablen beschreiben Fälle bzw. Fallkonstellationen, die mit den anderen Fallkonstellationen zu kontrastieren sind.
So können die Bereiches eines Forschungsfeldes relativ gut und überschaubar
abgesteckt werden wie die Eckpfeiler eines unbekannte Raumes zu dessen Kartographierung. Das Verfahren zeigt Lösungen zu Fällen, jedoch nicht zu allen.
Entsprechend sind die nicht enthaltenen Fälle genauer zu untersuchen. Ebenso ist
142
KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE
die Analyse sowohl für eine positive als auch für eine negative Formulierung des Kriteriums durchzuführen.
11.1.2
Theorie
Das Kriterium kann entweder positiv oder negativ formuliert sein. Getestet werden sollte bei empirischen Daten sowohl die Minimierung angesichts des positiv
definierten Kriteriums als auch des negativ formulierten. Das hat zum Ziel, aus
der Differenz der Ergebnisse ein besseres Verständnis der Daten zu erlangen.
Einseitiges Testen ist aus unserer Sicht zu wenig, denn die Ergebnisse werden
sich vermutlich unterscheiden. Die Bedingungen für das Eintreten eines Ereignisses
entsprechen nicht denjenigen, die für das Nichteintreten desselben Ereignisses logischkausal verantwortlich sind.
Entgegen der Meinung mancher Forscher (u.a. Ragin, 1987), kann das Verfahren aus unserer Sicht nicht Kausalität in der Realität nachweisen. Rein methodische
Verfahren wie Statistik oder Logik können generell keine Kausalität nachweisen, sondern nur eine gute theoretische Begründung kann dies. Unterstützt das
Verfahren eine solche gute theoretische Begründung, die kausal formuliert ist,
so können kausale Einflussfaktoren näher in Betracht gezogen werden. Letztlich
hängt die Frage der Kausalität direkt an der Frage der Wahrheitsfindung (“Besteht echte und reale Kausalität oder nicht?”) und ist damit eine streng wissenschaftstheoretische Fragestellung. Gemeinhin (s. etwa Popper, 1943, aber auch
die bayesische Logik des plausiblen Schlussfolgerns, Jaynes, 2003) gibt es aber
keine wirkliche im Sinne der absoluten Wahrheit in der Wissenschaft, sondern
nur eine relative. Wahrheitskriterien sind immer relativ. Entsprechend ordnen
wir das Verfahren ein. Die Implikantenanalyse erlaubt relative Aussagen zu logischkausalen Einflüssen von Sets von Bedingungen auf positiv bzw. negativ formulierte Kriterien.
Der zugrundeliegende Quine-McCloskey Algorithmus (McDermott, 1985) wird
im R Paket QCA (bzw. auch QCA3 sowie ein GUI QCAGUI ) quasi vollständig umgesetzt. Das R-Paket erlaubt auch die Anwendung von fuzzy logic (Ragin, 2000)
und wird von Thiem und Dusa (2013) mit empirischen Beispielen und Daten
ausführlich erläutert. Die Autoren sind ebenfalls die Autoren des R-Paketes QCA.
Das R-Skript nutzt die exakten Parameterbezeichnungen, die auch das originale
R-Skript nutzt. Diese werden quasi direkt weitergereicht. Das erlaubt den leichten Wechsel von AQUAD 7 direkt zum R und zurück. Es muss nichts umgelernt
oder angepasst werden.
Auf fuzzy logic wird hier verzichtet, da je mehr Abstufungen im fuzzy logic
hinzugefügt werden, desto stärker erweckt es den Eindruck, hintenrum ein höherwertiges (multinomiales) Skalenniveau wieder einzuführen. Besser erscheint
es dann, gleich in ein gutes Skalenniveau zu investieren und entsprechende exak-
11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA
A
b
C
A
B
C
Bedingung 2
A
–
C
Bedingungen nach Vergleich (minimiert)
Tab. 11.1:
Bedingung 1
Beispiel Quine-McCluskey Algorithmus (AQUAD 7 style)
1
0
1
Bedingung 1
1
1
1
Bedingung 2
1
–
1
Bedingungen nach Vergleich (minimiert)
Tab. 11.2:
Beispiel Quine-McCluskey Algorithmus (truthtable)
te statistische Analysen durchzuführen. Die binäre Version der Implikantenanalyse bietet hingegen eine große Eleganz und Vereinfachung bei der Datenanalyse. Interessierte AnwenderInnen können jedoch leicht das R Paket für fuzzy logic
verwenden. Es bedarf dann eines guten Kriteriums, welches multinomial unterteilt ist. In einem solchen Falle sollten die Ergebnisse jedoch mit denjenigen der
bekannten Familie der (hierarchischen) allgemeinen Modelle verglich werden,
um herauszufinden, welche Analyse zu besseren Resultaten führt.
R erlaubt eine graphische Darstellung der Ergebnisse in Form von VennDiagrammen, die auf John Venn (1834–1923) zurückgehen. Die Autoren Thiem
und Dusa (2013) von QCA finden bis zum Grad fünf, dass Venn-Diagramme intuitiv nachvollziehbar sind, jedoch nicht mehr danach. Leider ist das entsprechende R-Skript der Autoren so aufgebaut, dass nicht einfach die Anzahl der Bedingungen hochgesetzt werden kann, da sie eine externe Funktion aus dem Paket
VennDiagram nutzen. Es wäre notwendig, jeweils angepasst die höhergradigen
Lösungen zu programmieren. Deshalb gibt es derzeit keine Venn-Diagramme
jenseits von Quintupel. Zur Verfügung stehen geordnete Paare, Tripel, Quadrupel und eben Quintupel.
Der Quine-McCluskey Algorithmus
Das Verfahren des Quine-McCluskey Algorithmus ist streng logisch und rechnet
nichts. Es geht nach der folgenden einfachen Regel vor, um Bedingungen bezogen auf ein Kriterium zu minimieren:
“[...] combine rows that differ on only one cause, if they have the same
output value [...]” (Ragin, 1987, S.96).
Beispiel: AbC kombiniert mit ABC wird zu AC (s. Tab. 11.1 bzw. Tab. 11.2).
143
144
KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE
Der Algorithmus lässt sich nicht abkürzen. Das heißt, das jede Zeile (Fall) mit
jedem vorhandenen Fall (Zeile) verglichen wird, um mögliche Minimierungen
zwischen zu vergleichenden Fällen zu überprüfen und gegebenenfalls durchzuführen. Iterativ wird dies wiederholt, bis keine Minimierungen mehr möglich
sind. Es bleibt ein logisch minimierter Satz von Bedingungen übrig, zu denen jeweils bestimmte Fälle gehören, die also dieselbe Bedingungen teilen bezogen auf
das Zustandekommen des Kriteriums (positiv, negativ). Damit wächst mit steigender Anzahl von Variablen und Fällen die Anzahl der zu testenden Vergleiche
sehr stark an. Die exakte Anzahl von Vergleichen lässt sich aus der Kombinatorik ableiten (Permutation). Das zugrundeliegende Problem ist NP-vollständig
und deshalb gibt es vermutlich keinen effizienten Algorithmus.
Ergebnisse müssen jedoch interpretiert werden und in einem Kontext verortet. Damit noch etwas vernünftiges und interpretierbares herauskommt, wird
in AQUAD 7 die Anzahl der Bedingungen inkl. Kriterium auf n=12 begrenzt
(AQUAD 7 Manual, Huber und Gürtler, 2012, S. 150). Es stehen somit n=11 unabhängige Bedingungen offen.
Lassen sich keine primären bzw. essentiellen Implikanten finden, wird eine
leere Tabelle ausgegeben. Es kann sein, dass dann das R-Skript diverse Fehlermeldungen ausgibt, da Folgeoperationen (z.B. Erstellung von Venn-Diagramm,
etc.) nicht mehr möglich sind, da das zentrale Ergebnis fehlt.
Primäre und essentielle Implikanten
Die Unterscheidung von primären und essentiellen Implikanten ist nicht ganz einfach und wird folgend versucht:
⇒ Ein Implikant deckt als Summenterm oder Summenproduktterm P Teile einer booleschen Funktion F (mit n Variablen) ab. Es gilt: P impliziert F. Damit ist P ein Implikant von F. Wenn also der Term P den Wert 1 annimmt,
so nimmt P ebenfalls den Wert 1 an. Es gibt zunächst sehr viele Implikanten. Technisch sieht es so aus, dass in einer Wahrheitswerttabelle alle Zeilen (Fälle) über die Bedingungen (Spalten) hinweg Implikanten des Kriteriums (positiv oder negativ formuliert) darstellen. Die Aufgabe der booleschen Minimierung ist es, die Anzahl der Implikanten so zu minimieren,
dass minimale Sets von Implikanten (Bedingungen) übrig bleiben, die möglichst kurz sind und in ihrer Gesamtheit alle Fälle erklären können hinsichtlich des Zustandekommens des Kriteriums (Funktion F). Hierbei können
sich hinsichtlich ihrer Abdeckung der Fälle die so erzeugten Primärimplikanten überschneiden oder nicht (s. Tab. 11.3). Diese Überschneidung oder
nicht bildet das Unterscheidungskriterium zwischen normalen Primärimplikanten und essentiellen (Primär-)Implikanten. Alle essentiellen Implikanten
sind immer auch Primärimplikanten.
11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA
⇒ Ein primärer Implikant einer booleschen Funktion F ist ein Implikant, der
nicht durch einen generelleren Implikant ersetzt werden kann. Generell verweist auf einen Implikanten, der weniger Bedingungen (Elemente) aufweist und so stärker minimiert ist. Ein primärer Implikant von F ist dann
minimal, wenn die Entfernung einer einzigen Bedingung (d.h. eines Elements) dieses Implikanten dazu führt, dass dieser Implikant kein Implikant von F mehr ist. Das zeichnet die Qualität eines Primärimplikanten
aus.
⇒ Essentielle Implikanten sind zunächst immer auch Primärimplikanten, die jedoch einen Teil der Funktion F abdecken, den keine andere Kombination von
Primärimplikanten abzudecken vermag. Essentielle Implikanten überschneiden sich deshalb nicht und können als höherwertige Primärimplikanten verstanden werden. Das bedeutet, dass keines dieser Sets weggenommen werden darf, da sonst nicht mehr alle Lösungen vollständig vorhanden sind
bezogen auf das Gesamtproblem der Minimierung. Sie sind nicht austauschbar. In der Primärimplikantentabelle können diese leicht abgelesen werden:
Es wird davon ausgegangen, dass in den Spalten die Bedingungen (Primärimplikanten) stehen und in den Zeilen die Fälle. Essentielle Implikanten
sind dann all diejenigen, die einzeln in einer Zeile stehen, also Fälle abdecken,
die nur durch sie abgedeckt werden können und durch keinen anderen
Primärimplikanten. Stehen in einer Zeile mehr als ein Implikant, sind diese prinzipiell austauschbar und damit keine essentiellen, sondern lediglich
primäre Implikanten. Das Handout von Nowick (2006) verdeutlicht dies
(s. Abb. 11.3). Nach dieser Regel kommen als essentielle Implikanten nur
acd und ACD in Frage, da die Fälle 0 und 11 je nur durch diese beiden
abgedeckt (erklärt) werden können. Alle anderen Fälle weisen mindestens
zwei Primärimplikanten auf, die diese Fälle abdecken und damit prinzipiell austauschbar sind. Es kann empirisch vorkommen, dass es nur primäre,
jedoch keine essentiellen Implikanten gibt. Ebenso ist es denkbar, dass keine Minimierung der Ausgangsmatrix möglich ist.
Bei der Interpretation der Ergebnisse ist die Unterscheidung primäre versus essentielle Implikanten unbedingt zu beachten, da jeweils die Definition und der
Geltungsbereich bezogen auf die Fälle unterschiedlich ist. Dementsprechend ändert sich die Interpretation.
11.1.3
Datenbasis
Als Datenbasis dient entweder eine reine Wahrheitswerttabelle (TRUE, FALSE)
oder eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten, in denen die
Bedingungen und das Kriterium stehen. Die Reihen sind die Fälle. Transponieren
145
146
KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE
Primärimplikanten
acd
aBc
BcD
ABD
ACD
Fälle
(0,4)
(4,5)
(5,13)
(13,15)
(11,15)
0
×
×
×
×
×
4
5
×
11
×
13
15
Tab. 11.3:
×
×
×
Bildung essentielle Implikanten
würde aufgrund der Struktur von AQUAD 7 Tabellen keinen oder nur seltenst
Sinn machen. Technisch würden dann Kodierungen durch Sprechercodes vorhergesagt statt umgekehrt, dass die Bedingungen Sprechercodes (Spalten) sind
und die Kodierungen die Fälle (Zeilen). Deshalb wird die Option nicht angeboten. Wird eine externe Tabelle (etwa zur Meta-Analyse) herangezogen, ist sie
entsprechend vorab zu transponieren bzw. im geschilderten Format zu erstellen.
Die Häufigkeitstabelle wird in einem ersten Schritt in eine Wahrheitswerttabelle umgewandelt. Zur Umwandlung der Häufigkeitstabelle in Wahrheitswerte
wird als Standard 50% der Fläche genommen (Perzentil P50 oder Quantil Q0,5 ).
Es gibt keinen anderen logischen Grund, der intuitiv nachvollziehbar und theoretisch begründbar wäre. Liegt doch einer vor, muss das Kriterium manuell geändert werden. Dies ist dann explizit in der eigenen Arbeit theoretisch zu begründen.
Die so erzeugte oder bereits vorliegende Wahrheitswerttabelle kann direkt an
das R-Skript übergeben werden. Notwendig sind dann die folgenden Optionen:
⇒ Auswahl der Bedingungen (Implikanten P)
⇒ Auswahl des Kriteriums (Boolesche Funktion F)
⇒ Auswahl, ob das Kriterium positiv oder negativ formuliert ist
Intuitiv steht ein positives Kriterium für das Zustandekommen des Kriteriums
und ein negatives Kriterium für das nicht-Zustandekommen.
11.1.4
R-Skript und Einstellungen
Die Experteneinstellungen zeigt Abb. 11.2. Die vollständigen Parameteroptionen
sind in Anhang B.11 abgedruckt. Das R-Skript übernimmt wortwörtlich die Parameternamen aus dem originalen R-Paket QCA und dem Aufruf eqmcc, das die
11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA
Inhalt
Dateityp
R Session
Binärfile des R
Venn-Diagramm
Plot
.emf
Ergebnisse Boolesche Minimierung
Text
.txt
Tab. 11.4:
147
Dateiendung
.RData
Dateiausgaben Implikantenanalyse
eigentliche Boole’sche Minimierung durchführt. Hierzu sind die Hilfeseiten zu
truthTable, eqmcc und superSubset zu lesen bzw. Thiem und Dusa (2013). Das
Venn-Diagramm wird erstellt, wenn die Bedingungen gegeben sind . Es werden
bis zu fünf Sets (Quintupel) gezeichnet. Das entspricht einem Kriterium und vier
Bedingungen.
11.1.5
Ausgaben
Es werden die folgenden Dateien ausgegeben
(s. Abb. 11.4). Die Dateinamen orientieren sich an
den Übergaben im Skript.
11.1.6
Ergebnisse und Interpretation
Die Interpretation richtet sich nach den Ausführungen im Manual zu AQUAD 7 (Huber
und Gürtler, 2012, Kap. 11). Die Ergebnisse listen sowohl die Ausgangstabellen (in AQUAD 7
Format bzw. als Null-Eins Wahrheitswerttabelle, s. Abb. 11.3) als auch die primären und –
wenn vorhanden – essentiellen Implikanten auf Abb. 11.2. Experteneinstellungen Implikantenanalyse
(s. Abb. 11.4 bzw. 11.5). Je nach Fall können diese Ergebnisse identisch sein. Hinzu kommen die fundamentalen Ausgangsprodukte (s. Abb. 11.4), die in die Boolesche Minimierung eingehen und zu den primären bzw. essentiellen Implikanten führen. Kongruent hierzu werden die Fälle
aufgezeigt, die durch die primären bzw. essentiellen Implikanten abgedeckt werden. Für alle weiteren Ausgaben von eqmcc sei auf dessen Hilfeseite verwiesen
bzw. Thiem und Dusa (2013). Für eine qualitative Interpretation reicht es aus,
die primären bzw. essentiellen Implikanten und die Abdeckung der jeweiligen
Fälle zu untersuchen. Dies sollte für die positive wie negative Formulierung des
Kriteriums durchgeführt werden, um nicht nur die resultierenden primären (essentiellen) Implikanten zu vergleichen, sondern ebenso die Abdeckung aller Fäl-
148
KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE
Abb. 11.3.
Datenbasis Implikantenanalyse
Abb. 11.5.
Ergebnisse primäre und essentielle Implikanten
Abb. 11.4.
Ergebnisse Boolesche Minimierung
le. Die obigen Abbildungen verwenden den klassischen Originaldatensatz von
Ragin aus dem Jahre 1996 (Ragin, 1987).
Es gilt, dass eine 0 (Null bzw. FALSCH) für die Abwesenheit oder Nichtabdeckung und eine 1 (Eins bzw. WAHR) für die Anwesenheit oder Abdeckung von
Fällen durch primäre bzw. essentielle Implikanten steht.
Das Venn-Diagramm (s. Abb. 11.6 bzw. 11.7) – wenn gezeichnet – visualisiert die jeweilige Lösung. Dieses wird standardmäßig für essentielle Implikanten und das Kriterium erstellt. Die aufgeführten Zahlen weisen auf die Anzahl
der Fälle, die jeweils durch eine bestimmte Schnittmenge erklärt werden können.
11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA
11.1.7
Beispieldatensatz
Im Manual zu AQUAD 7 (Huber und Gürtler, 2012, Kap. 11) wird die Studie von
Ragin (1987) ausführlich besprochen. Der Datensatz erlaubt die Visualisierung
(Tripel) als Venn-Diagramm (s. Abb. 11.6). Aus einem weiteren Datensatz von
Krook (2010, s.a. für eine Analyse des Datensatz in R, Thiem und Dursa, 2013)
lässt sich ein Quintupel (s. Abb. 11.7) zeichnen.
Abb. 11.6.
Beispieldatensatz Venn-Diagramm (Ragin)
149
150
KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE
Abb. 11.7.
Beispieldatensatz Venn-Diagramm (Krook)
Literatur
Aaron, B., Kromrey, J., & Ferron, J. (1998). Equating r-based and d-based effectsize indices: Problems with a commonly recommended formula. paper presented at the annual meeting of the florida educational research association,
orlando, fl. ERIC Document Reproduction Service No. ED433353. 132
Anderson, E. (1936). The species problem in iris. Annals of the Missouri Botanical
Garden, 23, 457–509. 19, 112
Bacher, J. (1994). Clusteranalyse: Eine anwendungsorientierte Einführung. München:
Oldenbourg. 92
Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (1996). Multivariate Analysemethoden. Eine anwendungsorientierte Enführung. 8. Auflage. Berlin: Springer. 88,
91, 106, 107
Bateson, G. (1985). Ökologie des Geistes. Anthropologische, psychologische, biologische
und epistemologische Perspektiven. Frankfurt am Main: Suhrkamp. 26
Bock, H. H. (1974). Automatische Klassifikation. Göttingen: Vandenhoeck und
Ruprecht. 86, 87
Bolstad, W. (2007). Introduction to Bayesians Statistics. Hoboken, New Jersey: John
Wiley and Sons, Inc. 94
Bretthorst, G. (1993). On the difference in means. In W. Grandy & P. Milonni (Eds.), Physics and Probability Essays in honor of Edwin T. Jaynes (pp. 177–
194). Cambridge: Cambridge University Press. http://bayes.wustl.edu/
glb/diff.pdf. 22, 57, 94
Buchner, A., Erdfelder, E., & Faul, F. (1996). Teststärkeanalyse. In E. Erdfelder,
R. Mausfeld, T. Meiser, & G. Rudinger (Eds.), Handbuch Quantitative Methoden
(pp. 123–136). Weinheim: Beltz/ PVU. 132, 135
Cohen, J. (1960). A coefficient for agreement of nominal scales. Educational and
Psychological Measurement, 20, 37–46. 132
152
LITERATUR
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale:
Erlbaum. 132
Cox, T. & Cox, M., Eds. (1994). Multidimensional scaling. London: Chapman and
Hall. 116
Dalgaard, P. (2002). Introductory statistics with R. New York: Springer. http:
//www.biostat.ku.dk/~pd/ISwR.html. 39, 129
Daumenlang, K. (1995). Graphische analysetechniken für multivariate daten. In
E. Roth (Ed.), Sozialwissenschaftliche Methoden. 4. Auflage (pp. 548–572). München: Oldenbourg Wissenschaftsverlag. 90
Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of
Statistics, 7(1), 1–26. . 109
Efron, B. & Tibshirani, R. (1993). An introduction to the boostrap. Boca Raton/
Florida: Chapman and Hall/CRC. 109
Fielding, N. & Schreier, M. (2001). On the compatibility between qualitative and
quantitative research methods. FQS – Forum Qualitative Sozialforschung, 2(1)
Art.4. 25
Fisher, R. (1915). Frequency distribution of the values of the correlation coefficient in samples of an indefinitely large population. Biometrika, 10(4), 507–521.
urlhttp://www.jstor.org/stable/2331838. 80
Fisher, R. (1921). On the ’probable error’ of a coefficient of correlation deduced
from a small sample. Metron, 1, 3–32. url. 80
Fisher, R. (1936). The use of multiple measurements in taxonomic problems.
Annals of Eugenics (London), 7, 179–188. 19, 108, 112
Fisher, R. (1956). Statistical methods and scientific inference. Edinburgh, London:
Oliver and Boyd. 133
Fisher, R. (1970). Statistical methods for research workers. Edinburgh, London: Oliver and Boyd. 131
Flick, U. (2000). Triangulation in der qualitativen forschung. In U. Flick, E. v.
Kardorff, & I. Steinke (Eds.), Qualitative Forschung. Ein Handbuch (pp. 309–318).
Reinbek bei Hamburg: Rowohlts Enzyklopädie. 25
Fox, J. (2002). An R and S-PLUS companion to applied regression. Thousands Oaks,
California: Sage Publications. http://socserv.mcmaster.ca/jfox/. 39
LITERATUR
Friedman, J. (1989). Regularized discriminant analysis. Journal of the American
Statistical Association, 84, 165–175. 108
Galanter, E. (1956). An axiomatic and experimental study of sensory order and
measure. Psychological Review, 63, 16–28. 89
Glaser, B. G. & Strauss, A. L. (1998). Grounded Theory. Strategien qualitativer Forschung (Original 1967: The discovery of Grounded Theory). Bern: Hans Huber. 121
Gläser-Zikuda, Michaela und Seidel, T. u. R. C. u. G. A. u. Z. S., Ed. (2012). Mixed
Methods in der empirischen Bildungsforschung. Münster: Waxmann. 25
Goodman, L. & Kruskal, W. (1954).
Measures of association for crossclassification. Journal of the American Statistical Association, 49, 732–764. 92
Gopal, V., Fuentes, C., & Casella, G. (2012). bayesclust: An r package for testing
and searching for significant clusters. Journal of Statistical Software, 47(14), 1–21.
http://www.jstatsoft.org/v47/i14/. 98
Gürtler, L. (2006). Die Rekonstruktion von Innensicht und Aussensicht humorvollen
Handelns in Schule und Erwachsenenbildung. Die Bewältigung der Katastrophe —
Vipassan¯a-Meditation und Humor. Berlin: Logos. 61, 66, 71, 82, 99, 105, 118, 125
Guo, Y., Hastie, t., & Tibshirani, R. (2007).
Regularized linear discriminant analysis and its application in microarrays. Biostatistics, 8(1), 86–
100. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.125.
1168&rep=rep1&type=pdf. 108
Handl, A. (2002). Multivariate Analysemethoden. Theorie und Praxis multivariater
Verfahren unter besonderer Berücksichtigung von S-PLUS. Berlin: Springer. 39, 86,
90, 91, 92, 93, 95, 98, 108, 115, 116, 117
Hartung, J. & Elpelt, B. (1999). Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. München: Oldenbourg Wissenschaftsverlag. 85, 88, 92
Hildenbrand, B. (1999/ 2005). Fallrekonstruktive Familienforschung. Anleitungen für
die Praxis. 2. Auflage. Wiesbaden: Verlag für Sozialwissenschaften. 121
Hubbard, R. (2004). Alphabet soup. blurring the distinctions between p’s and
alpha’s in psychological research. Theory and Psychology, 14 (3), 295–327. 133
Huber, G. & Gürtler, L. (2012). AQUAD Sieben. Manual zur Software AQUAD 7. (1.
Auflage 2012). Tübingen: Softwarevertrieb Günter Huber. http://www.aquad.
de. 17, 25, 26, 60, 66, 68, 71, 141, 144, 147, 149
153
154
LITERATUR
Hubert, L. (1974). Approximate evaluation techniques for the single-link and
complete-link hierarchical clustering procedure. Journal of the American Statistical Association, 69, 698–704. 92
Jaynes, E. (2003). Probability theory: The logic of science. Edited by G. Larry Bretthorst.
Cambridge: Cambrige University Press. 58, 79, 94, 142
Kelle, U. & Kluge, S. (1999). Vom Einzelfall zum Typus. Fallvergleich und Falkontrastierung in der qualitativen Sozialforschung. Opladen: Leske + Budrich. 141
Klenner (2004). Lexikonaufbau und morphologieanalyseverfahren. http://www.
ifi.unizh.ch/cl/klenner/lehre/ss04/morphologie/skript-wort.4.pdf.
72
Kluge, S. (2000).
Empirisch begründete typenbildung in der qualitativen sozialforschung. Forum Qualitative Sozialforschung, 1. http://www.
qualitative-research.net/fqs-texte/1-00/1-00kluge-d.htm. 141
Krämer, W. (2011). So lügt man mit Statistik. München: Piper. 63
Krook, M. (2010). Women’s representation in parliament: a qualitative comparative analysis. Political Studies, 58 (5), 886–908. 149
Kruskal, J. (1964). On the shortest spanning subtree of a graph and the travelling
salesman problem. Psychometrika, 29, 115–129. 115
Ligges, U. (2009). Programmieren mit R. Heidelberg: Springer. 39
Loredo, T. (1990). From Laplace to Supernova SN 1987A: Bayesian Inference in
Astrophysics. In P. Fougère (Ed.), Maximum Entropy and Bayesian Methods (pp.
81–142). Dordrecht, NL: Kluwer Academic Publishers. http://bayes.wustl.
edu/gregory/articles.pdf. 94
Loredo, T. (1992). The Promise of Bayesian Inference for Astrophysics. In E.
Feigelson & G. Babu (Eds.), Statistical Challenges in Modern Astronomy (pp. 275–
297). New York: Springer. http://www.astro.cornell.edu/staff/loredo/
bayes/promise.pdf. 94
Mardia, K., Kent, J., & Bibby, J. (1979). Multivariate analysis. London: Academic
Press. 116
Martinez, A. M. & Kak, A. C. (2001). Pca vesus lda. IEEE Transactions on
pattern analysis and machine intelligence, 23(2), 228–233. http://www2.ece.
ohio-state.edu/~aleix/pami01.pdf. 108
LITERATUR
Mayring, P. (2001).
titativer ansätze.
Kombination und integration qualitativer und quanForum Qualitative Sozialforschung, 2.
http://www.
qualitative-research.net/fqs-texte/1-01/1-01mayring-d.htm. 25
McCarthy, P. (2005). An assessment of the range and usefulness of lexical diversity measures and the potential of the measure of textual, lexical diversity (MTLD). Memphis:
University of Memphis. 72
McDermott, R. (1985). Computer-aided logic design. Indianapolis: Howard W. Sams
and CO., Inc. 142
McGoldrick, M. & Gerson, R. (2000). Genogramme in der Familienberatung. Bern:
Hans Huber. 26
Mehl, P. (1978). Theoretical risks and tabular asterisks: Sir karl, sir ronald, and the
slow progress of soft psychology. Journal of Consulting and Clinical Psychology,
46, 806–834. 139
Meiser, T. & Humburg, S. (1996). Klassifikationsverfahren. In E. Erdfelder, R.
Mausfeld, T. Meiser, & G. Rudinger (Eds.), Handbuch Quantitative Methoden
chapter II, (pp. 279–290). Weinheim: Beltz: PVU. 87, 89, 117
Miles, M. B. & Huberman, M. A. (1984). Qualitative Data Analysis. A sourcebook of
new methods. Beverly Hills: Sage. 122
Milligan, G. (1980). An examination of the effect of six types of error pertubation
on fifteen clustering algorithms. Psychometrika, 45, 325–342. 87
Milligan, G. & Cooper, M. (1985). An examination of procedures for determining
the number of clusters in a data set. Psychometrika, 50, 159–179. 93
Mojena, R. (1977). Hierarchical grouping methods and stopping rules: an evaluation. Computer Journal, 20, 359–363. 93
Morse, J. M. (2003). Principles of mixed methods and multimethod research design. In A. Tashakkori & C. Teddlie (Eds.), Handbook of mixed methods in social
and behavioral research (pp. 189–208). Thousand Oaks: Sage Publ. 25
Murrell, P. (2005). R Graphics. Boca Raton/ London: Chapman and Hall/ CRC.
39
Norwick, S. (2006). The Quine-McCluskey Method. Handout 5. Technical report, Columbia University, Computer Science, CSEE W4861y. http://www.
cs.columbia.edu/~cs4861/handouts/quine-mccluskey-handout/. 145
155
156
LITERATUR
Oevermann, U. (2000). Die Methode der Fallrekonstruktion in der Grundlagenforschung sowie der klinischen und pädagogischen Praxis. In K. Kraimer (Ed.), Die Fallrekonstruktion. Sinnverstehen in der sozialwissenschaftlichen Forschung (pp. 58–156). Frankfurt am Main: Suhrkamp. 26
Oldenbürger, H. A. (1981). Methodenheuristische Überlegungen und Untersuchungen zur »Erhebung« und Repräsentation kognitiver Strukturen. Dissertation zur Erlangung des Doktorgrades der Mathematisch-Naturwissenschaftlichen Fachbereiche
der Georg-August-Universität Göttingen. Göttingen/ Braunschweig: Technische
Universität Carolo-Wilhelmina. 86, 87, 88, 89, 95, 121
Oldenbürger, H. A. (1994). Clusteranalyse. In T. Herrmann (Ed.), Enzyklopädie
der Psychologie, volume 4 chapter 7, (pp. 390–439). Göttingen: Hogrefe. 86, 87,
88
Oldenbürger, H. A. (1996). Exploratorische, graphische und robuste datenanalyse. In E. Erdfelder, R. Mausfeld, T. Meiser, & G. Rudinger (Eds.), Handbuch
Quantitative Methoden chapter I, (pp. 71–86). Weinheim: Beltz: PVU. 63, 88
Oldenbürger, H. A. (2003). Repräsentation von proximitymatrizen durch
clusteranalysen und deren evaluation — r-programme (clustana).
Zuletzt: 17.06.2004, Zugriff: 21.09.2004, http://www.liteline.de/~holdenb/
fst/nwz/R-PHP/ClustAna.R. 88
Oldenbürger, H. A. & Becker, D. (1976). Are there clusters of frequencies in
power-spectra of eeg? how to find and prove them statistically. In M. Matejcek & G. Schenk (Eds.), Quantitative analysis of the EEG. Proceedings of 2nd
Symposium of the Study Group for EEG Methodology, Jongny sur Vevey, Mai 1975
(pp. 601–611). Konstanz: AEG-Telefunken. 86
Pearson, K. (1900). On the criterion that a given system of derivations from the
probable in the case of a correlated system of variables is such that it can be
reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(5), 157–175.
130
Peirce, C. S. (1965). Collected papers of Charles Sanders Peirce: Vol V.: Pragmatism
and pragmaticism; Vol. VI: Scientific metaphysics (C. Harsthorne, and P. Weiss, Eds.).
Cambridge, MA: The Belknap Press of Harvard University Press. 141
Peirce, C. S. (1997). Pragmatism as a principle and method of right thinking. (Edited
by P.A. Turrisi). New York: State of University of New York Press. 141
Piranheiro, J. & Bates, D. (2009). Mixed-effects models in S and S-PLUS. New York:
Springer. 39, 130
LITERATUR
Popper, K. (1943). Logik der Forschung. 11. Auflage 2005, herausgegeben von Herberth
Keupp, Tübingen: Mohr. Wien. 142
Quenouille, M. (1956). Notes on bias in estimation. Biometrika, 43, 353–360. 109
R Development Core Team (2013). R: A language and environment for statistical
computing. R Foundation for Statistical Computing, Vienna/ Austria. http:
//www.r-project.org. 20
Ragin, C. C. (1987). The comparative method. Moving beyond qualitative and quantitative strategies. Berkeley: Berkeley University Press. 18, 142, 143, 148, 149
Ragin, C. C. (2000). Fuzzy-Set Social Science. Berkeley: Berkeley University Press.
142
Restle, F. (1959). A metric and ordering on sets. Psychometrika, 24, 207–220. 89
Sayre, S. (2001). Qualitative methods for marketplace research. Thousand Oaks: Sage.
70
Smith, J. (1983). Quantitative versus qualitative research: An attempt to clarify
the issue. Educational Researcher, 12(3), 6–13. 25
Stark, Robin und Renkl, A. u. G. H. u. M. H., Ed. (1996). Learning from workedout examples: The effects of example variability and elicited self-explanations. (Forschungsbericht Nr. 76). LMU München: Lehrstuhl für Empirische Pädagogik
und Pädagogische Psychologie. http://epub.ub.uni-muenchen.de/184/. 37
Studer, U. (1996). Wahrscheinlichkeit als Logik: Die formale Struktur konsistenten
Schlussfolgerns. Technical report, Zürich. Zwischenbericht an das Bundesamt
für Justiz (BAJ) vom Dezember 1996. 94
Studer, U. (1998). Verlangen, Süchtigkeit und Tiefensystemik. Technical report, Zürich. Evaluationsbericht an das Justizministerium (BAJ) der Schweiz, http:
//www.ofj.admin.ch/themen/stgb-smv/ber-mv/37.pdf. 19, 23, 94
Studer, U. (2006). Probability theory and inference: How to draw consistent conclusions from incomplete information. Qualitative Research in Psychology, 3,
329–345. 19, 94
Tashakkori, A. & Teddlie, C., Eds. (2003). Handbook of mixed methods in social and
behavioral research. Thousand Oaks: Sage. 25
Thiem, A. & Dusa, A. (2013). Qualitative comparative analysis with R. A user’s guide.
Ney York: Springer. 142, 143, 147, 149
157
158
LITERATUR
Torgerson, W., Ed. (1958). Theory and methods of scaling. New Work: Wiley. 114
Tukey, J. W. (1977). Exploratory data analysis. Boston: Addison-Wesley. 18, 62
Venables, W. & Ripley, B. (2002). Modern applied statistics with S. Fourth Edition.
New York: Springer. 88
Waller, N. (2004). The fallacy of the null hypothesis in soft psychology. Applied
and Preventive Psychology, 11, 83–86. . 139
Zoonekynd, V. (2007). Statistics with R. Technical report. http://zoonek2.free.
fr/UNIX/48_R/all.html. 39
Teil IV
Anhang
Anhang A
R-Skripte, Parameter und
Beispiele
hcluster.r
lda.r
Int_MC_x_Person_old.csv
iris.csv
Clusteranalyse
Lineare
Klassifikation/ Gruppierung
Klassifikation/ Gruppierung
Chi-Quadrat
Qualitative
Inferenzstatistik
QCA/ Implikanten
–
–
übergreifend/ Funktionssammlung
übergreifend/ Funktionssammlung
Analyse
komparative
Prototypen
Klassifikation/ Gruppierung
Skalierung
Multidimensionale
Verfahren
aquad_func.r
transpose.r
booleanalgebra.r
Ragin96.csv
–
chisquare.r
–
optcut.r
chisquare.csv
mds.r
FR_Codes_freq.csv
FR_Codes_freq.csv
–
–
booleanalgebraparameter.aqd
chisqparameter.aqd
optcutparameter.aqd
mdsparameter.aqd
ldaparameter.aqd
hclusterparameter.aqd
descplotparameter.aqd
desccorparameter.aqd
descstatsparameter.aqd
wordfreqparameter.aqd
Parameterdatei
Tab. A.1:
Klassifikation/ Gruppierung
descplot.r
FR_Codes_freq.csv
Plots
Deskriptive Statistik
Diskrimination
desccor.r
FR_Codes_freq.csv
Korrelation
Deskriptive Statistik
kerrybush_wl.txt
me), kerrybush_sp.txt,
descstats.r
Verteilungsdeskription FR_Codes_freq.csv
Deskriptive Statistik
wordfreq.r
(AQUAD_7 Projektna-
kerry_bush
Worthäufigkeiten
Deskriptive Statistik
R-Skript
Beispieldatensatz
Analyse
A.1
Analysebereich
162
ANHANG A. R-SKRIPTE, PARAMETER UND BEISPIELE
Übersicht
AQUAD 7 kommt mit den folgenden R-Skripten, Parameterdateien und Beispieldatensätzen:
Überblick
Anhang B
R Skripte – Parameter
B.1
Transponierung [tparameter]
Tab. B.1:
tparameter
default value
Transponierung
possible values
FR_Codes_freq.csv
B.2
explanation
note
Name Datei zum transponieren
Verteilungsdeskriptionen [descstats]
Tab. B.2:
Verteilungsdeskription
descstats
default value
infilenam
FR_Codes_freq.csv
possible values
explanation
note
trans
FALSE
TRUE/, FALSE
transpose table before analysis
informat
1
1, 2
input format (mostly csv)
or tab-limited
outformat
1
1, 2
output format (mostly csv)
or tab-limited
nk
2
input filename
digits after comma
20
6
TRUE
TRUE
maxcol
labbrev
histprob
multi
1
outformat
3
1
informat
20
FALSE
trans
maxrow
FR_Codes_freq.csv
nk
default value
infilenam
plot several plots on one page
probabilities of frequencies in case of histograms
number of characters to abbreviate names
maximum number of rows of input file
maximum number of columns of input file
digits after comma
output format (mostly csv)
input format (mostly csv)
transpose table before analysis
input filename
explanation
not used anymore
or tab-limited
or tab-limited
note
Tab. B.3:
TRUE, FALSE
TRUE, FALSE
1, 2
1, 2
TRUE, FALSE
possible values
B.3
descplot
164
ANHANG B. R SKRIPTE – PARAMETER
Plots [descplot]
Plots
default value
kerrybush_tf.txt
kerrybush_cf.txt
kerrybush_sp.txt
TRUE
kerrybush_wl.txt
kerrybush
1
2
2
txtinfnam
codinfnam
speakcinfnam
wortlist
wortlistnam
prjnam
outformat
nk
critcount
very low occurences)
words & CO
remove single (or with
process only words with
or tab-limited
writing
frequency > critcount
digits after comma
output format (mostly csv)
required for output file
reduction
project name
read word list for
metafile, contains word list
read speaker codes
read codes
read pure text
note
filename to read
reduce by wordlist?
filename to read
metafile, contains speaker code
filenames to read
metafile, contains *.aco
filenames to read
metafile, contains *.atx
explanation
Tab. B.4:
1, 2
TRUE, FALSE
possible values
B.4
wordfreq
B.4. WORTHÄUFIGKEITEN [WORDFREQ]
165
Worthäufigkeiten [wordfreq]
Worthäufigkeiten
default value
FR_Codes_freq.csv
FALSE
1
1
3
20
6
panel.shade
panel.pie
panel.density
infilenam
trans
informat
outformat
nk
maxdim
labbrev
lowerpanel
upperpanel
diagpanel
panel.minmax
panel.density,
panel.bar, panel.conf
panel.ellipse, panel.pts,
panel.shade, panel.pie,
panel.bar, panel.conf
see R manual ?corrgram
see R manual ?corrgram
see R manual ?corrgram
number of characters to abbreviate names
maximum number of dimensions (columns)
digits after comma
output format (mostly csv)
input format (mostly csv)
transpose table before analysis
input filename
explanation
or tab-limited
or tab-limited
note
Tab. B.5:
panel.ellipse, panel.pts,
panel.shade, panel.pie,
1/, 2
1, 2
TRUE/, FALSE
possible values
B.5
descorr
166
ANHANG B. R SKRIPTE – PARAMETER
Korrelationen [descorr]
Korrelation
100
0.25
prop
TRUE
BOOT
nsimnull
3
ngroup
2
TRUE
abbrev
k
TRUE
label
3
1.1
fac
repli
TRUE
proba
0.1
100
nperm
0.5
1
bootn
mcs
TRUE
scaling
aR
6
labbrev
0.06
2
nk
500
1
outformat
nsim
1
informat
at least 0.25
8000–10000
at least
strictly k > 1
choose mcs <
1
n
to remove mcs,
0 < aR <1
at least >500000
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
1, 2
1, 2
TRUE, FALSE
possible values
at each iteration
proportion of partition space that is sampled from
number of draws from distribution of P(H_0|Y)
Hypothesis to test! Assumed number of clusters
replication of the (whole) chain (test) of MCMC
isolated
bayesclust – only for experts
bayesclust – only for experts
bayesclust – only for experts
bayesclust – only for experts
bayesclust – only for experts
bayesclust – only for experts
percentage of time that the random walk is chosen
bayesclust – only for experts
n groups
dendrograms, ie. Assume
required for plotting
leave as it is | only for experts
use TRUE
or tab-limited
or tab-limited
note
minimum cluster size, prevents outliers as being
(see R vignette)
value of M in equation 10 of the Bayes Factor BF
critical value to determine statistical significance
do pvclust bootstrapping?
cut hierarchical cluster object at group n
abbreviate names?
print labels in dendrograms?
factor to display plots properly
instead of frequencies
plot hierarchical clustertest histogram probabilities
call
number of permutations for hierarchical clustertest
number of bootstraps for pvclust call
scale values
number of characters to abbreviate names
digits after comma
output format (mostly csv)
input format (mostly csv)
transpose table before analysis
input filename
explanation
Tab. B.6:
alphalevel
FALSE
trans
freq.csv
FR_Codes_-
value
default
B.6
infilenam
hcluster
B.6. CLUSTERANALYSE [HCLUSTER]
167
Clusteranalyse [hcluster]
Clusteranalyse
default value
iris.csv
iris_groupfactor.txt
FALSE
1
1
2
6
B
LDA
TRUE
100
TRUE
TRUE
infilenam
groupfile
trans
informat
outformat
nk
labbrev
typ
method
sim
nsim
compareLDAQDA
compareLDAPCA
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
LDA, QDA
compare LDA with PCA
compare LDA with QDA
number of simulations
simulate?
method of analysis
type of simulation
abbreviate names
number of characters to
digits after comma
output format (mostly csv)
input format (mostly csv)
analysis
transpose table before
group filename
input filename
explanation
(I)nternal Jack-knife/ (J)ack-knife
(B)ootstrap/ (P)ermutation/
or tab-limited
or tab-limited
required!
note
Tab. B.7:
B, P, I, J
1, 2
1, 2
TRUE, FALSE
possible values
B.7
lda
168
ANHANG B. R SKRIPTE – PARAMETER
Lineare Diskrimination [lda]
Lineare Diskrimination
TRUE
1.1
TRUE
expand
fac
linien
TRUE
TRUE
scaling
TRUE
FALSE
labbrevMDSplot
hprot
6
labbrev
protoplot
2
nk
TRUE
1
outformat
TRUE
1
informat
texte
TRUE
trans
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
1, 2
1, 2
TRUE, FALSE
possible values
print names on plot.prototype
highlight prototype?
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
print points on plot.prototype
show prototype connections
leave as it is | only for experts
leave as it is | only for experts
print lines on plot.prototype
leave as it is | only for experts
use TRUE
or tab-limited
or tab-limited
note
factor to display plots properly
use fac to expand grid
scale values
use abbreviated names for MDS plot?
number of characters to abbreviate names
digits after comma
output format (mostly csv)
input format (mostly csv)
transpose table before analysis
input filename
explanation
Tab. B.8:
punkte
default value
FR_Codes_freq.csv
infilenam
B.8
mds
B.8. MULTIDIMENSIONALE SKALIERUNG [MDS]
169
Multidimensionale Skalierung [mds]
Multidimensionale Skalierung
FR_Codes_freq.csv
TRUE
1
1
2
6
TRUE
TRUE
TRUE
1.1
3
TRUE
TRUE
TRUE
TRUE
TRUE
infilenam
trans
informat
outformat
nk
labbrev
labbrevMDSplot
scaling
expand
fac
pos
linien
punkte
texte
protoplot
hprot
default value
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
plot.prototype
print names on
plot.prototype
show prototype connections
highlight prototype?
print points on
print lines on plot.prototype
on plot.prototype
position where to print names
factor to display plots properly
use fac to expand grid
scale values
MDS plot?
use abbreviated names for
abbreviate names
number of characters to
digits after comma
output format (mostly csv)
input format (mostly csv)
transpose table before analysis
input filename
explanation
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
leave as it is | only for experts
use TRUE
or tab-limited
or tab-limited
note
Tab. B.9:
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
1, 2
1, 2
TRUE, FALSE
possible values
B.9
optcut
170
ANHANG B. R SKRIPTE – PARAMETER
Prototypen [optcut]
Prototypen
default value
chisquare.csv
TRUE
10000
1
2
FALSE
0.1
0.05
0.8
speaker
word
infilenam
HC
reps
outformat
nk
proptrendtest
ES
alphalevel
powerv
rnam
cnam
colnam of contingency table
rownam of contingency table
power value
significance
critical value to determine statistical
effect size
perform also prop.trend.test
digits after comma
output format (mostly csv)
bootstrapping chisquare
number replications for
perform exact Fisher test?
input filename
explanation
not yet used
or tab-limited
HC==TRUE
dim==2x2 or
Fisher test if
note
Tab. B.10:
TRUE/ FALSE
1/2
TRUE, FALSE
possible values
B.10
chisquare
B.10. CHI QUADRAT [CHISQUARE]
171
Chi Quadrat [chisquare]
Chi Quadrat
TRUE, FALSE
leave as it is | only for experts
see R manual package ’qca’: ?truthTable
0
essential
TRUE
vennstyle
fileyn
1
incl.cut
cov.cut
TRUE
necessity
relation
rowdom
details
TRUE
FALSE
all.sol
TRUE, FALSE
essential, all
TRUE, FALSE
TRUE, FALSE
TRUE, FALSE
variables!)
(PI) for Venn Diagram
write Venn Diagram directly to file
R restrictions (number of
use all or only essential primary implicants
leave as it is | only for experts
1
explain
leave as it is | only for experts
leave as it is | only for experts
see R manual package ’qca’: ?truthTable
see R manual package ’qca’: ?superSubset
FALSE
sort.by
TRUE, FALSE
leave as it is | only for experts
see R manual package ’qca’: ?truthTable
see R manual package ’qca’: ?truthTable
leave as it is | only for experts
TRUE
show.cases
TRUE, FALSE
leave as it is | only for experts
see R manual package ’qca’: ?truthTable
leave as it is | only for experts
TRUE
complete
leave as it is | only for experts
see R manual package ’qca’: ?truthTable
see R manual package ’qca’: ?superSubset
1
incl.cut0
neg.out == FALSE → positive
outcome
leave as it is | only for experts
1
incl.cut1
outcome variable
negative or positive outcome?
see R manual package ’qca’: ?superSubset
1
n.cut
TRUE, FALSE
see R manual package ’qca’: ?eqmcc
FALSE
neg.out
cut off < cutoff (below) OR cut off <= cutoff
(notbelow)
leave as it is | only for experts
D
outcome
below, notbelow
quantile crit% for cutoff (0.5 ~ 50%)
leave as it is | only for experts
below
critype
if input file = aquadstyle (aA etc) then
convert to 1/0 truth table
see R manual package ’qca’: ?eqmcc
0.5
crit
TRUE, FALSE
calculate cutoff based on quantiles? Or
already cutoff?
or tab-limited
or tab-limited
see R manual package ’qca’: ?eqmcc
TRUE
aquadstyle
TRUE, FALSE
output format (mostly csv)
input format (mostly csv)
leave as it is | only for experts
FALSE
cutoffreq
1, 2
input filename
leave as it is | only for experts
1
outformat
1, 2
note
see R manual package ’qca’: ?eqmcc
1
informat
explanation
Tab. B.11:
include
Ragin96.csv
infilenam
possible values
B.11
see R manual package ’qca’: ?eqmcc
default value
booleanalgebra
172
ANHANG B. R SKRIPTE – PARAMETER
Implikanten [booleanalgebra]
Implikanten
Anhang C
R-Lernskripte
Die R-Lernskripte liegen in den Verzeichnissen “Einführung_in_R_part[1-3]”.
Neben dem eigentlichen *.r Skript sind zusätzlich die jeweligen Ausgaben (.csvDatei, Textdatei, Graphik) mit enthalten sowie das Abbild der R-Sitzung (Image)
mit einer Historie der Befehlseingaben. Das zweite Skript hat zusätzlich als Input einen Datensatz aus der PISA Studie. Es empfiehlt sich, mit einer Kopie der
Verzeichnisse bzw. Skripte zu arbeiten, um den eigenen Output (oder Veränderungen) mit dem originalen vergleichen zu können. Der Beispieldatensatz ist in
dasselbe Verzeichnis wie das R-Skript zu kopieren oder der Dateipfad muss angepasst werden.
Konkret sollten die R-Skripte mit einem R-Editor geöffnet werden, der Code
direkt an R senden kann. Dann können die Zeilen im Sinne der “worked examples” abgearbeitet werden. Dabei lohnt es sich, gleich die jeweiligen Befehle
abzuändern, um die Funktionsweise von R besser zu verstehen.
Die R-Lernskripte decken einen Minimalkonsens ab, um die ersten
Schritte mit R zu ermöglichen. Dem sollte ein Grundlagenbuch zu RAnwendungsbereichen der Statistik folgen. Am leichtesten arbeitet es sich,
wenn regelmäßig die manpages der R-Befehle zu Hilfe genommen werden und
die Vignetten gelesen, sofern welche vorliegen.
Die folgenden R-Lernskripte liegen vor:
174
ANHANG C. R-LERNSKRIPTE
Tab. C.1:
Lernskripte
Skriptname
Inhalte
R-als-Taschenrechner_v1.r
Einführung R, R als Taschenrechner,
Bemerkungen
Umgang mit Objekten, plotten
R-desk-Stat_v1.r
Automatisierung von Aufgaben in R:
Schleifen, Funktionen,
Objektorientiertheit
R-zur-Simulation_v1.r
Umgang mit Simulation,
Zufallswerten aus Verteilungen und
graphische Ausgabe
Beispieldatensatz: PISA