AQUAD 7 Manual – R Integration Leo Gürtler∗ und Günter L. Huber† 22.07.2014 (erste Version/ DE: 08.05.2013), v2 Zusammenfassung Dieses Manual beschreibt die Integration von R innerhalb von AQUAD 7. Neben grundsätzlichen Bemerkungen zum Einsatz von Mixed Methods wird das technische Zusammenspiel von AQUAD 7 und R erläutert. Dem folgen Grundlagen zum Arbeiten im R sowie der Gebrauch der R-Skripte, die auf AQUAD 7 zugeschnitten sind. Der statistische bzw. logische Teil arbeitet gemäß dem Typus der Verfahren die R-Skripte, deren theoretischen Hintergrund, Eingaben und Ausgaben sowie Ergebnisse und Interpretation auf. Pro Verfahren liegt ein Beispieldatensatz vor. Im Anhang werden die Einstellungen der R-Skripte tabellarisch aufgelistet. ∗ Kontakt: † Kontakt: www.aquad.de | [email protected] | www.guertler-consulting.de www.aquad.de | [email protected] Copyright Ohne ausdrückliche, schriftliche Zustimmung der Autoren ist es nicht gestattet, das Manual oder Teile davon in irgendeiner Form durch Druck, Fotokopie, Mikrofilm oder Einspeicherung und Verarbeitung in elektronischen Systemen zu vervielfältigen oder zu verbreiten. Dasselbe gilt für die Rechte der öffentlichen Wiedergabe und der Übersetzung in andere Sprachen. Für den Schutz des Urheberrechts am Programmpaket AQUAD Sieben, das zum Download auf www.aquad.de erhältlich ist, gelten die Lizenzbestimmungen, die mit dem Programm ausgeliefert werden – die GNU General Public License der Free Software Foundation in der Version 3. Eine Kopie dieser Lizenz ist im Programm enthalten, s.a. www.gnu.org/licenses/. Einschränkung der Gewährleistung Für das in diesem Manual beschriebene Programm AQUAD Sieben und die Zusammenarbeit mit der Statistiksoftware R (R-Skripte, erhältlich mit dem Programm AQUAD Sieben) übernehmen die Autoren keine Garantie irgendeiner Art, folglich auch keine Haftung, bezüglich jeglicher Konsequenzen, die auf irgendeine Art und Weise aus der Benutzung des Programmpakets oder Teilen davon hergeleitet werden sollten. Die Lizenz der Statistiksoftware R obliegt der R Foundation, die offizieller Teil der Free Software Foundation GNU Projekt ist. c 1. Auflage 2013, aktuelle Version vom 22.07.2014 Autoren: Leo Gürtler und Günter L. Huber Softwarevertrieb Günter Huber, Viktor-Renner-Str. 39, 72074 Tübingen Telefon ++49 (0) 7071 – 88 51 47 Kontakt: [email protected], [email protected] Inhaltsübersicht Inhaltsübersicht 3 Abbildungen 8 Tabellen 12 I Grundlagen 15 1 2 Einführung und Vorbemerkungen 1.1 Kurzfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Wofür ist dieses Manual – und wofür nicht? . . . . . . . . . . . . . 1.3 Möglichkeiten und Grenzen der Integration von AQUAD 7 und R 1.4 Roadmap – zukünftige Entwicklungen . . . . . . . . . . . . . . . . 1.5 R-Lizenzierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 17 20 21 22 Problemstellung 2.1 Intelligente Forschung designen – Mixed Methods 2.1.1 Nicht immer! . . . . . . . . . . . . . . . . . 2.1.2 Aber manchmal! . . . . . . . . . . . . . . . 2.1.3 Und machmal nicht! . . . . . . . . . . . . . 2.2 Beispielstudien im Kontext von AQUAD 7 . . . . . . . . . 25 25 26 26 27 28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II Praxis – AQUAD 7 und R 29 3 R Installation und Initialisierung 31 4 Aufruf von R-Skripten in AQUAD 7 33 4.1 Warn- und Fehlermeldungen . . . . . . . . . . . . . . . . . . . . . . 34 4.2 Hilfseiten im R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3 R lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 INHALTSÜBERSICHT 4.4 5 6 Weiterführende Links und Literatur zu R . . . . . . . . . . . . . . . 39 Diverses 5.1 Ergebnisse sichern . . . . . . . . . . . . 5.1.1 Output und Logdatei . . . . . . . 5.1.2 Tabellen . . . . . . . . . . . . . . 5.1.3 Graphiken und Graphikformate 5.1.4 R-Session . . . . . . . . . . . . . 5.2 Bibliotheken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 41 41 42 42 43 43 R-Skripte 47 6.1 Normalmodus und Expertenmodus . . . . . . . . . . . . . . . . . . 47 6.1.1 Veränderung der R-Skripte . . . . . . . . . . . . . . . . . . . 48 6.1.2 Arbeit mir R unabhängig von AQUAD 7 . . . . . . . . . . . 49 III Statistik und Logik 51 7 Vorbemerkungen 53 8 Deskriptive Statistik 8.1 Verteilungsdeskriptionen . . . . . . . 8.1.1 Sinn und Zweck . . . . . . . . 8.1.2 Theorie . . . . . . . . . . . . . . 8.1.3 Datenbasis . . . . . . . . . . . . 8.1.4 R-Skript und Einstellungen . . 8.1.5 Ausgaben . . . . . . . . . . . . 8.1.6 Ergebnisse und Interpretation . 8.1.7 Beispieldatensatz . . . . . . . . 8.2 Explorative Datenanalyse mit Plots . . 8.2.1 Sinn und Zweck . . . . . . . . 8.2.2 Theorie . . . . . . . . . . . . . . 8.2.3 Datenbasis . . . . . . . . . . . . 8.2.4 R-Skript und Einstellungen . . 8.2.5 Ausgaben . . . . . . . . . . . . 8.2.6 Ergebnisse und Interpretation . 8.2.7 Beispieldatensatz . . . . . . . . 8.3 Worthäufigkeiten . . . . . . . . . . . . 8.3.1 Sinn und Zweck . . . . . . . . 8.3.2 Theorie . . . . . . . . . . . . . . 8.3.3 Datenbasis . . . . . . . . . . . . 8.3.4 R-Skript und Einstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 55 55 56 59 59 59 59 61 62 62 63 63 63 64 65 66 70 70 71 73 73 INHALTSÜBERSICHT 8.4 9 8.3.5 Ausgaben . . . . . . . . . . . . 8.3.6 Ergebnisse und Interpretation . 8.3.7 Beispieldatensatz . . . . . . . . Korrelation . . . . . . . . . . . . . . . . 8.4.1 Sinn und Zweck . . . . . . . . 8.4.2 Theorie . . . . . . . . . . . . . . 8.4.3 Datenbasis . . . . . . . . . . . . 8.4.4 R-Skript und Einstellungen . . 8.4.5 Ausgaben . . . . . . . . . . . . 8.4.6 Ergebnisse und Interpretation . 8.4.7 Beispieldatensatz . . . . . . . . Klassifikation und Gruppierung 9.1 Hierarchische Clusteranalyse . . . . . 9.1.1 Sinn und Zweck . . . . . . . . 9.1.2 Theorie . . . . . . . . . . . . . . 9.1.3 Datenbasis . . . . . . . . . . . . 9.1.4 R-Skript und Einstellungen . . 9.1.5 Ausgaben . . . . . . . . . . . . 9.1.6 Ergebnisse und Interpretation . 9.1.7 Beispieldatensatz . . . . . . . . 9.2 Lineare Diskrimination . . . . . . . . . 9.2.1 Sinn und Zweck . . . . . . . . 9.2.2 Theorie . . . . . . . . . . . . . . 9.2.3 Datenbasis . . . . . . . . . . . . 9.2.4 R-Skript und Einstellungen . . 9.2.5 Ausgaben . . . . . . . . . . . . 9.2.6 Ergebnisse und Interpretation . 9.2.7 Beispieldatensatz . . . . . . . . 9.3 Multidimensionale Skalierung . . . . . 9.3.1 Sinn und Zweck . . . . . . . . 9.3.2 Theorie . . . . . . . . . . . . . . 9.3.3 Datenbasis . . . . . . . . . . . . 9.3.4 R-Skript und Einstellungen . . 9.3.5 Ausgaben . . . . . . . . . . . . 9.3.6 Ergebnisse und Interpretation . 9.3.7 Beispieldatensatz . . . . . . . . 9.4 Prototypen . . . . . . . . . . . . . . . . 9.4.1 Sinn und Zweck . . . . . . . . 9.4.2 Theorie . . . . . . . . . . . . . . 9.4.3 Datenbasis . . . . . . . . . . . . 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 74 74 78 78 78 81 81 82 82 82 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 85 85 87 95 95 96 96 99 105 105 107 110 110 111 111 112 113 114 115 116 117 117 117 118 120 120 121 122 6 INHALTSÜBERSICHT 9.4.4 9.4.5 9.4.6 9.4.7 R-Skript und Einstellungen . . Ausgaben . . . . . . . . . . . . Ergebnisse und Interpretation . Beispieldatensatz . . . . . . . . 10 Inferenzstatistik 10.1 Chi-Quadrat . . . . . . . . . . . . . . . 10.1.1 Sinn und Zweck . . . . . . . . 10.1.2 Theorie . . . . . . . . . . . . . . 10.1.3 Datenbasis . . . . . . . . . . . . 10.1.4 R-Skript und Einstellungen . . 10.1.5 Ausgaben . . . . . . . . . . . . 10.1.6 Ergebnisse und Interpretation . 10.1.7 Beispieldatensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 123 123 125 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 129 129 130 133 133 134 134 135 11 Qualitativ komparative Analyse 11.1 Implikantenanalyse und Boolesche Algebra 11.1.1 Sinn und Zweck . . . . . . . . . . . 11.1.2 Theorie . . . . . . . . . . . . . . . . . 11.1.3 Datenbasis . . . . . . . . . . . . . . . 11.1.4 R-Skript und Einstellungen . . . . . 11.1.5 Ausgaben . . . . . . . . . . . . . . . 11.1.6 Ergebnisse und Interpretation . . . . 11.1.7 Beispieldatensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 141 141 142 145 146 147 147 149 . . . . . . . . . . . . . . . . Literatur 151 IV Anhang 159 A R-Skripte, Parameter und Beispiele 161 A.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 B R Skripte – Parameter B.1 Transponierung [tparameter] . . . . B.2 Verteilungsdeskriptionen [descstats] B.3 Plots [descplot] . . . . . . . . . . . . B.4 Worthäufigkeiten [wordfreq] . . . . B.5 Korrelationen [descorr] . . . . . . . . B.6 Clusteranalyse [hcluster] . . . . . . . B.7 Lineare Diskrimination [lda] . . . . . B.8 Multidimensionale Skalierung [mds] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 163 163 164 165 166 167 168 169 INHALTSÜBERSICHT 7 B.9 Prototypen [optcut] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 B.10 Chi Quadrat [chisquare] . . . . . . . . . . . . . . . . . . . . . . . . . 171 B.11 Implikanten [booleanalgebra] . . . . . . . . . . . . . . . . . . . . . . 172 C R-Lernskripte 173 Abbildungen 3.1 3.2 3.3 3.4 3.5 Eingangsfenster AQUAD 7 . Auswahlmenü Statistik . . . R initialisieren . . . . . . . . Anweisungen R initialisieren Auswahl R-GUI Programm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 32 32 32 32 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 Menüpunkt R-Statistik . . . . . . . . . . . Anweisung Code in R-GUI einfügen . . . Code in R-GUI einfügen . . . . . . . . . Skripte in R-GUI . . . . . . . . . . . . . . Warnmeldung R-Paket Versionsnummer Warnmeldung Abkürzung von Namen . Warnmeldungen Graphikausgabe . . . . Aufruf Hilfeseite im R . . . . . . . . . . Hilfeseite im R . . . . . . . . . . . . . . . Sourcecode R Befehl . . . . . . . . . . . . Aufruf R Befehl . . . . . . . . . . . . . . R Lernskript in Tinn-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 34 34 35 35 35 36 37 37 37 37 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 Ausgabedateien Verteilungsdeskription . . . . . . . . . Ausgabedateien Korrelation . . . . . . . . . . . . . . . . Ausgabe ; (csv) Tabelle Verteilungsdeskription . . . . . Ausgabe \t (tab) Tabelle Verteilungsdeskription . . . . . R Image gespeicherte Objekte im Speicher . . . . . . . erfolgreiche Prüfung installierte Bibliotheken . . . . . . automatische Prüfung und Installation von Bibliotheken Abfrage Installation Bibliotheken unter Nutzeraccount Fehlermeldung Installation fehlende Bibliothek . . . . . Auswahl Mirror . . . . . . . . . . . . . . . . . . . . . . Installation Bibliotheken . . . . . . . . . . . . . . . . . R als Admin ausführen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 41 42 42 43 43 44 44 44 44 45 45 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildungen 9 5.13 Verzeichniswechsel im R-GUI . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.14 Verzeichniswechsel nach /scripts . . . . . . . . . . . . . . . . . . . . . . 46 6.1 6.2 Auswahl Default-Einstellungen . . . . . . . . . . . . . . . . . . . . . . . 47 Auswahl Experten-Einstellungen . . . . . . . . . . . . . . . . . . . . . . 47 7.1 Menü R-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10 8.11 8.12 8.13 8.14 8.15 8.16 8.17 8.18 8.19 8.20 8.21 8.22 Untermenü Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . Menüpunkt Verteilungsdeskription . . . . . . . . . . . . . . . . . . Auswahl Datendatei . . . . . . . . . . . . . . . . . . . . . . . . . . . Experteneinstellungen Verteilungsdeskription . . . . . . . . . . . . Ausgabe R-Skript Verteilungsdeskription . . . . . . . . . . . . . . . Ausgabe deskriptive Statistiken . . . . . . . . . . . . . . . . . . . . Menüpunkt Explorative Datenanalyse mit Plots . . . . . . . . . . . Experteneinstellungen explorative Datenanalyse . . . . . . . . . . . Warnmeldung Überschreitung Dimensionen . . . . . . . . . . . . . Warnmeldung Aussehen Histogramme . . . . . . . . . . . . . . . . Ausgabedateien explorative Plots . . . . . . . . . . . . . . . . . . . . Beispieldatensatz explorative Plots . . . . . . . . . . . . . . . . . . . Menüpunkt Worthäufigkeiten . . . . . . . . . . . . . . . . . . . . . Experteneinstellungen Worthäufigkeiten . . . . . . . . . . . . . . . . Beispieldatensatz Boxplots Anzahl Zeichen nach Sprechercode . . . Beispieldatensatz Boxplots Anzahl Wörter nach Sprechercode . . . Beispieldatensatz QQ-Plot Anzahl Zeichen . . . . . . . . . . . . . . Beispieldatensatz Histogramme Anzahl Wörter nach Sprechercode Menüpunkt Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . Experteneinstellungen Korrelation . . . . . . . . . . . . . . . . . . . Beispieldatensatz Korrelationsplot . . . . . . . . . . . . . . . . . . . Beispieldatensatz p-Werte der Korrelationskoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 55 58 59 60 60 62 64 65 65 65 67 70 73 76 76 76 76 78 82 83 84 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 Untermenü Klassifikation und Gruppierung . . . . . . . . . . . . . . . Menüpunkt hierarchische Clusteranalyse . . . . . . . . . . . . . . . . . Auswahl Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Experteneinstellungen hierarchische Clusteranalyse . . . . . . . . . . . Ausgabe Test auf hierarchische Clusterbarkeit . . . . . . . . . . . . . . Ausgabe γ-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ausgabe Anzahl Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . Ausgabe Zuordnung zu Cluster . . . . . . . . . . . . . . . . . . . . . . Beispieldatensatz Test auf hierarchische Clusterbarkeit (Histogramm Dep f ui A ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 85 95 95 98 98 99 99 . . . . . . . . . . . . . . . . . . . . . . . 100 10 Abbildungen 9.10 Beispieldatensatz Test auf hierarchische Clusterbarkeit (Dep f ui A vs. Normalverteilung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.11 Beispieldatensatz Test auf hierarchische Clusterbarkeit (Scatterplot Dep f ui A vs. Dep f ui B ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.12 Beispieldatensatz Dendrogramm Ward Verfahren . . . . . . . . . . . . 9.13 Beispieldatensatz Treppenfunktion . . . . . . . . . . . . . . . . . . . . . 9.14 Beispieldatensatz Bootstrap Simulation (pvclust) . . . . . . . . . . . . 9.15 Beispieldatensatz Konvergenz posteriorer Wahrscheinlichkeiten (bayesclust) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.16 Beispieldatensatz Simulation Nullverteilung (bayesclust) . . . . . . . 9.17 Beispieldatensatz optimale Cluster (bayesclust) . . . . . . . . . . . . . 9.18 Menüpunkt Lineare Diskrimination . . . . . . . . . . . . . . . . . . . . 9.19 Experteneinstellungen lineare und quadratische Diskriminanzanalyse 9.20 Ausgabe Simulation lineare Diskriminanzanalyse . . . . . . . . . . . . 9.21 Beispieldatensatz Boxplot Gruppenfaktor . . . . . . . . . . . . . . . . . 9.22 Beispieldatensatz Scatterplot lineare Diskriminanzachsen . . . . . . . . 9.23 Beispieldatensatz Histogramme erste Diskriminanzachse (Vorhersage aufgrund Modell) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.24 Beispieldatensatz LD und PCA . . . . . . . . . . . . . . . . . . . . . . . 9.25 Menüpunkt multidimensionale Skalierung . . . . . . . . . . . . . . . . 9.26 Experteneinstellungen multidimensionale Skalierung . . . . . . . . . . 9.27 Beispieldatensatz Scatterplot Achsen I und II (MDS) . . . . . . . . . . . 9.28 Beispieldatensatz Scatterplot Achsen I, II und III (MDS) und optimaler Schnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.29 Beispieldatensatz Visualisierung MDS (2D) und optimaler Schnitt . . . 9.30 Beispieldatensatz räumliche Darstellung (MDS 3D) . . . . . . . . . . . 9.31 Beispieldatensatz Screeplot Eigenwerte (MDS) . . . . . . . . . . . . . . 9.32 Ergebnisausgabe multidimensionale Skalierung . . . . . . . . . . . . . 9.33 Menüpunkt Prototypen . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.34 Experteneinstellungen Prototypen . . . . . . . . . . . . . . . . . . . . . 9.35 Beispieldatensatz Plot kophenetische Korrelationen . . . . . . . . . . . 9.36 Beispieldatensatz Visualisierung optimaler Schnitt und MDS . . . . . . 9.37 Ergebnisausgabe volle Distanzmatrix . . . . . . . . . . . . . . . . . . . 9.38 Ergebnisausgabe Prototypenmatrix . . . . . . . . . . . . . . . . . . . . . 10.1 10.2 10.4 10.5 10.6 10.3 Menüpunkt Chi2 -Analyse . . . . . . . . . . . . . . . . . . . . . Experteneinstellungen Chi2 -Test . . . . . . . . . . . . . . . . . . Beispieldatensatz Ergebnisse Chi2 -Test . . . . . . . . . . . . . . Beispieldatensatz Marginalsummen und Zellbeitrag Chi2 -Test Beispieldatensatz Effektstärke und Power Chi2 -Test . . . . . . Ausgabe Datenbasis Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 . . . . 101 101 101 101 . . . . . . . . 102 102 102 105 110 111 113 113 . . . . . 114 114 114 117 119 . . . . . . . . . . . 119 119 119 120 120 121 123 126 126 126 126 . . . . . . 129 134 135 136 136 136 Abbildungen 11 10.7 Beispieldatensatz Plots Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . 137 11.1 11.2 11.3 11.4 11.5 11.6 11.7 Menüpunkt Implikantenanalyse . . . . . . . . . Experteneinstellungen Implikantenanalyse . . . Datenbasis Implikantenanalyse . . . . . . . . . Ergebnisse Boolesche Minimierung . . . . . . . Ergebnisse primäre und essentielle Implikanten Beispieldatensatz Venn-Diagramm (Ragin) . . Beispieldatensatz Venn-Diagramm (Krook) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 147 148 148 148 149 150 Tabellen 8.1 8.2 8.3 8.4 8.5 8.6 Ausgabedateien Verteilungsdeskription Ausgabedateien explorative Plots . . . . Tabellen Worthäufigkeiten . . . . . . . Graphiken Worthäufigkeiten . . . . . . Ausgabedateien Worthäufigkeiten . . . Ausgabedateien Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 65 75 77 77 82 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 Distanzmaße auf Basis der Minkowski r Metrik Hierarchische Agglomerationsverfahren . . . . Bewertung γ-Koeffizient . . . . . . . . . . . . . Ausgabedateien hierarchische Clusteranalyse . . Fehler bei Gruppenzuordnung . . . . . . . . . Ausgabedateien lineare Diskrimination . . . . . Dateiausgaben multidimensionale Skalierung . Dateiausgaben Prototypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 90 93 97 106 111 118 124 . . . . . . . . . . . . . . . . . . . . . . . . 10.1 Basis Vier-Felder Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . 131 10.2 Bedeutung Effektstärken nach Cohen . . . . . . . . . . . . . . . . . . . . 132 10.3 Dateiausgaben Chi2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.1 11.2 11.3 11.4 Beispiel Quine-McCluskey Algorithmus (AQUAD 7 style) Beispiel Quine-McCluskey Algorithmus (truthtable) . . . Bildung essentielle Implikanten . . . . . . . . . . . . . . . Dateiausgaben Implikantenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 143 146 147 A.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 B.1 B.2 B.3 B.4 B.5 Transponierung . . . . Verteilungsdeskription Plots . . . . . . . . . . . Worthäufigkeiten . . . Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 163 164 165 166 Tabellen B.6 B.7 B.8 B.9 B.10 B.11 Clusteranalyse . . . . . . . . . . Lineare Diskrimination . . . . . Multidimensionale Skalierung . Prototypen . . . . . . . . . . . . Chi Quadrat . . . . . . . . . . . Implikanten . . . . . . . . . . . 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 168 169 170 171 172 C.1 Lernskripte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Teil I Grundlagen Kapitel 1 Einführung und Vorbemerkungen 1.1 Kurzfassung Dieses Manual zur Integration von R-Skripten und AQUAD 7 hat zum Ziel, häufig verwendete statistische und logische Verfahren sowie quantitative Beschreibungen zu ermöglichen, die sich als hilfreich im Kontext qualitativer Forschungsdesign erweisen können. Hierzu zählen in erster Linie Verfahren der multivariaten Statistik (s. Kap. 9), da diese den Zusammenhang von vielen Variablen besonders gut darstellen können. Der Konjunktiv “können” wird gewählt, weil der Einsatz statistischer Verfahren im Kontext qualitativer Forschung nicht per se immer hilfreich oder sogar sinnvoll ist. Ob dies so ist, muss fallangemessen entschieden werden anhand des eigenen, individuellen Forschungsdesigns. Hinzu kommt die logische Analyse mittels Boolescher Algebra, die auch als Implikantenanalyse (s. Kap. 11.1 bzw. AQUAD 7 Manual, Huber und Gürtler, 2012) bzw. qualitativ-komparative Analyse bekannt ist. Als letztes ist die reine Beschreibung von Daten (s. Kap. 8) zu nennen, die sich sowohl graphisch (s. Kap. 8.2) als auch durch reine Zahlenkennwerte (s. Kap. 8.1) realisieren lässt. Inferenzstatistische Analysen wurden bis auf die Chi2 -Analyse (s. Kap. 10.1) nicht implementiert. 1.2 Wofür ist dieses Manual – und wofür nicht? Prinzipiell gilt für die Nutzung aller R-Skripte, dass als Voraussetzung eine geeignete Forschungsfrage bzgl. der qualitativen Daten vorliegen muss. Qualitative Daten sind zunächst in Tabellen umzuwandeln (s. Huber und Gürtler, 2012, Kap. 8.2.2). Diese Aufgabe lässt sich in AQUAD 7 erledigen. Diese Tabellen sind einer wie auch immer gearteten Analyse zugänglich. Sie können 18 KAPITEL 1. EINFÜHRUNG UND VORBEMERKUNGEN auch ohne AQUAD 7 bequem in R oder eine andere Software zur statistischen Analyse (von Tabellen) importiert werden. Häufig eignet es sich, zuerst Daten graphisch zu visualisieren im Sinne einer explorativen Datenanalyse (EDA, Tukey, 1977) bzw. sich deskriptive statistische Kennwerte für Kodierungen oder Gruppen von Kodierungen (Metacodes bei AQUAD 7, also Kategorien auf einer abstrakteren Ebene) auszugeben. Eine andere Möglichkeit ergibt sich durch die Anwendung von Klassifikations- bzw. Gruppierungsverfahren. Hier ermöglichen Verfahren der multivariaten Statistik die räumliche Darstellung von Kodierungen bzw. Metacodes inkl. einer intelligenten Unterteilung nach Subgruppen (hier: Sprechercodes). Es resultiert eine (hoffentlich) neue Perspektive auf die Daten. So können diese hinsichtlich ihrer Verteilung im 2D-Raum untersucht oder die Frage der Clusterbildung aufgeworfen werden und welche Vertreter sich welchem Cluster zuordnen lassen. Genauso kann die Frage der Prototypizität leiten, also welche Kodierungen bzw. Metacodes die Daten am besten repräsentieren im Sinne der geringsten Nähe zu allen andere Vertretern derselben Klasse. Die Boolesche Minimierung (Implikantenanalyse, s. Kap. 11.1) erlaubt ein flexibles heuristisches Testen von Hypothesen auf Basis logisch-kausaler Zusammenhänge zwischen Kodierungen, um minimal wirksame Sets von Kodierungen bzgl. ihrer kausal-logischen Auswirkungen auf ein festgelegtes positiv oder negativ definiertes Kriterium zu identifizieren. Dieses von Ragin (1987) in die Sozialwissenschaften eingeführte und numehr allgemein bekannte Verfahren wird im R nunmehr so umfassend unterstützt, so dass die originäre Programmierung der Implikantenanalyse in AQUAD 7 langfristig wegfallen wird. R visualisiert Lösungen in Form von Venn-Diagrammen bis zur Größe von Quintupel (5-Tupel). Das entspricht vier Bedingungen und einem Kriterium. Auf R-Skripte zur Inferenzstatistik wurde praktisch komplett verzichtet, bis auf ein sporadisch und sparsam einzusetzendes Skript zur Chi2 -Analyse von kleinen Häufigkeitstabellen. Der Grund ist, dass dem AQUAD 7 Entwicklerteam keine breitbandig und intelligent anwendbaren R-Skripte einfallen, die tatsächlich originär qualitative Analysen inferenzstatistisch pauschal ergänzen können. Uns erscheint dies als eine schwierige Vermischung von unterschiedlichen Forschungsansätzen – ohne eine Seite zu bevorzugen oder die andere abzuwerten. Wer Statistik machen möchte, sollte direkt mit dem R arbeiten und nicht den Umweg über AQUAD 7 gehen. Dann ist eine auf die Forschungsfrage genau passende statistische Analyse auszuwählen. R bietet das unserer Erfahrung nach mächtigste und eleganteste statistische Instrumentarium zur statistischen Datenanalyse. Jeder wie auch immer geartete GUI (graphical user interface) – und AQUAD 7 ist aus dieser Sicht nichts anderes – zwischen Anwender und dem R führt eher zu Problemen als zur Vereinfachung. Die anderen Verfahren können jedoch bedenkenlos eingesetzt werden, um qualitative Daten und die jeweiligen Zusammenhänge der Fällen untereinan- 1.2. WOFÜR IST DIESES MANUAL – UND WOFÜR NICHT? der besser zu verstehen. Voraussetzung ist jedoch immer ein profundes Wissen um die eingesetzte Analyse. Alle Verfahren ausser der Chi2 -Analyse (da inferenzstatistisch) und der Booleschen Algebra (da ein rein logisches Verfahren) werden hier ausschließlich heuristisch und explorativ benutzt. Selbst wenn inferenzstatistische Kennwerte ausgegeben werden (z.B. Test auf hierarchische Clusterbarkeit, zufallskritische Absicherung von Korrelationskoeffizienten, etc.) macht es häufig keinen Sinn, diese zu ernst zu nehmen. Häufig findet sich keine Forschungsfrage, die eine statistische Absicherung zwingend verlangt. Noch häufiger können statistisch signifikante Ergebnisse zufällig aus einer Kombination von Kodierungen hervorgehen, sind aber in einer geringfügig anderen Stichprobe nicht replizierbar. Diese Ergebnisse sind u.U. jedoch nicht robust gegenüber Änderungen der Datenbasis. Manche Verfahren wiederum sind so heterogen (z.B. clusteranalytische Verfahren, s. Kap. 9.1), dass ein gewisse Beliebigkeit systemimmanent ist. Beispielsweise ist es nicht ohne Weiteres möglich, den bekannten Datensatz der Diskriminanzanalyse, die Iris-Daten, durch eine Clusteranalyse zu reproduzieren. Diese Daten sammelte Edgar Anderson (1936) und sie wurden von Fisher (1936) zur Demonstration der von ihm entwickelten Diskriminanzanalyse verwendet (s. Kap. 9.2). Erst der Einbezug qualitativen Vorwissens (hier: drei Cluster liegen vor) führt zu valideren Ergebnissen. Der Einbezug qualitativen Vorwissens ist jedoch Domäne der bayesischen Statistik (Studer, 1998, 2006). Liegen derartige Verfahrensbedingungen vor, ist Vorsicht bei deren Einsatz angebracht. Trotzdem sollten die statistischen Kennwerte genau untersucht werden, um den Schritt von Datensatz → Verfahren → Ergebnis nachvollziehen zu können. Erst eine Warnung auszusprechen und dann den Hinweis hinzuzufügen, die Verfahren möglichst exakt durchzuführen, klingt widersprüchlich. Und das ist es auch. Folglich besteht die Aufgabe für alle Anwender darin, diesen Widerspruch am konkreten Datenmaterial und vor dem Hintergrund der eigenen Forschungsfrage aufzulösen. Das trägt dazu bei, ein fundiertes Ergebnis zu erhalten. Unser Anliegen ist es, möglichst dabei behilflich zu sein, dass Verfahren sauber eingesetzt und interpretiert werden. Das geht nicht standardmäßig auf Knopfdruck. Die angebotenen Verfahren arbeiten nicht automatisiert im Sinne eines automatischen Data-Minings. Das Manual gibt einen kurzen Einblick in die zugrundeliegenden Annahmen der jeweiligen Verfahren. Es ist hier nicht intendiert, eine tiefere theoretische Herleitung oder Erörterung der angebotenen Verfahren zu geben. Wir beschränken uns darauf, was das Verfahren zu leisten vermag und was es erwartet und was es ausgibt. Für alles weitere gibt es genügend Fachliteratur, auf die verwiesen wird. Das Manual stellt die Default-Einstellung der Skripte vor, die standardmäßig aktiv sind. Hinzu kommen die Einstellungen, die für diejenigen sind, die wissen, was sie tun. Manche Einstellungen sind jedoch erst durch direkte Bearbeitung der Parameterdateien zugänglich oder direkt über die R-Skripte. Einen umfas- 19 20 KAPITEL 1. EINFÜHRUNG UND VORBEMERKUNGEN senden Überblick über alle Einstellungen der R-Skripte geordnet nach Verfahren bietet Anhang B. Zusätzlich gibt es in Kap. 6 und jeweils bei den Verfahren ein paar kurze Hinweise über den Aufbau der R-Skripte, deren Modifikation sowie zum generellen Arbeiten mit R. Das Ziel ist, dass jede, die mit R arbeitet, leicht die Skripte an die eigenen Bedürfnisse anpassen oder sie ergänzen kann. All diejenigen Personen, die mit R bereits umgehen können, wird empfohlen, direkt mit den R-Skripten zu arbeiten. Es ist dann leichter, diese entsprechend für die eigenen Bedürfnisse zu modifizieren und AQUAD 7 bestenfalls zum Aufruf zu nutzen. Jedes R-Skript nutzt eine zentrale Parameterdatei und greift auf einen Stamm von nützlichen Funktionen zurück, die zentral in der Datei aquad_func.r in /scripts liegen. Die AQUAD 7 Entwickler machen es genauso – direkt mit R arbeiten. Das R bietet eine Fülle von auch freier Literatur und unendlich viele Beispielskripte, so dass nur vereinzelt auf R im engeren Sinne eingegangen wird. Was R angeht: Am besten lernt es sich am Modell und durch die Modifikation des Modells. Die R Hauptseite ist ein guter Ansatzpunkt. Ebenso sind es die Hilfeseiten (manpages) der einzelnen R-Kommandos und die teilweise vorhandenen Vignetten. R-Code wird darüber hinaus im Manual nicht behandelt, sondern nur, wie von AQUAD 7 aus die R-Skripte aufgerufen werden können und was als Ergebnis ausgegeben wird. Die Referenz der verwendeten R-Modulpakete ist ein weiterer Ansatzpunkt, um eine präzise Interpretation der Ergebnisse zu ermöglichen. AQUAD 7 kommt mit Beispieldatensätzen zu jedem R-Skript bzw. Verfahren. Anhang A.1 listet diese tabellarisch auf und welches Verfahren auf sie zugreift. Diese Datensätze sind alle mit R version 3.0.2 (2013-09-25) erfolgreich getestet worden. Einige der notwendigen Bibliotheken liegen nunmehr in Version 3.0.3 vor. Auch hier gab es keine Probleme beim Durchlauf. Sollten doch R-Skripte nicht erwartungsgemäß funktionieren, schreiben Sie bitte an das AQUAD 7 Entwicklerteam. Bitte testen Sie vorher das R-Skript mit dem beiliegenden und von uns getesteten Beispieldatensatz, um ein mögliches Problem frühzeitig eingrenzen zu können. 1.3 Möglichkeiten und Grenzen der Integration von AQUAD 7 und R R (2013) ist eine Interpreterprogrammiersprache für jegliche statistische Berechnungen, die gerne als lingua franca for statistical computation bezeichnet wird. In Erweiterung eines beträchtlichen Standardprogramms von Analysen und graphischen Ausgaben existieren weit mehr als 5000 Pakete, um spezielle Analysen für unterschiedlichste Fachgebiete zu ermöglichen. Diese Pakete sind als Bibliotheken frei verfügbar und können beliebig im R eingesetzt werden. So sind Ana- 1.4. ROADMAP – ZUKÜNFTIGE ENTWICKLUNGEN lysen und graphische Ausgaben für praktisch jede denkbare Anwendung möglich. Sie liefern außerdem Grundbausteine, um fehlende Analysen und graphische Ausgaben mit überschaubaren Aufwand selbst zu erstellen – das statistische Hintergrundwissen vorausgesetzt. Aus dieser Fülle an Möglichkeiten wurden sehr wenige und wie bereits begründet vor allem multivariate Analysen herausgefiltert, die der empirischen Erfahrung nach sich wirklich eignen, um aus qualitativen Daten sinnvolle Informationen zu schöpfen. Das Ziel ist die Unterstützung qualitativer Datenanalysen und nicht, das olympische Rennen zwischen QUAN und QUAL um eine neue Runde zu ergänzen. Sektiererische Auseinandersetzungen haben hier nichts zu suchen. Integration trotz bestehender Widersprüche – anstatt eines Entweder-oder lautet der Leitgedanke. Da nicht jede und jeder jedoch Zeit und Resourcen hat, um R zu lernen, liegt so eine Schnittstelle bereit, um mit minimalen Aufwand R zu nutzen. Der Vorteil ist die einfache Bedienbarkeit. Der bzw. die Nachteile sind eine fehlende Anpassung an individuelle Bedürfnisse (Fragestellungen, Datensätze). Das fängt bei der Farbgebung und Dimensionierung von Plots an oder deren graphischen Ausgabeformat und geht über zur Frage der Verwendung von Abkürzungen von Kodiernamen in Plots. Es endet bei der Frage, warum diese oder jene Spezialanalyse oder bestimmten Einstellungen der R-Kommandos fehlen. Der Aufwand, all dies bibliotheksartig zu realisieren, wäre ungemein hoch und ineffizient. Leichter ist es, für diese Aspekte etwas R zu lernen und selbst die Skripte dahingehend zu modifizieren oder gleich eigene zu schreiben. Die R-Skripte liegen alle offen vor und können direkt über einen Editor wie TinnR, NppToR (R in Notpad++) oder RKWard unter Windows bzw. ESS (Emacs Speaks Statistics) unter Linux verändert werden. Diese Editoren erlauben die direkte Ansteuerung von R, indem Skripte direkt an R gesendet und ausgeführt werden. Unsere Zielgruppe sind all diejenigen, die auf einfache Weise die Vorteile von R nutzen möchten, ohne alles selbst zu programmieren. Wir greifen vollständig auf vorhandene R-Bibliotheken zurück. Der Hauptteil der Skripte besteht deshalb aus Anpassungen bereits existierender R-Skripte, um vorhandene R-Pakete für AQUAD 7 nutzen zu können. Zusätzlich gibt es ein paar eigens programmierte Funktionen, die nützliche Dinge verrichten (z.B. sämtliche deskriptive Kennwerte berechnen und in eine Tabelle schreiben). 1.4 Roadmap – zukünftige Entwicklungen [Stand März 2014] Die kurzfristige Zielsetzung ist es, Anwendern die Vorteile von R im Rahmen von AQUAD 7 zu ermöglichen, wie bereits ausführlich dargelegt wurde. Die langfristige Zielsetzung ist es, von AQUAD 7 aus R ständig offen zu haben 21 22 KAPITEL 1. EINFÜHRUNG UND VORBEMERKUNGEN und AQUAD 7 Programmteile auch intern an R auszulagern. Dies hätte den Vorteil des geringeren Programmieraufwandes, weil R unglaublich mächtig ist und für viele Operationen – insb. die Arbeit mit Vektoren, Matrizen, etc. – bereits auf Geschwindigkeit optimierte Funktionen bereitstellt und vektorwertiges Arbeiten erlaubt. Trotz des Charakters einer Interpretersprache sind diese Funktionen vermutlich kaum noch zu beschleunigen und machen sie so für viele interne AQUAD 7 Aufgaben interessant1 . Ebenso sind Teile der bayesischen Statistik interessant, da sie für sehr kleine Stichproben geeignet sind und die Probleme klassisch frequentistischer Forschung sich nicht ergeben.2 1.5 R-Lizenzierung R unterliegt der der GNU General Public License in der Version 2 vom Juni 1991. R ist mit Quellcode frei verfügbar, genauso wie alle verfügbaren R-Pakete auf der R-Seite. AQUAD 7 steht unter der GNU General Public License in der Version 3 vom Juni 2007. Für die Praxis unterscheiden sich die beiden Lizenzen, jedoch nicht in einem Ausmaß als dass es Anwender von AQUAD 7 in ihrer Arbeit beeinträchtigen könnte. Für die R-Skripte, die im Kontext von AQUAD 7 angeboten werden, gilt damit auch die GNU GPL v3. Für modifizierte R-Skripte, die ihren Ursprung klar in originalen R-Funktionen haben, gilt letztlich die Lizenz des R. Bei jeder Funktion bzw. jedem Skript ist deshalb vermerkt, woher es kommt. Daraus lässt sich die Lizenz ableiten. Anmerkungen 1 Dafür ist es jedoch notwendig, eine ordentliche Interprozesskommunikation zwischen AQUAD 7 und R zu etablieren. Diese fehlt bisher. 2 Eine weitere zukünftige Entwicklung soll die vollständige Implementierung des Artikel von G.L. Bretthorst (1993) “on the difference in means” sein, eine vollständige bayesische Lösung des Behrens-Fisher Problems. Das Behrens-Fisher Problem untersucht die Frage von gleichen bzw. ungleichen Standardabweichungen und Mittelwerten bezogen auf zwei Gruppen. Es repräsentiert quasi das Grundproblem klassischer frequentistischer Inferenzstatistik. Die vorgeschlagene Lösung von Bretthorst ist bayesisches Natur. Damit können Grenzen bzgl. der individuellen Konfidenzen und der subjektiven Erwartungen aufgrund von Experten- bzw. Vorwissen formuliert werden. Dieses Wissen geht in die Gleichungen ein. Das macht es interessant, da qualitative Informationen sinnvoll nutzbar sind. Zusätzlich ergibt sich nicht das Problem des multiplen Testens gleicher Art, das in der klassischen Statistik häufig übersehen wird und zu prinzipiell nicht interpretierbaren Ergebnissen führen kann oder rigorose Korrekturen benötigt. Vielmehr können beliebige Sets auf Zwei-Gruppenbasis miteinander gegeneinander getestet werden. Gerade die Eignung für kleine Stichproben macht dieses Verfahren als Ergänzung zu qualitativen Analysen interessant. Die Probleme kleiner Stichproben im Kontext klassischer Statistik können hier ignoriert werden. Die Aussagen sind naturgemäß unsicherer bei geringeren Stichprobengrößen und das Expertenwissen spielt eine größere Rolle. Wachsende Stichproben führen zu einem abnehmen Einfluss von Expertenwissen und zu 1.5. R-LIZENZIERUNG einer Stabilisierung der Effekte auf empirischer Basis. Derzeit liegt das R-Skript (basierend auf einem Mathematica Skript von Studer, 1998) vor, funktioniert jedoch nur für kleine Stichproben. Sobald es für beliebig große Stichproben verfügbar ist, wird es in AQUAD 7 verfügbar gemacht. Ein empirisches Beispiel bzgl. der wirklich gelungen Integration von qualitativer Methodik (Sequenzanalyse, Rekonstruktion von Fallstrukturen) und bayesischer Statistik bei kleinen Stichproben findet sich bei erwähnter Studie von Studer (ebd.). Diese Studie stellt für uns eine Art Referenz für ein durchdachtes kombiniertes Design dar, um die Erfolgswahrscheinlichkeiten einer stationären Suchteinrichtung über mehrere Jahre hinweg sauber zu berechnen als auch die Arbeitsweise der Institution anhand von ausgewählten qualitativen Fällen präzise zu rekonstruieren. Sie ist über das Bundesamt für Justiz der Schweiz (BAJ) der Schweiz erhältlich. 23 Kapitel 2 Problemstellung 2.1 Intelligente Forschung designen – Mixed Methods Mixed Methods (u.a. Tashakkori und Teddlie, 2003, s.a. AQUAD 7 Manual, Hubr und Gürtler, 2012, Kap. 12) gilt seit mittlerweile mehr als 15 Jahren als etabliertes und akzeptiertes Vorgehen in den Sozialwissenschaften. Hierzu liegen eine Fülle von theoretisch fundierenden Büchern (u.a. ), Leitartikeln (u.a. Morse, 2003; Mayring, 2001; Flick, 2000; Fielding und Schreier, 2001) und empirischen Studien (u.a. Gläser-Zikuda et al., 2012) vor. Außerdem gibt es selbstverständlich eine ebenso unüberschaubare Fülle an Literatur, die jegliches Vermischen ablehnen und entweder die eine oder andere Seite aus unterschiedlichsten Gründen präferieren (u.a. Smith, 1983). Das Mischen von Verfahren kann auf allen Ebenen stattfinden und lässt sich einfach kombinatorisch herleiten: Theorie, Erhebungsmethodik, Datenanalyse, etc. können in der logisch-zeitlichen Abfolge miteinander und iterativ mit wechselnder Bezugsebene kombiniert werden – sofern es inhaltlich und forschungsfragetechnisch überhaupt Sinn macht. In der Ausbildung und bei Qualifikationsarbeiten scheint jedoch ein Trend immer mehr aufzutauchen, dass eine kombinierte Methodik fast schon erwünscht scheint und zwar unabhängig von der leitenden Forschungsfragestellung. Davon hält das AQUAD 7 Entwicklerteam gar nichts. Gemäß einer ordentlichen Forschungslogik muss die Forschungsfrage essentiell ein methodisch kombiniertes Vorgehen einfordern. Nur aus methodischen oder Modegründen sollten Forschende vom Einsatz von Mixed Methods tunlichst die Finger lassen. Das käme nämlich einer Bevorzugung der Methodik über den Inhalt (Forschungsfrage) gleich. Sofern nicht die Methodologie im Zentrum des Interesses steht und eine (emprische) Studie nur Beiwerk ist, hat die Forschungsfrage die leitende Funktion, was methodologisch geht und was nicht. Eine rein 26 KAPITEL 2. PROBLEMSTELLUNG quantitative oder qualitative Studie ist nicht nur einer kombinierten ebenbürtig bei ordentlicher Ausführung, sondern kann u.U. Sachverhalte sogar besser herausarbeiten, weil sie sich auf das Wesentliche konzentriert und nichts verkompliziert. Die Forschungsfrage hat im Mittelpunkt zu stehen. Da jedoch die Interpunktion von Ereignissen (Bateson, 1985) und damit von Forschung per se nicht zwangsläufig eindeutig ist, braucht es grundsätzlich die begründende Rechtfertigung des eigenen Vorgehens. Der gesunde Menschenverstand und die Plausibilität des Vorgehens sind hier die Kriterien, da Wissenschaft sich immer entlang relativer Wahrheitsregionen bewegt. Damit gibt es auch keine endgültige Entscheidung in strittigen Fragen. So kann etwa eine bereits abgeschlossene Untersuchung im Rahmen eines größeren Projektes Vorstufe für einen Methodenwechsel darstellen. Ebenso könnte eine Studie aus der Literatur genommen werden und derselbe Gegenstand aus einer anderen theoretischen bzw. methodologischen Perspektive exploriert werden. Ist dies dann bereits die Anwendung von Mixed Methods oder nicht? 2.1.1 Nicht immer! Quantitative Analysen sind nicht immer erforderlich oder überhaupt erwünscht. Beispielsweise sind sie vermutlich komplett uninteressant, wenn es darum ginge, Briefe zu analysieren und Fallstrukturen zu rekonstruieren. Hier würde sich eher das Kodierparadigma oder noch besser die Sequenzanalyse im Rahmen objektiv hermeneutischer Forschungsmethodik (Oevermann, 2000; s.a. AQUAD 7 Manual, Huber und Gürtler, 2012, Kap. 5) eignen. Über Fälle hinweg könnte dann die Boolesche Algebra etwas beitragen, etwa um eine Typologie aufzubauen. Gerade bei der Anwendung der Sequenzanalyse fällt es dem AQUAD 7 Entwicklerteam sehr schwer, überhaupt eine intelligente Anwendung der Statistik zu konstruieren, die das Verfahren ergänzen könnte und zwar bezogen auf dasselbe Datenmaterial. Genausowenig erscheint es bei der Analyse von Genogrammen sinnvoll, auf Statistik zurückgreifen (z.B. McGoldrick und Gerson, 2000). Dann würde es sich möglicherweise lohnen, auch nicht mit AQUAD 7 zu arbeiten, sondern in einem Gruppenkontext und die Analyseergebnisse später einfach zu verschriftlichen. 2.1.2 Aber manchmal! Sinn macht der Einsatz von Statistik, wenn es beispielsweise darum geht, Interviews zu kategorisieren. So können etwa n=20 (willkürliche Zahl) kodierte Interviews zur Frage vorliegen, warum Studierende ihr Studium abbrechen oder weiterführen. Dann macht es Sinn, diese Interviews auf Basis ausgewählter und begründeter Kodierungen räumlich anzuordnen (s. Kap. 9.3) oder Cluster zu bilden (s. Kap. 9.1). Diese räumliche Anordnung erlaubt eine visuelle Perspektive, 2.1. INTELLIGENTE FORSCHUNG DESIGNEN – MIXED METHODS die das Wissen um die Interviews sehr gut ergänzen kann. Bei der Clusterung wäre zusätzlich zu fragen, ob sich die Daten besser als der Zufall clustern lassen, so dass ein solcher Test den Einsatz des Verfahrens vorab legitimiert. Hingegen würde es sehr schwer fallen, sowohl die Wahl des Distanzmaßes als auch des eingesetzten Agglomerationsverfahrens anders als durch den gesunden Menschenverstand und die Bevorzugung einer gewissen Einfachheit zu begründen. Manchmal mag es sogar lediglich die subjektive Präferenz für die Gestaltung von Klumpen sein, die jedoch zu begründen ist. Trotzdem inspirieren diese Verfahren, da je nach gewählter Methodik keine weiteren subjektiven Einflüsse in die Analyse getragen werden. Algorithmen laufen wie Uhrwerke ab und das birgt immer wieder einen entscheidenden Vorteil, quasi eine Meinung unabhängig der eigenen, zu erlangen. 2.1.3 Und machmal nicht! Was wäre nun eine Anwendung der Statistik, die am besten gleich im R umgesetzt wird und ohne den qualitativen Analyseteil auskommen könnte, obwohl prinzipiell qualitativ analysierbare Daten vorliegen? Beispielhaft sei eine psycholinguistische Fragestellung aufgeführt, die nach statistischen Kennwerten von Texten aus unterschiedlichen Sprachen fragt, um bestimmte Kennwerte so zu identifizieren, um die Sprache oder einen Wortschatz oder etwas anderes (z.B. Anspruchsniveau) vorherzusagen. Ebenso kann die Morphologie von Texten untersucht werden. Mit Hilfe von einschlägigen Wörterbüchern und Datenbanken sind statistische Analysen denkbar, die genau dies leisten können. Aber eine qualitative Analyse wäre in dem Falle unnötig bzw. uninteressant. Im R gibt es zum Thema natural language processing eine eigene Webseite, die R-Pakete auflistet, die hier etwas beitragen können. Dies umfasst ausschließlich quantitative Analysen. Eine qualitative Analyse wäre angesichts der Fülle des Materials (z.B. Umfang von mehreren Büchern) kaum umsetzbar oder zu begründen – hier hat die Statistik einen klaren Vorteil, weil es eben die Forschungsfrage verlangt. Ebenso wäre es denkbar zu fragen, ob bestimmte Programme zur Prävention oder Intervention sinnvoll sind oder nicht. Hier wäre ein klares Zielkriterium zu operationalsieren, was an einer großen und repräsentativen Stichprobe erhoben werden müsste. In Kombination mit einer Kosten-Nutzen Analyse, die in den Sozialwissenschaften sträflich vernachlässigt wird, könnte auf Basis quantitativer Kriterien eine Entscheidung über den Ausbau oder die Verringerung bestimmter Aktivitäten entschieden werden. Dies kann viele verschiedene Fächer wie Medizin, Psychologie, Erziehungswissenschaft, Soziologie, Politikwissenschaft, etc. abdecken, so dass Mixed Methods weniger auf der Datenanalyseebene, sondern vielmehr integrativ auf der theoretischen Ebene stattfindet. Trotzdem kann es legitim sein, eine solche Fragestellung ausschließlich mit nüchternen Zahlen 27 28 KAPITEL 2. PROBLEMSTELLUNG zu bearbeiten und sämtlich qualitative Verfahren außen vor zu lassen. 2.2 Beispielstudien im Kontext von AQUAD 7 In Teil III werden pro Verfahren Beispielstudien gegeben, die großteils mit AQUAD 7 durchgeführt wurden und das entsprechende Verfahren nutzen. Teilweise finden sich diese bereits im Manual zu AQUAD 7 beschrieben. Die entsprechenden Studien werden nur kurz skizziert, um die grundsätzliche Fragestellung zu verstehen. Exemplarisch werden legitime Deutungen der Ergebnisse besprochen. Es sind jeweils die kompletten Datensätze und die Resultate der RAnalysen im AQUAD 7 Paket enthalten, so dass die Analysen und Ergebnisse exakt reproduziert werden können. Teil II Praxis – AQUAD 7 und R Kapitel 3 R Installation und Initialisierung Abb. 3.1. Eingangsfenster AQUAD 7 Zunächst muss R installiert und initialisiert werden. Zur Installation von R lesen Sie bitte auf der Website von R nach. Im Prinzip ist es ein Durchklicken durch den 32 KAPITEL 3. R INSTALLATION UND INITIALISIERUNG Abb. 3.2. Auswahlmenü Statistik Abb. 3.3. Abb. 3.4. Anweisungen R initialisieren R initialisieren Abb. 3.5. Auswahl R-GUI Programm Installations-GUI. Wenn Sie nach den Hilfeseiten gefragt werden, so wählen Sie die html Hilfeseiten ab und stattdessen Textdateien. Das erleichtert Ihnen das Arbeiten. Es wird dann ein einfaches Textfenster aufgemacht und nicht immer ein Browserfenster. Ebenfalls eignet es sich, R Hilfeseiten in eigenen Fenstern ausführen zu lassen und nicht alles innerhalb eines großen Fensters. Darüber hinaus gibt es keine wichtigen Auswahlpunkte. Das vorgeschlagene Standardverzeichnis merken Sie sich, sofern Sie ändern. Nach der Installation wechseln Sie nach AQUAD 7, wählen den Menüpunkt Statistik (s. Abb. 3.1), und dann R initialisieren (s. Abb. 3.2 bzw. Abb. 3.3) und folgen den Anweisungen (s. Abb. 3.4). Hierzu ist es notwendig, im Verzeichnisbaum bis zum Executable des R-GUI zu gehen und diesen auszuwählen, damit AQUAD 7 weiss, mit welchem Programm Sie arbeiten möchten (s. Abb. 3.5). Dies ist wichtig, da mehrere Instanzen von R parallel installiert und betrieben werden können. Mehr gibt es hier nicht zu tun. Kapitel 4 Aufruf von R-Skripten in AQUAD 7 [Stand März 2014] Über den Menüpunkt R-Statistik kommen Sie zu den verschiedenen Verfahren (s. Abb. 4.1). Jeder Menüpunkt ruft dann ein eigenes R-Skript auf. Jedes RSkript besitzt eine Parameterdatei, aus der es die individuellen Angaben liest, bevor die eigentliche Arbeit beginnt. Hierzu zählen u.a. Dateinamen (Input, Output), die Art des tabellarischen Outputformats (csv, tab), die Anzahl der Nachkommastellen, die Frage der Abkürzung von Kodierungsnamen und weitere verfahrensspezifische Parameter. AQUAD 7 sammelt diese Eingaben und erstellt bei jedem Durchgang die Parameterdatei neu. Abb. 4.2. Abb. 4.1. Menüpunkt R-Statistik Anweisung Code in R-GUI einfügen Dann wird das R-Skript aus der R-Skriptdatei in den Zwischenspeicher kopiert und der R-GUI aufgerufen. Derzeit ist es noch notwendig, dass Anwender dann mit STRG-v (Tastatur, s. Abb. 4.2) oder rechts-Klick (Maus, s. Abb. 4.3) sowie Einfügen das R-Skript in den R-GUI einfügen. Dieses wird dann sofort ausgeführt (s. Abb. 4.4) und der R-GUI bleibt offen und sollte danach geschlossen werden. Das bedingt sich daraus, dass AQUAD 7 derzeit (noch) jedesmal den R-GUI neu aufruft. Wird der R-GUI nicht geschlossen, ergeben sich bei mehreren Durchgän- 34 KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7 Abb. 4.3. Code in R-GUI einfügen Abb. 4.4. Skripte in R-GUI gen lauter offene R-GUIs. Fehlermeldungen können direkt im R-GUI abgelesen werden. Der R-GUI ist derzeit nach einer Session zu schließen.3 4.1 Warn- und Fehlermeldungen Nicht jeder Fehler führt zu einem Abbruch der R-Skripte, wie die folgenden Abbildungen zeigen. So gibt R eine Warnung aus, wenn ein Paket unter einer anderen Versionsnummer erzeugt wurde (s. Abb. 4.5). Bei einigen Operationen 4.1. WARN- UND FEHLERMELDUNGEN Abb. 4.5. Warnmeldung R-Paket Versionsnummer Abb. 4.7. 35 Abb. 4.6. Warnmeldung von Namen Abkürzung Warnmeldungen Graphikausgabe (z.B. Erstellung von Abkürzungen für Kodierungen, s. Abb. 4.6) werden standardmäßig Warn- bzw. Fehlermeldungen ausgegeben. Solche Meldungen können Sie häufig getrost ignorieren. Es gibt auch Warnmeldungen zu Problemen mit Schriften und graphischer Ausgabe (s. Abb. 4.7), etwa wenn ein Plot (halb)transparente Objekte erzeut, das graphische Ausgabeformat dies jedoch nicht unterstützt. Solange das Skript durchläuft und alle Operationen ausführt, so dass Sie verwertbare Ausgaben erhalten, läuft alles in bester Ordnung. Erhalten Sie keine Ausgabe, bedarf es einer sorgfältigen Analyse der konkreten Fehlermeldung. Besteht dieses Problem auch bei der Anwendung der R-Skripte auf die beiliegenden Beispieldatensätze (s. Anhang A.1), kontaktieren Sie bitte die Autoren von AQUAD 7. Ansonsten schauen Sie bitte zuerst, was Sie selbst gemacht haben. Bei eigenen Skripten sollten Sie ähnlich vorgehen. Schauen Sie zunächst, ob Ihr Skript das Resultat erzeugt, dass Sie benötigen und was für eine Form eine Warn- bzw. Fehlermeldung annimmt. Häufig können Sie diese ignorieren, da sie die grundsätzliche Funktionalität nicht ausser Kraft setzen, sondern lediglich bestimmte Funktionen eingeschränkt sind. Wenn ein wirklicher “echter” Fehler auftritt, bricht normalerweise das R-Skript ab. Dies tut es nicht, wenn Sie explizit (z.B. mit try) dies verhindern bzw. Fehlermeldungen abfangen. 36 KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7 4.2 Hilfseiten im R Hilfeseiten im R sind essentiell. Sie bieten alle Informationen, um einen R Befehl bzw. ein Paket anwendungsrichtig einzusetzen. Die Hilfseiten lassen sich durch ein vorgestelltes Fragezeichen vor ein R-Kommando aufrufen: ?help.search, ?lm, ?cor.test, etc. (s. Abb. 4.8). Je nach Konfiguration erscheint eine Textseite (s. Abb. 4.9) oder die Seite innerhalb des Browsers. Den Überblick über eine Bibliothek erhält eine Anwenderin über library(help=lme4). Eine einfache Suche lässt sich mit help.search(linear model) durchführen. Bei den Ergebnissen ist zu beachten, dass R-Kommandos innerhalb von Paketen mit einem zweifachen Doppelpunkt gekennzeichnet sind. So führt die eben genannte Suche nach “linear model” etwa zu boot::glm.diag, MASS::rlm und vielen anderen Befehlen. Hiermit sind die Pakete boot, MASS, etc. bezeichnet und deren Pakete glm.diag, rlm, etc. Der Aufruf eines R-Befehls ohne Parameter führt i.A. zum Anzeigen des Sourcecodes, etwa cat (s. Abb. 4.10). Werden Klammern hinzugenommen, wird der Befehl quasi leer aufgerufen so wie ls() oder cat() (s. Abb. 4.11). Mit entsprechenden Parametern erzeugt der Befehl eine Ausgabe, etwa cat(\ttest\n\n). Der Sourcecode von Funktionen ist eines der wichtigsten Modelle, um R zu lernen. R pflegt eine hervorragende Mailingliste, deren Archiv online zugänglich ist. Beachten Sie bitte die Hinweise und den Posting Guide, bevor Sie dort Fragen stellen, damit Sie auch Antworten für Ihr konkretes Problem erhalten. Für verschiedene Fachgebiete existiert die Suchmaschine rdocumentation. 4.3 R lernen Abb. 4.8. Aufruf Hilfeseite im R 4.3. R LERNEN 37 Abb. 4.9. Abb. 4.10. Sourcecode R Befehl Hilfeseite im R Abb. 4.11. Aufruf R Befehl Folgend wird vorausgesetzt, dass R installiert ist sowie Tinn-R oder ein anderer Editor der eigenen Wahl. Es soll möglich sein, vom Editor aus R aufzurufen und Befehle an R zu senden. Im Verzeichnis /skripte liegen drei Beispielskripte zum Lernen der Grundfunktionen von R (s. Abb. 4.12). Sie sind nach dem Modell der worked-out examples (Stark et al., 1996) aufgebaut. Es empfiehlt sich, diese Skripte zeilenweise abzuarbeiten, je zu verAbb. 4.12. R Lernskript in Tinn-R ändern und den Output im R-GUI genau zu beobachten, um die zugrundeliegende Logik zu verstehen. Die R-Befehle wurden dahingehend ausgewählt, dass sie diejenigen repräsentieren, die aus der Sicht der AQUAD 7 Entwickler zu Beginn wichtig sind, um ein grundlegendes Arbeitsverständnis von R zu erlangen. Später ändert sich die Auswahl der Befehle durch die Erstellung eigener Skripte und ein fortgeschrittenes Verständnis vektorwertigen Arbeitens. Aber diese Grundbefehle bleiben 38 KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7 immer aktuell. Werden die Skripte beherrscht, lohnt es sich, zu speziellen Analysen überzugehen, die real gebraucht werden. So lässt sich die eigene Kompetenz im Umgang mit R erweitern – an echten Problemen und am besten an den eigenen Datensätzen. Mit den folgenden Imperativen können Sie versuchen, sich das Leben beim Erlernen von R zu erleichtern: ⇒ Speichern Sie Ihre Skripte immer und in regelmäßigen Abständen ab. ⇒ Kommentieren Sie Ihren Code soweit möglich und zwar so, dass Sie nach zwei Wochen immer noch verstehen, um was es geht. Insbesondere eignet es sich, Codeteile mit Überschriften zu versehen. Es muss nicht der ganze Code begründet werden. Möchten Sie das nicht, müssen Sie zumindest einmal R als Administrator aufrufen und dann das jeweilige Skript durchlaufen lassen – etwa wenn verschiedene Personen an einem Computer mit getrennten Accounts arbeiten und alle auf dieselben R Bibliotheken zurückgreifen sollen. Nach einmaliger Installation sind die Bibliotheken immer verfügbar. Prinzipiell können Sie Bibliotheken auch manuell herunterladen und als .zip Datei im R-GUI manuell einspielen. ⇒ Übernehmen Sie Code, der fast das tut, was Sie möchten und ändern Sie den Code so ab, dass das erzeugt wird, was Sie benötigen. Code modifizieren ist leichter als alles selbst schreiben und es wirkt zusätzlich die inspirierende Vorbildfunktion des Modells. ⇒ Arbeiten Sie mit Funktionen. Beginnen Sie zunächst zeilenweise, um mit den minimalen Erfordernissen das zu realisieren, was Sie sich vornehmen. Funktioniert dies, basteln Sie eine Funktion darum. ⇒ Erweitern Sie ihre Funktionen um nützliche Zusatzfunktionen. Funktioniert eine Funktion, erweitern Sie diese über die Hinzunahme von Variablen, die Ihnen quasi bibliotheksartig erlauben, nicht nur ein Problem, sondern ähnliche Probleme mit derselben Funktion zu bearbeiten. Basteln Sie sich möglichst viele Funktionen, weil dies die Flexibilität und Übersichtlichkeit erhöht und viel Arbeit erspart, z.B. bei Änderungen von langen Skripten. ⇒ Lagern Sie Funktionen in einer eigenen Datei aus, die nur Funktionen enthält – eine Skriptsammlung. Sind alle nützlichen Funktionen in einer eigenen Datei enthalten, können sie von verschiedenen Skripten aufgerufen und genutzt werden. 4.4. WEITERFÜHRENDE LINKS UND LITERATUR ZU R ⇒ Denken Sie immer dran – R ist eine objektorientierte Programmiersprache. Alles ist ein Objekt, was ausgegeben wird. Das erlaubt ein sehr elegantes Arbeiten, sichert Ergegbnisse und diese können sofort weiterverarbeitet werden. Häufig geschieht dies sogar in einem Einzeiler. ⇒ Arbeiten Sie vektorwertig (Ligges, 2009, Kap. 5). Vektorwertiges Arbeiten führt zu einer Beschleunigung der Rechenleistung. Zusätzlich macht es den Code elegant und leicht lesbar. Beginnen Sie jedoch mit Schleifen, um den Überblick zu behalten. Der Nachteil von Schleifen ist jedoch, dass bei komplizierten Berechnungen diese deutlich bremsen (ebd.). Nehmen Sie sich aber vor, Schleifen später durch vektorwertiges Arbeiten zu ersetzen. Vergleichen Sie beide Lösungen, um sicher zu sein, dass Schleifenprogrammierung und vektorwertiges Arbeiten zu identischen Ergebnissen führt. Klappt dies, gehen Sie direkt zu vektorwertigem Arbeiten über und vergessen die Schleifen. Haben Sie einmal die grundsätzliche Struktur vektorwertigen Arbeitens verstanden, können Sie dies überall anwenden. Diese Struktur ändert sich nicht mehr. 4.4 Weiterführende Links und Literatur zu R Heutzutage liegt eine riesige Auswahl an Literatur zu R bereit. Nutzen Sie hierfür die Website von R. Dort ist auch die hauseigene Zeitschrift, das R-Journal, ein Wiki, die FAQs und weitere Dokumentationen zu finden. Die R-Pakete sind nach Namen geordnet. Für bestimmte Fachgebiete gibt es Sammlungen für diejenigen R-Pakete, die hier etwas beitragen können. Eine weitere Seite zum Suchen ist die von Jonathan Baron. Im deutschsprachigen Bereich ist Ligges (2009) eine hervorragendes Nachschlagewerk. Aus didaktischen Gründen ist es für Einsteiger aber nicht immer einfach zu lesen und für Profis an manchen Stelle zu wenig ausführlich und tiefgehend. Dalgaard (2002) eignet sich für den Einstieg, Fox (2002) für den Umgang mit linearen Modellen. Für hierarchisch lineare Modelle sind Pinheiro und Bates (2009) exzellent. Graphische Analysen können bei Murrell (2005) gelernt werden. Handl (2002) zur multivariaten Analyse mit R sowie seine Skriptsammlungen bieten einen sehr guten Einstieg für die Bereiche, die für qualitative Analysen interessant sind. Viele R-Pakete bringen Vignetten mit. Eine Übersicht ist mit vignette() bzw. browseVignettes() möglich. In diesen wird Beispielcode verarbeitet, die sich sehr gut als Lernmaterial im Sinne der worked-out examples eignen. Ein freies R-Einführungsbuch gibt es auf Wikibooks. Ein sehr umfangreiche Sammlung von inspirierenden Skripten bietet Zoonekynd (2007). Die R-Seiten bieten weitere Bücher für verschiedene Anwendungen. 39 40 KAPITEL 4. AUFRUF VON R-SKRIPTEN IN AQUAD 7 Anmerkungen 3 In Zukunft ist geplant, dass R im Hintergrund aufgerufen wird und Anwender sich darum nicht kümmern müssen. Dann wird eine Logdatei erstellt, so dass etwaige Fehlermeldungen nachgelesen werden können und überprüft, ob das Skript sauber durchgelaufen ist. Kapitel 5 Diverses 5.1 Ergebnisse sichern Ergebnisse landen alle im Verzeichnis /res ausgehend vom AQUAD 7 Hauptverzeichnis. Sie können von dort herauskopiert werden. Die R-Skripte schreiben automatisch alle relevanten Ergebnisse in tabellarischer Form im .csv Format bzw. Plots Abb. 5.1. Ausgabedateien Verteilungsdeim .emf Format. Ergebnisse, die sich von ihrer skription Struktur her nicht in tabellarischer Form ausgeben lassen, werden als einfache Textdateien .txt geschrieben. Wenn ein anderes Format gewünscht wird (z.B. .tab statt .csv), kann dies teilweise über die Experteneinstellungen gesteuert werden. Anhang B gibt hierzu einen tabellarischen Überlick über alle Experteneinstellungen. Pro Verfahren werden diese Einstellungen in Teil III erläutert. 5.1.1 Output und Logdatei Solange AQUAD 7 den R-GUI aufruft und nicht im Hintergrund mit R CMD BATCH arbeitet, kann der Output direkt aus dem R-GUI auch in eine Textdatei als Logdatei geschrieben werden. Wenn AQUAD 7 standardmäßig mit R CMD BATCH arbeitet, wird im Hintergrund R lauAbb. 5.2. Ausgabedateien Korrelation fen und es werden Logdateien standardmäßig als Textdateien geschrieben. Die R-Skripte geben Dateien (s. Abb. 5.1 bzw. Abb. 5.2), Tabellen (s. Kap. 5.1.2) sowie Graphiken (s. Kap. 5.1.3) aus. 42 KAPITEL 5. DIVERSES Abb. 5.3. Abb. 5.4. 5.1.2 Ausgabe ; (csv) Tabelle Verteilungsdeskription Ausgabe \t (tab) Tabelle Verteilungsdeskription Tabellen Tabellen sind das bevorzugte Ausgabeformat – entweder csv (; comma separated values, s. Abb. 5.3) oder tab (\t tabulator-getrennt, s. Abb. 5.4). Dies kann je in den Einstellungen verändert werden. Die Standardeinstellung ist immer .csv. Die Dateien erhalten die entsprechende Dateiendung angehangen. All diese Dateien (entweder .csv oder .tab) können mit einem beliebigen Tabellenkalkulationsprogramm oder direkt im R geöffnet und auch geschrieben werden. Im R sind die entsprechenden Aufrufe read.table bzw. write.table. 5.1.3 Graphiken und Graphikformate Als Standardausgabeformat wurde .emf gewählt. Dieses Format unterstützt jedoch keine Transparenz, was manche R-Bibliotheken jedoch beim Output unterstützen. Deshalb können vereinzelt Fehlermeldungen oder Warnungen erscheinen. Dies können ignoriert werden. Ansonsten eignet das Format als guter Kompromiss, um Grafiken direkt und gut skalierbar in Präsentationen oder Dokumente zu integrieren. Eine Alternativ wäre .pdf, was jedoch je nach Software und Versionsnummer nur schwierig oder gar nicht nutzbar ist (Ausnahmen: z.B. LATEX 2ε , Adobe InDesign, neueste Word-Versionen, etc.). Die Aufrufe für .pdf sind nicht identisch zu dem Aufruf von .emf in R, d.h. es wird ein anderer Befehl verwendet und nicht nur ein anderer Parameter in deselben Funktion gesetzt. Derzeit wird nur .emf unterstützt, um möglichst vielen Anwendern einen vernünftigen Output zu ermöglichen. Wer eine Ausgabe als pdf benötigt, kann dies direkt in den R-Skripten für sich ändern. Der Aufruf für .pdf lautet pdf. Die Hilfeseite zu pdf ist bzgl. der Skalierungsparameter heranzuziehen. Häufig sind die 5.2. BIBLIOTHEKEN 43 Parameterbezeichnung im R bei ähnlichen Aufrufen identisch oder sehr ähnlich, so dass durch suchen & ersetzen (copy & paste) relativ zügig und mit nur geringem Aufwand Änderungen problemlos durchführbar sind. 5.1.4 R-Session Am Endes jedes R-Skriptes wird die R-Session mit allen zu dem Zeitpunkt verfügbaren Objekten abgespeichert (s. Abb. 5.5). Diese Image-Datei mit Endung .RData kann direkt geöffnet werden, so dass der R-GUI sich öffnet. Ab hier kann die Session untersucht, weitergeführt, etc. werden. Alle Objekte sind enthalten, die zum Speicherzeitpunkt vorhanden waren. Geben Sie hier ls() ein, um diese Objekte angezeigt zu bekommen. Damit ist eine vollständige Reproduktion jeder Session und jedes Ergebnisses immer möglich. Ergebnisse im R sind so vollständig transparent. Abb. 5.5. 5.2 R Image gespeicherte Objekte im Speicher Bibliotheken Als Standard ist ein gewisser Umfang an RPaketen bereits aktiv. Alle weiteren Pakete (Bibliotheken) müssen extra geladen bzw. installiert werden, um sie nutzen zu können. Die vorliegenden R-Skripte überprüfen (s. Abb. 5.6), ob die skriptrelevanten Pakete installierte sind. Fehlen sie, wird versucht, diese automatisch Bibliotheken zu installieren (s. Abb. 5.7). Hierfür ist eine funktionsfähige Internetverbindung notwendig und eine (Personal) Firewall entsprechend zu konfigurieren. Wenn R nicht als Administrator ausgeführt wird, bietet Ihnen R an, die Bibliotheken unter Ihrem Benutzernamen zu speichern (s. Abb. 5.8). Ansonsten können sie nicht instal- Abb. 5.6. erfolgreiche Prüfung installierte Bibliotheken liert werden (s. Abb. 5.9). Wird eine Bibliothek installiert, fragt R nach, von welchem Mirror die Dateien geladen werden sollen (s. Abb. 5.10). Folgend werden die fehlenden Pakete installiert (s. Abb. 5.11). 44 KAPITEL 5. DIVERSES Abb. 5.7. Abb. 5.8. Abb. 5.10. automatische Prüfung und Installation von Bibliotheken Abfrage Installation Bibliotheken unter Nutzeraccount Auswahl Mirror Abb. 5.9. Fehlermeldung Installation fehlende Bibliothek Möchten Sie das nicht, müssen Sie zumindest einmal R als Administrator aufrufen (s. Abb. 5.12) und dann das jeweilige Skript durchlaufen lassen – etwa wenn verschiedene Personen an einem Computer mit getrennten Accounts arbeiten und alle auf dieselben R Bibliotheken zurückgreifen sollen. Hierzu starten Sie R als Administrator und wechseln in das AQUAD 7 Verzeichnis (s. Abb. 5.13) und dort in /skripte (s. Abb. 5.14). Ansonsten kann R die Skripte nicht finden, da immer relative Pfade ausgehend vom AQUAD 7 Hauptverzeichnis gewählt werden. Nach einmaliger Installation sind die Bibliotheken immer verfügbar. Werden Sie als Administrator installiert, sind sie für alle verfügbar, sonst ist es nutzergebunden. Prinzipiell können Sie Bibliotheken auch direkt herunterladen und als .zip Datei im R-GUI manuell einspielen. 5.2. BIBLIOTHEKEN 45 Abb. 5.11. Installation Bibliotheken Abb. 5.13. Abb. 5.12. R als Admin ausführen Verzeichniswechsel im RGUI 46 KAPITEL 5. DIVERSES Abb. 5.14. Verzeichniswechsel nach /scripts Kapitel 6 R-Skripte 6.1 Normalmodus und Expertenmodus Abb. 6.1. Auswahl DefaultEinstellungen Abb. 6.2. Auswahl ExpertenEinstellungen Alle R-Skripte laufen mit Standardeinstellungen. Das heißt, es werden nur wenige Abfragen gestellt, um die Skripte laufen lassen zu können. Im DefaultModus ist dies meist nur die Auswahl der Datei, die als Basis der Analyse genommen wird. Weitere auszuwählende Parameter sind etwa Dateinamen für Input und Output. So können Ergebnisse zügig erzielt werden. Im Normalmodus können Parameter geändert werden, ohne das jeweilige R-Skript bzw. gewählte Verfahren tiefgreifend zu verstehen. Für den Expertenmodus sind detaillierte Kenntnisse erforderlich, um Anpassungen inhaltlich sinnvoll durchführen zu können. Grundsätzlich sollten die Verfahren nur angewandt werden, wenn deren Prinzip verstanden wird. Beim Aufruf von jedem Skript kann zwischen Normal- und Expertenmodus gewählt werden (s. Abb. 6.1 bzw. Abb. 6.2) Pro Verfahren (d.h. Skript) können als ein paar mehr Einstellungen in einem Expertenmodus verändert werden. Hierzu werden weitere Parameter der zum Verfahren zugehörigen Parameterdatei angezeigt und können verändert werden. Ein Reset Knopf stellt auf Wunsch alle Standardeinstellungen wieder her. Dies ist im Normalmodus wie im Expertenmodus möglich. Sonst merkt sich AQUAD 7 die gewählten Einstellungen für den nächsten Durchlauf. Anhang B listet tabellarisch noch ein paar mehr Einstellungen als es der Expertenmodus ermöglicht. 48 KAPITEL 6. R-SKRIPTE Diese Einstellungen sollten nur geändert werden, wenn das Verfahren (z.B. bayesclust, s. Kap. 9.1.2) wirklich verstanden wird, da ab diesem Zeitpunkt Originalparameter der R-Funktionen geändert werden (z.B. auch bei der Implikantenanalyse, s. Kap. 11). AQUAD 7 reicht diese Änderungen direkt an die originalen R-Funktionen weiter. Änderungen können auch direkt in den Parameterdateien durchgeführt werden, die AQUAD 7 einliest. Es handelt es sich um reine Textdateien, die auch als csv-Tabelle einlesbar sind. Ebenso ist es möglich, die R-Skripte selbst zu ändern. Machen Sie dann eine Kopie davon, benennen diese entsprechend um und arbeiten mit der Kopie, sonst funktioniert möglicherweise die Funktion aus AQUAD 7 heraus nicht mehr ordnungsgemäß. Die Default-Parameterdateien liegen in /scripts ausgehend vom AQUAD 7 Hauptverzeichnis und haben alle das Muster D_*.aqd. Funktioniert eine Parameterdatei nicht mehr, kann sie entsprechend durch diese Default-Datei ersetzt werden. Änderungen an dieser Datei gehen dann verloren und es ist das Kürzel D_ zu Beginn des Dateinamens zu entfernen. 6.1.1 Veränderung der R-Skripte Es wird empfohlen, die R-Skripte so zu lassen wie sie sind und für eigene Zwecke eine Kopie zu erstellen. Wenn das Verzeichnis gewechselt wird, müssen die relativen Pfade im Skript angepasst werden. Die R-Skripte sollten mit einem Editor bearbeitet werden, der auf R angepasst ist (s.u.). Bitte beachten Sie – AQUAD 7 läuft derzeit nur unter Windows und nicht nativ unter Linux oder Mac. Da AQUAD 7 in Delphi geschrieben ist und es bis dato keinen ordentlichen Delphi Compiler für Linux gibt, wird es in nächster Zukunft keine native Linuxversion von AQUAD 7 geben. R läuft jedoch auf allen drei Plattformen. Speichern Sie Ihre Skripte immer ab. Beginnen Sie zunächst zeilenweise, um mit minimalen Veränderungen das zu realisieren, was Sie sich vornehmen. Funktioniert dies, basteln Sie eine Funktion darum. Funktioniert diese auch, erweitern Sie diese über die Hinzunahme von Variablen, die Ihnen quasi bibliotheksartig erlauben, nicht nur ein Problem, sondern ähnliche Probleme mit derselben Funktion zu bearbeiten. AQUAD 7 Funktionen liegen alle in aquad_func.r und werden zu Beginn jedes Skriptes eingelesen. Erstellen Sie sich eine eigene Skriptsammlungsdatei, die mit source eingelesen wird. Dann können Sie Ihre Funktionen in jedem Skript verwenden. Basteln Sie möglichst viele Funktionen, weil dies sowohl den Code übersichtlich hält, viel Arbeit erspart (insb. Änderungen bei langen Skripten) und Funktionen in eine zentrale und offen zugängliche Datei ausgelagert werden können. Das erleichtert das Arbeiten. Denken Sie immer dran, dass R eine objektorientierte Programmiersprache ist. Arbeiten Sie außerdem vektorwertig. Vektorwertiges Arbeiten führt zu einer Beschleunigung der Rechenleistung, weil die R-Kommandos hierfür optimiert 6.1. NORMALMODUS UND EXPERTENMODUS sind. Zusätzlich macht es den Code elegant und leicht lesbar. Für den Anfang ist es aber häufig einfacher, Schleifen zu programmieren statt vektorwertig zu arbeiten. Nehmen Sie sich aber vor, Schleifen später durch vektorwertiges Arbeiten zu ersetzen. Klappt dies, gehen Sie direkt zu vektorwertigem Arbeiten über. 6.1.2 Arbeit mir R unabhängig von AQUAD 7 Wie mehrfach erwähnt, lohnt es sich, R zu lernen, um sehr speziell und an die eigenen Forschungsbedürfnisse angepasste Skripte und Analysen anfertigen zu können. Hierzu eignet es sich als ersten Einstieg, die vorliegenden Skript zu nehmen und zu modifizieren. Später können eigene Skripte geschrieben werden. Hilfreich ist es, die Pfade unverändert zu lassen, da dann auch alle Daten gefunden und richtig geschrieben werden. Die R-Skripte für AQUAD 7 arbeiten grundsätzlich mit relativen Pfaden. Wenn keine Vorkenntnisse zu R oder einer ähnliche Programmiersprache vorliegen, sollten die in Kap. 4.3 vorgestellten Lernskripte zunächst abgearbeitet werden. Dann liegt einer erstes Verständnis für R bereit, auf dem weiter durch Modifikation, eigene Skripte und Literaturstudium aufgebaut werden kann. R ist eine kommandozeilenorientiere Interpretersprache. Im R-GUI haben Sie immer nur eine Zeile zur Verfügung, um Befehle einzugeben. Das ist zur Erstellung eigener Skripte nicht nur umständlich, sondern hochgradig ineffizient. Installieren Sie sich deshalb einen Editor, der direkt Befehle an R schicken kann. Unter Windows bieten sich die freien Editoren Tinn-R oder auch Notepad++ und dessen Erweiterung NppToR an. Tinn-R kann nach der Installation mit Tastenkombinationen (hotkeys) belegt werden, die festlegen, wie die Kommunikation mit dem R-GUI funktioniert. Diese Tastenkombinationen sind zusätzlich zu aktivieren. Es gibt in dem entsprechenden Auswahlfenster hierzu einen kleinen Punkt ganz unten, der die Tastenkombinationen aktiviert. Der Weg zum R-GUI Executable muss wie bei AQUAD 7 angegeben werden. In Tinn-R können Sie Ihr Skript abspeichern, direkt die Befehle an R senden und so sehr leicht auch Fehler eingrenzen. Tinn-R hat den Vorteil, die gängigsten R-Befehle und ihren korrekten Syntax zu kennen, so dass Sie Ihren Code leichter pflegen können. Lesen Sie hierzu das Manual zu Tinn-R. 49 Teil III Statistik und Logik Kapitel 7 Vorbemerkungen Starten Sie die R-Skripte über den Menüpunkt RStatistik (s. Abb. 7.1). Hier gibt es für die Bereiche deskriptive Statistik, Klassifikation und Gruppierung, Inferenzstatistik sowie Implikantenanalyse je getrennte Menübereiche bzw. Menüpunkte. Abb. 7.1. Menü R-Statistik Kapitel 8 Deskriptive Statistik Das Untermenü deskriptive Statistik befindet sich im Menü R-Statistik (s. Abb. 8.1). Die deskriptive Statistik wird in die Bereiche Verteilungsdeskription, explorative Datenanalyse mit Plots, Worthäufigkeiten und Korrelation unterteilt. Abb. 8.1. 8.1 Verteilungsdeskriptionen Untermenü Deskriptive Statistik Der Menüpunkt Verteilungsdeskription findet sich im Untermenü Deskriptive Statistik (s. Abb. 8.2). 8.1.1 Sinn und Zweck Datenanalysen sind grundsätzlich Reduktionsversuche an Datensätzen, um diese durch wenige, idealerweise minimale, Regeln möglichst umfassend zu beschreiben. Praktisch ist eine exakte Beschreibung nie möglich, deshalb gibt es verschiedene miteinander konkurrierende Datenanalyseverfahren. Deskriptive Analysen sind statistische Abb. 8.2. Menüpunkt Verteilungsdeskription Verfahren, die Datensätze lediglich beschreiben, ohne hierbei zufallskritisch abgesicherte Schlussfolgerungen daraus zu ziehen. Deskriptive Analysen sind deshalb hypothesengenerierend bzw. im Rahmen inferenzstatistischer Verfahren eine Art Vorsortierung der Daten. Es gelten damit dieselben Bedingungen wie bei der EDA (s.u., Kap. 8.2). Deskriptive Analysen sind das quantitative Äquivalent zu den graphischen Outputs der EDA. Kombiniert beschreiben beide einen Datensatz so umfassend und erschöpfend, wie dies eine Beschreibung eben leisten kann. 56 KAPITEL 8. DESKRIPTIVE STATISTIK 8.1.2 Theorie Eine direkte und umfassende Theorie zur Beschreibung von Daten gibt es nicht, sondern lediglich die Annahmen, dass bestimmte und teilweise miteinander konkurrierende Kennwerte einen Datensatz beschreiben können. Eine solche Beschreibung ist zwar reduziert, kann aber trotzdem sehr effizient sein. Beschreibungen sind immer fehlerbehaftet, weswegen ein einziger Kennwert nicht ausreicht, um eine Verteilung bestehend aus vielen Datenpunkten angemessen zu beschreiben. Beispielsweise kann das arithmetische Mittel manchmal sehr gut eine zentrale Tendenz (Erwartungswert) beschreiben. Ebenso ist es aber denkbar, dass verschiedene extreme Ausreisser das arithmetische Mittel so verzerren, dass ein anderes robusteres Maß (z.B. Median) den Datensatz besser hinsichtlich der zentralen Tendenz erfassen kann. Robustere Kennwerte werden häufig jedoch mit einer Reduktion des Skalen- bzw. Datenniveaus erkauft (z.B. Rangniveau statt Intervallniveau im Falle des Median), so dass nachfolgende Analysen zwangsläufig unschärfere Ergebnisse liefern. Skalenniveaureduzierte Verfahren nutzen nicht alle Informationen in den Daten. Merke: Je höher das Skalenund Analyseniveau, desto weniger robust ist es. Es ist umso exakter und aussagekräftiger, je besser die Robustheit nicht verletzt oder Verletzungen derselben abgefangen werden können. Dies kann durch Zusatzannahmen (z.B. exakte Verteilungsform), Elimination von Ausreissern (ergibt jedoch andere Probleme), Datentransformation (z.B. logarithmisieren) oder andere Verfahren erreicht werden. Die Konsequenzen dieser Transformationen sind bei späteren Interpretationen zu berücksichtigen. Im Allgemeinen geht es darum, die Daten möglichst gut an eine bekannte theoretische Verteilung (z.B. Normalverteilung) anzupassen, so dass diese als Referenz dient und diese folgend den Einsatz zufallskritischer Verfahren legitimiert. Aufgrund der Unterscheidung zwischen empirischer Stichprobe und theoretischer Population in der klassischen Statistik wird auch von Schätzwerten gesprochen. Das heißt, dass die statistischen deskriptiven Werte eine Verteilung und ihre theoretischen Kennwerte schätzen, da die wahren Werte nicht bekannt sind. Zur besseren Unterscheidung werden häufig die empirischen Werte mit lateinischen Buchstaben und die theoretischen mit griechischen belegt. Für die Kennwerte gibt es mathematische Nachweise, dass und warum bzw. unter welchen Bedingungen sie der beste Schätzer für die jeweiligen theoretischen Populationswerte sind. Gütekriterien sind hier Erwartungstreue, Effizienz, Konsistenz und Suffizienz. Im Rahmen der klassischen Statistik wird das Gesetz der großen Zahl (zentraler Grenzwertsatz) angenommen. Das bedeutet, dass bei endlicher Varianz die Summe der Zufallsvariablen annähernd normalverteilt ist. Entsprechend lassen sich die Eigenschaften der Normalverteilung nutzen und a priori vorausgesetzen. 8.1. VERTEILUNGSDESKRIPTIONEN Erwartungstreue der Schätzer von Stichprobenkennwerte von unabhängigen Zufallsvariablen ist dann gegeben, wenn diese mit wachsender Stichprobengröße im Mittel gegen ihren Populationswert konvergieren. Der Fehler wird damit beliebig klein und in der Unendlichkeit Null. Pro Stichprobe können jedoch immer und auch extreme Ausreisser vorkommen. Das Gesetz der großen Zahl gilt bezogen auf sehr große Stichproben, nicht jedoch pro Stichprobe und bestimmt nicht bezogen auf eine bestimmte Abfolge von Stichprobenerhebungen. Deskriptive Verfahren können grob in ⇒ allgemeine Beschreibungen des Datensatzes – Anzahl der Fälle – Anzahl der fehlenden Werte – etc. ⇒ Momente einer Verteilung – Werte der zentralen Tendenz (z.B. arithmetisches Mittel, Median, etc.) – Streuungsmaße (z.B. Streuung, Varianz) – Schiefe – Exzess (Kurtosis oder Wölbung) ⇒ kombinierte Maße – Interquartil Spannweite – Standardfehler des Mittelwertes – etc. unterschieden werden. Dies spiegelt strukturell die Grundfrage jeglicher Statistik – das Behrens-Fisher Problem (Bretthorst, 1993), dass die Frage von gleichen und ungleichen Erwartungswerten bzw. Streuungen zwischen Stichproben aufwirft. Deskriptive Maße liefern hierzu Grundlagenwerte, ohne Schlussfolgerungen statistisch nahezulegen. Kombinierte Maße geben spezielle Einblicke über spezifische Abschnitte und Bereiche in der Verteilung, behalten aber das Grundthema – zentrale Tendenz und Streuung – bei. Deskriptive Verfahren werden manchmal fast abwertend als Vorstufe zu den “richtigen” – d.h. inferenzstatischen – Verfahren verstanden. Das ist falsch. Deskriptionen von Daten haben einen Eigenwert, obwohl sie zwar in der logischen Abfolge zumeist vor der Inferenzstatistik durchgeführt werden und von ihrer Natur her hypothesengenerierend sind. 57 58 KAPITEL 8. DESKRIPTIVE STATISTIK Die jeweiligen Kennwerte lassen sich nach fixen Formeln berechnen. Sie alle versuchen, die Verteilung eines Datensatz nach bestimmten gewichteten Faktoren zu erfassen. Die Basis dieser Kennwerte sind in der klassischen Statistik Häufigkeiten (Zählungen). Diese hat deshalb den Namen frequentistische Statistik und steht im Gegensatz zur bayesischen Statistik (Jaynes, 2003), bei der es um Wahrscheinlichkeiten geht. Die zentralen Momente einer Verteilung lassen sich wie folgt aus einer allgemein Formel herleiten. Gegeben ist eine Zufallsvariable X und deren Erwartungswert µ = E( X ), um den herum sich die Daten verteilen: µk = E(( X − µ)k ) Wird für k nun 1, 2, 3, und 4 eingesetzt, so ergeben sich die Werte Null, Varianz, Schiefe und Exzess. Aus obiger Formel lassen sich weitere Ableitungen machen, die hier nicht von weiterem praktischen Nutzen sind. Wie auch bei der EDA bemerkt (s. Kap. 8.2) kann eine gut durchgeführte deskriptive Analyse von Daten und den darin enthaltenen Subgruppen eine zufallskritische Testung von Kennwerten quasi vorwegnehmen bzw. fast schon ersetzen. Solange Modelle einfach gehalten sind und nicht zuviele Variablen eingehen, ist dies ohne weiteres möglich. Effektstärkemaße, die technisch betrachtet zumeist standardisierte Mittelwertsdifferenzen, Varianzunterschiede oder Korrelationen sind, sind ebenfalls deskriptive Werte. Ohne sie ist eine isolierte zufallskritische Absicherung quasi wertlos. Deskriptive Analysen sind also ungemein wichtig und wertvoll. Abb. 8.3. Auswahl Datendatei 8.1. VERTEILUNGSDESKRIPTIONEN 8.1.3 59 Datenbasis Die Datenbasis ist eine Häufigkeitstabelle (s. Abb. 8.3). Ausgewertet wird nach den Spalten. Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu transponieren. 8.1.4 R-Skript und Einstellungen Das R-Skript liest die Häufigkeitstabelle ein und berechnet die deskriptiven Statistiken und schreibt diese in eine Tabelle. Die Experteneinstellungen zeigt Abb. 8.4. Die Berechnung sämtlicher Kennwerte wird über eine einzelne Funktion realisiert, die auch anderweitig nutzbar ist : Abb. 8.4. Experteneinstellungen lungsdeskription ⇒ allgemeine Werte: Anzahl Beobachtungen, Anzahl fehlender Werte, Anzahl Beobachtungen ohne fehlende Werte, Summe, Minimum, Maximum, Spannweite ⇒ Momente einer Verteilung: arithmetisches Mittel, geometrisches Mittel, harmonisches Mittel, Median, Varianz, Standardabweichung, Schiefe, Wölbung (Exzess oder Kurtosis) ⇒ kombinierte Maße: Variationskoeffizient, Median absolute Abweichung, mittlere Abweichung, 1. Quantil, 3. Quantil, Interquartil Spannweite, Standardfehler des Mittelwertes, unteres Konfidenzintervall Mittelwert, oberes Konfidenzintervall Mittelwert 8.1.5 Ausgaben Eine typische Ausgabe eines R-Skriptes zeigt Abb. 8.5. Abb. 8.6 wiederum gibt Einblick in die Ergebnisausgabe im Rahmen eines R-Skriptes. Es werden die folgenden Dateien ausgegeben (s. Tab. 8.1). Die Dateinamen orientieren sich an den Übergaben im Skript. 8.1.6 Ergebnisse und Interpretation Deskriptive Statistiken laden dazu ein, Interpretationen kreativ zu erfinden und Hypothesen zu formulieren. Im Kontext qualitativer Forschung, die nicht auf eine inferenzstatistische Absicherung angewiesen ist, bedeutet dies, mit den aufgestellten Hypothesen zurück zu den Originaldaten zu gehen. Anhand der Originaldaten Vertei- 60 KAPITEL 8. DESKRIPTIVE STATISTIK Abb. 8.5. Ausgabe R-Skript Verteilungsdeskription Abb. 8.6. Ausgabe deskriptive Statistiken Inhalt Dateityp R Session Binärfile des R alle deskriptiven Kennwerte Text alle deskriptiven Kennwerte Tabelle Tab. 8.1: Dateiendung .RData .txt .csv oder .tab Ausgabedateien Verteilungsdeskription können und sollen Hypothesen qualitativ untersucht werden. Es geht um das Auffinden von Sinn und von plausiblen Zusammenhängen. Die Hypothesengenerierung sollte immer verschriftlicht und als Notiz vermerkt (Variable, Datensatz, Analyseform, etc.) werden. Lesen Sie hierzu auch den Abschnitt zu Memos (AQUAD 7 Manual, Huber und Gürtler, 2012 Kap 10). 8.1. VERTEILUNGSDESKRIPTIONEN 8.1.7 Beispieldatensatz Der Beispieldatensatz entstammt einer Untersuchung von Gürtler (2006). Hierbei wurden n=363 Schülerinnen (n=142) und Schüler (n=221) aus Realschule (n=317) und Gymnasium (n=46) zu ihren Erfahrungen mit Humor im Unterricht befragt. Das Alter lag zwischen 14–25 Jahren (x¯ = 16.18, s = 0.49). Es kamen Fragebögen mit offenen Fragen zum Einsatz. Die Themen deckten die Bereiche Definition, Grenzen, Erwartungen, Ablauf bzw. Prozess, Initiierung, negative Erfahrungen, Meinung zur Quantität, verändern wollen bzw. würden sowie Folgen ohne Humor ab. Die Fragebögen wurden u.a. in AQUAD 6 kodiert und die Kategorien tabellarisch aufgearbeitet. Die deskriptive Beschreibung der Kategorien erlaubt die Formulierung von wenigen relativ groben Hypothesen: ⇒ Die größte Varianz lässt sich etwa bei der Initiierung von Humor beobachten, die geringste bei den Möglichkeiten zur Veränderung. ⇒ Auch ist die Variation der Definition von Humor hoch, während negative Erfahrungen, Grenzen und Erwartungen deutlich varationsärmer ausgeprägt sind. ⇒ Die Werte für die Spannweite unterstützen dies, gehen aber ja auch in die Berechnung der Varianz ein. ⇒ Die Initiierung von Humor hat die größte Summe, während dann jedoch die Grenzen, der Ablauf bzw. Prozess und die Meinung zur Quantität von Humor folgen. Dies ist nur ein Ausschnitt – bessere Hypothesen lassen sich in Kombination mit der EDA (Kap. 8.2) und unter Rückgriff auf die originalen Daten aus AQUAD ableiten. Inhaltliche Hypothesen könnten vorsichtig wie folgt formuliert werden: ⇒ Humor bzw. humoristische Episoden beginnen auf ganz verschiedene Wege. Aber wenn etwas bereits läuft, gibt es aus subjektiver Sicht deutlich weniger Möglichkeiten der Veränderung und damit der Einflussnahme. Unklar ist, ob eine Veränderung im schulischen Kontext überhaupt versucht wird. ⇒ Was Humor ist, wird sehr unterschiedlich verstanden. Anders bei negativen Erfahrungen, Grenzen und Erwartungen – hier scheinen sich die Meinungen stärker zu ähneln oder zumindest stark zu überschneiden. Damit sind die Grenzen des Humors in Form einer negativen Definition klarer zu fassen als die Frage, was Humor eigentlich ist (positive Definition). 61 62 KAPITEL 8. DESKRIPTIVE STATISTIK ⇒ Die Initiierung von Humor wird umfangreich behandelt, ebenso die Grenzen, der Ablauf bzw. Prozess und die Meinung zur Quantität. Negative Erfahrungen und die Frage der Veränderung werden in geringerem Umfang beantwortet. ⇒ etc. Diese ersten Hypothesen sind weiter zu spezifizieren hinsichtlich ihrer Bedeutung für den schulischen Alltag, der Ausbildung von Lehrenden, notwendigen Veränderungen im Unterricht, etc. 8.2 Explorative Datenanalyse mit Plots Der Menüpunkt Plots zur Durchführung einer explorativen Datenanalyse anhand von Graphiken findet sich im Untermenü Deskriptive Statistik (s. Abb. 8.7). Abb. 8.7. Menüpunkt Explorative Datenanalyse mit Plots 8.2.1 Sinn und Zweck Die explorative Datenanalyse geht auf Tukey (1977) zurück und hat zum Ziel, durch verschiedenste visuelle Darstellungen von Daten in Form von Plots einen Eindruck über die internen Zusammenhänge zu erhalten. Das ist umso wichtiger, je weniger über ein Untersuchungsgebiet und die entsprechenden Daten bekannt ist. EDA-Techniken werden auch im Data-Mining verwendet. Im Gegensatz zum statistischen Hypothesentesten lädt die EDA dazu ein, Hypothesen überhaupt zu generieren. Forschungslogisch sollten an einem Datensatz generierte Hypothesen jedoch nicht am selben Datensatz statistisch getestet werden, um dann Schlussfolgerungen abzuleiten. Dafür ist ein vergleichbarer Datensatz zu nehmen. Inferenzstatistisch kann natürlich sehr wohl am selben Datensatz getestet werden. Nur dürfen die Ergebnisse nicht in Form wissenschaftlicher Schlussfolgerungen gemäß der Inferenzstatistik Verwendung finden. Als Faustregel sollte jedoch gelten, dass bei überschaubaren Datensätzen eine statistische Analyse nicht viel mehr zeigen sollte als ohnehin bereits aus den Plots abgeleitet werden kann – vorausgesetzt die Hypothesen werden nicht erst durch die EDA generiert, sondern liegen vorab bereits vor. Das heißt, dass die EDA im Groben die Ergebnisse der zufallskritischen statistischen Testung vorwegnehmen sollte. Dies gelingt nicht immer, ist aber anzustreben und auszuprobieren. 8.2. EXPLORATIVE DATENANALYSE MIT PLOTS 8.2.2 Theorie Die häufigsten Plots sind der Boxplot, das Histogramm (mit Dichteschätzung), der QQ-Plot, der Scatterplot und der Mosaikplot. Auch können Korrelationsplots, verschiedene Symbole oder kombinierte Plots den Erkenntnisgewinn vergrößern helfen. Kombinierte Plots erlauben verschiedene Visualisierungsformen direkt nebeneinander und lassen sich mit deskriptiven Statistiken ergänzen. Im R liegen eine riesige Fülle an Plotvarianten bereit, die je nach Fachgebiet ein sehr gut angepasste Visualisierung von Daten ermöglichen. Wird nur im R gearbeitet, lädt etwa rggobi zur Nutzung ein. Dies ist eine Open Source Visualisierungspaket zur Exploration mehrdimensionaler Daten. Das Paket lattice ermöglicht gleichfalls eine exzellente und visuell sehr ansprechende Kombination verschiedener Datenquellen und Visualisierungstechniken nebeneinander auf einem einzigen Plot. EDA-Techniken basieren alle darauf, deskriptiv die Verteilung eines Datensatz graphisch darzustellen. Hierbei ergibt sich die Möglichkeit, Subgruppen zu bilden (z..B. unterteilt nach AQUAD 7 Sprechercodes), Ausreisser zu identifizieren oder zu eliminieren. Ebenso können bestimmte Grenzwerte gesetzt werden, um den essentiellen Körper einer Verteilung zu betonen oder eine bestimmte Untermenge der Daten zu selegieren (z.B. nur alle Daten zeigen, die +/-2s ausgehend vom arithmetischen Mittel abdecken). Zur Skalierung von Plots sei an das Buch “So lügt man mit Statistik” (Krämer, 2011) erinnert. Obwohl EDA-Techniken explorativ und kreativ sind, müssen die jeweiligen Kennwerte, Spannbreiten etc. so angepasst werden, dass sie intuitiv ein realistisches Verständnis der Daten fördern. Verzerrende Skalierungen (z.B. das Verhätlnis von X- zu Y-Achse) sind tunlichst zu unterlassen. Das führt im Zweifel nur zu Selbst- und Fremdtäuschung und es werden Dinge gefunden, die nicht in den Daten sind. Weitere Überblicke über die EDA finden sich bei Oldenbürger (1996). 8.2.3 Datenbasis Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten. Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu transponieren. 8.2.4 R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 8.8. Das R-Skript gibt auf den Plots Abkürzungen aus, da Kodierungen häufig sehr lange Namen tragen können und diese aber die Plots verunstalten würden. Die Datenpunkte, nicht die Namen stehen im Vordergrund.. Deshalb werden Tabellen für die abgekürzten Reihen- und 63 64 KAPITEL 8. DESKRIPTIVE STATISTIK Spaltennamen ausgegeben. Pro Variable werden die folgenden Plots erstellt und die Datei wird namenstechnisch mit dem Namen der Variablen versehen.Soweit möglich sind die Koordinatenachsen beschriftet und die Plots sind eindeutig zuordenbar. Zur Vereinfachung wurde auf komplexe Plots auf der Basis von Gittern (Paket lattice) verzichtet, da diese häufig manuelle Anpassungen erfordern. Die verwendeten Diagramme sind Standardfunktionen im R, die aber dennoch elegant aussehen. Im R-Skript wurde der Koordinatenbereich graphisch zur leichteren Orientierung verändert. ⇒ Scatterplot (Streudiagramm) ⇒ QQ-Plot (sample quantile- versus theoretical quantile plot) gegen die Normalverteilung ⇒ Histogramm mit Dichteschätzung und empirischen Häufigkeiten pro Balken ⇒ ECDF-Plot (empirical cumulative distribution function plot) ⇒ Boxplot mit Ausreissern ⇒ Boxplot ohne Ausreisser ⇒ alle obigen Plots auf einem einzigen zusammengefasst Abb. 8.8. Zum besseren Verständnis der Interpretation der Plots sind die jeweiligen Hilfeseiten der R-Funktionen heranzuziehen: plot, qqplot, hist, ecdf und boxplot. Tabellen sollten nicht mehr als je 20 Spalten bzw. Reihen (max. 400 Zellen) beinhalten, da Plots sonst unübersichtlich werden und Beschriftungen nicht mehr möglich, weil unlesbar, sind. Entsprechend gibt das R-Skript eine Warnmeldung aus, wenn dieser Wert überschritten wurde (s. Abb. 8.9). Ebenso wird zu Histogrammen eine Warnmeldung ausgegeben, da die Auswahl der Daten (Zeilen) und die jeweilige Art der Bündelung sehr Experteneinstellungen explorative Da- stark bedingt, wie das Histogramm (Balkentenanalyse breite) aussieht (s. Abb. 8.10). 8.2.5 Ausgaben Abb. 8.11 zeigt einen Ausschnitt der ausgegebenen Daten des Beispieldatensatzes (s. Kap. 8.2.7). Es werden die folgenden Dateien ausgegeben (s. Tab. 8.2). Die Dateinamen orientieren sich an den Übergaben im Skript. 8.2. EXPLORATIVE DATENANALYSE MIT PLOTS Abb. 8.9. Warnmeldung Überschreitung Dimensionen Abb. 8.10. Warnmeldung Aussehen Histogramme Inhalt Dateityp R Session Binärfile des R Boxplot Plot .emf ECDFplot Plot .emf Histogramm Plot .emf QQPlot Plot .emf Scatterplot Plot .emf several-descplots Plot Abkürzungen von Reihen Tabelle Tab. 8.2: 8.2.6 65 Dateiendung .RData .emf .csv oder .tab Ausgabedateien explorative Plots Ergebnisse und Interpretation Der Fokus liegt hier auf der hypothesengenerierenden Funktion von EDA-Techniken. Ergebnisse sind die Plots selbst und sollten mit den deskriptiven Statistiken der Verteilungsdeskription (s. Kap. 8.1) kombiniert werden, um Graphiken und Zahlen miteinander zu vergleichen. Durch den Vergleich von Gruppierungen, Ausreissern, der Hauptmasse der Daten, der Verteilungsform (Anzahl der Gipfel, Breite, Höhe, Aussehen an den Rändern, etc.) und anderen Merkmalen lassen sich Kontraste, Ähnlichkeiten und Differenzen postulieren und explorieren. Wichtig sind die Subgruppenvergleiche. Beispielsweise können sehr leicht im R in einem gemeinsamen Abb. 8.11. Ausgabedateien explorative Plots 66 KAPITEL 8. DESKRIPTIVE STATISTIK Histogramm (Balken) und in verschiedenen Farben die Dichteschätzungen von Subgruppen kontrastiert werden. Die Skala (Frequenz, Wahrscheinlichkeit) von Dichteschätzungen und Balken müssen jedoch dieselbe sein. Die Merkmale der Verteilungen gilt es genauer zu untersuchen. Sollte eine inferenzstatistische Absicherung tatsächlich notwendig sein, ist diese nicht am selben Datensatz durchzuführen, sondern an einem vergleichbaren Datensatz. EDA-Techniken können auch im Gruppensetting untersucht und mit sequenzanalytischer Vorgehensweise (s. AQUAD 7 Manual, Huber und Gürtler, 2012, Kap. 5) strukturell betrachtet werden. Damit gewöhnen Forschende sich an, nicht nur auf die augenscheinlich “wichtigen” Merkmale eines Datensatzes zu schauen (z.B. Ausreisser), sondern gezielt und strukturiert alle Bereiche des Datensatzes fokussiert zu untersuchen, um Erkenntnisse und überprüfbare Hypothesen daraus abzuleiten. Gleichzeitig erhöht dies die Qualität der Hypothesen. EDAAusgaben können also qualitativ “verarbeitet” werden, um qualitative wie quantitative Hypothesen über Zusammenhänge zu generieren und zu testen. EDA-Techniken ermöglichen einen kreativen Umgang mit Daten, um den qualitativen Prozess zu unterstützen. Für den Übergang zur quantitativen Inferenzstatistik sind jedoch einige Besonderheiten zu beachten wie der Wechsel zu einem neuen Datensatz und die strikte Unterordnung der inferenzstatistischen Perspektive unter die Forschungsfrage. Das bedeutet die Ableitung von statistischen Hypothesen, die entlang der gewählten statistischen Analysen zu beantworten sind. Ebenso sollten die Auswertungsstrategien der qualitativen Arbeit sich nicht so mit denen des quantitativen vermischen, damit Schlussfolgerungen je innerhalb der gewählten Forschungslogik bleiben. Vermschungen sind schriftlich zu fixieren. Bietet sich aus der Forschungslogik eine Vermischung an, ist diese durchzuführen. Qualitative und quantitative Ergebnisse können bzw. müssen an geeigneten Zeitpunkten des Forschungsprozesses jedoch kontrastiert und mitenander integriert werden. 8.2.7 Beispieldatensatz Als Beispieldatensatz dient wiederum die oben bereits eingeführte Studie von Gürtler (2006). Es handelt sich um die bereits besprochenen Fragebogendaten zu Humor im Unterricht. Abb. 8.12 zeigt einen zusammenfassenden Plot für die Variable negative Erfahrungen mit Humor. Für die neun vorhandenen Variablen des Datensatzes werden 63 Plots ausgegeben. Das zeigt, wie schnell sich Datenmaterial anhäufen können. Überlegen Sie es sich deshalb sehr genau, wieviele Plots von wievielen Variablen Sie wirklich benötigen, um (noch) den Überblick zu behalten. Zu Beginn reicht es, grob die Zusammenfassung zu betrachten, d.h. den Plot, der alle anderen in einer Graphik vereinigt. Die anderen werden standard- 8.2. EXPLORATIVE DATENANALYSE MIT PLOTS 67 Tabelle: FR_Codes_freq | Variable: neg.Erfahrungen.mit.Humor ECDF Plot Plot gegen Normalverteilung 50 0 100 200 300 lfd. Index 400 10 0 0 0.0 10 0.2 20 Werte 30 Kumulation 0.4 0.6 40 Stichproben Quantile 20 30 40 0.8 50 1.0 Scatterplot 0 -3 2.0 9 7 3 2 1 2 0 1 2 1 1 0.20 Dichteschätzung 0.05 0.10 0.15 0.00 0.0 370 0 Abb. 8.12. 3 Histogramm 50 Werte (ohne Ausreisser) 10 20 30 40 0 -2 -1 0 1 2 theoretische Quantile Boxplot Werte (ohne Ausreisser) 0.5 1.0 1.5 Boxplot 10 20 30 40 50 60 Werte 10 20 30 40 50 60 Beispieldatensatz explorative Plots mäßig mit ausgegeben. Zur beispielhaften Interpretation wird folgend die gewählte Variable negative Erfahrungen mit Humor herangezogen: Es fällt auf, dass qualitative Daten häufig nicht normalverteilt sind. Durch die strukturelle Unterschiedlichkeit, die durch Kodierungen zutage treten können, ist dies auch nicht wirklich überraschend. Die geringen Fallzahlen tragen auch nicht allzuviel zum Gesetz der großen Zahl bei. Insbesondere Metacodes bilden als Kategorien auf einer abstrakteren Ebene vieles ab, was bestimmt nicht normalverteilt sein wird. Dies ist auch durch die inhaltlich begründete Kategorienbildung im Rahmen des Kodierparadigmas bedingt, die inhatlich gut begründet, aber sicherlich nicht nach dem Prinzip Zufallsexperiments durchgeführt wird. Dasselbe gilt für Ausreisser. Auch hier sind 68 KAPITEL 8. DESKRIPTIVE STATISTIK häufig Extreme zu beobachten, da Einzelfällen eine ganz andere Bedeutung zukommt wie in der Statistik. In der Statistik werden Ausreisser häufig als störend behandelt und eliminiert. In der qualitativen Forschung gilt eher das Gegenteil: Hier kann ein Einzelfall eine neue und eigene Kategorie bilden, während dieser in einer statistischen Analyse vielleicht einfach als Ausreisser aus dem Datenpool geworfen werden würde. Diese scheinbare Widersprüchlichkeit wird umso klarer, wenn überdacht wird, dass die Kategorienbildung nicht auf statistischen Erwägungen basiert, sondern auf der Rekonstruktion von Sinn und inhaltlichen Zusammenhängen. Dem kommt per Definition kein Gesetz der großen Zahl zu. Vielmehr spielt die Frage der plausiblen Strukturrekonstruktion eine tragende Rolle, wofür ein einziger Fall eben sehr aussagekräftig sein kann. Wichtig ist es sich zu erinnern, dass die analysierten Tabellen reine Häufigkeiten beinhalten, die in sich betrachtet noch keine Struktur abbilden. Es sind – an diesem Punkt der Analyse – isoliert nebeneinander stehende Kodierungen ohne strukturelle Verbindungen zueinander. Interessanter wird es, wenn strukturelle Kodierungen (Sequenzcodes, AQUAD 7 Manual, Huber und Gürtler, 2012, Kap. 8.2) als Basis von statistischen Analysen genommen werden, da hier Hypothesen bereits integraler Bestandteil der Häufigkeiten sind. Jedoch gilt auch dann, dass diese nicht per Definition nach dem Gesetz der großen Zahl zustandegekommen sind. Es handelt sich nicht um ein zufälliges Würfelexperiment, sondern um das Ergebnis sorgfältiger Schlussfolgerungen auf inhaltlicher Ebene. Konkret bedeutet dies am Datenmaterial, dass es (s. Boxplots in Abb. 8.12 und zwar mit und ohne Ausreisser) für negative Erfahrungen mit Humor sehr viele Unterkategorien (der Code hier ist ja ein Metacode) gibt, die zunächst wenig zum Erkenntnisgewinn beitragen. Qualitativ macht es Sinn, die Ausreisser näher zu untersuchen – genauso wie den Körper der Verteilung. So gibt es also einige Codes, die sehr viel beitragen, jedoch zahlenmäßig eher selten anzutreffen sind, aber dann vermutlich mit einer starken Häufigkeit vertreten sind. Sie können trotz vieler weiterer Fälle die Verteilung nachhaltig verzerren, wenn ihre Häufigkeiten nur groß genug sind. Standardverfahren des Umgangs mit Ausreissern verbieten sich aus den oben genannten Gründen. Ferner fällt auf, dass die Daten oberhalb des Mittelwertes weitab von einer Normalverteilung sind. Das ist zu erwarten, wenn die Boxplots mit den Ausreissern betrachtet werden. Dies hat Implikationen, sollte je die Idee aufkommen, inferenzstatistisch mit den Daten weiterzuarbeiten. Voraussichtlich würden sich dann robustere Verfahren auf Rangskalenniveau besser eigenen als diejenigen auf Intervallskalenniveau, da deren Voraussetzungen vermutlich grob verletzt sind. Ein unbegründete Vorabannahme “es wird schon normalverteilt sein in der Unendlichkeit” verbietet sich, denn bei qualitativen Analysen geht es bekann- 8.2. EXPLORATIVE DATENANALYSE MIT PLOTS termaßen nicht um unbekannte Populationen mit potentiell unendlicher Größe, so dass das zentrale Grenzwerttheorem als Referenz gültig ist. Interessant sind “nur” Populationen in realen Kontexten, die endlicher Natur sind. Nichts anderes sagt auch das Histogramm aus. So gibt es n ~ 379 Fälle mit Häufigkeiten <= 10, jedoch ein paar Fälle (Summe <= 10), bei denen die Häufigkeiten zwischen 20 und 60 liegen. Mit Fall wird eine in AQUAD 7 und erstmal unabhängig vom einzelnen Fragebogen kodierte Codesammlung bezeichnet. Diese Codesammlung wird bezogen auf den Sprechercode negative Erfahrungen ausgezählt. Das bedeutet aber, dass es sich hier nicht zwangsläufig um Einzelpersonen handelt, sondern um Metacodes bzw. Einzelcodes. Der Ausreisser (Fall) ist somit entweder Einzelcode oder Metacode, aber keine Person. Dafür ist der Fall bezogen auf einen Bereich im Fragebogen (Sprechercode) und darüber Personen prinzipiell zuordenbar. Im vorliegenden Fall wird aber bezogen auf Bereiche in den Fragebögen (negative Erfahrungen) ausgezählt. Die Ausreisser hier am Datenmaterial bilden sich also aus Metacodes bzw. Einzelkodierungen auf mehr oder weniger abstrakter Ebene, die sich aus Kodierungen und nicht aus Personen ableiten. Diese Denkweise soll verdeutlichen, wie wichtig es ist, sich im Klaren zu sein, wofür die Daten stehen und wofür nicht. Ein Ausreisser kann sowohl für einen Fall (einen Code) stehen als auch für eine Sammlung von Fällen (z.B. Metacodes) – operationalisiert über einzelne oder zusammengefasste Kodierungen. Das ist anspruchsvoll und bedarf vieler Memos, um später bei der Verschriftlichung oder Interpretation einer Arbeit nicht den Überblick zu verlieren. Geht es hingegen um Fälle bezogen etwa auf Personen oder einzelne Fragebögen, Zeitpunkte, etc., so sind Tabellen entsprechend zu generieren. Dann sind Kodierungen bezogen auf ihr Vorkommen subsumiert unter Sprechercodes auszuzählen. Sprechercodes müssen dann entsprechend im Text eingesetzt worden sein. Der Vorteil ist, Analysen wirklich fallangemessen durchführen zu können. Der Nachteil ist eine sehr hohe Komplexität und die häufigen Vermischungen von Kodierungen mit Metacodes. Prinzipiell lassen sich mit Hilfe der Sprechercodes die Zuordnungen von Codes bzw. Metacodes zu Personen oder anderen strukturellen disjunkten Einheiten (eben Sprechercodes) immer exakt nachvollziehen. Entsprechend lohnt es sich, an dieser Stelle zurück zu den Einzelkodierungen zu gehen und deren zahlenmäßigen Beiträge unter dem Sprechercode negative Erfahrungen näher zu untersuchen. Ebenso sind die Extremfälle genauer inhaltlich anzuschauen. Eine Hypothese lässt sich davon noch nicht ableiten, ausser der allgemeinen Feststellung, dass manche Kategorien bzw. Metacodes innerhalb der Fragebögen sich sehr eng und geradezu exzessiv mit negativen Erfahrungen von Humor beschäftigen. Das dies vermutlich einen Grund hat, ist nicht schwer zu verstehen. Es wird ja genau dieser Bereich untersucht. Unklar ist, welcher konkrete Grund bzw. Gründe vorliegen und was diese zur Beantwortung der übergreifenden 69 70 KAPITEL 8. DESKRIPTIVE STATISTIK Fragestellung beitragen können. Mithilfe der Originaldaten können weitere Hypothesen gefasst werden, etwa um wen es sich warum handelt und was diese Person beitragen kann, um die subjektive Sicht von Schülerinnen und Schüler zu Humor im Unterricht besser zu verstehen. Ebenso sollte gefragt werden, was die Rolle derjenigen Kodierungen ist, die im Kontext negativer Erfahrungen zustandekommen, aber mit negativen Erfahrungen per se nichts zu tun haben. Auch das ist interessant. Für die anderen Sprechercodes und die assoziierten Kodierungen bzw. Metacodes ist entsprechend vorzugehen. Es sei erinnert, dass es sich hier um eine kreative Hypothesengenerierung handelt und nicht um ein streng experimentelles Design. Es ist viel erlaubt, solange die Schlussfolgerungen fallangemessen gezogen werden. 8.3 Worthäufigkeiten Der Menüpunkt Worthäufigkeiten zur Durchführung der Zählung von Wörtern findet sich im Untermenü Deskriptive Statistik (s. Abb. 8.13). Abb. 8.13. Menüpunkt Worthäufigkeiten 8.3.1 Sinn und Zweck Worthäufigkeiten spiegeln den quantitativen Aspekt der Textanalyse. Aus Worthäufigkeiten können viele Folgeanalysen abgeleitet werden. Dazu gehören lexikalische Analysen, sprachliche Analysen (z.B. Variation, Anspruchsniveau, Art der Sprache, etc.), Verbreitungen von Wörtern, Wortstämmen, etc. Ebenso können Hypothesen aufgestellt werden über Verhältnisse von Gruppierungen im Umgang mit Wörtern bzw. Wortsequenzen. So gibt es in den Politikwissenschaften etwa die These (Sayre, 2001), dass bei Präsidentschaftswahlkämpfen (z.B. in den USA) der Amtsinhaber auf die eigenen Erfolge während der eigenen Amtszeit eingeht (“I”), wohingegen der Herausforderer versucht, die Nation hinter sich zu bekommen und deshalb vermehrt zu “ingroup” (“we”) Formulierungen neigt. Entsprechend geht dieser auf das “wir”, die Allgemeinheit (Nation), etc. ein. Daraus lassen sich konkrete Hypothesen für eine quantitative Textanalyse ableiten. Genauer kann dies im Beispieldatensatz zu den Worthäufigkeiten nachgelesen werden, der ersten Rededebatte zwischen Herausforderer J. Kerry und Amtsinhaber G.W. Bush4 vom 30.09.2004 in Florida. Eine Analyse der Worthäufigkeiten kann also einiges beitragen, um Texte besser zu verstehen. Genauso ist es aber auch möglich, Texte zunächst in AQUAD 7 8.3. WORTHÄUFIGKEITEN 71 zu kodieren und anschließend ausgewählte Kodierungen oder Sequenzhypothesen, die genau vorab auszuformulierende Thesen repräsentieren, auszuzählen. Aufgrund der resultierenden Matrix können weitere Analysen folgen (z.B. Mehrfelder-Chi2 -Test, Implikantenanalyse, etc.). In der bereits eingeführten Untersuchung von Gürtler (2006, s. Kap. 8.1.7) konnte anhand der Worthäufigkeiten (Fragebögen zu Humor im Unterricht bei RealschülerInnen und GymnasiastInnen) zufallskritisch abgesichert werden, dass Gymnasiasten (vs. Realschule) und Mädchen (vs. Jungen) mehr schreiben. Interaktionseffekte wurden nicht beobachtet. Dieses Ergebnis kann Ausgangspunkt für weiterführende inhaltliche Hypothesen oder eine Replikation der Studie sein. 8.3.2 Theorie Eine dedizierte Theorie liegt zu Worthäufigkeiten nicht vor (s. AQUAD 7 Manual, Huber und Gürtler, 2012, Kap. 9). Es werden je nach Vorgaben Wörter gezählt bzw. Selektionen vorgenommen, d.h. Subgruppen gebildet und getrennt für diese ausgezählt. Wortstämme werden nicht aufgefächert. Hier wären spezielle Algorithmen der lexikalischen Analyse anzuwenden, deren Implementation in R ohne weiteres möglich ist. Vorgaben zu Auszählungen beziehen sich auf alle Wörter oder verschiedene Wörter mit Nennungen n>crit oder Wörter basierend auf einer optionalen Wortliste. Selektionskriterien zur Subgruppenbildung sind u.a. keine (d.h. alles verwenden), nach Einzeldateien des Projekts, nach übergebener Wortliste bzw. nach Sprechercode. Eine Theorie zur Wortzählung ergibt sich etwa aus der übergreifenden Fragestellung und der Auseinandersetzung mit dem Material. und ist entsprechend vorab auszuformulieren. Manchmal interessiert aber auch einfach, welche Wörter wie häufig in einem Text vorkommen und setzt gar nicht so viel Theorie, sondern großes Interesse, voraus. Das ist ebenso legitim. Bei den Auszählungen werden Korrekturformeln nicht durchgeführt (s. ebd., S. 139). Ein Ratio lässt sich jedoch leicht manuell berechnen, indem die absoluten Wortanzahlen über die Dateien hinweg gemittelt werden. Pro Datei ergibt sich dann der Korrekturfaktor durch den Quotienten Korrektur f aktor = ¨ Mittelwert Wortanzahl (uber alle Dateien) Wortanzahl ( pro Datei ) Dieser ist als Korrektur jeweils für statistische Vergleiche anzuwenden. Andere Korrekturformeln sind denkbar, müssen jedoch manuell implementiert werden. 72 KAPITEL 8. DESKRIPTIVE STATISTIK Redundanz Die Redundanz von Texten ist ein Maß für die Variabilität von Sprache, also Anspruchsniveau bzw. kognitiven Komplexität (Klenner, 2004). Das Konzept geht auf den amerikanischen Pragmatiker Charles S. Peirce (1839–1914) zurück und dient der quantitativen Beschreibung der Morphologie von Texten. Als Token wird die Gesamtheit der in einem Text vorkommenden Wortformen bezeichnet und als Types die unterschiedlichen Wortformen. Das Verhältnis Types zu Token (englisch: type-token-ratio, TTR, auch Diversifikationsquotient) gibt in der Psycholinguistik bzw. Computerlinguistik einen Hinweis darauf, ob ein Text in Anbetracht seiner Länge einen reichhaltigen oder einen eher armen Wortschatz beinhaltet. Ein reichhaltiger Text steht für hohe Komplexität, ein Text mit stark reduzierter Wortwahl für einen geringer Komplexität. Der TTR Quotient tendiert im Falle maximaler Reichhaltigkeit (es werden nur verschiedene Wörter gebraucht) zu Eins und im Falle absoluter Armut zu Null (dasselbe Wort wird immer wiederholt). Wird dieser Wert von Eins abgezogen, ergibt sich ein Maß der Redundanz der verwendeten Sprache: Redundanz = 1 − Types Token Ein Text mit hoher Redundanz ist arm im Wortschatz, einer mit geringer Redundanz reichhaltig. Ausgangspunkt ist eine Tabelle mit Spalten (Wörter) und Reihen (Bedingungen, z.B. Sprechercodes, Dateien, kombiniert Sprechercodes und Dateien). Jeweils für die Bedingungen wird ausgezählt, wieviele Wörter gleich Null oder ungleich Null sind. Types steht für die Anzahl der vorhandenen verschiedenen Wörter und Token für die Gesamtheit der vorhandenen Wörter. Pro Bedingung kann ein Wert gebildet und über alle Bedingungen hinweg tabellarisch zusammengefasst werden. Als Einschränkung ist zu bemerken, dass dieser Koeffizient von der absoluten Textlänge abhängt. So sollten nur Texte mit ungefähr derselben Länge oder einer vergleichbaren Skala (z.B. Zeitdauer eines Gespräches) miteinander verglichen werden. Alternativ kann der oben erwähnte Korrekturkoeffizient Verwendung finden, um vorab die absoluten Wortanzahlen über verschiedene Texte hinweg anzugleichen. Ein weit verbreitetes Maß ist der MTLD (measure of textual lexical diversity), der die absolute Textlänge berücksichtigt (McCarthy, 2005). Klenner (2004) listet einige Kennwerte des TTR bzw. der kognitiven Redundanz auf, die sich auf bekannte Texte als Referenz beziehen. Ausgehend von den Originaltexten kann das R-Paket koRpus angewandt werden, dass verschiedene Indizes (u.a. TTR, MTLD) ausgibt und besonders auf die Textanalyse spezialisiert ist. koRpus arbeitet mit dem IDE/GUI RKWard zusammen. 8.3. WORTHÄUFIGKEITEN 8.3.3 73 Datenbasis Die Datenbasis ist ein AQUAD 7 Text-Projekt. Daraus wird der Text automatisch extrahiert, um eine Wortanalyse durchzuführen. Zusätzlich können Wortlisten und Sprechercodes angegeben werden, nach denen getrennt ausgewertet wird. 8.3.4 R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 8.14. Das RSkript liest die Texte ein und erstellt auf der Basis der Dateien, der angegebenen Wortlisten und der Sprechercodes eine sehr große Tabelle mit den entsprechenden Häufigkeiten. Alle Outputs sind als Objekte zugänglich, auch wenn sie nicht in eine Tabelle geschrieben werden. Hierzu reicht es, das R-Image zu öffnen und anhand des R-Skriptes den Namen des entsprechenden Objekts zu su- Abb. 8.14. Experteneinstellungen Worthäuchen und dieses manuell weiterzuverarbeiten. figkeiten Leerzeichen, Satzzeichen, etc. werden soweit möglich eliminiert, um auch wirklich einzelne Wörter für die Auszählung zu erhalten. Bei komplexen Texten kann es vorkommen, dass dies nicht befriedigend genug funktioniert. In dem Falle wäre es ratsam, in das R-Skript zu gehen und die regulären Ausdrücke zur Isolierung der Wörter manuell anzupassen. Manuell können ebenso zusätzliche R-Befehle implementiert werden, um eine noch präzisere Selektion über reguläre Ausdrücke zu realisieren. Zur Vereinfachung werden alle Buchstaben standardmäßig auf klein gesetzt. Wörter, die nur einmal vorkommen, werden immer eliminiert. Als Standard werden ab n>=2 Nennungen Wörter berücksichtigt. Bei Bedarf lässt sich dies verändern. Eventuelle leere Zellen als Folge der Selektion werden folgend eliminiert. Liegt eine Wortliste vor, wird diese als Basis weiterer Auszälungen genommen und die Wortliste als Untermenge aus der Gesamtwörtermenge extrahiert. Wörter der Wortliste, die in den Texten nicht vorkommen, werden zur Information ausgegeben und die kognitive Redundanz berechnet. Die Werte für die kognitive Redundanz müssen kontextuell interpretiert werden. Wird als Basis eine Wortliste mit wenigen Wörtern genommen, können merkwürdige Werte entstehen (z.B. Null). Ein solcher Wert ist häufig auf die Größe der Wortliste zurückzuführen und kein wirklicher Ausdruck von reichhaltiger Sprache – ausser bezogen auf den Kontext der Wortliste. Dies zeigt sehr schön die Abhängigkeit des Koeffizienten von der Textlänge. Die Abhängigkeit der kognitiven Redundanz von der Textlänge ist bei der Interpretation unbedingt zu beachten. Die erzeugten Tabellen basieren auf den jeweiligen Selektionskriterien ihrer Entstehung (s. Tab. 8.3). Graphische Outputs (Boxplots, Histogramm, QQ-Norm) 74 KAPITEL 8. DESKRIPTIVE STATISTIK werden ebenfalls nach bestimmten Selektionskriterien erzeugt (s. Tab. 8.4). 8.3.5 Ausgaben Es werden die folgenden Dateien ausgegeben (s. Tab. 8.5). Die Dateinamen orientieren sich an den übergebenen Namen im Skript. 8.3.6 Ergebnisse und Interpretation Wortauszählungen sind in sich kein wirkliches Ergebnis, sondern eine Voraussetzung für weitere Analysen. Die Ergebnisse des R-Skriptes bilden die Grundlage für diese Auszählungen und ordnen nach gängigen Kriterien (Wortlisten, Sprechercodes, Kriterium für Mindestnennungen) die Daten vor. Es bedarf einer leitenden Forschungsfragestellung, die sich direkt auf Wortzählungen bezieht oder zu deren Beantwortungen Worthäufigkeiten beitragen können. Die graphischen Outputs ergeben einen groben Überblick über die empirischen Verteilungen. Für Plots spezieller Untergruppen empfiehlt es sich, die entsprechenden Objekte aus dem R-Image zu extrahieren und eigene Plots zu generieren. Die Sammeldatei für R-Funktionen aquad_func.r bildet einen guten Ausgangspunkt, da die in den verschiedenene R-Skripten benutzten Funktionen dort zentral gespeichert und leicht zugänglich sind. Für kognitive Redundanzwerte gilt: je kleiner, desto besser. Wie oben erwähnt muss jedoch der Kontext (absolute Textlänge) beachtet werden, um die Aussagekraft der Koeffizienten hierzu einschätzen zu können. Am besten wird mit dem globalsten Wert begonnen, der lediglich nach der Projektdatei unterscheidet. Je kürzer die Texte, desto schneller kann ein hoher Wert erreicht werden. Dieser Koeffizient ist deshalb immer relativ zu verstehen. 8.3.7 Beispieldatensatz Als Beispieldatensatz dient das erste Rededuell zwischen dem Amtsinhaber, US Präsident George W. Bush und seinem Herausforderer John Kerry aus dem Jahre 2004. Das Rededuell ist der Commission on Presidential Debates (CPD) entnommen, die derartige Debatten seit 1988 archiviert und öffentlich zugänglich macht. Diese Datei wird ebenfalls beim Chi2 -Test besprochen (s. Kap. 10.1.7). Die verschiedenen Abbildungen ermöglichen unterschiedliche Perspektiven auf den Datensatz (s. Abb. 8.15, Abb. 8.16, Abb. 8.17 und Abb. 8.18). So können die Masse versus Ausreisser, die Verteilungen und deren Form sowie der Vergleich mit der Normalverteilung herangezogen werden. Diese Plots liegen für die Anzahl der Zeichen als auch der der Wörter vor. Bei den QQ-Plots gegen die Normalverteilung ist ersichtlich, dass sowohl die Anzahl der Zeilen, die Anzahl der Wörter als auch die Anzahl der Zeichen alle Wörter (inkl. Einzelwörter) Wortliste (alle) Wortliste (alle) Wortliste (alle) tab.speaker red.sp.wl red.f.wl red.comb.wl Tab. 8.3: Tabellen Worthäufigkeiten ! Wortliste (alle) ! Wortliste (alle) tab.files.split.notwl.sorttext tab.files.split.notwl.sortfreq tab.files.sorttext diff Wortliste (alle) verschiedene Wörter (n>1) tab.files.sorttext diff Wortliste (alle) verschiedene Wörter (n>1) tab.all.notwl.sortfreq tab.files.split.wl.sortfreq ! Wortliste (alle) tab.all.notwl.sorttext tab.files.split.wl.sorttext Wortliste (alle) ! Wortliste (alle) tab.all.wl.sortfreq Wortliste (alle) verschiedene Wörter (n>1) tab.all.wl.sorttext Häufigkeitstabelle verschiedene Wörter (n>1) tab.all.sorttext tab.all.sortfreq Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Häufigkeitstabelle Redundanz verschiedene Wörter (n>1) verschiedene Wörter (n>1) red.comb Redundanz Redundanz Redundanz Redundanz Redundanz Häufigkeitstabelle Häufigkeitstabelle Überblicksstabelle Überblicksstabelle Operation red.f verschiedene Wörter (n>1) alle Wörter (inkl. Einzelwörter) tab.all red.sp alle Sprechercodes nur selektierte Sprechercodes cod.sp Bedingung cod.s Objektname im R nach Häufigkeit nach Text nach Häufigkeit nach Text nach Häufigkeit nach Text nach Häufigkeit nach Text nach Häufigkeit nach Text nach Häufigkeit nach Text Zeilen (.aco Datei) Zeilen (.aco Datei) Sortierung × × keine × × × × × × × × × × × × × × × × !× !× × × !× !× × × × Wortliste Basis (Reduktion nach) Einzeldateien × × × × × × × Sprechercode 8.3. WORTHÄUFIGKEITEN 75 76 KAPITEL 8. DESKRIPTIVE STATISTIK Tabelle: kerry_bush | Variable: nzeichen Tabelle: kerry_bush | Variable: nwoerter Boxplot 0 0 100 500 Werte (ohne Ausreisser) 200 300 Werte (ohne Ausreisser) 1000 1500 400 2000 Boxplot Bsh Abb. 8.15. Krr Mdr Bsh Beispieldatensatz Boxplots Anzahl Zeichen nach Sprechercode Abb. 8.16. Krr Mdr Beispieldatensatz Boxplots Anzahl Wörter nach Sprechercode Histogramme | nwoerter | kerry_bush Häufigkeiten 50 100 Tabelle: kerry_bush | Variable: nzeichen 0 100 200 300 Gruppe: /$Bush 400 500 0 100 200 300 Gruppe: /$Kerry 400 500 0 100 200 300 Gruppe: /$Moderator 400 500 0 0 Häufigkeiten 50 100 500 0 Häufigkeiten 50 100 Stichproben Quantile 1000 1500 0 2000 Plot gegen Normalverteilung -3 -2 -1 0 1 theoretische Quantile 2 3 Abb. 8.18. Abb. 8.17. Beispieldatensatz Anzahl Zeichen QQ-Plot Beispieldatensatz Histogramme Anzahl Wörter nach Sprechercode 8.3. WORTHÄUFIGKEITEN 77 Basis (Reduktion nach) Plottyp Bedingung Sprechercode Boxplot Wörter × Boxplot Wörter Boxplot Wörter Boxplot Zeichen Boxplot Zeichen Boxplot Zeichen Histogramm Wörter Histogramm Wörter Histogramm Zeichen Histogramm Zeichen QQ-Norm Wörter QQ-Norm Zeichen QQ-Norm Zeilen Dateien kombiniert Dateien & Sprechercode × × × × × × × × × Tab. 8.4: Graphiken Worthäufigkeiten Inhalt Dateityp R Session Binärfile des R Boxplot (Wörter, Zeichen) Plot .emf Histogramm (Wörter, Zeichen) Plot .emf QQ-Norm (Wörter, Zeichen, Zeilen) Plot Worthäufigkeiten (je nach Bedingung) Tabelle .csv oder .tab Redundanz (je nach Bedingung) Tabelle .csv oder .tab Tab. 8.5: Dateiendung .RData .emf Ausgabedateien Worthäufigkeiten weitab der Normalverteilung angesiedelt sind. Die für Sprechercodes unterteilten Histogramme (Anzahl Zeichen, Wörter) zeigen den Unterschied der erwarteten Redebeteiligung des Moderators verglichen zu der von Bush und Kerry. Über die Dateien (d.h. die drei Rededuelle) hinweg ergeben sich hingegen kaum Unterschiede. Dies wird durch die Boxplots noch deutlicher gezeigt. Die Abkürzungen ermöglichen eine bessere Übersichtlichkeit innerhalb der Outputs. Diese deskriptiven EDA Analysen der Auszählungen sagen jedoch nichts über die Qualität der Redebeiträge oder deren Struktur aus. Es sind rein formale Analysen, die eine inhaltliche Spezifikation erfordern. 78 KAPITEL 8. DESKRIPTIVE STATISTIK 8.4 Korrelation Der Menüpunkt Korrelation befindet sich im Untermenü Deskriptive Statistik (s. Abb. 8.19). 8.4.1 Abb. 8.19. Sinn und Zweck Menüpunkt Korrelation Die Korrelation zeigt das gemeinsame lineare (Ko-)Variieren von Variablen auf einer deskriptiven Basis und ist ein Zusammenhangsmaß. Die Korrelation stellt die standardisierte Kovariation da, so dass die Spannbreite des Korrelationskoeffizienten r zwischen -1 und +1 liegt. Eine Korrelation von Null bedeutet keinen gemeinsamen linearen Zusammenhang und r=+1 bzw. r=-1 jeweils maximale Korrelation, d.h. lineare Abhängigkeit. Ein positiver Wert weist auf eine gleichläufige (je mehr, desto mehr), ein negativer Wert auf eine gegenläufige Variation (je mehr, desto weniger und umgekehrt) hin. Es wird ein linearer Zusammenhang angenommen, was in vielen Kontexten unrealistisch ist und existierende nicht-lineare Zusammenhänge übersieht. Ebenso können anscheinend linear unabhängige Zusammenhänge in Wirklichkeit nicht-linearer Natur sein und existieren. In dem Falle kann die Korrelation die Zusammenhänge nicht entdecken. Eine Korrelation kann im Sinne klassischer Statistik zufallskritisch abgesichert werden mit einem resultierenden p-Wert und einer kritischen Überschreitungswahrscheinlichkeit p.crit zur Feststellung der statistischen Signifikanz. 8.4.2 Theorie Der bekannte Korrelationskoeffizient (Produkt-Moment-Korrelation) wurde nach Vorarbeiten von Auguste Bravais durch Karl Pearson entwickelt. Er ist wie folgt definiert: $( X, Y ) = r xy = Cov( X, Y ) σ ( X ) σ (Y ) Es gilt die Formel für die Kovariation: n Cov( X, Y ) = ∑ (xi − x¯ )(yi − y¯) i =1 und die der Standardabweichung: 8.4. KORRELATION 79 s σ= n ∑ (xi − x¯ )2 i =1 Die Korrelation wird offensichtlich Null, wenn gilt: Cov(X,Y)=0. Der Nenner dient lediglich der Standardisierung auf den Bereich +1 bzw. -1. Die Kovariation berechnet sich als Summe der Abweichungsprodukte der jeweiligen Messwerte von ihren empirischen Mittelwerten. Um die Schätzung des Populationsparameters $ erwartungstreu zu machen, wird die Schätzung der Varianzen bzw. 1 1 der Kovarianz jeweils mit dem Ausdruck n− 1 statt n multipliziert, wobei hier n=Stichprobengröße (Anzahl der Messwerte) ist. Hierzu liegen jedoch Gegenargumente von Jaynes (2003), der diese Korrektur als falsch deklariert und hierzu einen Nachweis erbringt. Für die Korrelation ist dies unerheblich, weil der Ausdruck n1 sowohl im Zähler als auch im Nenner vorkommt und sich dadurch herauskürzt und folglich nicht weiter beachtet zu werden braucht. Die zufallskritische Absicherung des Korrelationskoeffizienten berechtigt zur der Aussage, dass der klassisch frequentistisch-statistische lineare Zusammenhang zwischen zwei Variablen signifikant ist. Der entsprechende Test ist ein t-Test auf Abweichung von Null und einschlägig zu interpretieren. Es resultiert eine tverteile Prüfgröße und es ist eine kritische Überschreitungswahrscheinlichkeit p.crit zu wählen. Die Voraussetzung zur Berechnung des Pearson’schen Korrelationskoeffizienten ist ein Intervallskalenniveau der Messwerte. Niedrigere Skalenniveaus verwenden andere Korrelationskonzepte (z.B. Rangkorrelation). Die zufallskritische Absicherung des Korrelationskoeffizienten erfordert eine annähernde Normalverteilung beider Variablen in der Population. Bei Verletzungen der Voraussetzungen sollte auf ein rangniedrigeres Korrelationskonzept zurückgegriffen werden. Zur Visualisierung des Zusammenhangs von zwei Variablen eignet sich der Scatterplot. Ist die Korrelation perfekt (r=+1 bzw. r=-1), so ergibt sich je eine exakte Gerade, die zueinander im 90 Grad Winkel stehen, wenn sie beide im selben Plot gezeichnet werden. In der Praxis ergeben sich jedoch mehr oder weniger dichte Punktewolken, die als Tendenz (ellipsenförmig, nicht kreisförmig) einen Eindruck der Größe von r vermitteln. Liegt im Plot eine (fast) perfekt waagerechte oder senkrechte Linie vor, so ist ein Korrelationskoeffizient nicht zu berechnen, da die Variation einer Variablen gegen Null tendiert bzw. Null ist. Nach der aufgeführten Formel führt dies zu r=0. Gleiches gilt für diejenigen Fälle, wenn die Werte symmetrisch vorliegen, so dass jeder in die Formel eingehende Wert quasi einen invertierten Partner erhält, der exakt diesen Werte wieder auslöscht. Graphisch lässt sich dies mit R-Code darstellen. Deshalb ist vor Berechnung des Korrelationskoeffizienten r immer ein Scatterplot durchzuführen. 80 KAPITEL 8. DESKRIPTIVE STATISTIK Da die Produkt-Moment-Korrelation ein lineares Modell zugrundelegt, können trotz scheinbarer linearer Unabhängigkeit trotzdem nicht-lineare Zusammenhänge bestehen. Diese sind extra zu untersuchen und zu berechnen. In der Praxis wird dies viel häufiger vorkommen als erwartet. Die Bedeutung der Größe einer Korrelation ist strikt inhaltlich fachspezifisch zu klären. Globale Aussagen über die Bedeutsamkeit lassen sich nicht treffen und verbieten sich. Korrelationskoeffiienten sind nicht normalverteilt, sondern schiefverteilt (eingipfelig, nach rechts verzerrt). Deshalb dürfen nicht einfach Summen, Differenzen oder Konfidenzintervalle gebildet werden. Vor einer solchen Operation sind die Daten mit Hilfe der Fisher z-Transformation (1915, 1921) zu korrigieren, die die Varianz stabilisiert. Nach Summierung oder anderen Operationen ist die Inversion der Fisher z-Transformation anzuwenden, um wieder einen interpretierbaren Korrelationskoeffizienten zu erhalten. Konfidenzintervalle von Korrelationen sind aus diesen Gründen nicht symmetrisch um ihren Mittelwert verteilt. Korrelationen sind – da die Abweichungen vom Mittelwert linear eingehen – nicht sehr robust gegenüber Ausreissern. Dies gilt es zu beachten und nach Bedarf auf andere Verfahren auszuweichen oder entsprechende Veränderungen im Datensatz vorzunehmen. Korrelationen können zeitgleich oder zeitlich versetzt betrachtet werden. Die zeitlich versetzte Betrachtung führt zu einer Autokorrelation, d.h. einer Korrelation der Messwerte mit sich selbst zu einem anderen Zeitpunkt. Dies führt direkt zu den Zeitreihenanalysen. Partialkorrelationen Da ein linearer Zusammenhang zwischen zwei Merkmalen X und Y auch durch eine Drittvariable U verursacht werden kann, können bzw. müssen je nach Sachlage und Verdachtshinweisen Partialkorrelationen berechnet werden. Hierbei wird die bereinigte Korrelation zwischen X und Y berechnet, so dass deren jeweilige Korrelation mit U herausgerechnet wird. Bestimmtheitsmaß R2 Der quadrierte Korrelationskoeffizient R2 wird in der Regressionsanalyse als Bestimmtheitsmaß der durch das formulierte Modell erklärten Varianz genutzt. Jedoch ist zu beachten, dass die Korrelation mit dem statistischen Kennwert r ein zweiseitig formuliertes Zusammenhangsmaß ist, während in der einseitig formulierten Regressionsanalyse andere Bedingungen gelten. Auch wechselt die Einheit bei Nutzung des Bestimmtheitsmaßes R2 . So werden Angaben in Prozent gemacht, z.B. r=0.5 führt zu R2 = 0.25 bzw. 25%. Es wird nichts darüber 8.4. KORRELATION ausgesagt, welcher Teil der Varianz erklärt wird und welcher nicht. Das Bestimmtheitsmaß R2 trifft eine globale Aussagen bezogen auf ein konkretes Modell in dessen Gesamtheit. Entsprechend ist aus dem Korrlationskoeffizienten r auch nicht abzulesen, welche Teile der untersuchten Merkmale gemeinsam variieren und welche nicht. Korrelation ist nicht Kausalität. Grenzen der Korrelation Die Korrelation beschreibt lediglich das gemeinsame (Ko-)Variieren zweier Merkmale. Damit werden keinerlei Kausalaussagen (UrsacheWirkungsbeziehungen) getätigt und können auch nie davon abgeleitet werden, da die Korrelation zweiseitig ausgerichtet ist. Für Kausalaussagen würden jedoch selbst einseitig ausgerichtete statistische Analysen (z.B. Regression, Varianzanalyse) nicht ausreichen. Für Kausalaussagen sind wiederholte wissenschaftliche Experimente und Rekonstruktionen notwendig, die denselben Sachverhalt an verschiedenen vergleichbaren Stichproben reproduzierbar nachweisen, so dass Ergebnisse tatsächlich auf die Variation von Bedingungen zurückgeführt werden können und diese sich inhaltlich sinnvoll begründen lassen. Hinter Korrelationen stecken häufig ganz andere Faktoren, so dass korrelative Zusammenhänge lediglich einen Hinweis darauf liefern, dass mit hoher Wahrscheinlichkeit Ursachenfaktoren für bestimmte Bedingungen vorliegen (können). Statistik kann niemals Aussagen über Kausalität treffen, sondern lediglich Kennwerte liefern, die dann in einem größeren Forschungskontext sicherlich auch inhaltlich eine Rolle spielen. Beispiele für bekannte Korrelationen sind die Anzahl der Störche und die Anzahl der Neugeburten, die miteinander korrelieren, ohne dass dieser Korrelation ein realer Zusammenhang zugrundeliegt. 8.4.3 Datenbasis Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten. Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu transponieren. 8.4.4 R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 8.20. Die Korrelationen und die zugehörigen p-Werte für die zufallskritische Begutachtung werden je in Tabellen geschrieben: Das Korrelogramm wird mit der Funktion corrgram erstellt. Hierbei können für die Hauptdiagonale, die untere und die obere Dreiecksmatrix unterschiedliche Funktionen genutzt werden, die in den Variablen diagpanel, lowerpanel und upperpanel gespeichert sind. Details gibt hierzu die Hilfeseite 81 82 KAPITEL 8. DESKRIPTIVE STATISTIK Inhalt Dateityp R Session Binärfile des R Korrelationsplot Plot Korrelationskoeffizienten und assoziierte p-Werte Text Korrelationskoeffizienten Tabelle .csv oder .tab p-Werte der Korrelationskoeffizienten Tabelle .csv oder .tab Tab. 8.6: Dateiendung .RData .emf .txt Ausgabedateien Korrelation von corrgram. Standardmäßig wird eine Dichteschätzung auf der Hauptdiagonalen, ein Pie-Chart (Kuchendiagramm) in der oberen und ein Panel-Shade in der unteren Dreiecksmatrix gezeichnet. Die Ausgaben sind intuitiv zu interpretieren: Eine höhere Farbintensität weist auf eine höhere Korrelation. Das Kuchendiagramm deckt umso mehr Fläche ab, je größer die Korrelation ist, etc. 8.4.5 Ausgaben Es werden die folgenden Dateien ausgegeben (s. Tab. 8.6). Die Dateinamen orientieren sich an den Übergaben im Skript. 8.4.6 Abb. 8.20. Ergebnisse und Interpretation Die Ergebnisse sind zufallskritisch zu interpretieren mit angesetzter kritischer Überschreitungswahrscheinlichkeit p.crit. Die Stärke der linearen Zusammenhänge ist inhaltlich zu interpretieren. Aus den Plots kann direkt die Höhe der Korrelation im Vergleich zu den anderen abgelesen werExperteneinstellungen Korrelatiden. on 8.4.7 Beispieldatensatz Der Beispieldatensatz entstammt der bereits erwähnten Untersuchung von Gürtler (2006). Es zeigt sich, dass sowohl durchweg bescheidene Korrelationen (s. Abb. 8.21) als auch sehr große p-Werte (s. Abb. 8.22, auf drei Stellen gerundete Werte) vorliegen, was zusammenpasst. Hervorstechend ist r=0.5 (Grenzen und negative Erfahrungen) sowie r=0.24 (Initiierung und negative Erfahrungen). Die zufallskritische Absicherung unterstützt diesen Eindruck. Nur diese beiden Koeffizienten lassen sich als statistisch signifikant einordnen. Es muss jedoch beachtet werden, dass viele zufallskritische Absicherungen von Korrelationskoeffizi- 8.4. KORRELATION 83 FR_Codes_freq Dfnt.H Grn..H Erw..H Ab.P.U Int..H n.E..H Mn.Q.H vrä... Flg..H Abb. 8.21. Beispieldatensatz Korrelationsplot enten innerhalb einer Tabelle dem multiplen Testen gleicher Art gleichkommt und die kritische Überschreitungswahrscheinlichkeit p.crit entsprechend nach unten angepasst werden müsste. Oft ist es pragmatischer, den reinen Korrelationskoeffizient zu nehmen, die zufallskritische Absicherung zu lassen und sich zu erinnern, dass diese fehlt. Ergibt sich dann die Notwendigkeit, gezielt eine oder wenige Korrelationen zufallskritisch abzusichern, kann dies angepasst durchgeführt werden. Im Beispiel bedeutet es nicht, dass die anderen Variablen mit minimaler Korrelation nicht zusammenhängen. Lediglich lineare Zusammenhänge können 84 KAPITEL 8. DESKRIPTIVE STATISTIK Abb. 8.22. Beispieldatensatz p-Werte der Korrelationskoeffizienten durch das Analyseverfahren nicht gefunden werden. Die gefundenen statistisch signifikanten Korrelationen erscheinen plausibel. Die kritische Überschreitungswahrscheinlichkeit p.crit müsste jedoch etwa durch eine Bonferroni-Korrektur angepasst werden. Bei der Bonferroni-Korrektur wird p.crit durch den Wert p.crit p.crit adj = Anzahl der Testungen dividiert und adjustiert. Im vorliegenden Fall ergä2 be dies bei n=9 Variablen und ( 92 − 9) = 72 Paarvergleichen einen adjustierten Wert von p.crit adj = 0.05 72 = 0.000694. Schon bei 100 Vergleichen ergäbe sich ein p.crit adj ~5e-04 und bei n=10000 Vergleichen einen Wert von p.crit adj ~5e-06. Kapitel 9 Klassifikation und Gruppierung Das Untermenü Klassifikation/Gruppierung befindet sich im Menü R-Statistik (s. Abb. 9.1). Dieser Bereich wird in hierarchische Clusteranalyse, Lineare Diskrimination mittels linearer Diskriminanzanalyse, Multidimensionale Skalierung und Prototypen unterteilt. 9.1 Abb. 9.1. Untermenü Klassifikation und Gruppierung Hierarchische Clusteranalyse Der Menüpunkt Clusteranalyse befindet sich im Untermenü Klassifikation/Gruppierung (s. Abb. 9.2). 9.1.1 Sinn und Zweck Clusteranalysen werden den QAbb. 9.2. Menüpunkt hierarchische Clusteranalyse Verfahren der multivariaten Statistik zum “Erkennen von Strukturen in einer Menge von Objekten” (Hartung und Elpelt, 1999, S. 443) zugeordnet. Die hierarchische Clusteranalyse erlaubt es, Datensätze zu Klumpen (Cluster) zusammenzusetzen und zwar auf verschiedenen Verschmelzungs- bzw. Abstraktionsniveaus. Daraus erhält der Anwender eine Idee, wie nah und fern sich die einzelnen Vertreter des Datensatzes sind und welche möglicherweise zusammengehören, um eine kontextabhängige eigenständige Untergruppe zu bilden. Daraus lassen sich weitere Überlegungen und qualitative Hypothesen formulieren. Das Verfahren bzw. die Verfahrensklasse besteht aus zwei Schritten: 86 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG 1. In einem ersten Schritt wird zunächst eine Distanzmatrix der originalen Häufigkeitstabelle berechnet. 2. In einem zweiten Schritt werden auf Basis dieser Distanzmatrix die Cluster sukzessive nach bestimmten Regeln (Agglomerationsverfahren) zusammengesetzt, bis nur noch ein einziges Cluster vorhanden ist, welches alle Daten beinhaltet. Die Aufgabe besteht darin, das richtige Abstraktionsniveau zu finden, auf der die Clusterbildung inhaltlich sinnvoll erscheint und das die Daten angemessen repräsentiert. Das Ziel ist, die Beantwortung der leitenden Forschungsfrage zu unterstützen. Hier liegen bereits die Probleme der Clusteranalyse: Die Menge an Verfahren, um Distanzmatrizen und folgend Distanzen zu agglomerieren ist sehr vielfältig (Bock, 1974; Oldenbürger, 1994). Es existieren aber keine verbindlichen objektiven oder inhaltlich immer begründbaren Kriterien, welches Verfahren mit welchem bevorzugt für eine bestimmte Fragestellung anzuwenden ist und eindeutig den anderen Verfahren im jeweiligen Kontext überlegen ist. Aus diesem Grund ähnelt die Anwendung der verschiedenen Verfahren der hierarchischen Clusteranalyse ein bisschen einer Lotterie. Zwar steht ein zufallskritischer Test auf hierarchische Clusterbarkeit bereit (s.u. Kap. 9.1.2, Oldenbürger und Becker, 1976; Oldenbürger, 1981) und es gibt auch Gütekriterien, die die Anzahl der optimalen Cluster untersuchen (s.u. Kap. 9.1.2, Handl, 2002). Jedoch gibt es keine brauchbaren Tests, um übergreifend die Güte des gesamten Verfahrens (Distanzbildung, Agglomeration und die Kombination der beiden Verfahren) auf inhaltliche Angemessenheit hin exakt zu bestimmen. Deshalb ist der Einsatz der hierarchischen Clusteranalyse grundsätzlich explorativ. Die Resultate sollten nicht bzw. niemals im Sinne einer zwingenden Schlussfolgerungen benutzt werden. Folgend wird hier vor allem die einfachste Distanzermittlung verwendet: euklidische Distanzen. Andere Verfahren müssen direkt im R-Skript aktiviert bzw. eingefügt werden. Neben der hierarchischen Clusteranalyse gibt es die partitionierenden Verfahren (k-means), bei denen die Anzahl der Cluster vorab festgelegt wird. Der iterative Algorithmus versucht nun, eine beste Passung der Einzelobjekte zu der Anzahl der vorgegebenen Cluster zu finden. Clusterelemente können im Gegensatz zur hierarchischen Clusteranalyse ihr Cluster wechseln. Die Startposition ist eigentlich zufällig, spielt jedoch eine wichtige Rolle für das Ergebnis. Das ist ein Manko. Das Verfahren ist zwar brauchbar und schnell, aber es gibt keinen eindeutigen Weg, eine optimale Lösung zu finden bzw. zu validieren. Ein erneutes Starten des Algorithmus mit neuen Parametern führt deshalb durchaus zu unterschiedlichen Lösungen. 9.1. HIERARCHISCHE CLUSTERANALYSE 9.1.2 Theorie Es werden intervallskalierte Daten vorausgesetzt. Distanzen Die hierarchische Clusteranalyse setzt eine Distanzmatrix (Ähnlichkeits- bzw. Proximitätsmatrix) voraus, um sukzessive Cluster zu bilden. Die einfachste Form, die Bildung von euklidischen Distanzen, wird über die direkte Differenz zwischen zwei Punkten ermittelt. Die Frage von Distanzen ist die Frage von Metriken, die prinzipiell hinsichtlich der Erfüllung ihrer Bedingungen begründet werden müssen. Die Menge an vorliegenden Distanzmaßen (z.B. euklidisch, Manhattan, Mahalanobis, etc.) ist unübersichtlich und erscheint willkürlich, da eine eindeutige Zuordnung von inhaltlichen Bedingungen zur Präferierung eines bestimmten Distanzmaßes fehlt. Verschiedene Maße werden in Oldenbürger (1981) und Bock (1974) diskutiert. Oldenbürger, (1994) zitiert Milligan (1980), der die unterschiedlichen Fehlerarten in 15 verschiedenen Clusterverfahren untersucht. Oldenbürger (ebd.) bemerkt, dass es mindestens weitere zehn Distanzmaße gibt, die genutzt werden können. Bock (1974) listet in seinem Werk “Automatische Klassifikation” hierzu Verfahren auf. Von “automatischer Klassifikation” sollte angesichts dieser Uneindeutigkeit lieber Abstand genommen werden. Viel stärker fließen andere Kriterien wie das Datenniveau oder das grundsätzliche statistische Verständnis (klassisch versus bayesisch) bei der Auswahl der geeigneten Verfahren ein. Dies gilt umso mehr für die folgenden Gruppierungsverfahren, die häufig eine Distanzmatrix als Ausgangsmatrix erwarten. Eine Metrik ist eine Abstandsfunktion für zwei Punkte einer Menge, die dann verallgemeinert wird. Eine Metrik muss gewisse Axiome erfüllen. Meiser und Humbur, (1996, S. 280ff.) listen die Voraussetzungen von Distanzmaßen auf. Die metrischen Eigenschaften einer Distanzfunktion, die eine Datenmatrix in eine Distanzmatrix überführt, sind bei Oldenbürger (1981) definiert. Es handelt sich um die Merkmale Positivität, Identität, Symmetrie und Dreiecksungleichung. Nach Bock (1974, S. 26) ist “ein Distanzmaß d dann ... metrisch oder eine Metrik, wenn für alle i, j, k e S die Dreiecksungleichung” erfüllt ist. S bezeichnet hierbei die Objektmenge: d jk 5 d ji + dik Dann entsprechen metrische Distanzmaße dem intuitiven Verständnis von Abständen, wie sie etwa auf Landkarten Verwendung finden. Wenn eine Verschärfung dieser Merkmale (Oldenbürger, 1994) hinzugefügt wird, heißt eine Metrik auch Ultrametrik (Meiser und Humburg, 1996). Bei einer Ultrametrik gilt 87 88 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG r Distanzmaß 1 City-Block (auch Manhattan-, Mannheimer-, Taxi-Metrik) 2 euklidisch ∞ Supremum Tab. 9.1: Distanzmaße auf Basis der Minkowski r Metrik metaphorisch, “dass alle Tripel von Objekten gleichschenklige Dreiecke aufspannen, deren Basis kleiner ist als die gleichlangen Schenkel” (Oldenbürger, 1981, S. 38ff.): d jk 5 max (d ji , dik ) Die gängigsten Distanzmaße basieren auf der allgemeinen Minkowski r Metrik (Backhaus et al., 1996): d(ok , ol ) = (∑ | xkj − xlj |r ) r ; r ≥ 1 1 j Der Exponent r weist auf die verschiedenen Distanzmaße hin (Oldenbürger, 1994, s.a. Tab. 9.1). Die euklidischen Distanzen gelten jedoch nicht als robust, da eine multivariate Verteilung der Daten nicht unbedingt gegeben ist und Ausreisser zusätzlich verzerrend wirken können (Oldenbürger, 1996, S. 400). Weitere Ausführungen zu Lr -Metriken für r ≥ 1 geben hartung und Elpelt (1999). Test auf hierarchische Clusterbarkeit Oldenbürger (1981) hat einen zufallskritischen Test auf hierarchische Clusterbarkeit von Daten auf Basis der Ultrametrik entwickelt. Dieser testet, ob Dendrogramme geeignet sind, die erhobenen empirischen Daten zu repräsentieren. Der als Permutationstest (ebd., S.199ff.) konzipierte Test setzt an der Ultrametrik auf, da jede Ultrametrik sich durch ein Dendrogramm abbilden lässt (Venables und Ripley, 2002, S. 316). Es liegen zwei Prüfgrößen namens Dep f ui A bzw. Dep f ui B vor (Departure from ultrametric inequality). Sie sind nach Oldenbürger (2003) wie folgt definiert: ⇒ Dep f ui A – global mean of differences between the two largest triangle sides, relative to mean of the largest triangle side + t-exponentiation ⇒ Dep f ui B – mean of specific differences between two largest triangle sides, relative to the largest triangle side + t-exponentiation 9.1. HIERARCHISCHE CLUSTERANALYSE 89 Die Formeln lauten: Dep f ui A v u u n u ∑ | di0 jk − di0 j0 k |t u 2 i < j<k u t = u ; t ≥ 1 u n t t ∑ | dij | 3 i< j v u u 1 Dep f ui B = u u t t n 3 ∑ i < j<k | di0 jk − di0 j0 k |t | di0 jk |t ; t ≥ 1 Hierbei bilden i, j, k Dreiecke mit di0 jk als längster Seite und di0 j0 k als zweitlängster Seite. Depfui A bzw. DepfuiB berechnen jeweils den Mittelwert der Differenzen der längsten (di0 jk ) mit der zweitlängsten (di0 j0 k ) Seite. Diese Differenz wird entweder auf den Mittelwert aller Differenzen dij (Depfui A ) bzw. individuell auf die längste Seite di0 jk (DepfuiB ) relativiert. Das Verfahren testet also die Abweichung der empirischen Distanzwerte von einer Ultrametrik (Meiser und Humburg, 1996). Die Prüfgrößen werden gemäß der angesetzten Anzahl an Simulationen berechnet. Ein Permutationstest gleicht dem Ziehen ohne Zurücklegen. Hierbei werden pro Simulation die Werte innerhalb der Spalten der Datenmatrix permutativ vertauscht. Die Spalten an sich und deren statistischen Kennwerte bleiben jedoch konstant. Daraus ergibt sich eine simulierte Prüfverteilung, innerhalb derer die empirischen Werte der Prüfgrößen ermittelt werden. Die Lokalisation der empirischen Prüfgröße innerhalb der simulierten Prüfverteilung ergibt einen p-Wert. Damit liegt ein Signifikanztest vor, der zufallskritisch die Durchführung der hierarchischen Clusteranalyse absichert. Dieser hat die Nullhypothese, dass keine Unterschiede zwischen emprischen und simulierten Werten vorliegt. Die Ablehnung der Nullhypothese anhand einer kritischen Überschreitungswahrscheinlichkeit p.crit berechtigt zum Einsatz der verschiedenen hierarchischen Clusteranalyseverfahren. Die Beibehaltung der Nullhypothese verbietet diesen Einsatz (eigentlich). Konsequenterweise sollten dann andere Verfahren eingesetzt werden. Nach Oldenbürger (1981, S. 207) fehlt jedoch eine Kontrolle des β-Fehlers im Rahmen des Verfahrens. Ebenso fehlen Power-Tests auf Basis von Simulationsstudien. Eine weitere Anwendungsmöglichkeit dieses Testes ist ein Homogenitätstest. Hierfür wird eine Galanter- (Galanter, 1956) bzw. eine Restle-Metrik gebildet (Restle, 1959) und mit dem beschriebenen Verfahren getestet. Eine Beibehaltung 90 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Verfahren Kurzfassung Definition der Distanz von zwei zu single-linkage minimaler Abstand kleinste Distanz zwischen den verschmelzenden Klassen Elementen der jeweiligen Klassen complete-linkage maximaler Abstand größte Distanz zwischen den Elementen der jeweiligen Klassen (group)-average-linkage mittlerer Abstand mittlere Distanz zwischen den Elementen der jeweiligen Klassen centroid-linkage centroider Abstand centroide Distanz zwischen den Elementen der jeweiligen Klassen Tab. 9.2: Hierarchische Agglomerationsverfahren der Nullhypothese berechtigt jedoch nach der Logik klassisch-frequentistischer Statistik nicht zur Annahme der Homogenität, kann aber als ein empirischer Hinweis gewertet werden. Hierarchische Agglomerationsverfahren Im R-Skript werden Agglomerationsverfahren eingesetzt, bei denen sukzessive die Cluster aus den Einzelobjekten aufgebaut werden, bis nur noch eine einzige gesamte Klasse übrig bleibt. Im Gegensatz dazu gehen die divisiven Verfahren (Daumenlang, 1995) so vor, in dem ein großes Cluster sukzessive aufgeteilt wird, bis nur noch Einzelobjekte übrig bleiben. Es gibt also top-down (divisiv) und bottomup (agglomerativ) Verfahren. Für beiden Verfahren gilt, dass die Struktur immer mehr verfeinert bzw. verallgemeinert wird, aber Elemente einer Klasse nicht die einmal erhaltene Klasse einfach wechseln können. Cluster können nach ihrer Bildung nicht mehr verändert werden. Deshalb heißen diese Verfahren hierarchisch. Die ausgewählten Agglomerationsalgorithmen unterscheiden sich dahingehend, wie Klassen gebildet werden und miteinander verschmelzen. Diese Verfahren beginnen beim geringsten Abstand, verschmelzen Objekte zu Klassen, nehmen dann diese Klassen als Objekte und verschmelzen sie wiederum nach dem geringsten Abstand. Diese Abfolge wird wiederholt, bis alle Objekte in einer einzigen Klassen verschmolzen sind. Die Definition des geringsten Abstandes (auf jeder Stufe) unterscheidet die Verfahren voneinander (Handl, 2002). So ist der Abstand zwischen den neu gewonnen Klassen und den restlichen Klassen nicht immer eindeutig bestimmt. So können zwei Klassen P und Q zu einer 9.1. HIERARCHISCHE CLUSTERANALYSE neuen Klasse Z verschmolzen werden, jedoch kann die Distanz einer weiteren Klasse R zu P und Q unterschiedlich sein. Somit bleibt unklar, was die exakte Distanz der neu gebildeten Klasse Z zu R ist. Die gängigsten Verfahren singlelinkage, average-linkage, complete-linkage und centroid-linkage unterscheiden sich lediglich darin, was als möglicher Distanzwert genommen wird, um zwei Klassen miteinander zu verschmelzen (s. Tab. 9.2). Technisch handelt es sich um eine Berechnung der Unähnlichkeit von verschiedenen Klassen , die über die Distanz operationalisiert wird. Handl (2002, S. 370) visualisiert die Unterschiede der gängigen verschiedenen agglomerativen Verfahren. Backhaus et al. (1996, Tab. 6.17, S. 287) listen die entsprechenden Gleichungen zur Berechnung der Distanzen für die verschiedenen Agglomerationsverfahren auf. Sie basieren auf der folgenden Grundgleichung, wenn zwei Klassen P und Q zu einer neuen Klasse Z verschmolzen werden. d(R,P+Q) bezeichnet hierbei die Distanz zwischen einer weiteren Klasse R zu der neuen Klasse Z (P+Q). Die Konstanten a, b, e und g variieren je nach Agglomerationsverfahren zeichnen diese durch ihre Werte jeweils aus (ebd., S. 286, Gleichung (4)): d( R, P + Q) = ad( R, P) + bd( R, Q) + ed( P, Q) + g|d( R, P) − d( R, Q)| Die typischen Eigenschaften der Verfahren nennen die Autoren ebenfalls (ebd., S. 298, Tab. 6.23). Nach diesen Ausführungen macht es Sinn, die Distanzen zunächst euklidisch zu bilden. Eine Abweichung hiervon benötigt eine Erklärung. Zu bedenken ist, dass euklidische Distanzen nicht unbedingt robust sind. Das Ward-Verfahren wiederum fragt nach der Zunahme der Varianz durch Vereinigung der Klassen P und Q. Das Ziel ist es, durch Verschmelzung die Varianz nur minimal zu vergrößern. Deshalb erscheint es gerechtfertigt zu sein, als Distanzmaß die Manhattan-Metrik zu nehmen, die zweidimensional gebildet wird. Das Ward-Verfahren wird im Vergleich zu den anderen Verfahren als sehr valide bezeichnet (Backhaus et al., 1996, S.298, S. 298). Das Verfahren benötigt jedoch verschiedene Voraussetzungen (ebd.) und es neigt zur Bildung gleich großer Cluster, was sich als problematisch erweisen kann. Ebenso wird das Problem genannt, sehr kleine Gruppen und Gruppen, die sich länglich erstrecken, zu identifizieren. Die Voraussetzungen für Ward können jedoch auf die anderen Algorithmen (teilweise) übertragen werden. Es ist offensichtlich, dass diese Voraussetzungen in der Praxis häufig nicht erfüllt werden. Die Voraussetzungen für Ward sind: ⇒ Verwendung eines inhaltlich begründeten Distanzmaßes ⇒ metrisches Skalenniveau 91 92 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG ⇒ keine Ausreisser bzw. diese vorab eliminieren ⇒ unkorrelierte Variablen ⇒ annähernd gleich große Elemente pro Gruppe ⇒ vergleichbar große Ausdehnung der Gruppen Güte der Cluster-Lösungen Handl (2002) bzw. Hartung und Elpelt (1999) bieten einen umfassenden Überblick über die Gütekriterien von hierarchischen Clusteralgorithmen. Hierarchische Clusterlösungen lassen sich generell in einem Dendrogramm visualisieren. Dieses beschreibt, auf welcher Höhe zwei Objekte sich zum ersten Mal in derselben Klasse befinden. Der (kleinste) Abstand zwischen zwei Objekten wird durch ihre Distanz in einer Abstandsmatrix festgehalten. Diese enthält alle Abstände zwischen allen Objekten. Diese Distanzmatrix, die aus dem Dendrogram abgeleitet wird, heißt kophenetische Matrix. Daraus lässt sich der kophenetische Korrelationskoeffizient berechnen, indem die kophenetische Matrix mit der ursprünglichen Distanzmatrix korreliert wird. Dies zeigt, wie gut die Clusterlösung die ursprüngliche Distanzmatrix reproduziert. Graphisch können die beiden Matrizen (besser: Dreiecksmatrizen) auch in einem Scatterplot gegeneinander geplottet werden. Es wird das Agglomerationsverfahren genommen, für das der kophenetische Korrelationskoeffizient maximal wird. Oft zeigt sich auch, dass die Koeffizienten sich nicht allzusehr voneinander unterscheiden. Nach Huber (1974) eignet sich der γ-Koeffizient (Goodman und Kruskal, 1954) zur Bestimmung der Güte von Clusterlösungen. Das Verfahren ist bei Handl (2002) detailliert und mit R-Code beschrieben. In Kürze arbeitet das Verfahren so, dass Paare von Distanzen innerhalb der Distanzmatrix mit ihren Pendants in der kophenetischen Matrix verglichen werden. Es wird dann gefragt, ob eine konkordante Beziehung zwischen den Paaren in beiden Matrizen besteht oder nicht (diskordant). Goodman und Kruskal (1954) fassen dies zusammen, indem die Anzahl der konkordanten Paare (C) versus der Anzahl der diskordanten Paare (D) in eine direkte Beziehung gesetzt wird. Daraus leitet sich der γ-Koeffizient ab: γ = C−D C+D Bacher (1994) gibt Anhaltspunkte, wie der resultierende γ-Koeffizient einzuordnen ist (s. Tab. 9.3). 9.1. HIERARCHISCHE CLUSTERANALYSE untere Grenzen oberer Grenze 0.9 ≤ γ 0.8 ≤ γ 0.7 ≤ γ 0.6 ≤ γ 0≤ γ Tab. 9.3: ≤1 ≤ 0.9 ≤ 0.8 ≤ 0.7 ≤ 0.6 93 Einordnung sehr gut gut befriedigend gerade noch ausreichend nicht ausreichend Bewertung γ-Koeffizient Optimale Anzahl der Cluster Für die Anzahl der Cluster verweist Handl (2002) auf den Test von Mojena (Mojena, 1977), der die Anzahl der Klassen n mit den Verschmelzungsniveaus i in eine Beziehung setzt. Dies lässt sich als Treppenfunktion (staircase) visualisieren. Es liegen zwei Kriterien vor, wie das standardisierte Verschmelzungsniveau zu interpretieren ist. Mojena schlägt das Verschmelzungsniveau mit Index i vor, wenn zum ersten Mal gilt:˜αi > 2.75. Aus i und der Gesamtzahl der Klassen n wird die optimale Anzahl der Cluster wie folgt bestimmt: Anzahl der Cluster = n + 1 − i Milligan und Cooper (1985) stützen sich auf Simulationen und schlagen vor, α˜ i > 1.25 zu wählen. Handl (2002) hält sich an den Wert dieser Autoren. Das R-Skript liefert beide. Bootstrapsimulation und p-Werte Im Paket pvclust steht eine gleichnamige R-Funktion zur Berechnung von pWerten für hierarchische Clusterlösungen bereit. Sie arbeitet mit der R-Funktion hclust zur Erstellung der Cluster, die auch sonst hier Verwendung findet. Die Funktion pvclust führt eine Bootstrap-Simulation für jedes Cluster durch mit resultierenden p-Werten und Standardfehlern auf Basis der Simulation. Eine Bootstrap Simulation führt ein Ziehen mit Zurücklegen Prozedere durch, um pro Simulation die jeweilige Stichprobe zu generieren. Es sollten mindestens 1000 und mehr Simulationen durchgeführt werden, um zu aussagekräftigen Ergebnissen zu kommen, damit sich die Werte im Mittel stabilisieren. Dies dauert auch auf schnellen Computern seine Zeit. Es können Dendrogramme mit p-Werten geplottet werden. Clusters mit bedeutsamen p-Werte können hervorgehoben werden. Details sind der Hilfeseite von pvclust zu entnehmen. Es gibt verschiedene Möglichkeiten der Distanzbildung im Unterskript dist.pvclust im namespace von pvclust. Das R-Skript hier verwendet die euklidische Distanz. 94 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Bayesischer Test auf Anzahl der Cluster Das Paket bayesclust erlaubt auf Basis bayesischer Statistik den Test auf eine bestimmte Anzahl von Clustern. Bayesische Statistik muss von der klassischen Statistik unterschieden werden (Jaynes, 2003; Bolstad, 2007). Die klassische Statistik bemüht sich um die Wahrscheinlichkeit von Daten angesichts (zumeist unspezifischer) Nullhypothesen mit dem Ziel der Berechnung statistischer Signifikanz. Die bayesische Statistik hat hingegen zum Ziel, den gesunden Menschenverstand zu unterstützen, um Expertenwissen in die Gleichungen einfließen zu lassen – insbesondere wenn wenige Daten vorliegen – und die Wahrscheinlichkeit von miteinander konkurrierenden Hypothesen angesichts der empirischen Daten zu kalkulieren. Zahlentechnisch ähneln sich viele Ergebnisse durchaus. Von der inhaltlichen Interpretation her bestehen jedoch große Differenzen zwischen klassischer Statistik und bayesischer Statistik. Erstere wird heute als ein Konglomerat der eigentlich miteinander nicht vereinbaren Ansätze von Ronald A. Fisher bzw. Jerzey Neyman und Egon Pearson gelehrt. Historische Hintergründe liefert Jaynes (2003). Der Bayes-Ansatz geht auf die Arbeiten von Reverend Thomas Bayes, Laplace und in neuerer Zeit Harold Jeffreys (1891–1989) bzw. Edwin Thompson Jaynes (1922–1998) zurück. In der Quanten-, Plasma- oder Astrophysik sind ohne bayesische Statistik keine vernünftigen Ergebnisse möglich, wie bei Loredo nachzulesen ist (Loredo, 1990, 1992). Die klassische Statistik versagt hier völlig. Gerade bei geringen Häufigkeiten (z.B. Astrophysik mit n=1) ermöglicht der bayesische Ansatz konsistentes Schlussfolgern bei kleinen Stichproben (Bretthorst, 1993; Studer, 1996). Die Unterschiede aufzuzählen wäre zu aufwendig für dieses Manual. Es sei hier auf die Arbeiten von Jaynes (2003), Loredo (1990, 1992) ode Bolstad (2007) verwiesen, die sehr gut die Unterschiede herausarbeiten. Anwendungen in der Sozialwissenschaft sowie eine kurze Einführung in die bayesische Denkweise findet sich bei Studer (1996, 1998, 2006). Die Anwendung und besonders die Veränderung der Parameter von bayesclust erfordern eine intensive Beschäftigung mit Bayes, um zumindest die Kernthesen zu verstehen, so dass eine Interpretation der Daten möglich ist. Diese Einstellungen müssen deshalb direkt in der Parameterdatei geändert werden. Die Funktion cluster.test berechnet die empirische posteriore Wahrscheinlichkeit der Nullhypothese H0 (keine Cluster) versus H1 (k Cluster). Für den Parameter k gilt strikt, dass k>1. Es wird wie bei den anderen Funktionen zur Clusteranalyse nach den Spalten ausgewertet. Der Bayes Factor (BF) der Hypothese wird auf Basis des bekannten Metropolis-Hastings (MH) MCMC Algorithmus berechnet. Die Anzahl der Simulationen hierfür ist anzugeben. Damit eine Kon- 9.1. HIERARCHISCHE CLUSTERANALYSE 95 vergenz der Simulationen möglich ist, sollte dieser Wert nsim>=500’000 liegen. Wie bei pvclust dauert das eine ganze Zeit. Der Test selbst wiederum kann auch wiederholt werden. Dies regelt die Variable replications. Das erlaubt eine Konvergenz der Schätzungen aus der posterioren Wahrscheinlichkeitsverteilung. Die Hilfeseiten empfehlen hier keine bestimmte Anzahl wie etwa bei nsim. Für alle weiteren Parameter lesen Sie bitte die Hilfeseiten bzw. Grundlagenliteratur zur bayesischen Statistik, um das zugrundeliegende Konzept und die Begrifflichkeiten zu verstehen. Es unterscheidet sich wie bemerkt deutlich von dem der klassischen Statistik, wie sie in den Sozialwissenschaften gelehrt wird. 9.1.3 Datenbasis Die Datenbasis ist eine Häufigkeitstabelle (s. Abb. 9.3). Ausgewertet wird nach den Reihen zur Bildung von Distanzmatrizen. Standardmäßig wird deshalb die AQUAD 7 Matrix transponiert, damit die Spalten (z.B. nach Sprechercodes) ausgewertet werden. pvclust analysiert hingegen Spalten. Deshalb wird für diesen Aufruf die Matrix intern automatisch transponiert. 9.1.4 Abb. 9.3. Auswahl Datenbasis R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 9.4. Das RSkript führt auf Basis der euklidischen Distanzen den hierarchischen Clustertest von Oldenbürger (1981) aus. Die permutativen Simulationen werden als Standard n=1000 mal durchgeführt. Als kritische Überschreitungswahrscheinlichkeit wird im gesamten R-Skript p.crit=0.06 angesetzt. Dem folgt die Berechnung der verschiedenen hierarchischen Clusterlösungen und der in Kap. 9.1.2 aufgeführten Gütekriterien, die von Handl (2002) und dessen S-PLUS/ R-Skripten übernommen wurden. Diese haben die Anzahl der Cluster und die Zuordnung der Objekte zu den jeweiligen Cluster zum Ziel. Das Paket pvclust ermittelt p-Werte auf Basis von Bootstrap-Simulation und plottet diese innerhalb eines Dendrograms. pvclust nutzt intern die Abb. 9.4. Experteneinstellungen hierarchische Clusteranalyse 96 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Funktion hclust zur Bildung der hierarchischen Cluster, die auch an den anderen Stellen im R-Skript Verwendung findet. Der Standardwert lautet 2500 Simulationen. Das Paket bayesclust erlaubt die Testung auf eine vorgegebene Anzahl von Clustern auf bayesischer Basis. Die Parameter zur Steuerung von bayesclust müssen direkt in der Parameterdatei geändert werden (s. Tab. B.6 in Anhang B.6). Sie setzen ein profundes Wissen um das Verfahren voraus. Für den Beginn lohnt es sich, hier nichts zu verändern. Standardmäßig wird im R-Skript nsim>5’00’000 angesetzt für den MH Algorithmus und repli>1 Replikationen für den gesamten Test. Möchten Sie diese Werte ändern, ändern Sie dies bitte direkt in der Parameterdatei. Falls Sie falsche bzw. ungünstige Eingangswerte gewählt haben, kann es sein, dass Sie die Berechnung abbrechen müssen und mit verbesserten Eingangswerten neu starten. Sowohl pvclust als auch bayesclust werden standardmäßig nicht ausgeführt, sondern müssen über die Experteneinstellungen aktiviert werden. 9.1.5 Ausgaben Es werden die folgenden Dateien ausgegeben (s. Tab. 9.4). Die Dateinamen orientieren sich an den Übergaben im Skript. 9.1.6 Ergebnisse und Interpretation Der zufallskritische Test auf hierarchische Clusterbarkeit liefert die Mittelwerte und Standardabweichungen für die empirischen und die simulierten Werte der Prüfgrößen Dep f ui A und Dep f ui B (s. Abb. 9.5). Dazu gehört die initiale Distanzmatrix auf der Basis von euklidischen Distanzen. Entlang einer kritischen Überschreitungswahrscheinlichkeit p.crit ist die statistische Signifikanz festzustellen. Auf die Berechnung von Effektstärken wurde verzichtet, da die Simulation die Anwendung der hierarchischen Clusteranalyse legitimiert, aber von keinem weiteren Nutzen ist und insbesondere Aussagen auf inhaltlicher Ebene bisher nicht vorliegen. Graphisch wird die Simulation durch Histogramme (je getrennt für Dep f ui A und Dep f ui B ) und Scatterplot (Dep f ui A vs. Dep f ui B ) dargestellt. Bedingt durch die vielfältigen Möglichkeiten, Distanzmatrizen und Agglomerationsverfahren zu kombinieren, wurden die gängigsten Kombinationen ausgesucht: single-linkage, complete-linkage, average-linkage und Ward. Für Ward wurde die Manhattan-Matrix anstatt euklidischer Distanzen berechnet. Speziellere Varianten müssen direkt im R-Skript umgesetzt werden. Dort sind die entsprechenden Hinweise zu finden. Jede der genannten Kombinationen aus Distanzmatrix und Agglomerationsverfahren wird als Dendrogramm ausgegeben. Hinzu kommt jeweils die Treppenfunktion mit der Anzahl der Gruppen versus ihrem Verschmelzungsniveau. 9.1. HIERARCHISCHE CLUSTERANALYSE Inhalt R Session bayesclust (Zwischenergebnisse, insb. Simulationen) Test auf hierarchische Clusterbarkeit (Histogramm und Dichteschätzung der simulierten Verteilung bzw. der zwei Prüfgrößen Depfui A bzw. B, Scatterplot der zwei Prüfgrößen, QQ-Plot der beiden Prüfgrößen gegen die Normalverteilung) Hierarchischer Clustertest (Dendrogramm und Treppenfunktion pro Verfahrenskombination aus Distanzmatrix und Agglomerationsverfahren pvclust.boot (Dendrogramm pro Verfahrenskombination aus Distanzmatrix und Agglomerationsverfahren) bayesclust (Histogramm Simulation Nulldistribution, optimale Cluster, posteriore probabilities) Ergebnisse Test auf hierarchische Clusterbarkeit Ergebnisse Distanzmatrizen (Manhattan, 3x euklidisch), hierarchische Clusteranalyse (ward, single, average, complete), Klassenzugehörigkeit, Kophenetische Korrelationen, Gammakoeffzienten, Test von Mojena (Anzahl der Cluster) Ergebnisse pvclust.boot Analyse Ergebnisse bayesclust Analyse initiale Distanzmatrix (Basis des Tests auf hierarchische Clusterbarkeit) Abkürzung Reihennamen simulierte Werte Test auf hierarchische Clusterbarkeit Tab. 9.4: 97 Dateityp Binärfile des R Binärfile des R Dateiendung .RData .RData Plot .emf Plot .emf Plot .emf Plot .emf Text .txt Text .txt Text Text Text .txt .txt .txt Tabelle Tabelle .csv oder .tab .csv oder .tab Ausgabedateien hierarchische Clusteranalyse 98 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Abb. 9.5. Ausgabe Test auf hierarchische Clusterbarkeit Abb. 9.6. Ausgabe γ-Koeffizient Auf der Basis der bei Handl (2002) diskutierten Gütekriterien wird folgend die Klassenzugehörigkeit der Objekte berichtet auf Basis der angegeben Anzahl von Clustern. Die kophenetischen Matrizen, kophenetischen Korrelationenskoeffizienten und γ-Koeffizienten (s. Abb. 9.6) und der Test von Mojena (mit beiden Kriterien, s. Kap. 9.1.2) geben weiteren Aufschluss über die Güte der Lösungen sowie die vermutete Anzahl der Cluster (s. Abb. 9.7) bzw. die Zuordnung der Objekte zu den Clustern (s. Abb. 9.8). pvclust.boot testet via Bootstrapping die jeweiligen Cluster auf statistische Signifikanz. Hierzu liegen Dendrogramme vor, die statistisch bedeutsame Cluster hervorheben (s. Hilfeseiten des Pakets pvclust). bayesclust liefert einen Test auf eine bestimmte Anzahl von Clustern. Pflichtlektüre ist der Artikel der Autoren des R-Paketes (Gopal et al., 2012). Der Plot der posterioren Wahrscheinlichkeitsverteilung ist auf Konvergenz zu untersuchen. Mit emp2pval kann die von cluster.test berechnete empirische posteriore Wahrscheinlichkeitsverteilung in einen frequentistischen p-Wert umgerechnet werden. Dies erlaubt einen klassisch statistischen Signifikanztest. Es ist zu fragen, ob das wirklich sinnvoll ist, wenn schon der bayesische Aufwand betrieben wurde und eine wahrscheinlichkeitstheoretische Interpretation vorliegt, die 9.1. HIERARCHISCHE CLUSTERANALYSE 99 Abb. 9.8. Abb. 9.7. Ausgabe Anzahl Cluster Ausgabe Zuordnung zu Cluster den plausiblen Umgang mit Ungewissheit erlaubt. Wozu braucht es dann noch einen p-Wert? Vor der Konvertierung in einen p-Wert ist mit nulldensity eine Nullverteilung zu generieren, die exakt dieselben Parameter verwenden muss wie cluster.test, da ansonsten die Konvertierung fehlschlägt und ein frequentistischer Signifikanztest nicht möglich ist. Mit cluster.optimal können die vier besten Clusterlösungen zu der vorgegebenen Anzahl an Clustern ausgegeben werden. 9.1.7 Beispieldatensatz Als Beispieldatensatz dient ein Datensatz von Gürtler (2006) zu Humor bei Lehrenden. Es wurden n=10 Lehrende zu Humor und ihren Versuchen, diesen in die eigene Lehre zu implementieren, untersucht. Die Interviews wurden mit AQUAD 6 kodiert und Kodierungen teilweise zu Metacodes zusammengefasst. Die Codeliste wurde tabellarisch ausgezählt und zwar getrennt nach Sprechercodes (d.h. Fall bzw. Person). Der Datensatz findet auch bei der multidimensionalen Skalierung (s. Kap. 9.3.7) und der Prototypenbildung (s. Kap. 9.4.7) Verwendung, da es jedesmal um eine räumliche Anordnung von Nähe und Distanz von Merkmalsträgern geht. Der Datensatz kann so trianguliert untersucht werden, jeweils mit etwas anderer Methodik. In der Studie von Gürtler (ebd.) wurde aus den Daten eine Typologie zum Einsatz von Humor in Lehr-Lernkontexten gebildet. Hierbei gingen noch Ergebnisse der Implikantenanalyse (s. Kap. 11.1) desselben Datensatzes ein. 100 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Test auf hierarchische Clusterbarkeit: Test auf hierarchische Clusterbarkeit: Int_MC_x_Person_110504 Depfui A vs. Normalverteilung 0.0 0.1 0.20 emp. Wert:-1.554 krit. Wert:-1.555 Stichproben Quantile 0.25 Dichteschätzung 0.2 0.3 0.30 0.4 Histogramm Depfui A -3 -2 0 2 -2 -1 0 1 theoretische Quantile 2 4 z-Wert simuliert vs. empirisch Abb. 9.10. Abb. 9.9. Beispieldatensatz Test auf hierarchische Clusterbarkeit (Histogramm Dep f ui A ) Beispieldatensatz Test auf hierarchische Clusterbarkeit (Dep f ui A vs. Normalverteilung) Die graphischen Outputs der Analysen zeigen das Histogramm der simulierten Prüfgrößenverteilung Dep f ui A (s. Abb. 9.9) sowie den zugehörigen empirischen Wert, ein Scatterplot der beiden simulierten Verteilungen für Dep f ui A und Dep f ui B (s. Abb. 9.11), ein Plot von Dep f ui A gegen die Normalverteilung (s. Abb. 9.10) sowie ein Dendrogramm (Manhattan-Matrix, Ward-Verfahren, s. Abb. 9.12). Hinzu kommt die zugehörige Treppenfunktion (s. Abb. 9.13) sowie das Ergebnis der Bootstrapsimulation (Dendrogramm) mit pvclust (s. Abb. 9.14). Hinsichtlich der bayesischen Lösung zur Testung der Anzahl von bedeutsamen Clustern liegen Plots für die Konvergenz posteriorer Wahrscheinlichkeiten (s. Abb. 9.15), die Simulation der Nullverteilung (s. Abb. 9.16) sowie die optimalen Cluster (s. Abb. 9.17) vor. Wie aus dem Histogramm ersichtlich wird, liegt der empirisch Wert für Dep f ui A quasi direkt auf der angesetzten kritischen Überschreitungswahrscheinlichkeit p.crit=0.06 mit einem z-Wert von z=-1.55. Dies kann sich durch eine noch höhere Anzahl von Simulationen sowohl in die eine als auch die andere Richtung verschieben. Im Beispiel wurden 1000 Simulationen berechnet. Ausgehend von der heuristischen Natur des Gesamtverfahrens liegen keine Hinweise vor, die die Anwendung hierarchischer Agglomerationsverfahren 3 9.1. HIERARCHISCHE CLUSTERANALYSE 101 Test auf hierarchische Clusterbarkeit: Int_MC_x_Person_110504 Scatterplot Depfui A vs. B AA MR GD KK 0.25 Depfui A 0.30 CH 0.20 AH 20 UV DK 0.12 KL 40 30 0.14 EN 0.16 Höhe Depfui B 0.18 0.20 50 0.22 0.24 60 0.26 Cluster Dendrogramm Int_MC_x_Person_110504 Distanz: manhattan | Agglomeration: ward hclust (*, "ward") Abb. 9.11. Beispieldatensatz Test auf hierarchische Clusterbarkeit (Scatterplot Dep f ui A vs. Dep f ui B ) Abb. 9.12. Beispieldatensatz Dendrogramm Ward Verfahren Cluster Dendrogramm (Bootstrap) 60 Staircase Plot: Int_MC_x_Person_110504 50 50 60 au bp edge # 74 13 8 83 32 6 76 11 5 77 24 3 9 Abb. 9.13. 8 7 6 5 4 Anzahl Gruppen Beispieldatensatz funktion 3 2 KK CH 0 AH 20 10 95 87 1 10 1 Distanz: manhattan | Agglomeration: ward Treppen- Abb. 9.14. 62 24 2 Beispieldatensatz Bootstrap Simulation (pvclust) UV MR GD DK 30 EN 62 38 4 KL 40 Höhe AA Verschmelzungsniveau 20 30 40 74 14 7 102 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Running Posterior Prob 0.2 0.4 0.6 0.8 1.0 Histogramm 8 84 8e+05 0e+00 4e+05 iterations 4e+05 iterations Abb. 9.15. 2 0 0 8e+05 0e+00 4e+05 iterations 8e+05 Beispieldatensatz Konvergenz posteriorer Wahrscheinlichkeiten (bayesclust) 60 50 x2 0 10 20 30 40 50 40 30 20 10 0 20 30 40 50 10 20 30 40 x1 Optimal Clusters Rank 3 Optimal Clusters Rank 4 50 50 40 x2 20 10 0 0 10 20 30 30 40 50 60 x1 60 10 10 20 30 x1 Abb. 9.17. 40 50 10 20 30 x1 Beispieldatensatz optimale Cluster (bayesclust) 0.0 Abb. 9.16. Optimal Clusters Rank 2 60 Optimal Clusters Rank 1 x2 6 4 1 1 1 1 2 0 0.0 0.0 0e+00 x2 8e+05 Running Posterior Prob 0.2 0.4 0.6 0.8 1.0 4e+05 iterations Running Posterior Prob 0.2 0.4 0.6 0.8 1.0 0e+00 Dichteschätzung 4 6 0.0 0.0 Running Posterior Prob 0.2 0.4 0.6 0.8 1.0 Bayesclust | Simulation Nulldistribution 40 50 0.2 0.4 0.6 0.8 Beispieldatensatz Simulation Nullverteilung (bayesclust) 1.0 9.1. HIERARCHISCHE CLUSTERANALYSE komplett verbieten würden. Es ist aber zu bedenken, dass die Daten evtl. nicht vollständig clusterbar sind. Eine spätere Interpretation hat dies zu berücksichtigen. Der Plot der simulierten Prüfgrößenverteilung Dep f ui A zeigt sehr schön, dass diese ziemlich normalverteilt ist. Würde bei Dep f ui B geschaut (nicht abgebildet, s. Verzeichnis \res), wäre ersichtlich, dass diese Prüfverteilung nur bedingt normalverteilt ist und in den Extremen relativ deutlich abweicht. Der empirische Wert für Dep f ui B ist folgend weitab festzustellender statistischer Signifikanz mit z=-0.955, was p=0.34 entspricht. Der Scatterplot der beiden Prüfgrößen Dep f ui A versus Dep f ui B gegeneinander zeigt die Unterschiedlichkeit der beiden Größen. Die grüne Linie im Plot wurde mit lowess gezeichnet, also eine lokale Regressionslinie. Die blaue Linie ist diejenige der normalen Regression. Einerseits weisen sie eine sehr hohe Korrelation auf (r=0.85, R2 =72.5%), andererseits zeigt sich gerade in den Extremen eine sehr große Unterschiedlichkeit. Die Korrelation und der Determinationskoeffizient lassen sich leicht aus dem Ergebnisobjekt mit etwas R-Code extrahieren: > cor(clt.res$DepfuiAB[,1],clt.res$DepfuiAB[,2]) #r [1] 0.8514415 > cor(clt.res$DepfuiAB[,1],clt.res$DepfuiAB[,2])^2 #R^2 [1] 0.7249527 Werden die deskriptiven Werte der Prüfverteilungen genommen, so ergibt sich folgendes Bild: > summary(clt.res$DepfuiAB) DepfuiA DepfuiB Min. :0.1604 Min. :0.1221 1st Qu.:0.2182 1st Qu.:0.1620 Median :0.2355 Median :0.1752 Mean :0.2353 Mean :0.1765 3rd Qu.:0.2528 3rd Qu.:0.1891 Max. :0.3410 Max. :0.2474 > Das arithmetische Mittel ist deutlich unterschiedlich. Die Streuungen zeigen: > apply(clt.res$DepfuiAB,2,sd) DepfuiA DepfuiB 0.02603799 0.02093271 Wird aus Interesse ein t-Test durchgeführt: > t.test(clt.res$DepfuiAB[,1],clt.res$DepfuiAB[,2]) Welch Two Sample t-test 103 104 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG data: clt.res$DepfuiAB[, 1] and clt.res$DepfuiAB[, 2] t = 55.7065, df = 1909.846, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.05678096 0.06092492 sample estimates: mean of x mean of y 0.2353324 0.1764795 zeigt sich, dass die beiden Verteilungen tatsächlich unterschiedlichen Prüfverteilungen entstammen und die Formeln für die Prüfgrößen (s. Kap. 9.1.2) sich unterschiedlich auswirken. Das Dendrogramm (Manhattan-Metrik, Ward-Verfahren) legt zwei Cluster nahe mit verschiedenen Unterclustern. Ebenso zeigt es Ausreisser (EN, AA), die erst spät in einer Klasse verschmolzen werden. Selbiges – ohne Referenz zur Person – zeigt die Treppenfunktion, die Einblick in das Verhältnis von Anzahl der Cluster versus Verschmelzungsniveau gibt. Die Ergebnisse der Boostrap Simulation unterstützen obige Annahme von n=2 Clustern. Die entsprechenden Cluster sind rot umrandet und spiegeln das intuitive Verständnis des Dendrogramms, was bereits auf inhaltlicher Ebene ausformulierbar war. Für die anderen Verfahren (euklidische Distanzen, single, complete und average als Agglomerationsverfahren) wird jedoch nur ein großes Cluster und ein Ausreisser nahegelegt. Aus dieser Sicht erscheinen n=2 Cluster nicht gerechtfertigt. Die bayesische Lösung testet auf n=2 Cluster gemäß obiger Ausführungen. Werden die Schaubilder der Konvergenz der posterioren Wahrscheinlichkeiten für die Replikationen betrachtet, fällt auf, dass diese ausnahmslos sehr schnell Nähe Null konvergieren. Die Umrechnung der bayesischen Lösung in einen frequentistischen p-Wert resultiert in p=0.22. Dies ist nach Standardkonventionen nicht statistisch signifikant. Dies legt nahe, dass die Daten vermutlich doch nicht clusterbar sind. Entsprechend ist mit größter Vorsicht die Ausgabe der optimalen Cluster zu interpretieren, da dies voraussetzt, dass die Daten auf die gewählte Anzahl von Clustern erfolgreich getestet wurden. Werden alle Ergebnisse der verschiedenen Verfahren sorgfältig gegeneinander abgewägt, kann geschlussfolgert werden, dass es Hinweise auf Cluster gibt, dieser aber nicht deutlich genug in Erscheinung treten, um klar genug erkannt zu werden. Wäre dies statistisch wichtig, müsste zurück zu den Originaldaten gegangen werden und es wäre zu überprüfen, ob die Kodierungen, die die Datenbasis der berichteten Analysen bilden, auf einem angemessenen Niveau angesiedelt sind. Evtl. sind Kodierungen zusammenzufassen oder zu splitten. Dann wären die Analysen zu wiederholen und die neuen Ergebnisse mit denen des ersten Durchganges zu vergleichen. 9.2. LINEARE DISKRIMINATION 105 Trotz der vorangegangenen Warnungen über die Unsicherheit im Umgang mit Clusteranalysen und die berichteten empirischen Ergebnisse konnte in der Arbeit von Gürtler (2006) durch die Kombination der geschilderten Verfahren eine Typologie aufgestellt werden. Ebenso war es möglich, aus einem einzelnen Fall – statistisch betrachtet ein Ausreisser – eine eigene Typenklassen zu bilden. So kommt in der Tat heraus, dass ein hervorstechender und extremer Typ des Umgangs mit Humor auf fehlenden Grenzsetzungen basiert und als sehr ungünstiges Muster mit den eigenen und fremden Emotionen formuliert werden kann – quasi ein Grenzgänger (Borderliner) zwischen gesund und fast schon pathologisch. Besonders an einem Fall wurde dies deutlich. Hierbei handelt es sich um eine Person, die tatsächlich mehrere Jahre nach dieser Studie für über ein Dreivierteljahr mit “Burn-out” – besser – Diagnose “schwere Depression” krankgeschrieben wurde und psychotherapeutischer Betreuung bedurfte. In der multidimensionalen Skalierung (s. Abb. 9.29, S. 119) ist diese Person deutlich erkennbar. In der Clusteranalyse zeigt diese Person auch eine gewisse Isolierung, wird aber nicht als letztes durch die Algorithmen in das Hauptcluster verschmolzen. Die Gründe wiederum werden – statistisch betrachtet – aus dem Schaubild der multidimensionalen Skalierung ersichtlich (Gürtler, 2006, S. 251ff.). Diese Ergebnisse spiegeln diejenigen der Prototypenanalyse (s. Abb. 9.36, S. 126) sehr eindrücklich wieder. 9.2 Lineare Diskrimination Der Menüpunkt Lineare Diskrimination zur Durchführung der linearen bzw. quadratischen Diskriminanzanalyse befindet sich im Untermenü Klassifikation/ Gruppierung (s. Abb. 9.18). Abb. 9.18. 9.2.1 Menüpunkt Lineare Diskrimination Sinn und Zweck Die Diskriminanzanalyse versucht Objekte zu vorab bekannten Gruppen zuzuordnen bzw. aufgrund von bekannten Merkmalen ihre jeweilige Gruppenzugehörigkeit vorherzusagen. Der Algorithmus entwickelt also eine Zuordnungsregel, um mit binären oder kontinuierlichen unabhängigen Prädiktorvariablen die abhängige Variable (Gruppenzugehörigkeit) vorherzusagen. Die Gruppen sind demnach a priori bekannt, die Prädiktoren nicht. Dies ist in etwa der invertierte Fall der Varianzanalyse, bei der eine abhängige kontinuierliche Variable durch unabhängige kategoriale Prädiktorvariablen (Gruppen) vorhergesagt wird. Sind also inhaltlich interessante Gruppierungen vorhanden, erlaubt es die Diskrimi- 106 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG prognostizierte Gruppenzugehörigkeit echte Gruppenzugehörigkeit A B A wahr falsch B falsch wahr Tab. 9.5: Fehler bei Gruppenzuordnung nanzanalyse, Objekte (Prädiktoren) aufgrund ihrer bekannten Merkmale diesen Gruppen zuzuordnen. Diese Zuordnung kann richtig oder falsch sein. Die Fehlerrate bzw. Trefferquote der Vorhersage der Gruppenzugehörigkeit kann in einer Matrix festgehalten werden (s. Tab. 9.5 für den Fall von zwei Kategorien). Bei der Klassifikation können Fehler wie folgt vorkommen: ⇒ ein Objekt wird einer falschen Gruppe zugeordnet bzw. ⇒ ein Objekt wird einer Gruppe eben nicht zugeordnet. Dies spiegelt die grundsätzliche Gestalt wissenschaftlichen oder überhaupt allgemeinen Schlussfolgerns: falsche Negative und falsche Positive – neben richtigen Negativen und richtigen Positiven Ist die wahre Zuordnung bekannt, können die Fehlerraten bei der Zuordnung durch das aufgestellte Modell berechnet werden. Klassische Zuordnungsaufgaben finden sich im Versicherungswesen (z.B. Hochkostenfälle), Krankheitssystem (z.B. Risikopatienten), Bankenwesen (z.B. Zahlungsfähigkeit von Personen und Organisationen) und Politik (z.B. politische Aktivitäten von Staaten) oder der Spamerkennung. Es lässt sich jeweils die Güte der gefundenen Lösung bestimmen. Zu beachten ist, dass eine Diskriminanzfunktion einer zufälligen Zuordnung überlegen sein muss. Empirisch ist die Trefferquote überhöht, wenn das Modell an derselben Stichprobe zur Vorhersage eingesetzt wird, welche bereits zur Erstellung des Modells Verwendung fand. Das Modell ist hier natürlich optimiert. Deshalb ist die Modellschätzung an einer Unterstichprobe oder einer anderen Stichprobe vorzunehmen. Modellschätzung und Vorhersage sind zu treffen. Mit wachsendem Stichprobenumfang wird dieser Effekt jedoch geringer (s. Backhaus et al., 1996, S. 116). Klassifikationsfehler und deren Konsequenzen In der Realität wäre zu fragen, ob die beiden Zuordnungsfehler inhaltlich gleich bedeutsam sind und welche Kosten hiermit verbunden sind. Kosten-NutzenRechnungen sind leider in den Sozialwissenschaften noch nicht weit verbreitet. 9.2. LINEARE DISKRIMINATION Im Versicherungs- oder Bankenwesen ist es deshalb leichter nachvollziehbar, dass Kosten-Nutzen-Rechnungen essentiell sind. Sie sind abe auch wichtig, weil sich aus ihren Ergebnissen zusätzlich ethische und professionelle Konsequenzen zwingend ergeben können. So könnte die Frage lauten, einer Patientengruppe eine teure oder gar eine gefährliche Behandlung zuzuweisen. Wird hierbei die Zuweisung falsch durchgeführt, erhält ein gesunder Patient entweder eine gefährliche Behandlung und wird dadurch überhaupt erst krank oder einer kranker Patient erhält gar keine Behandlung und stirbt im schlimmsten Fall oder erleidet andere (Dauer-)Schäden aufgrund der fehlenden Behandlung. Beide Fehler können schwerwiegende Konsequenzen haben und sind ein schwerer Fall für die Haftpflicht oder – im großen Stil – für Rückversicherer. Die aufgeführten Fehler sind in der Realität aber nicht immer gleichbedeutsam. So kann es auch sein, dass eine Behandlung für Gesunde ungefährlich ist, das Ausbleiben dieser ungefährlichen Behandlung im Krankheitsfall aber lebensbedrohlich. Dann wäre die Fehlerrate der Zuordnung so zu adjustieren, dass möglichst nie ein kranker Patient eine Behandlung nicht erhält, wohingegen die Zuweisung eines gesunden Patienten hier nicht so schlimme Konsequenzen hätte wie im ersten Beispiel. Aus wirtschaftlicher Sicht ist natürlich eine exakte Zuweisung in jedem Fall wünschenswert. Die Aufstellung einer guten Zuordnungsregel kann auch einen anderen täglichen Nutzen erfüllen – etwa die Klassifikation von Emails anhand ihres Spamfaktors. Wer will schon wichtige Mails im Spamfilter suchen bzw. von Werbemails im Hauptmailverzeichnis überschwemmt werden? Spamfilter basieren sehr häufig auf bayesischer Statistik (Klassifikation). 9.2.2 Theorie Die Ausgangslage der Diskriminanzanalyse ist die Suche einer Entscheidungsregel, um Objekte Gruppen zuzuordnen, wobei die Gruppen unbekannt sind. Backhaus et al. (1996) geben das Diskriminanzkriterium Γ vor, dass die Varianzen zwischen und in den Gruppen in einen direkten Zusammenhang bringt: Γ = Varianz zwischen den Gruppen SSb = Varianz innerhalb der Gruppen SSw SSb (sum of squares between) und SSw (sum of squares within) bezeichnen die Quadratsummen zwischen bzw. innerhalb der Gruppen. Diese Größen sind bereits aus der Varianzanalyse bekannt. Die Schätzung der Diskriminanzfunktion versucht den Quotienten Γ zu maximieren. Die Varianz zwischen den Gruppen wird als – durch die Diskriminanzfunktion – erklärte Varianz, die innerhalb der Gruppen als nicht erklärte Varianz bezeichnet. Das Optimierungsproblem ist also ein Problem der maximalen Erklärung der Varianz zwischen 107 108 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG den Gruppen bei minimaler Varianz innerhalb derselben. Die Herleitung dieser Schätzung ist bei den Autoren (ebd., S.157) nachzulesen. In Kürze läuft dies auf ein Eigenwertproblem hinaus, wobei jede der möglichen Diskriminanzfunktionen auf dem nächsten Eigenwert basiert (ebd., S.159). Jede neue Diskriminanzfunktion ist orthogonal zu den vorherigen und erklärt einen Restteil der verbliebenen und bisher nicht erklärten Varianzen in den Gruppen. Durch den Charakter des Eigenwertproblems liegt rechnerisch jeder Diskriminanzanalyse somit eine Hauptkomponentenanalyse zugrunde. Die weiteren Unterscheidungsmerkmale von Hauptkomponentenanalyse und linearer Diskriminanzanalyse können bei Martinez und Kak (2001) nachgelesen werden.. Handl (2002) listet zwei große Entscheidungsregeln auf und zwar das Likelihood-Prinzip (Maximum-Likelihood-Regel) und die Zuordnung mittels bayesischer Statistik. Liegen quantitative und nicht qualitative Merkmale vor, so wird davon ausgegangen, dass diese aus normalverteilten Grundgesamtheiten stammen mit je Varianz-Kovarianz-Matrix und Vektor der Mittelwerte. Gegeben sind zufällige Beobachtungen aus diesen Populationen, wobei die wahren Gruppenzugehörigkeiten dieser Beobachtungen unbekannt sind. Die Aufgabe besteht nun darin, diese Gruppenzugehörigkeit aufgrund der erhobenen Merkmale korrekt vorherzusagen. Wenn über die Gruppenzugehörigkeiten Vorwissen besteht, kann dieses prinzipiell einfließen. Dann wird anstatt die Population zu finden, die die Likelihood der Beobachtungen maximiert, die posteriore Wahrscheinlichkeit der Beobachtungen maximiert, einer bestimmten Gruppe zugehörig zu sein. Lineare und quadratische Diskriminanzanalyse Es wird die quadratische von der linearen Diskriminanzanalyse unterschieden. Bei der linearen sind die Varianz-Kovarianz-Matrizen der p-dimensionalen Zufallsvariablen X in der i-ten Gruppe identisch, was die Gleichungen deutlich vereinfacht. Bei der quadratischen unterscheiden sich diese (Handl, 2002). In der Praxis sind die Parameter (Mittelwerte und Varianz-Kovarianz-Matrizen) der zugrundeliegenden Normalverteilung unbekannt und müssen empirisch aus den Daten geschätzt werden. I.A. werden hierfür die Maximum Likelihood Schätzer genommen. Eine weitere Form ist die regularisierte Form der Diskriminanzanalyse (RDA), die als vermittelnde Methode zwischen linearer und quadratischer Diskriminanzanalyse gilt (Friedman, 1989; Guo et al., 2007). Der Ansatz von Fisher (1936) kommt ohne die Annahme der Normalverteilung und identischer Varianz-Kovarianz-Matrizen aus (Handl, 2002, S.333ff.). Dies ist die Basis der R-Funktion lda. Die quadratische Form wird über qda er- 9.2. LINEARE DISKRIMINATION möglicht. Das Ziel ist es, eine Entscheidungsregel zu finden, bei der die Gruppen die vorliegenden bekannten Merkmale besitzen. Die Gruppenstruktur soll möglichst gut wiedergegeben werden. Dafür muss die Streuung zwischen den Gruppen maximal, die innerhalb der Gruppen minimal sein. Das entspricht dem Kriterium der Likelihood-Funktion. Handl (ebd.) merkt an, “[d]er Ansatz von Fisher kommt ohne die Annahme der Normalverteilung und identischer Varianzen aus, wobei er ein sinnvolles Zielkriterium formuliert. Dies deutet darauf hin, dass man die lineare Diskriminanzanalyse in vielen Situationen anwenden kann.” Über eine Matrix können die genannten Fehlerraten kontrolliert werden: Auf der Hauptdiagonalen liegen die richtigen Zuordnungen und auf den Nebendiagonalen jeweils die falschen. Weitere Verfahren zur Klassifikation sind etwa die logistische Diskriminanzanalyse, Klassifikationsbäume, neuronale Netze und self-organisierte Karten (SOM, selforganized maps). Klassifikation und Simulation Sowohl für die Zuordnung der linearen als auch der quadratischen Diskriminanzanalyse können Simulationen durchgeführt werden, um die Güte der Zuordnung im Vergleich zu einer zufälligen zu bewerten. Hierbei stehen die Verfahren ⇒ Bootstrap ⇒ Permutation ⇒ Jack-knife zur Validierung zur Verfügung. Beim Bootstrap (Efron, 1979; Efron und Tibshirani, 1993, s.a. die Ausgabe der Zeitschrift Statistical Science zum 25-jährigen Jahrestag des Bootstrap) werden Daten durch Ziehen mit Zurücklegen simuliert. Bei der Permutation wird mittels Ziehen ohne Zurücklegen simuliert. Die Anzahl der möglichen Permutationen ohne Wiederholung bei n Objekten ergibt sich aus n! = n · (n − 1) · ... · 1 oder auch n Fakultät. Die Jack-knife Methode (Quenouille, 1956) lässt jeweils einen Fall (Datum) weg und berechnet darüber das (reduzierte) Modell. Sie ist auch als leave-one-out cross validation bekannt. Aus den simulierten Verteilungen (Zuordnungen) können jeweils Tabellen erzeugt werden, die die Simulationen mit den “wahren” Klassifikationen bzw. den empirischen auf Basis der Modellrechnung vergleichen. Daraus lässt sich ablesen, ob ein empirisches Modell tendentiell eher zufällige Zuordnungen vergibt oder ob die Klassifikationen jenseits von Zufälligkeit angesiedelt sind. Angesichts der via Simulation erzeugten Prüfverteilung lässt sich hier immer eine Lokalisation der empirischen Werte innerhalb der simulierten Verteilung angeben bzw. der wahren Wer- 109 110 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG te innerhalb der simulierten Prüfverteilung. Ausgehend vom Gesetz der großen Zahl kann die Normalverteilung für die genannten Simulationen angesetzt werden und alles lässt sich in z-Werten berechnen und ausgegeben. Am eindrucksvollsten ist jedoch die Tabelle: Auf der Hauptdiagonalen sind die jeweils identischen Zuordnungen und auf den Nebendiagonalen die falschen. Diese Werte können summiert oder gemittelt ausgegeben werden. 9.2.3 Datenbasis Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten. Soll nach den Reihen ausgewertet werden, sind die Daten vorab zu transponieren. 9.2.4 Abb. 9.19. R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 9.19. Das RSkript führt standardmäßig sowohl die lineare als auch die quadratische Diskriminanzanalyse aus. Der Gruppenvektor wird deskriptiv beschrieben und als Boxplot ausgegeben. Im Falle einer zu geringen Stichprobengröße gibt das Skript eine Fehlermeldung aus, da dann qda kein Ergebnis liefert. Der Berechnung der linearen und der quadratischen Diskriminanzanalyse sowie der Vorhersage aufgrund des Modells folgt eine Simulation. Diese ermöglicht eine Evaluation der Güte des gefundenen Modells. Via Parameter kann zwischen den Methoden Bootstrap, Permutation, internes Jack-knife (interne Funktion von lda) Experteneinstellungen lineare und Jack-knife (leave-one-out cross-validation) und quadratische Diskriminanz- gewählt werden. analyse Als Ergebnisse werden zunächst für beide Versionen der Diskriminanzanalyse die Vorhersagen aufgrund des Modells gegen die empirischen Daten tabellarisch aufgelistet und die Anzahl der richtigen und falschen Zuordnungen ausgegeben. Dasselbe wird für die simulierten Datensätze durchgeführt, jeweils für die lineare und die quadratische Version. Für die Ergebnisse der linearen Diskriminanzanalyse werden Histogramme und Dichteschätzungen ausgegeben sowie ein Plot der ersten beiden Diskriminanzachsen (wenn möglich). Zusätzlich werden lineare versus quadratische Version bzgl. ihrer korrekten Klassifikationen untersucht. Ein Hauptkomponentenanalyse mittels princomp (Eigenwertanalyse der Korrelations- bzw. Kovarianzmatrix) ergänzt die Analysen sowie ein Mehrfach- 9.2. LINEARE DISKRIMINATION Inhalt 111 Dateityp Dateiendung R Session Binärfile des R Boxplot Gruppenfaktor, Ergebnisse Lineare Plot .RData .emf Text .txt Text .txt Diskriminanzanalyse, Hauptkomponentenanalyse sowie deren Eigenwerte, Histogramme und Dichteschätzungen Lineare Diskriminanzanalyse (pro Gruppe, pro Diskriminanzfaktor), Scatterplot Datensatz (auf Diskriminanzfaktoren) Ergebnisse Lineare und Quadratische Diskriminanzanalyse sowie Simulation und Hauptkomponentenanalyse Datensatz Gruppenfaktor (Beschreibung/ Häufigkeiten) Abkürzungen Reihennamen Tab. 9.6: Tabelle .csv oder .tab Ausgabedateien lineare Diskrimination Plot der linearen Diskriminanzanalyse versus der Hauptkomponentenanalyse für jeweils die ersten zwei Achsen (Biplot, Screeplot der Eigenwerte der Hauptkomponentenanalyse) – wenn möglich. 9.2.5 Ausgaben Das R-Skript gibt im R-GUI Nummern für den jeweiligen Simulationsdurchlauf aus (s. Abb. 9.20). Das ermöglicht eine Abschätzung der Geschwindigkeit bei längeren Berechnungen. Es werden die folgenden Dateien ausgegeben (s. Tab. 9.6). Die Dateinamen orientieren sich an den Übergaben im Skript. Abb. 9.20. 9.2.6 Ergebnisse und Interpretation Ausgabe Simulation lineare Diskriminanzanalyse Die Ergebnisse der Analysen geben die Koeffizienten der Diskriminanzachsen aus für die jeweiligen Gruppen sowie Gruppenmittelwerte und die prioren Wahrscheinlichkeiten für die Gruppenzugehörigkeiten. Die Untersuchung der korrekten versus falschen Zuordnungen lässt sich wie bereits erwähnt tabellarisch direkt ablesen (Haupt- bzw. Nebendiagonalen). Die Güte der Zuordnungen 112 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG wird jeweils summarisch zusammengefasst. Identisch sind die Ausgaben für die Simulationen zu interpretieren. Das empirische Modell wird zusätzlich innerhalb der Simulationsverteilung verortet, so dass dieses zufallskritisch interpretierbar ist. Die Ergebnisse der Hauptkomponentenanalyse werden ausgegeben (Standardabweichungen, etc. für die Hauptachsen). Weitere und detailliertere Analysen können direkt durch Öffnen der abgespeicherten R-Ression durchgeführt werden. Es sind die Hilfeseiten der die Objekte erzeugenden Funktionen zu Rate zu ziehen, um die richtigen Werte aus den Objekten zu extrahieren. Die Plots sind einschlägige Standardplots, die wie gewohnt zu interpretieren sind. Weiteres ist den Hilfeseiten zu lda bzw. qda zu entnehmen, die im Paket MASS enthalten sind. 9.2.7 Beispieldatensatz Es handelt sich um den klassischen und im R (iris) verfügbaren Datensatz von Edgar Anderson (1936) zu den Iris-Arten, den Fisher (1936) zur Demonstration der von ihm entwickelten Diskriminanzanalyse heranzog. Der Datensatz besteht aus 50 Beobachtungen dreier Arten von Schwertlilien (iris setosa, iris virginica, irisi versicolor), an denen jeweils vier Merkmale erhoben wurden: Länge und Breite des Kelchblattes der Blüte sowie des Kronblattes. Die Blüteneigenschaften verweisen auf die Zuordnung zur Art. Die Originaldaten sind als Boxplot und geordnet nach ihrer Gruppe zu sehen (s. Abb. 9.21). Die Ergebnisse (s. Textdatei in /res ausgehend vom AQUAD 7 Haupverzeichnis) zeigen sehr schön die Unterscheidung der drei Lilienarten anhand ihrer Eigenschaften, die jeweils in die Analyse eingehen. Die empirische Zuordnung zeigt die entsprechenden Vorhersagewerte und zwar sowohl die richtigen (Hauptdiagonale) als auch die falschen Zuordnungen aufgrund der aufgestellen Regel durch den Algorithmus auf Basis der Eigenschaften. Die quadratische Diskriminanzanalyse zeigt in der Vorhersagegüte keine Überlegenheit gegenüber der linearen Version. Der direkte Vergleich zeigt, dass beide identisch zuordnen. In einem solchen Fall kann das einfachere Modell Verwendung finden. Ein Scatterplot der linearen Diskriminanzachsen zeigt die Trennung der Gruppen durch das Verfahren (s. Abb. 9.22). Die Simulation zeigt, dass das empirische Modell (linear wie quadratisch) den simulierten Werten weitaus überlegen ist, so dass dadurch die Validität des Modells sehr plausibel erscheint. Die zugehörigen Histogramme der linearen Diskriminanzachsen (Vorhersage durch das Modell) demonstrieren ebenfalls die klare Trennung der Gruppen aufgrund ihrer Merkmale (s. Abb. 9.23). Das Ergebnis der Hauptkomponentenanalyse und hier der Plot der beiden Hauptachsen gegeneinander zeigt, dass auch hier die Lilienarten gut voneinan- 9.3. MULTIDIMENSIONALE SKALIERUNG 113 Boxplot Scatterplot: iris 20 c cc c c c 2 c s s c s 18 s s LD2 0 s -1 14 Werte 16 1 s s s s c c s c v s c c v v v v s vv v v c c v c v c c c vv v vv v vv v vvvvv v v v v v vv v v 12 vv c c c v v cc c c v s ss ss s s s s s s s s s ss s ss s ss s s ss sss s s s s ss s cc c c c cc c c c c c c c c c v cc c v v vv c v v v 10 -2 cc 8 v -10 c s v -5 0 LD1 5 Gruppen Abb. 9.22. Abb. 9.21. Beispieldatensatz Gruppenfaktor Boxplot Beispieldatensatz Scatterplot lineare Diskriminanzachsen der getrennt werden (s. Abb. 9.24). Im Screeplot der Eigenwerte ist ein Knick bei Achse 2 zu sehen. Wie in der Literatur angemerkt wird, ist jedoch anzumerken, dass die Clusteranalyse (s. Kap. 9.1) und die Diskriminanzanalyse nicht zwangsläufig zu denselben Ergebnissen führen müssen. Ohne Vorwissen resultieren lediglich zwei Cluster anstatt der richtigen drei. Die Auftrennung in drei Cluster benötigt spezielles Vorwissen. Es gilt eben, dass die Clusteranalyse zuallererst ein exploratives Verfahren repräsentiert, dass nicht blind angewandt werden sollte. Der interessierte Anwender ist eingeladen, mit dem Datensatz die clusteranalytischen Ergebnisse zu reproduzieren und mit denjenigen der Diskriminanzanalyse zu vergleichen. 9.3 Multidimensionale Skalierung Der Menüpunkt Multidimensionale Skalierung befindet sich im Untermenü Klassifikation/Gruppierung (s. Abb. 9.18). c c 114 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Histogramme | LD1 | iris Dichteschätzung 0.0 0.2 0.4 LDA vs. PCA | iris Hauptkomponentenanalyse ccc c ccccc c c c v v c cc v v cc ccc cc v vvvvvvvvvv v cccccccc ccc c cc c vvvvvvvvv v vvvv vcc c c v v vvv vvvvv vcv c vv v cc v c -10 -5 0 LD1 5 -3 -2 Eigenwerte PCA 0.2 4 0.1 PC2 0.0 10 -0.2 5 Comp.1 Abb. 9.23. 9.3.1 Abb. Beispieldatensatz Histogramme erste Diskriminanzachse (Vorhersage aufgrund Modell) 2 3 Comp.2 Abb. 9.24. Comp.3 Comp.4 0 10 20 v c v s v c v vvvv vvv vcccc sss v v vvvvvvv vvcc sss vvv vvccccccc sssssss vvvvvvcc cc Petal.Width ss c ssssssss vvvvvccccccc Sepal.Length sssSepal.Width vvvvccccccccc c sssss v v cc cc ssss v s cc ss 1 0 Gruppe: v 0 -5 0 1 PC1 -20 Variances 2 3 Dichteschätzung 0.0 0.2 0.4 -10 -1 10 ss s -0.2 c c 0.0 PC1 Beispieldatensatz LD und PCA Sinn und Zweck Bei der metrischen mehrdimensionalen Skalierung (MDS) nach Torgerson (1958) wird eine Konfiguration von Punkten gesucht, so dass die Verhältnisse der Distanzen zwischen den Punkten möglichst denen der Distanzen in der Distanzmatrix gleichen. 9.25. Menüpunkt multidimensionale Skalierung Dabei sind bei n Objekten n-1 Dimensionen möglich. Die Vorgabe ist, möglichst wenige dieser zu verwenden und die angemessene Anzahl der Dimensionen zu finden. Das Verfahren ist deswegen zumeist dimensionsreduzierend. Der gesuchte Raum mit minimaler Dimensionalität soll möglichst gut die Monotoniebedingung erfüllen. Das bedeutet, dass die Rangreihe der Distanzen in der gesuchten Konfiguration die tatsächliche Rangreihe der Unähnlichkeit zwischen den Objekten exakt wiedergibt. In der Praxis kann sich dem nur angenähert werden. Demnach ist die Basis der MDS eine Distanzmatrix. Es gelten die Eigenhei- 0.1 20 5 10 0 Gruppe: s 0 -5 -20 -10 v c vv v vvvvvv v cccc vv vvvvvvvvvvvvv ccvvcccccccc vvvvvvvv c cccc cc vvvvv vvc cccccc c v v v cc c c cc cc v cc cc s s ssss ssssssss s ssssssssssss ss sssss ss ss sss -2 s -6 Dichteschätzung 0.0 0.2 0.4 -2 s sss s ss s ssssssssss s ssss ss s ssssssss sssssss 1 10 PC2 0 5 -1 0 Gruppe: c 4 -5 LD2 0 2 -10 2 6 Lineare Diskriminanzanalyse 0.2 9.3. MULTIDIMENSIONALE SKALIERUNG ten bei der Bildung von Distanzmatrizen (s. Kap. 9.1.2). Die Lösung einer MDS ist nicht absolut, sondern relativ. Das heißt, dass Lage und Ausrichtung sowie Skalierung nicht eindeutig sind. Deshalb kann für eine inhaltliche Interpretation der Lösung diese beliebig um den Nullpunkt gedreht werden, um eine solche zu erleichtern. Sowohl Verschiebungen als auch Drehungen um den Nullpunkt verändern nichts strukturell. Gleiches gilt für eine gleichmäßige Vergrößerung der Abstände der Punkte voneinander vom Nullpunkt, da die Koordinaten gleich bleiben. Die Distanzen zwischen den Punkten bleiben gleich. Inhaltlich eindeutiger wird die Konfiguration zumeist dadurch, dass der Nullpunkt als Zentrum genommen wird. Nun kann es für eine leichtere Interpretation noch gedreht werden. Die Lösung einer MDS kann im zweidimensionalen Fall leicht visualisiert werden. Sie ähnelt einer Landkarte und steht für eine Darstellung der Punkte (Objekte) im zweidimensionalen Raum. Die Lösung der metrische MDS auf Basis euklidischer Distanzen entspricht derjenigen der Hauptkomponentenanalyse auf Basis einer Datenmatrix mit quantitativen (metrischen) Merkmalen. Der Unterschied besteht in einer 180 Grad Drehung der Lösungen zueinander, wie Handl (2002) zeigt. Die MDS im dreidimensionalen Fall lässt sich ebenfalls visualisieren. Sie ähnelt dann einer intuitiv verstehbaren dreidimensionalen Landschaft. Die nicht-metrische multidimensionale Skalierung (Kruskal, 1964) entspricht der metrischen MDS, nur dass hier die Reihenfolge der Distanzen und nicht die Distanzen selbst im Fokus stehen. 9.3.2 Theorie Die Ausgangslage bilden metrische Daten. Eine Herleitung ist bei Handl (2002) zu finden. Vereinfacht ist die Lösung einer multidimensionalen Skalierung ein Eigenwert- bzw. Eigenvektorproblem einer aus der Distanzmatrix umgeformten Matrix nach bestimmten Kriterien. Die Koordinaten der Daten ergeben sich aus den m größten Eigenwerten zu einem m-dimensionalen Raum. Zunächst werden die euklidischen Distanzen zwischen den Punkten der Datenmatrix gebildet. Folgend wird eine Konfiguration gesucht in R2 , die diese Distanzmatrix besitzt. Eine solche Lösung ist uneindeutig bzgl. Nullpunkt und Drehung um den Nullpunkt. Das heißt, die Konfiguration kann verschoben werden, ohne dass sich die Distanzen ändern. Es gibt jedoch Distanzmatrizen, für die keine exakte Darstellung im Raum gefunden werden kann. In den Fällen sind mindestens ein oder mehrere Eigenwerte negativ. Durch Addition einer Konstanten c ausserhalb der Hauptdiagonalen der Distanzmatrix lässt sich dies umgehen. Dann “existiert eine exakte Darstellung in R2 ” (ebd., S. 155). Es gilt, dass für jeden größeren Wert von c eine exakte 115 116 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Darstellung in R2 möglich ist. Den Beweis liefern Cox und Cox (1994, S. 35ff.). Eine Konstante c lässt sich bei metrischem Niveau immer addieren. Es werden zwei goodness-of-fit (GOF) Kriterien gelistet (Mardia et al., 1979). Es ist zu schauen, wie nah an Eins diese Werte kommen. Ihre Berechnung basiert grob auf einem Quotienten der Summe der Eigenwerte, wobei im Zähler bis zur gewählten Dimension k aufsummiert wird (max. n-1) und im Nenner bis zur Anzahl n der Beobachtungen (maximale Summe). Zusätzlich wird im Nenner unterschieden, ob absolute Eigenwerte summiert werden oder nur die Eigenwerte größer Null. Daraus resultieren zwei Gütewerte. Obwohl die Analyse einer multidimensionalen Skalierung auch nach der Anzahl der angemessenen Dimensionen fragt, erscheint im qualtitativen Bereich alles über zwei bzw. drei Dimensionen unangemessen. In einem solchen Fall fällt es schwer bzw. wird es unmöglich, die Dimensionen noch inhaltlich zu verstehen und ordentlich zu interpretieren. Deshalb wird empfohlen, mit zwei Dimensionen anzufangen und interessehalber die dritte Dimension zusätzlich zu betrachten oder direkt einzubeziehen, wenn dies theoretisch sinnvoll erscheint. Vieles wird deutlicher, wenn nur zwei oder manchmal drei Dimensionen betrachtet werden, weil dann die reine Nähe und Distanz von Fällen so betont wird, dass es unserem intuitiven menschlichen Verständnis von Nähe und Distanz entgegenkommt. Die Konfigurationen ähneln dann immer einer Landkarte, auf der es leicht fällt sich zu orientieren. Die angemessene Wahl der Dimensionen basiert auf einer Analyse der Eigenwerte. Details hierzu liefert Handl (2002). Zusammenhang von metrischer MDS und Hauptkomponentenanalyse Der Zusammenhang zwischen metrischer multimensionaler Skalierung und Hauptkomponentenanalyse (PCA) ist, dass die Resultate identisch sind, nur um 180 Grad zueinander verdreht. Da die Ergebnisse aber nicht bezüglich Nullpunkt und Drehung eindeutig sind, gelten die Ergebnisse deshalb als identisch. Die Datenbasis ist aber eine unterschiedliche. Bei der Hauptkomponentenanalyse werden metrische Merkmale in Form einer Datenmatrix untersucht. Bei der multidimensionalen Skalierung handelt es sich um eine metrische Distanzmatrix auf Basis euklidischer Distanzen. Eine Datenmatrix kann aber in eine Distanzmatrix überführt werden. Den Beweis liefern Mardia et al. (1979). 9.3.3 Datenbasis Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Reihen zur Bildung von Distanzmatrizen. Standardmäßig wird deshalb die AQUAD 7 Matrix transponiert, damit die Spalten (z.B. nach Sprechercodes) ausgewertet werden. Ist dies nicht erwünscht, ist die Matrix vorab zu transponieren. 9.3. MULTIDIMENSIONALE SKALIERUNG 9.3.4 117 R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 9.26. Das RSkript skaliert standardmäßig vor Berechnung der Distanzen. Die Frage der Normierung von Daten wird bei Handl (2002, S. 86ff.) bzw. Meiser und Humburg (1996, S. 289) hinsichtlich von Vorteilen und Nachteilen gleicher Varianz diskutiert. Wird eine Normierung (Skalierung) nicht gewünscht, kann dies in der Parameterdatei verändert werden. Entsprechende Konsequenzen beim Wegfall der Normierung – eben unterschiedliche Skalenkennwerte – sind zu beachten. Es wird die Distanzmatrix und der zweidimensionale bzw. dreidimensionale Fall der MDS berechnet und ausge- Abb. 9.26. Experteneinstellungen multidigeben. Eigenwerte, Plots und Scatterplots der Dimensionale Skalierung mensionen werden standardmäßig für den zweibzw. dreidimensionalen Fall der MDS generiert. Im zweidimensionalen Fall werden die Ergebnisse mit denjenigen der Prototypenanalyse in der Graphik kombiniert (s. Kap. 9.4), so dass diese Analyse quasi en passent zur Generierung der Plots zusätzlich im Hintergrund durchgeführt wird. Tabellen zu den Eigenwerten und die doppelt zentrierten symmetrischen Distanzmatrix vervollständigen das R-Skript jeweils für den zwei- bzw. dreidimensionalen Fall. 9.3.5 Ausgaben Es werden die folgenden Dateien ausgegeben (s. Tab. 9.7). Die Dateinamen orientieren sich an den Übergaben im Skript. 9.3.6 Ergebnisse und Interpretation Zur Interpretation von cmdscale ist dessen Hilfeseite zu Rate zu ziehen. Das Objekt enthält zunächst die Koordinaten der Punkte auf den Dimensionen der gefundenen Konfiguration. Hinzu kommen die Eigenwerte und die doppelt zentrierte Distanzmatrix. Die optionale additive Konstante c wird ebenfalls gelistet sowie die beiden goodness-of-fit (GOF) Kriterien. Die graphischen Outputs verorten die Punkte und ihre Benennungen – deshalb Abkürzungen verwenden! – im den zwei- bzw. dreidimensionalen Raum. Zusätzlich werden für den zwei- bzw. dreidimensionalen Fall die Eigenwerte geplottet. Eine richtige dreidimensionale Darstellung erlaubt einen räumlichen Blick auf diese Konfiguration. Alle Plots sind letztlich intuitiv interpretierbar im 118 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Inhalt Dateityp Dateiendung R Session Binärfile des R Plots der Multidimensionalen Skalierung Plot .RData .emf Distanzmatrix der Datenmatrix Text .txt Ergebnisse der Multidimensionalen Skalierung Text .txt (Eigenwerte 2D, Scatterplot 2D & 3D, 2D zusammen mit optimaler Schnitt, 3D) (2D, 3D) Distanzmatrix der Datenmatrix Tabelle .csv oder .tab 2D Eigenwerte Tabelle .csv oder .tab 3D Eigenwerte Tabelle .csv oder .tab 2D doppelt zentrierte symmetrische Tabelle .csv oder .tab Tabelle .csv oder .tab Tabelle .csv oder .tab Distanzmatrix 3D doppelt zentrierte symmetrische Distanzmatrix Abkürzungen Reihennamen Tab. 9.7: Dateiausgaben multidimensionale Skalierung Rahmen des menschlichen Verständnisses von Landkarten sowie Nähe und Distanz. Es gilt – mit den Eindrücken und Hypothesen zurück an die Originaldaten, um konkrete Hypothesen bzgl. der Zusammenhänge in den Daten auszuformulieren und sukzessive durchzutesten. 9.3.7 Beispieldatensatz Der Beispieldatensatz entstammt der Studie von Gürtler (2006), die bereits in den Kap. 9.1.6 bzw. 9.4.7 Verwendung findet. Zur Interpretation stehen zunächst die Scatterplots der zwei bzw. drei Achsen des zwei- bzw. dreidimensionalen Falles (s. Abb. 9.27 bzw. Abb. 9.28) zur Verfügung. Dem folgt eine kombinierte Darstellung aus MDS und Prototypenanalyse (s. Kap. 9.4) ebenfalls für den zwei- bzw. dreidimensionalen Fall (s. Abb. 9.29 bzw. Abb. 9.30), die das Landkartenschema repräsentieren. Dies wird durch einen Screeplot der Eigenwerte des zweidimensionalen Falles ergänzt (s. Abb. 9.31). In Ergänzung bzw. Kontrastierung zu den Ausführungen zur hierarchischen Clusteranalyse (s. Kap. 9.1.7) werden durch die Hinzunahme des optimalen Schnitts nicht nur Nähe und Distanz der Personen (Fälle) deutlich, sondern auch ihre Verknüpfungen – wer also welche Verbindungen mit wem aufzeigt und zwar im binären Sinne (Verbindung vorhanden bzw. nicht). 9.3. MULTIDIMENSIONALE SKALIERUNG 119 Int_MC_x_Person_110504 | Scatterplot MDS (3D) Int_MC_x_Person_110504 | Scatterplot MDS (2D) -50 0 0 50 50 50 100 100 -50 -100 0 -100 50 -50 0 Achse I -50 50 0 Achse I 0 60 50 -50 Achse II 20 40 Achse II 0 -40 -20 -50 Achse III -100 -50 Abb. 9.27. 0 50 100 -100 Beispieldatensatz terplot Achsen I (MDS) Scatund II -50 0 Abb. 9.28. 50 100 -40 -20 0 20 40 60 Beispieldatensatz Scatterplot Achsen I, II und III (MDS) und optimaler Schnitt Int_MC_x_Person_110504 Int_MC_x_Person_110504 | MDS (3D) Optimaler Schnitt | MDS (2D) 4 AA 80 EN 3 DK GD AH 60 40 EN 20 CH UV MR -20 100 50 -40 -4 AH 0 -60 -50 -150 -6 -4 -2 0 2 4 -100 -100 Achse I Abb. 9.29. Beispieldatensatz Visualisierung MDS (2D) und optimaler Schnitt -50 0 50 100 150 6 Achse I Abb. 9.30. Beispieldatensatz räumliche Darstellung (MDS 3D) Achse II KL -3 -2 GD UVKL KK MR KK DK 0 Achse III 0 1 AA -1 Achse II 2 CH 120 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Int_MC_x_Person_110504 0 10000 20000 Wert 30000 40000 Eigenvalues (MDS | (2D) 2 Abb. 9.31. 4 6 lfd. Index 8 10 Beispieldatensatz Screeplot Eigenwerte (MDS) Abb. 9.32. Ergebnisausgabe multidimensionale Skalierung Der Screeplot zeigt einen Knick bei der dritten Achse, so dass eine dreidimensionale Lösung gerechtfertigt erscheint. Die goodness-of-fit Kriterien des zweidimensionalen Falles zeigen mit jeweils GOF=0.46 eine eher bescheidenere Größe (s. Abb. 9.32). Somit ist dieses Modell nicht unbedingt eine gute Anpassung an die Daten. Ebenfalls sind die Koordinaten der Punkte sowie die Eigenwerte abzulesen. Für den dreidimensionalen Fall (nicht abgebildet) steigen die Werte jeweils of GOF=0.74, was ein deutlicher Zugewinn ist. Dies spricht für die Verwendung von drei anstatt zwei Dimensionen. 9.4 Prototypen Der Menüpunkt Prototypen on/Gruppierung (s. Abb. 9.33). 9.4.1 befindet sich im Untermenü Klassifikati- Sinn und Zweck Prototypen lassen sich als diejenigen Vertreter eine Klasse definieren, die zu allen anderen Vertretern derselben Klassen die geringste Distanz aufweisen. Die Identifikation eines Prototypen kann helfen, eine Typologie aufzubauen. Dies kann etwa in Kombination mit der Implikantenanalyse (s. Kap. 11.1) stattfinden. Eben- 9.4. PROTOTYPEN so hilft es manchmal, bestimmte Vertreter im Datensatz zu identifizieren, die den Datensatz nach diesem Kriterium maximal oder minimal repräsentieren. Solche Repräsentanten mit maximaler Distanz zu allen anderen müssen nicht zwangsläufig Ausreisser im statistischen Sinne sein – etwa operationalisiert über eine sehr große Entfernung vom Mittelwert. Es ist also zu fragen, welche Vertreter eines Datensatzes besonders typisch oder besonders untypisch sind. Aus dieser Differenz heraus lässt sich im Sinne des maximalen Kontrastes im Rahmen der Methodologie der Grounded Theory (Glaser und Abb. 9.33. Menüpunkt Prototypen Strauss, 1998; s.a. Hildenbrand, 2005, Schaubild S. 69) einiges über das Forschungsfeld und die Strategie der Stichprobengenerierung erlernen, so dass Schlussfolgerungen gezogen und weitere Hypothesen formuliert werden können. Ziel ist es, ein Forschungsfeld zu erfassen und die dortigen typischen und untypischen Vertreter zu rekonstruieren, um die Bandbreite eines Themas möglichst suffizient zu erheben. Dies ist sicherlich kein statistisches Vorgehen, sondern ein genuin qualitatives. 9.4.2 Theorie Das eingesetzte Verfahren orientiert sich an Oldenbürger (1981). Der Autor nennt das Verfahren den optimalen Schnitt durch eine Proximitymatrix. Dieser ist nach (ebd., S.155) wie folgt definiert: “Für eine beliebige Proximitymatrix wähle man das Cutkriterium c so, dass die kophenetische Korrelation zwischen der adjunkten (0,1)Matrix der repräsentierenden Relation und der repräsentierten Proximitymatrix ein Maximum ist. Die Höhe von r cc liefert eine Maßzahl für die globale Bewertung der Abbildungsleistung.” Das Verfahren des optimalen Schnitts erzeugt aus einer Proximitätsmatrix eine Binärtabelle. Auf der Basis von Distanzmatrizen wird diejenige gesucht, die maximal mit sich selbst in Form einer Null-Eins Matrix korreliert, da die größte Abbildungsleistung zu realisieren. Ausgangspunkt ist also eine Distanzmatrix. Nun wird die obere (oder untere) Dreiecksmatrix der Distanzmatrix ohne Diagonale genommen. Für jeden Distanzwert wird die Dreiecksmatrix gesplittet und zwar so, dass all diejenigen Werte di < crit eine Null erhalten und all diejenigen, für die di ≥ crit gilt, eine Eins. Ob das Gleichheitszeichen beim ≤ Zeichen oder ≥ Zeichen verortet wird, ist inhaltlich zu begründen und hat keine statistische Begründung. In gewisser 121 122 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Weise ist es subjektiver Natur, ob größere oder kleinere Werte bezogen auf das Kriterium als Cut-off bevorzugt werden. Das Verfahren führt also einen einfacher Split (Cut-off) der Distanzmatrix durch, indem diese in eine Null-Eins Matrix überführt wird. Als Cut-off dienen alle empirisch vorhandenen Distanzwerte der Distanzmatrix. Die resultierende Null-Eins-Dreiecksmatrix wird mit der originalen Dreiecksmatrix korreliert. Dies wird für jeden Distanzwert durchgeführt. So entsteht ein Vektor v mit Korrelationen r cc . Der Korrelationsvektor v kann als Kurve visualisiert werden. In den meisten Fällen hat sie ein einziges Maximum. Es wird derjenige Distanzwert genommen, für den die Distanzmatrix mit der Null-Eins Matrix maximal korreliert. Die resultierende Null-Eins Dreiecksmatrix wird um die Diagonale ergänzt und die untere (bzw. obere) Dreiecksmatrix, so dass eine volle Prototypenmatrix entsteht. In dieser werden die Zeilen- oder Spaltensummen berechnet, aus denen der Prototyp über Summierung (Zeilen oder Spalten) direkt abgelesen werden kann. Der Prototyp entspringt dem Fall mit der maximalen Zeilen- bzw. Spaltensumme. Der Cut-off wird empirisch bestimmt und der Prototyp ebenfalls. Den Prototypen gilt es inhaltlich zu verstehen und zwar über den Kontrast mit allen anderen Fällen. Hierzu eignen sich Kontraste und Gemeinsamkeiten mit ähnlich prototypischen bzw. mit protountypischen Fällen, die am unteren Ende der Prototypizitätsbestimmung liegen (minimale Zeilen- bzw. Spaltensummen). Diese Vergleiche können anhand von Kodierauszählungstabellen (Matrixanalyse bei Miles und Huberman, 1984) sowie durch qualitative Analyse zustandekommen. Das Verfahren ist explorativ und ohne zufallskritische Absicherung. Ausgangsbasis ist eine Distanzmatrix – genauso wie bei der hierarchischen Clusteranalyse und der multidimensionalen Skalierung. Entsprechend (s. Kap. 9.1 bzw. 9.3) sind dieselben Hürden zu überwinden, nämlich die Wahl der angemessenen Distanzmatrix. Standardmäßig wird die euklidische Distanz gewählt. Andere Distanzmaße (Manhattan, Mahalanobis, etc.) sind theoretisch zu begründen und müssen im R-Skript direkt geändert werden. Prinzipiell ist das möglich. 9.4.3 Datenbasis Die Datenbasis ist eine Häufigkeitstabelle. Ausgewertet wird nach den Reihen zur Bildung von Distanzmatrizen. Standardmäßig wird deshalb die AQUAD 7 Matrix transponiert, damit die Spalten (z.B. nach Sprechercodes) ausgewertet werden. Ist dies nicht erwünscht, ist die Matrix vorab zu transponieren. 9.4. PROTOTYPEN 9.4.4 123 R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 9.34. Das RSkript berechnet zunächst die Distanzmatrix auf Basis euklidischer Distanzen, die als volle Distanzmatrix ausgegeben wird. Folgend wird ein geordneter Vektor erstellt und ausgegeben, der sowohl die einzelnen Distanzen als auch die korrespondierenden Korrelationskoeffizienten zwischen Distanzmatrix und Null-Eins Matrix beinhaltet. Daraus lässt sich die maximale Korrelation und das empirische bestimmte Cut-off Kriterium direkt ablesen, dass als Basis der Null-Eins Matrix Abb. 9.34. Experteneinstellungen Prototyzur Prototypizitätsbestimmung dient. pen Graphisch wird der Korrelationsvektor geplottet und die maximale Korrelation und der zugehörige Distanzwert farblich hervorgehoben. In der Prototypenmatrix werden die Zeilen- bzw. Spaltensummen gebildet, um den Prototypen zu identifizieren. Eine graphische Ausgabe mit Hilfe multidimensionaler Skalierung (s. Abb. 9.29, S. 119) erweitert und ergänzt die Ergebnisse der Prototypenanalyse. Jede Verbindung zwischen den Punkten entspricht einer Eins in der Prototypenmatrix. Keine sichtbaren Verbindungen zwischen Fällen stehen für eine Null in der Prototypenmatrix. Graphisch spannt sich ein Netz von Verbindungen zwischen den Matrixelementen auf, die sehr schön die Zusammenhänge aufzeigen. Parametereinstellungen betreffen zumeist die graphische Ausgabe und sollten nicht verändert werden. Veränderungen lohnen sich dann, wenn die graphische Ausgabe unübersichtlich ist. Es wird standardmäßig mit Abkürzungen der Kodierungsnamen gearbeitet, da AQUAD 7 Kodierungen als Namen sehr lang sein können und sich dies für Graphiken ungünstig erweist. 9.4.5 Ausgaben Es werden die folgenden Dateien ausgegeben (s. Tab. 9.8). Die Dateinamen orientieren sich an den Übergaben im Skript. 9.4.6 Ergebnisse und Interpretation Der Prototypenvektor wird automatisch nach dem Maximum (Cut-off) ausgewertet, der Split durchgeführt und empirisch die Prototypenmatrix bestimmt. Dies ist auch aus den Graphiken einfach ablesbar. Die zusammenfassende Er- 124 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Inhalt Dateityp Dateiendung R Session Binärfile des R Korrelationskoeffizienten Distanzmatrix und Plot .RData .emf Plot .emf volle Distanzmatrix Text .txt Vektor optimaler Schnitt (Distanzwerte, Text .txt Null-Eins Matrizen Multidimensionale Skalierung (2D) unEinmald Prototypenmatrix (inkl. Verbindungen zwischen den Punkten) Korrelationskoeffizient, wenn Distanzwert Cut-off ist) Prototypenmatrix (Null-Eins Matrix) Text .txt Ergebnisse Prototypenanalyse Text .txt (Prototypenmatrix, Cut-off, maximale Korrelation, Prototypenvektor nach Prototypizität geordnet) Tabelle .csv oder .tab Prototypenmatrix (Null-Eins Matrix) Tabelle .csv oder .tab volle Distanzmatrix Tabelle .csv oder .tab Abkürzungen Reihennamen Tabelle .csv oder .tab Vektor optimaler Schnitt (Distanzwerte, Korrelationskoeffizient, wenn Distanzwert Cut-off ist) Tab. 9.8: Dateiausgaben Prototypen gebnisdatei listet die Ergebnisse der Prototypenanalyse auf: Prototypenmatrix, Cut-off, maximale Korrelation und Prototypenvektor nach Prototypizität geordnet. Dies ist fast selbsterklärend. Der Prototypenvektor ist inhaltlich zu untersuchen hinsichtlich seiner Aussagekraft. Dafür ist es notwendig, zurück zu den qualitativen Daten zu gehen und die Fälle in ihrer Gesamtheit zu kontrastieren. Die Prototypenanalyse kann und sollte hierbei leiten. Sie ist jedoch kein zufallskritisch abgesichertes Ergebnis und darf nicht dementsprechend interpretiert werden. Gerade bezogen auf die Zusammensetzung der Kodierungen dürfte das Verfahren nicht sehr robust reagieren, da euklidische Distanzen per se nicht sehr robust sind. Ebenfalls spielt die Anzahl der Eingang findenden Kodierungen eine große Rolle. Auch hier hält sich die Robustheit über verschiedene Ausgangsmatrizen vermutlich in sehr engen Grenzen. Das Verfahren ist vermutlich sehr kontextabhängig. das bedeutet, dieser ist vorab zu definieren. Genaueres könnten Simulationsstudien zeigen. Das Verfahren ist jedoch in einem empirischen Kontext durchaus sehr brauch- 9.4. PROTOTYPEN bar. Gürtler (2006) führte eine Prototypizitätsbestimmung humoristischer Lehrhandlungen durch. Im Rahmen einer qualitativen Videoanalyse wurden Lehrdiskurse eines Meditationsretreats untersucht. Die Forschungsfrage lautete, was das Typische nach einer humoristischen Sequenz war – also was bezogen auf Lehrhandeln typischerweise auf den Humor folgte. Die Intention war die Untersuchung der Rolle von Humor in einem solchen ernsthaften Lehrkontext. Technisch wurden auf Basis der qualitativen Kodierungen mit AQUAD 6 über 16’000 Sequenzhypothesen kombinatorisch in R formuliert und in AQUAD 6 eingelesen und durchgetestet. Diese Liste wurde reduziert, um eine Prototypenanalyse durchzuführen. Als Ergebnis konnte ein von der Literatur postuliertes Ergebnis empirisch reproduziert werden. So wurde als Prototyp eine Sequenz gefunden, die darauf hinwies, dass typischerweise auf eine humoristische Sequenz ein sehr ernsthafter Teil des vermittelnden Lehrmaterials folgte. Dies spiegelt Thesen und empirische Ergebnisse der Humorliteratur, dass nämlich Humor in Lehr-Lernkontexten nicht isoliert eingesetzt werden darf, ausser bei sehr kleinen Kindern. Humor ist kein Selbstzweck. Vielmehr ist es notwendig, Humor streng unter den roten Faden des Lehrstoffes zu subsumieren. Ohne das Zustandekommen dieses Ergebnisses zufallskritisch absichern zu können weist es darauf hin, dass das Verfahren zu interessanten Ergebnissen führen kann, die auch noch plausibel sind. Obwohl bei 16’000 untersuchten Sequenzkodierungshypothesen viel Spielraum für einige sehr ähnliche und durchaus genauso plausible Konfigurationen sein dürfte, wurde durch den Algorithmus ein Ergebnis gefunden, dem aus Expertensicht inhaltlich eine sehr hohe Plausibilität zukommt. Und das ist eine ganze Menge. Es empfiehlt sich deshalb, bei einem größerem Umfang von Hypothesen oder Kodierungen, die die Ausgangsdatenmatrix bilden, eine gewisse Unschärfe für die Interpretation bewusst zu berücksichtigen und nicht streng inferenzstatistisch zu denken. Die Grenzen aufzuweichen entspricht dem weniger ist mehr. Viele Grauzonen zusammengenommen erlauben durchaus scharfe Grenzen zu erkennen. Ebenso macht es Sinn, Daten bzw. Kodierungen zu aggregieren, um ein sehr hohes Niveau großer Abstraktion zu erreichen. Es geht hier nicht um Details, sondern um die großen Tendenzen. Zusätzlich sind Sequenzkodierungen zu verwenden und nicht Einzelkodierungen, da dann Interpretationen leichter fallen und vor allem kontextuell verankert sind. 9.4.7 Beispieldatensatz Es gilt der Datensatz von Gürtler (2006) zu den Interviews mit Lehrenden aus den Bereichen Schule, Universität und Erwachsenenbildung zum Thema Humor. Es liegen Graphiken zu dem Vektor der kophenetischen Korrelationen (s. Abb. 9.35) vor sowie die zweidimensionale Darstellung durch die Mul- 125 126 KAPITEL 9. KLASSIFIKATION UND GRUPPIERUNG Int_MC_x_Person_110504 Int_MC_x_Person_110504 Optimaler Schnitt | MDS (2D) 4 1.0 Optimaler Schnitt durch Proximity Matrix EN 3 DK 0.8 0.78 AH 2 0.7 0.68 0.68 0.66 0.65 0.62 0.58 0.56 1 0.68 0.67 0.61 AA 0 0.66 0.77 0.76 0.75 0.75 0.74 0.73 0.72 0.71 Achse II Korrelationskoeffizient 0.4 0.6 CH 0.77 0.76 0.76 0.75 0.74 0.74 0.73 0.72 0.72 0.71 0.71 0.7 0.7 0.7 0.69 0.69 0.68 0.52 -1 0.51 0.46 0.43 -2 GD UVKL KK MR -4 0.2 -3 0.34 0.0 Optimaler Schnitt bei 8.23 mit max. r= 0.78 -6 -4 -2 0 2 4 Achse I 6 7 8 Werte 9 10 Abb. 9.35. Beispieldatensatz Plot kophenetische Korrelationen Abb. 9.37. Ergebnisausgabe volle Distanzmatrix Abb. 9.36. Beispieldatensatz Visualisierung optimaler Schnitt und MDS Abb. 9.38. Ergebnisausgabe penmatrix Prototy- tidimensionale Skalierung, ergänzt um die Ergebnisse der Prototypenanalyse (s. Abb. 9.36). Linien zwischen den Fällen stehen für eine Verbindung (Wert Eins), fehlende Verbindungen für eine Null in der Prototypenmatrix. Hinzu kommen Ausgaben aus dem R-GUI. Hier sind die volle Distanzmatrix und ein Ausschnitt aus der Matrix der Cut-offs und der assoziierten kophenetischen Korrelationen rcc zu sehen (s. Abb. 9.37). Das letzte Schaubild zeigt die Prototypenmatrix, maximale Korrelation, Cut-off und den Prototypenvektor (s. Abb. 9.38). 6 9.4. PROTOTYPEN Die beiden Graphiken können eigenständig durch die Leser exploriert werden. Die Protoypen bzw. Protountypen sind qualitativ-inhaltlich zu untersuchen. Deshalb wird folgend näher auf die formalen Ergebnisse eingegangen. Die Ausgaben aus dem R-GUI zeigen eine maximale Korrelation von rcc = 0.78 mit dem Cut-off bei einem Distanzwert von d=8.2. Der Distanzwert ist zunächst inhaltlich nicht weiter relevant. Der Prototypenvektor zeigt einen Prototypen (mehrere sind prinzipiell möglich), der Verbindungen mit allen Fällen aufweist. Am untypischsten ist ein Typ, der lediglich zwei Verbindungen aufweist – einen mit dem Prototypen und den anderen mit sich selbst. Verbindungen mit sich selbst werden in der Prototypenmatrix gezählt. Sie könnten aber auch weggelassen werden. In dem Falle müsste manuell die Hauptdiagonale der Prototypenmatrix auf Null gesetzt werden. Von den maximal 100 möglichen Verbindungen > prod(dim(outZO$prototype.mat)) [1] 100 werden 64 (64%) erreicht und 36 (36%) nicht: > sum(outZO$protovec) [1] 64 Das ergibt ein Ratio von 1.8:1 Verbindungen versus keine Verbindungen. Es gibt also fast doppelt soviele Verbindungen wie keine Verbindungen in der Prototypenmatrix. Unklar ist, was dies im Vergleich zu anderen empirischen Studien bedeutet. Hier fehlen Erfahrungswerte bzgl. von Homogenität versus Heterogenität von Gruppen. Eine vollständig homogene Gruppe hat keinen Prototypen (oder nur welche) und eine vollkommen heterogene Gruppe keinen (oder nur). Die Kurve der Prototypizität kann geplottet werden: > plot(outZO$protovec, col=red) 127 Kapitel 10 Inferenzstatistik Zur Inferenzstatistik wird derzeit lediglich der Chi-Quadrat Test angeboten. 10.1 Chi-Quadrat Der Menüpunkt Chi-Quadrat zur Durchführung des Vier-Felderbzw. Mehrfelder Chi2 -Tests befindet sich im Untermenü Inferenzstatistik (s. Abb. 10.1). 10.1.1 Sinn und Zweck Abb. 10.1. Menüpunkt Chi2 -Analyse Der Chi2 -Test testet eine Häufigkeitstabelle (Kontingenztafel) auf eine mögliche statistische Abhängigkeit ihrer Reihen und Spalten. Fällt ein solcher Test statistisch signifikant aus, so können Reihen und Spalten nicht mehr unabhängig voneinander interpretiert werden. Geläufig ist der Vier-Felder bzw. Mehrfelder Chi2 -Test. Die Frage nach einer generalisierten Analyse und nach gerichteten Zusammenhängen führt zu den log-linearen Modellen (Dalgaard, 2002, Kap. 11 für R-Code mit glm). Hierbei wird durch logarithmische Transformation die Analyse mehrdimensionaler Häufigkeitstabellen nachvollziehbar ermöglicht, indem Haupteffekte und Interaktionen einer solchen sich linear zusammensetzen und Varianzen den jeweiligen Effekte zugeordnet werden können. Zu unterscheiden sind allgemeine log-lineare Modelle und die logit Modelle, die auf der logistischen Regression (binomial bzw. multinomial) basieren. Je nach formuliertem Modell kommen häufig die Linkfunktionen Binomial bzw. Poisson als zugrundeliegende Verteilungen zum Einsatz. Hier wird lediglich der einfache Chi2 -Test diskutiert, in R mit chisq.test realisierbar. Im R können log-lineare Modelle durch verschiedene Funktionen 130 KAPITEL 10. INFERENZSTATISTIK berechnet werden (z.B. loglin, glm). Die Pakete MASS, nnet und vcd bieten weitere Funktionen zur Berechnung und visuellen Darstellung von log-linearen Modellen. Die Erweiterungen hin zu hierarchisch linearen Modellen (Pinheiro und Bates, 2009), die auch unter den Namen multi-level models, mixed models, nested models oder random coefficient models bekannt sind, befinden sich in den Paketen HGLMMM, NLME und LME4. R ist hier sehr mächtig. Die Analysen mittels LME4 können sowohl frequentistisch als auch bayesisch interpretiert werden. 10.1.2 Theorie Der hier angewandte Chi2 -Test wurde von Karl Pearson (1900) entwickelt. Es ist ein Test, der darauf testet, ob die frequentistische Nullhypothese H0 der vereinten Zellhäufigkeitsverteilung ein Produkt der Reihen- bzw. Spaltenrandwerte ist. Wird die Hypothese statistisch abgelehnt, so sind Reihen und Spalten abhängig voneinander. Kann die Nullhypothese nicht abgelehnt werden, so liegen keine Hinweise auf eine Abhängigkeit von Reihen und Spalten vor. Die Beibehaltung bzw. Unfähigkeit, die der Nullhypothese H0 abzulehnen ist kein Beweis für die Unabhängigkeit von Spalten und Reihen, sondern steht im Sinne der klassischen Statistik und ihrer Testlogik lediglich für den Status Quo, dass aktuell nicht das Gegenteil bewiesen werden kann im Rahmen der erhobenen empirischen Daten. Es sei daran erinnert, dass der Signifikanztest der klassischen Statistik die Wahrscheinlichkeit von Daten angesichts der Nullhypothese p(D|H0 ) als Kriterium zur Feststellung statistischer Signifikanz nimmt. Dies steht im Gegensatz zur bayesischen Logik, bei der die exakte Wahrscheinlichkeit von miteinander konkurrierenden Hypothesen H1 , H2 , ..., Hx mit p(Hx |D) bezogen auf einen empirischen Datensatz zum aktuellen Stand des Irrtums berechnet wird. Der Chi2 -Test kann prinzipiell als Verteilungs- bzw. Anpassungstest, Unabhängigkeitstest bzw. Homogenitätstest angewandt werden. Im ersten Fall wird die Frage einer bestimmten Verteilung untersucht. Im zweiten Fall wird nach stochastischer Unabhängigkeit von Reihen und Spalten gefragt. Der dritte Fall wiederum überprüft, ob die Daten (mind. zwei Stichproben) einer homogenen Population entspringen und somit dieselbe Verteilung aufweisen. Der erste und der letzte Fall ähneln sich. Für qualitative Zwecke bietet sich zumeist der Unabhängigkeitstest an. Das Verfahren findet im Rahmen klassischer Statistik statt. Die Nullhypothese H 0 lautet, dass die Merkmale X (Reihen) und Y (Spalten) stochastisch voneinander unabhängig sind. Wird die Nullhypothese H 0 aufgrund der Datenlage abgelehnt, ist von einer Abhängigkeit auszugehen. Wird sie nicht abgelehnt, ist dies wie oben bereits erwähnt nicht gleichbedeutend mit einem Beweis für die Unabhängigkeit von Reihen und Spalten. Eine solche Situation verweist lediglich auf die Beibehaltung der Nullhypothese H 0 , die wie der Name schon sagt, 10.1. CHI-QUADRAT 131 Merkmal Y Merkmal X Ausprägung 1 Ausprägung 2 Zeilensumme Ausprägung 1 a b a+b Ausprägung 2 c d c+d Spaltensumme a+c b+d n=a+b+c+d Tab. 10.1: Basis Vier-Felder Chi2 -Test nicht viel aussagt. Getestet wird immer gegen die Nullhypothese H 0 , so dass bei Nichtablehnung derselben der Erkenntnisgewinn doch eher bescheiden ausgeprägt ist. Technisch berechnet der Algorithmus die Reihen- und Spaltensummen und die resultierenden absoluten Randhäufigkeiten. Daraus lassen sich relative Häufigkeiten bzw. relative Randhäufigkeiten berechnen. Stochastische Unabhängigkeit bedeutet, dass die Wahrscheinlichkeit für das gemeinsame Auftreten von zwei Ereignissen gleich dem Produkt der Einzelwahrscheinlichkeiten entspricht: P( A \ B) = P( A) P( B) Daraus lassen sich erwartete Häufigkeiten ableiten und mit den eingetretenen empirischen in einen Bezug setzen. Es resultiert eine Prüfgröße, die χ2 verteilt ist mit (m-1)(r-1) Freiheitsgraden. Hierbei entspricht m der Anzahl der Reihen (Merkmal X) und r der Anzahl der Spalten (Merkmal Y). Es gilt: Je größer die Prüfgröße, desto stärker wird die Nullhypothese H 0 abgelehnt. Der Ablehnungsbereich für H 0 liegt auf der Prüfverteilung rechts. Es sind die entsprechenden Freiheitsgrade einzusetzen. Daraus lässt sich ein Signifikanztest nach Vorgabe einer kritischen Überschreitungswahrscheinlichkeit p.crit ableiten und die statistische Signifikanz ist zu bestimmen. Damit die Prüfgröße überhaupt χ2 verteilt sein kann, braucht es eine Mindestgröße bzw. Mindestzellbesetzungen. Pro Zelle sollten deshalb mindestens 80% der Zellen mit n>=5 Fällen vorliegen bzw. eine Gesamtstichprobe von n>=30. Sonst ist von dem Einsatz des Testes aufgrund fehlender Robustheit in diesem Bereich tendentiell abzusehen. Bei Zellbesetzungem kleiner als fünf wird allgemein empfohlen, den exakten Test von Fisher (1970) durchzuführen. Bei größeren Tabellen ist dieser jedoch sehr rechenintensiv und damit zeitaufwendig. Die Basis des Vier-Felder Chi2 -Test bilden zwei dichotome Merkmale X und Y mit vier kreuztabellierten Werten a, b, c und d die in Form einer 2×2Kontingenztafel (Häufigkeiten) vorliegen (s. Tab. 10.1). Ebenso kann es ein dichotomes Merkmal sein und die Frage lautet dann, ob dieses in zwei Gruppen identisch verteilt ist. Die χ2 -verteilte Prüfgröße des zweiseitigen Tests kann wie folgt verkürzt berechnet werden mit einem Freiheitsgrad und Stichprobengröße n: 132 KAPITEL 10. INFERENZSTATISTIK Tab. 10.2: χ2 = Effektstärke Bedeutung ES ~ 0.1 gering ES ~ 0.3 mittel ES ≥ 0.5 groß Bedeutung Effektstärken nach Cohen n( ad − bc)2 ( a + b)(c + d)( a + c)(b + d) Aber statistische Signifikanz ist nicht alles. Effektstärke Effektstärken und Poweranalysen ergänzen die Feststellung statistischer Signifikanz zwingend (Cohen, 1988; Buchner et al., 1996). Zum Verhältnis von Effektstärke, Power, Stichprobengröße und angesetzter kritischer Überschreitungswahrscheinlichkeit zur Bestimmung von Signifikanz gilt, dass die Größen zusammenhängen und bei freier Wahl von drei dieser Größen die vierte automatisch fixiert ist. Das R-Paket pwr ermöglicht Power- und Effektstärkeanalysen für verschiedene Tests. Entsprechend lässt sich für jede Größe deshalb ein Wert berechnen, so dass immer einer nicht übergeben wird, der dann aus den anderen Größen empirisch zu bestimmen ist. Die Effektstärke gibt an, welche Bedeutung ein statistisch bedeutsames Ergebnis erhält und zwar bezogen auf die Skala der Rohdaten. Im Falle von Mittelwertsvergleichen wird häufig ein standardisiertes Effektstärkemaß verwendet, das Cohen (1988) vorschlägt: Cohen’s d. Alternative Berechnungen standardisierter Mittelwertdifferenzen sind etwa Glass’ 4 oder Hedges’ g. Im Falle von linearen Modellen (Regression, F-Test) eignen sich Cohens’ f 2 bzw. η 2 . Diese Größen beschreiben Varianzunterschiede. Auch die Korrelation wird als Effektstärke verwendet. Für kategoriale Variablen liegen der φ-Koeffizient bzw. Cramer’s V (auch Cramer’s φc genannt) bereit. Je nach Effektgröße muss die Interpretation sorgfältig durchgeführt werden, wie Aaron et al. (1998) anmerken. Je nach Fachgebiet und Anwendungsfall ist zu entscheiden, was als effektstark oder effektschwach gilt. Nach Cohen (1960) wird für die Sozialwissenschaften eine bestimmte Einordnung von inhaltlicher Bedeutung pauschal angenommen und ist kontextuell deshalb immer kritisch zu hinterfragen (s. Tab. 10.2), ob es angemessen ist. 10.1. CHI-QUADRAT Die ausschließliche Angabe statistischer Signifikanz ohne exakte Angaben von exaktem p-Wert, kritischer Überschreitungswahrscheinlichkeit, Stichprobengröße, Power und Effektstärke sowie gegebenenfalls Konfidenzintervall (das jedoch streng genommen in der klassischen Statistik nur eine Umformung des Signifikanztests bzw. von p-Werten darstellt) ist prinzipiell nichtssagend. Dies findet langsam und stetig Eingang in Fachzeitschriften und in die Richtlinien von Berufsverbänden (u.a. APA). Die Angabe der kritischen Überschreitungswahrscheinlichkeit zur Feststellung statistischer Signifikanz ist grundsätzlich theoretisch-inhaltlich zu begründen und sollte nicht aus Unwissenheit oder unreflektierter Übernahme von überlieferten Standardwerten mit 5% (p.crit=0.05) bzw. 1% (p.crit=0.01) angegeben werden (Hubbard, 2004). Fisher selbst nahm in seinem letzten Buch Abstand von den habituell und mechanisch angewandten Konventionen des x% Signifikanzniveaus und bemerkte sehr weise hinsichtlich der Annahme, dieses würde Aussagen über wiederholte Experimente erlauben (Fisher, 1956, S.42): “[It is] absurdly academic, for in fact no scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses, he rather gives his mind to each particular case in the light of his evidence and his ideas.” 10.1.3 Datenbasis Die Datenbasis bildet eine Häufigkeitstabelle mit mindestens zwei Spalten und zwei Reihen. Ausgewertet wird nach Spalten und Reihen. Die Frage der Tansponierung der Matrix wie bei den anderen vorgestellten Verfahren ergibt sich somit nicht. 10.1.4 R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 10.2. Der Chi2 -Test kann im R sowohl auf Basis der empirischen Daten als auch mittels Monte-Carlo (MC) Simulation (Bootstrap) durchgeführt werden. Hierbei werden zufällige Stichproben aus simulierten Kontingenztafeln gezogen, wobei gilt, dass die Randwerte identisch sind zu denjenigen des empirischen Datensatzes und sie müssen positiv sein. Der p-Wert für die χ2 verteilte Prüfgröße wird dann aus der simulierten Prüfverteilung berechnet. Ansonsten ergibt sich der p-Wert aus der asymptotischen Chi2 -Verteilung der Prüfgröße (Teststatistik). Der Parameter B im Skript gibt die Anzahl der Wiederholungen (Simulationen) vor. Für den Spezialfall Vier-Felder Chi2 -Test oder wenn die Variable HC auf TRUE gesetzt ist, wird zusätzlich der exakte Fisher-Test berechnet. 133 134 KAPITEL 10. INFERENZSTATISTIK Inhalt Dateityp Dateiendung R Session Binärfile des R verschiedene Mosaik- und Plot .RData .emf Ergebnisse Chi2 -Test Text .txt Ergebnisse Power/ Text .txt Assoziationsplots Effektstärkenberechnung Ergebnisse Power/ Tabelle .csv oder .tab Tabelle .csv oder .tab erwartete Randsummen Tabelle .csv oder .tab empirische Randsummen Tabelle .csv oder .tab Effektstärkenberechnung Beitrag pro Zelle bzgl. Zustandekommens Prüfgröße/ Chi2 -Wertes Tab. 10.3: Dateiausgaben Chi2 -Test Zusätzlich zur zufallskritischen Absicherung wird die Effektstärke des Chi2 -Tests basierend auf dem empirischen Datensatz berechnet sowie jeweils Power, Stichprobengröße und kritische Überschreitungswahrscheinlichkeit zur Bestimmung der Signifikanz. Das R-Skript übergibt jeweils die Werte bis auf einen, der dann berechnet wird. So lassen sich für alle Werte Kalkulationen aufstellen. 10.1.5 Abb. 10.2. Experteneinstellungen Ausgaben Chi2 -Test Es werden die folgenden Dateien ausgegeben (s. Tab. 10.3). Die Dateinamen orientieren sich an den Übergaben im Skript. 10.1.6 Ergebnisse und Interpretation Die Plots sind entsprechend gängiger Plots von Kontingenztafeln zu interpretieren. Es empfiehlt sich, die Hilfeseiten zu mosaic, mosaicplot, assocplot zu lesen. Die Ergebnisse des Chi2 -Tests sind entlang klassischer Statistikstests zu interpretieren. Für die Simulation (Bootstrap) kommt hinzu, dass die Datenbasis eben simulierte Randverteilungen sind, aus denen eine Prüfverteilung als Basis des Tests generiert wird. Die Power- bzw. Effektstärkeberechnungen werden ver- 10.1. CHI-QUADRAT Abb. 10.4. 135 Beispieldatensatz Ergebnisse Chi2 -Test standen, wenn das entsprechende Konzept als theoretische Grundlage genommen wird (Buchner et al., 1996). Die Hilfeseite zu pwr.chisq.test führt hier weiter. 10.1.7 Beispieldatensatz Wie bereits ausgeführt (s.a. Kap. 8.3.7) entstammt der Datensatz der Kodierung eines Rededuells zwischen J. Kerry und G.W. Bush im Jahre 2004. Es handelt sich in der Ausgangsmatrix um Kodierungen, die für die Begriffe “Nation”, “I” und “we” stehen (Spalten). Die Reihen unterscheiden Bush von Kerry (Sprechercodes, s. Abb. 10.3). Die Hypothese testet also, ob die beiden Redner ähnlich mit 136 KAPITEL 10. INFERENZSTATISTIK Abb. 10.5. Abb. Beispieldatensatz Marginalsummen und Zellbeitrag Chi2 Test Abb. 10.6. Beispieldatensatz Effektstärke und Power Chi2 -Test den Begriffen umgehen oder nicht und zwar bezogen auf ihre absolute Häufigkeit. Dies beinhaltet in keinster Weise eine Hypothesenbildung über die Art und Weise der Verwendung, lediglich das reine isolierte Vorkommen der Kodierungen. Die Nullhypothese H 0 geht davon aus, dass sich keine Unterschiede zeigen und die Kategorien bei beiden Rednern identisch verteilt sind. Die Ablehnung der Nullhypothese bedeutet, dass Kerry und Bush die genannten Kategorien unterschiedlich häufig zeigen, was inhaltlich bedeuten 2 10.3. Ausgabe Datenbasis Chi -Test würde, dass die Verwendungshäufigkeit der Begriffe nicht unabhängig vom Redner gesehen werden darf. Und dann bedarf es weiterer Untersuchungen am Text, um genau zu rekonstruieren, wie die beiden mit Sprache unterschiedlich umgehen. Darüber sagt der Test nichts aus. Die Ergebnisse sowohl des Chi2 -Tests als auch der Simulation zeigen (s. Abb. 10.4), dass bei Annahme einer – nicht wirklich inhaltlich begründbaren – kritischen Überschreitungswahrscheinlichkeit p.crit=0.05 die beiden Redner sich nicht unterscheiden. Die Nullhypothese kann nicht zurückgewiesen 10.1. CHI-QUADRAT 137 Plots für Kontingenztabellen /$Kerry /$Bush /$Kerry X_we word X_we word X_i /$Bush <-4-4:-2-2:0 0:2 2:4 >4 X_nation kerrybush.csv X_i X_nation kerrybush.csv speaker speaker X_we word X_i X_nation kerrybush.csv /$Bush /$Kerry speaker Abb. 10.7. Beispieldatensatz Plots Chi2 -Test 138 KAPITEL 10. INFERENZSTATISTIK werden. Es gibt aber eine Tendenz hin zu verschiedenen Häufigkeiten. Wird also inhaltlich die Grenze etwas unschärfer gefasst – oder auch inhaltlich angemessener, erscheint eine p.crit=0.1 realistischer angesichts des Datensatzes. Dann würde die Nullhypothese klar zurückgewiesen werden. Wird die Originalmatrix (s. Abb. 10.6, oberste Tabelle in blau) näher untersucht, fällt auf, dass Kerry doppelt so häufig die “Nation” erwähnt wie Bush und ein Drittel mal so häufig aber auch von sich selbst (“I”) redet. Bush hingegen ist nur minimal im Vorteil, die Verallgemeinerung des “wir” zu verwenden. Die Tabelle in demselben Schaubild darunter zeigt die erwarteten Häufigkeiten und Marginalsummen aufgrund des Chi2 -Tests. Die unterste Tabelle zeigt den individuellen Beitrag jeder Zelle für das Zustandekommen der χ2 -Prüfgröße. Die Effektstärke- und Poweranalysen (s. Abb. 10.6) zeigen sowohl eine bescheidene Effektstärke als auch Power. In rot steht jeweils darüber, welche Größe berechnet wurde, was bedeutet, dass alle anderen Größen vorgegeben wurden. Eine angemessene Stichprobe für ein p.crit=0.05 müsste mehr als doppelt so hoch sein, um den Test ordentlich durchzuführen. Ein angemessenes p.crit würde bei ungefähr p.crit=0.28 liegen, um eine faire Testchance zu ermöglichen. Dies liegt noch um einiges von dem entfernt, was weiter oben versucht wurde, inhaltlich zu begründen. Daraus wird deutlich, dass der statistische Signfikanztest – alleine betrachtet – wertlos ist, ohne dessen Entstehungskontext (Effektstärke, Power, Stichprobengröße) näher zu beachten. Leitend ist die Erkenntnis: Wird eine Stichprobe nur groß genug, wird alles signifikant. Also müssen angesichts einer bestimmten Stichprobengröße die anderen Parameter sorgfältig gewählt werden. Dies kann durch inhaltliche Begründung, auf Basis von Simulationen, durch früheren Studien, etc. vonstatten gehen. Die deskriptiven Plots (s. Abb. 10.7) ergänzen die Visualisierung der Kontingenztafeln und reichen häufig schon aus, um eine Tendenz zu erkennen. Ein statistischer Test sollte diesen visuellen Eindruck lediglich auf Zahlenbasis erhärten, aber nichts wirklich Neues zeigen. Die Ergebnisse sagen überhaupt nichts darüber aus, in welchem Kontext oder in welcher Form Bush bzw. Kerry die Begriffe nutzen und einsetzen, ob positiv oder negativ, ob rechtfertigend oder in einem sinnvollen Handlungskontext, etc. Dies ist Aufgabe der qualitativen Analyse. Interessant wäre hier, entsprechende Sequenzhypothesen zu formulieren und diese dann mit Hilfe eines Mehrfelder Chi2 -Tests näher zu untersuchen oder direkt mittels log-linearer Modelle. Dann können strukturelle Informationen in den Test eingehen, was die reine Häufigkeit von Kategorien nicht ermöglicht. Statistische Hypothesen sollten möglichst immer strukturelle Informationen beinhalten, weil die Ergebnisse sonst häufig nichtssagend bzw. wenig erkenntniserhellend sind. Gerade im qualitativen Bereich geht es nicht um reine Häufigkeiten, sondern um Sinn- und Handlungsrekonstruktion. Ebenfalls sollten Hypothesen gegeneinander getestet werden und 10.1. CHI-QUADRAT nicht Hypothesen gegen eine unspezifische Nullhypothese (Mehl, 1978; Waller, 2004). 139 Kapitel 11 Qualitativ komparative Analyse Der Menüpunkt QCA (Implikanten) befindet sich im Menü R-Statistik (s. Abb. 11.1). 11.1 Implikantenanalyse und Boolesche Algebra 11.1.1 Sinn und Zweck Das Verfahren der Implikantenanalyse wird im AQUAD 7 Manual (Huber und Gürtler, 2012, Kap. 11) ausführlich besprochen. Die Lektüre dieses Kapitels wird folgend vorausgesetzt. Das Verfahren der Implikantenanalyse erlaubt die heuristische Identifikation von minimalen Sets Abb. 11.1. Menüpunkt Implikantenanalyse von Variablen bzgl. ihres logisch-kausalen Einflusses auf ein Kriterium. Damit wird untersucht, welche Bedingungen (Sets von Variablen) notwendig sind, damit ein Kriterium eintritt (positiver Fall) oder nicht (negativer Fall). Die Implikantenanalyse kann somit den Generalisierungsverfahren zugeordnet werden. Ebenso eignet sie sich für Meta-Analysen. Genealisiert wird dann über Kodiersets bzw. über Fälle (z.B. Personen) hinweg. Im engeren Sinne wird es den abduktiven Verfahren (Peirce, 1965, 1997) zugerechnet. Das Ziel kann etwa die Erstellung einer Typologie (Kluge, 2000 bzw. Kelle und Kluge, 1999) sein oder die Identifikation wirksamer Bedingungskombinationen innerhalb einer Meta-Analyse. Sets von Variablen beschreiben Fälle bzw. Fallkonstellationen, die mit den anderen Fallkonstellationen zu kontrastieren sind. So können die Bereiches eines Forschungsfeldes relativ gut und überschaubar abgesteckt werden wie die Eckpfeiler eines unbekannte Raumes zu dessen Kartographierung. Das Verfahren zeigt Lösungen zu Fällen, jedoch nicht zu allen. Entsprechend sind die nicht enthaltenen Fälle genauer zu untersuchen. Ebenso ist 142 KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE die Analyse sowohl für eine positive als auch für eine negative Formulierung des Kriteriums durchzuführen. 11.1.2 Theorie Das Kriterium kann entweder positiv oder negativ formuliert sein. Getestet werden sollte bei empirischen Daten sowohl die Minimierung angesichts des positiv definierten Kriteriums als auch des negativ formulierten. Das hat zum Ziel, aus der Differenz der Ergebnisse ein besseres Verständnis der Daten zu erlangen. Einseitiges Testen ist aus unserer Sicht zu wenig, denn die Ergebnisse werden sich vermutlich unterscheiden. Die Bedingungen für das Eintreten eines Ereignisses entsprechen nicht denjenigen, die für das Nichteintreten desselben Ereignisses logischkausal verantwortlich sind. Entgegen der Meinung mancher Forscher (u.a. Ragin, 1987), kann das Verfahren aus unserer Sicht nicht Kausalität in der Realität nachweisen. Rein methodische Verfahren wie Statistik oder Logik können generell keine Kausalität nachweisen, sondern nur eine gute theoretische Begründung kann dies. Unterstützt das Verfahren eine solche gute theoretische Begründung, die kausal formuliert ist, so können kausale Einflussfaktoren näher in Betracht gezogen werden. Letztlich hängt die Frage der Kausalität direkt an der Frage der Wahrheitsfindung (“Besteht echte und reale Kausalität oder nicht?”) und ist damit eine streng wissenschaftstheoretische Fragestellung. Gemeinhin (s. etwa Popper, 1943, aber auch die bayesische Logik des plausiblen Schlussfolgerns, Jaynes, 2003) gibt es aber keine wirkliche im Sinne der absoluten Wahrheit in der Wissenschaft, sondern nur eine relative. Wahrheitskriterien sind immer relativ. Entsprechend ordnen wir das Verfahren ein. Die Implikantenanalyse erlaubt relative Aussagen zu logischkausalen Einflüssen von Sets von Bedingungen auf positiv bzw. negativ formulierte Kriterien. Der zugrundeliegende Quine-McCloskey Algorithmus (McDermott, 1985) wird im R Paket QCA (bzw. auch QCA3 sowie ein GUI QCAGUI ) quasi vollständig umgesetzt. Das R-Paket erlaubt auch die Anwendung von fuzzy logic (Ragin, 2000) und wird von Thiem und Dusa (2013) mit empirischen Beispielen und Daten ausführlich erläutert. Die Autoren sind ebenfalls die Autoren des R-Paketes QCA. Das R-Skript nutzt die exakten Parameterbezeichnungen, die auch das originale R-Skript nutzt. Diese werden quasi direkt weitergereicht. Das erlaubt den leichten Wechsel von AQUAD 7 direkt zum R und zurück. Es muss nichts umgelernt oder angepasst werden. Auf fuzzy logic wird hier verzichtet, da je mehr Abstufungen im fuzzy logic hinzugefügt werden, desto stärker erweckt es den Eindruck, hintenrum ein höherwertiges (multinomiales) Skalenniveau wieder einzuführen. Besser erscheint es dann, gleich in ein gutes Skalenniveau zu investieren und entsprechende exak- 11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA A b C A B C Bedingung 2 A – C Bedingungen nach Vergleich (minimiert) Tab. 11.1: Bedingung 1 Beispiel Quine-McCluskey Algorithmus (AQUAD 7 style) 1 0 1 Bedingung 1 1 1 1 Bedingung 2 1 – 1 Bedingungen nach Vergleich (minimiert) Tab. 11.2: Beispiel Quine-McCluskey Algorithmus (truthtable) te statistische Analysen durchzuführen. Die binäre Version der Implikantenanalyse bietet hingegen eine große Eleganz und Vereinfachung bei der Datenanalyse. Interessierte AnwenderInnen können jedoch leicht das R Paket für fuzzy logic verwenden. Es bedarf dann eines guten Kriteriums, welches multinomial unterteilt ist. In einem solchen Falle sollten die Ergebnisse jedoch mit denjenigen der bekannten Familie der (hierarchischen) allgemeinen Modelle verglich werden, um herauszufinden, welche Analyse zu besseren Resultaten führt. R erlaubt eine graphische Darstellung der Ergebnisse in Form von VennDiagrammen, die auf John Venn (1834–1923) zurückgehen. Die Autoren Thiem und Dusa (2013) von QCA finden bis zum Grad fünf, dass Venn-Diagramme intuitiv nachvollziehbar sind, jedoch nicht mehr danach. Leider ist das entsprechende R-Skript der Autoren so aufgebaut, dass nicht einfach die Anzahl der Bedingungen hochgesetzt werden kann, da sie eine externe Funktion aus dem Paket VennDiagram nutzen. Es wäre notwendig, jeweils angepasst die höhergradigen Lösungen zu programmieren. Deshalb gibt es derzeit keine Venn-Diagramme jenseits von Quintupel. Zur Verfügung stehen geordnete Paare, Tripel, Quadrupel und eben Quintupel. Der Quine-McCluskey Algorithmus Das Verfahren des Quine-McCluskey Algorithmus ist streng logisch und rechnet nichts. Es geht nach der folgenden einfachen Regel vor, um Bedingungen bezogen auf ein Kriterium zu minimieren: “[...] combine rows that differ on only one cause, if they have the same output value [...]” (Ragin, 1987, S.96). Beispiel: AbC kombiniert mit ABC wird zu AC (s. Tab. 11.1 bzw. Tab. 11.2). 143 144 KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE Der Algorithmus lässt sich nicht abkürzen. Das heißt, das jede Zeile (Fall) mit jedem vorhandenen Fall (Zeile) verglichen wird, um mögliche Minimierungen zwischen zu vergleichenden Fällen zu überprüfen und gegebenenfalls durchzuführen. Iterativ wird dies wiederholt, bis keine Minimierungen mehr möglich sind. Es bleibt ein logisch minimierter Satz von Bedingungen übrig, zu denen jeweils bestimmte Fälle gehören, die also dieselbe Bedingungen teilen bezogen auf das Zustandekommen des Kriteriums (positiv, negativ). Damit wächst mit steigender Anzahl von Variablen und Fällen die Anzahl der zu testenden Vergleiche sehr stark an. Die exakte Anzahl von Vergleichen lässt sich aus der Kombinatorik ableiten (Permutation). Das zugrundeliegende Problem ist NP-vollständig und deshalb gibt es vermutlich keinen effizienten Algorithmus. Ergebnisse müssen jedoch interpretiert werden und in einem Kontext verortet. Damit noch etwas vernünftiges und interpretierbares herauskommt, wird in AQUAD 7 die Anzahl der Bedingungen inkl. Kriterium auf n=12 begrenzt (AQUAD 7 Manual, Huber und Gürtler, 2012, S. 150). Es stehen somit n=11 unabhängige Bedingungen offen. Lassen sich keine primären bzw. essentiellen Implikanten finden, wird eine leere Tabelle ausgegeben. Es kann sein, dass dann das R-Skript diverse Fehlermeldungen ausgibt, da Folgeoperationen (z.B. Erstellung von Venn-Diagramm, etc.) nicht mehr möglich sind, da das zentrale Ergebnis fehlt. Primäre und essentielle Implikanten Die Unterscheidung von primären und essentiellen Implikanten ist nicht ganz einfach und wird folgend versucht: ⇒ Ein Implikant deckt als Summenterm oder Summenproduktterm P Teile einer booleschen Funktion F (mit n Variablen) ab. Es gilt: P impliziert F. Damit ist P ein Implikant von F. Wenn also der Term P den Wert 1 annimmt, so nimmt P ebenfalls den Wert 1 an. Es gibt zunächst sehr viele Implikanten. Technisch sieht es so aus, dass in einer Wahrheitswerttabelle alle Zeilen (Fälle) über die Bedingungen (Spalten) hinweg Implikanten des Kriteriums (positiv oder negativ formuliert) darstellen. Die Aufgabe der booleschen Minimierung ist es, die Anzahl der Implikanten so zu minimieren, dass minimale Sets von Implikanten (Bedingungen) übrig bleiben, die möglichst kurz sind und in ihrer Gesamtheit alle Fälle erklären können hinsichtlich des Zustandekommens des Kriteriums (Funktion F). Hierbei können sich hinsichtlich ihrer Abdeckung der Fälle die so erzeugten Primärimplikanten überschneiden oder nicht (s. Tab. 11.3). Diese Überschneidung oder nicht bildet das Unterscheidungskriterium zwischen normalen Primärimplikanten und essentiellen (Primär-)Implikanten. Alle essentiellen Implikanten sind immer auch Primärimplikanten. 11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA ⇒ Ein primärer Implikant einer booleschen Funktion F ist ein Implikant, der nicht durch einen generelleren Implikant ersetzt werden kann. Generell verweist auf einen Implikanten, der weniger Bedingungen (Elemente) aufweist und so stärker minimiert ist. Ein primärer Implikant von F ist dann minimal, wenn die Entfernung einer einzigen Bedingung (d.h. eines Elements) dieses Implikanten dazu führt, dass dieser Implikant kein Implikant von F mehr ist. Das zeichnet die Qualität eines Primärimplikanten aus. ⇒ Essentielle Implikanten sind zunächst immer auch Primärimplikanten, die jedoch einen Teil der Funktion F abdecken, den keine andere Kombination von Primärimplikanten abzudecken vermag. Essentielle Implikanten überschneiden sich deshalb nicht und können als höherwertige Primärimplikanten verstanden werden. Das bedeutet, dass keines dieser Sets weggenommen werden darf, da sonst nicht mehr alle Lösungen vollständig vorhanden sind bezogen auf das Gesamtproblem der Minimierung. Sie sind nicht austauschbar. In der Primärimplikantentabelle können diese leicht abgelesen werden: Es wird davon ausgegangen, dass in den Spalten die Bedingungen (Primärimplikanten) stehen und in den Zeilen die Fälle. Essentielle Implikanten sind dann all diejenigen, die einzeln in einer Zeile stehen, also Fälle abdecken, die nur durch sie abgedeckt werden können und durch keinen anderen Primärimplikanten. Stehen in einer Zeile mehr als ein Implikant, sind diese prinzipiell austauschbar und damit keine essentiellen, sondern lediglich primäre Implikanten. Das Handout von Nowick (2006) verdeutlicht dies (s. Abb. 11.3). Nach dieser Regel kommen als essentielle Implikanten nur acd und ACD in Frage, da die Fälle 0 und 11 je nur durch diese beiden abgedeckt (erklärt) werden können. Alle anderen Fälle weisen mindestens zwei Primärimplikanten auf, die diese Fälle abdecken und damit prinzipiell austauschbar sind. Es kann empirisch vorkommen, dass es nur primäre, jedoch keine essentiellen Implikanten gibt. Ebenso ist es denkbar, dass keine Minimierung der Ausgangsmatrix möglich ist. Bei der Interpretation der Ergebnisse ist die Unterscheidung primäre versus essentielle Implikanten unbedingt zu beachten, da jeweils die Definition und der Geltungsbereich bezogen auf die Fälle unterschiedlich ist. Dementsprechend ändert sich die Interpretation. 11.1.3 Datenbasis Als Datenbasis dient entweder eine reine Wahrheitswerttabelle (TRUE, FALSE) oder eine Häufigkeitstabelle. Ausgewertet wird nach den Spalten, in denen die Bedingungen und das Kriterium stehen. Die Reihen sind die Fälle. Transponieren 145 146 KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE Primärimplikanten acd aBc BcD ABD ACD Fälle (0,4) (4,5) (5,13) (13,15) (11,15) 0 × × × × × 4 5 × 11 × 13 15 Tab. 11.3: × × × Bildung essentielle Implikanten würde aufgrund der Struktur von AQUAD 7 Tabellen keinen oder nur seltenst Sinn machen. Technisch würden dann Kodierungen durch Sprechercodes vorhergesagt statt umgekehrt, dass die Bedingungen Sprechercodes (Spalten) sind und die Kodierungen die Fälle (Zeilen). Deshalb wird die Option nicht angeboten. Wird eine externe Tabelle (etwa zur Meta-Analyse) herangezogen, ist sie entsprechend vorab zu transponieren bzw. im geschilderten Format zu erstellen. Die Häufigkeitstabelle wird in einem ersten Schritt in eine Wahrheitswerttabelle umgewandelt. Zur Umwandlung der Häufigkeitstabelle in Wahrheitswerte wird als Standard 50% der Fläche genommen (Perzentil P50 oder Quantil Q0,5 ). Es gibt keinen anderen logischen Grund, der intuitiv nachvollziehbar und theoretisch begründbar wäre. Liegt doch einer vor, muss das Kriterium manuell geändert werden. Dies ist dann explizit in der eigenen Arbeit theoretisch zu begründen. Die so erzeugte oder bereits vorliegende Wahrheitswerttabelle kann direkt an das R-Skript übergeben werden. Notwendig sind dann die folgenden Optionen: ⇒ Auswahl der Bedingungen (Implikanten P) ⇒ Auswahl des Kriteriums (Boolesche Funktion F) ⇒ Auswahl, ob das Kriterium positiv oder negativ formuliert ist Intuitiv steht ein positives Kriterium für das Zustandekommen des Kriteriums und ein negatives Kriterium für das nicht-Zustandekommen. 11.1.4 R-Skript und Einstellungen Die Experteneinstellungen zeigt Abb. 11.2. Die vollständigen Parameteroptionen sind in Anhang B.11 abgedruckt. Das R-Skript übernimmt wortwörtlich die Parameternamen aus dem originalen R-Paket QCA und dem Aufruf eqmcc, das die 11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA Inhalt Dateityp R Session Binärfile des R Venn-Diagramm Plot .emf Ergebnisse Boolesche Minimierung Text .txt Tab. 11.4: 147 Dateiendung .RData Dateiausgaben Implikantenanalyse eigentliche Boole’sche Minimierung durchführt. Hierzu sind die Hilfeseiten zu truthTable, eqmcc und superSubset zu lesen bzw. Thiem und Dusa (2013). Das Venn-Diagramm wird erstellt, wenn die Bedingungen gegeben sind . Es werden bis zu fünf Sets (Quintupel) gezeichnet. Das entspricht einem Kriterium und vier Bedingungen. 11.1.5 Ausgaben Es werden die folgenden Dateien ausgegeben (s. Abb. 11.4). Die Dateinamen orientieren sich an den Übergaben im Skript. 11.1.6 Ergebnisse und Interpretation Die Interpretation richtet sich nach den Ausführungen im Manual zu AQUAD 7 (Huber und Gürtler, 2012, Kap. 11). Die Ergebnisse listen sowohl die Ausgangstabellen (in AQUAD 7 Format bzw. als Null-Eins Wahrheitswerttabelle, s. Abb. 11.3) als auch die primären und – wenn vorhanden – essentiellen Implikanten auf Abb. 11.2. Experteneinstellungen Implikantenanalyse (s. Abb. 11.4 bzw. 11.5). Je nach Fall können diese Ergebnisse identisch sein. Hinzu kommen die fundamentalen Ausgangsprodukte (s. Abb. 11.4), die in die Boolesche Minimierung eingehen und zu den primären bzw. essentiellen Implikanten führen. Kongruent hierzu werden die Fälle aufgezeigt, die durch die primären bzw. essentiellen Implikanten abgedeckt werden. Für alle weiteren Ausgaben von eqmcc sei auf dessen Hilfeseite verwiesen bzw. Thiem und Dusa (2013). Für eine qualitative Interpretation reicht es aus, die primären bzw. essentiellen Implikanten und die Abdeckung der jeweiligen Fälle zu untersuchen. Dies sollte für die positive wie negative Formulierung des Kriteriums durchgeführt werden, um nicht nur die resultierenden primären (essentiellen) Implikanten zu vergleichen, sondern ebenso die Abdeckung aller Fäl- 148 KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE Abb. 11.3. Datenbasis Implikantenanalyse Abb. 11.5. Ergebnisse primäre und essentielle Implikanten Abb. 11.4. Ergebnisse Boolesche Minimierung le. Die obigen Abbildungen verwenden den klassischen Originaldatensatz von Ragin aus dem Jahre 1996 (Ragin, 1987). Es gilt, dass eine 0 (Null bzw. FALSCH) für die Abwesenheit oder Nichtabdeckung und eine 1 (Eins bzw. WAHR) für die Anwesenheit oder Abdeckung von Fällen durch primäre bzw. essentielle Implikanten steht. Das Venn-Diagramm (s. Abb. 11.6 bzw. 11.7) – wenn gezeichnet – visualisiert die jeweilige Lösung. Dieses wird standardmäßig für essentielle Implikanten und das Kriterium erstellt. Die aufgeführten Zahlen weisen auf die Anzahl der Fälle, die jeweils durch eine bestimmte Schnittmenge erklärt werden können. 11.1. IMPLIKANTENANALYSE UND BOOLESCHE ALGEBRA 11.1.7 Beispieldatensatz Im Manual zu AQUAD 7 (Huber und Gürtler, 2012, Kap. 11) wird die Studie von Ragin (1987) ausführlich besprochen. Der Datensatz erlaubt die Visualisierung (Tripel) als Venn-Diagramm (s. Abb. 11.6). Aus einem weiteren Datensatz von Krook (2010, s.a. für eine Analyse des Datensatz in R, Thiem und Dursa, 2013) lässt sich ein Quintupel (s. Abb. 11.7) zeichnen. Abb. 11.6. Beispieldatensatz Venn-Diagramm (Ragin) 149 150 KAPITEL 11. QUALITATIV KOMPARATIVE ANALYSE Abb. 11.7. Beispieldatensatz Venn-Diagramm (Krook) Literatur Aaron, B., Kromrey, J., & Ferron, J. (1998). Equating r-based and d-based effectsize indices: Problems with a commonly recommended formula. paper presented at the annual meeting of the florida educational research association, orlando, fl. ERIC Document Reproduction Service No. ED433353. 132 Anderson, E. (1936). The species problem in iris. Annals of the Missouri Botanical Garden, 23, 457–509. 19, 112 Bacher, J. (1994). Clusteranalyse: Eine anwendungsorientierte Einführung. München: Oldenbourg. 92 Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (1996). Multivariate Analysemethoden. Eine anwendungsorientierte Enführung. 8. Auflage. Berlin: Springer. 88, 91, 106, 107 Bateson, G. (1985). Ökologie des Geistes. Anthropologische, psychologische, biologische und epistemologische Perspektiven. Frankfurt am Main: Suhrkamp. 26 Bock, H. H. (1974). Automatische Klassifikation. Göttingen: Vandenhoeck und Ruprecht. 86, 87 Bolstad, W. (2007). Introduction to Bayesians Statistics. Hoboken, New Jersey: John Wiley and Sons, Inc. 94 Bretthorst, G. (1993). On the difference in means. In W. Grandy & P. Milonni (Eds.), Physics and Probability Essays in honor of Edwin T. Jaynes (pp. 177– 194). Cambridge: Cambridge University Press. http://bayes.wustl.edu/ glb/diff.pdf. 22, 57, 94 Buchner, A., Erdfelder, E., & Faul, F. (1996). Teststärkeanalyse. In E. Erdfelder, R. Mausfeld, T. Meiser, & G. Rudinger (Eds.), Handbuch Quantitative Methoden (pp. 123–136). Weinheim: Beltz/ PVU. 132, 135 Cohen, J. (1960). A coefficient for agreement of nominal scales. Educational and Psychological Measurement, 20, 37–46. 132 152 LITERATUR Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale: Erlbaum. 132 Cox, T. & Cox, M., Eds. (1994). Multidimensional scaling. London: Chapman and Hall. 116 Dalgaard, P. (2002). Introductory statistics with R. New York: Springer. http: //www.biostat.ku.dk/~pd/ISwR.html. 39, 129 Daumenlang, K. (1995). Graphische analysetechniken für multivariate daten. In E. Roth (Ed.), Sozialwissenschaftliche Methoden. 4. Auflage (pp. 548–572). München: Oldenbourg Wissenschaftsverlag. 90 Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7(1), 1–26. . 109 Efron, B. & Tibshirani, R. (1993). An introduction to the boostrap. Boca Raton/ Florida: Chapman and Hall/CRC. 109 Fielding, N. & Schreier, M. (2001). On the compatibility between qualitative and quantitative research methods. FQS – Forum Qualitative Sozialforschung, 2(1) Art.4. 25 Fisher, R. (1915). Frequency distribution of the values of the correlation coefficient in samples of an indefinitely large population. Biometrika, 10(4), 507–521. urlhttp://www.jstor.org/stable/2331838. 80 Fisher, R. (1921). On the ’probable error’ of a coefficient of correlation deduced from a small sample. Metron, 1, 3–32. url. 80 Fisher, R. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics (London), 7, 179–188. 19, 108, 112 Fisher, R. (1956). Statistical methods and scientific inference. Edinburgh, London: Oliver and Boyd. 133 Fisher, R. (1970). Statistical methods for research workers. Edinburgh, London: Oliver and Boyd. 131 Flick, U. (2000). Triangulation in der qualitativen forschung. In U. Flick, E. v. Kardorff, & I. Steinke (Eds.), Qualitative Forschung. Ein Handbuch (pp. 309–318). Reinbek bei Hamburg: Rowohlts Enzyklopädie. 25 Fox, J. (2002). An R and S-PLUS companion to applied regression. Thousands Oaks, California: Sage Publications. http://socserv.mcmaster.ca/jfox/. 39 LITERATUR Friedman, J. (1989). Regularized discriminant analysis. Journal of the American Statistical Association, 84, 165–175. 108 Galanter, E. (1956). An axiomatic and experimental study of sensory order and measure. Psychological Review, 63, 16–28. 89 Glaser, B. G. & Strauss, A. L. (1998). Grounded Theory. Strategien qualitativer Forschung (Original 1967: The discovery of Grounded Theory). Bern: Hans Huber. 121 Gläser-Zikuda, Michaela und Seidel, T. u. R. C. u. G. A. u. Z. S., Ed. (2012). Mixed Methods in der empirischen Bildungsforschung. Münster: Waxmann. 25 Goodman, L. & Kruskal, W. (1954). Measures of association for crossclassification. Journal of the American Statistical Association, 49, 732–764. 92 Gopal, V., Fuentes, C., & Casella, G. (2012). bayesclust: An r package for testing and searching for significant clusters. Journal of Statistical Software, 47(14), 1–21. http://www.jstatsoft.org/v47/i14/. 98 Gürtler, L. (2006). Die Rekonstruktion von Innensicht und Aussensicht humorvollen Handelns in Schule und Erwachsenenbildung. Die Bewältigung der Katastrophe — Vipassan¯a-Meditation und Humor. Berlin: Logos. 61, 66, 71, 82, 99, 105, 118, 125 Guo, Y., Hastie, t., & Tibshirani, R. (2007). Regularized linear discriminant analysis and its application in microarrays. Biostatistics, 8(1), 86– 100. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.125. 1168&rep=rep1&type=pdf. 108 Handl, A. (2002). Multivariate Analysemethoden. Theorie und Praxis multivariater Verfahren unter besonderer Berücksichtigung von S-PLUS. Berlin: Springer. 39, 86, 90, 91, 92, 93, 95, 98, 108, 115, 116, 117 Hartung, J. & Elpelt, B. (1999). Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. München: Oldenbourg Wissenschaftsverlag. 85, 88, 92 Hildenbrand, B. (1999/ 2005). Fallrekonstruktive Familienforschung. Anleitungen für die Praxis. 2. Auflage. Wiesbaden: Verlag für Sozialwissenschaften. 121 Hubbard, R. (2004). Alphabet soup. blurring the distinctions between p’s and alpha’s in psychological research. Theory and Psychology, 14 (3), 295–327. 133 Huber, G. & Gürtler, L. (2012). AQUAD Sieben. Manual zur Software AQUAD 7. (1. Auflage 2012). Tübingen: Softwarevertrieb Günter Huber. http://www.aquad. de. 17, 25, 26, 60, 66, 68, 71, 141, 144, 147, 149 153 154 LITERATUR Hubert, L. (1974). Approximate evaluation techniques for the single-link and complete-link hierarchical clustering procedure. Journal of the American Statistical Association, 69, 698–704. 92 Jaynes, E. (2003). Probability theory: The logic of science. Edited by G. Larry Bretthorst. Cambridge: Cambrige University Press. 58, 79, 94, 142 Kelle, U. & Kluge, S. (1999). Vom Einzelfall zum Typus. Fallvergleich und Falkontrastierung in der qualitativen Sozialforschung. Opladen: Leske + Budrich. 141 Klenner (2004). Lexikonaufbau und morphologieanalyseverfahren. http://www. ifi.unizh.ch/cl/klenner/lehre/ss04/morphologie/skript-wort.4.pdf. 72 Kluge, S. (2000). Empirisch begründete typenbildung in der qualitativen sozialforschung. Forum Qualitative Sozialforschung, 1. http://www. qualitative-research.net/fqs-texte/1-00/1-00kluge-d.htm. 141 Krämer, W. (2011). So lügt man mit Statistik. München: Piper. 63 Krook, M. (2010). Women’s representation in parliament: a qualitative comparative analysis. Political Studies, 58 (5), 886–908. 149 Kruskal, J. (1964). On the shortest spanning subtree of a graph and the travelling salesman problem. Psychometrika, 29, 115–129. 115 Ligges, U. (2009). Programmieren mit R. Heidelberg: Springer. 39 Loredo, T. (1990). From Laplace to Supernova SN 1987A: Bayesian Inference in Astrophysics. In P. Fougère (Ed.), Maximum Entropy and Bayesian Methods (pp. 81–142). Dordrecht, NL: Kluwer Academic Publishers. http://bayes.wustl. edu/gregory/articles.pdf. 94 Loredo, T. (1992). The Promise of Bayesian Inference for Astrophysics. In E. Feigelson & G. Babu (Eds.), Statistical Challenges in Modern Astronomy (pp. 275– 297). New York: Springer. http://www.astro.cornell.edu/staff/loredo/ bayes/promise.pdf. 94 Mardia, K., Kent, J., & Bibby, J. (1979). Multivariate analysis. London: Academic Press. 116 Martinez, A. M. & Kak, A. C. (2001). Pca vesus lda. IEEE Transactions on pattern analysis and machine intelligence, 23(2), 228–233. http://www2.ece. ohio-state.edu/~aleix/pami01.pdf. 108 LITERATUR Mayring, P. (2001). titativer ansätze. Kombination und integration qualitativer und quanForum Qualitative Sozialforschung, 2. http://www. qualitative-research.net/fqs-texte/1-01/1-01mayring-d.htm. 25 McCarthy, P. (2005). An assessment of the range and usefulness of lexical diversity measures and the potential of the measure of textual, lexical diversity (MTLD). Memphis: University of Memphis. 72 McDermott, R. (1985). Computer-aided logic design. Indianapolis: Howard W. Sams and CO., Inc. 142 McGoldrick, M. & Gerson, R. (2000). Genogramme in der Familienberatung. Bern: Hans Huber. 26 Mehl, P. (1978). Theoretical risks and tabular asterisks: Sir karl, sir ronald, and the slow progress of soft psychology. Journal of Consulting and Clinical Psychology, 46, 806–834. 139 Meiser, T. & Humburg, S. (1996). Klassifikationsverfahren. In E. Erdfelder, R. Mausfeld, T. Meiser, & G. Rudinger (Eds.), Handbuch Quantitative Methoden chapter II, (pp. 279–290). Weinheim: Beltz: PVU. 87, 89, 117 Miles, M. B. & Huberman, M. A. (1984). Qualitative Data Analysis. A sourcebook of new methods. Beverly Hills: Sage. 122 Milligan, G. (1980). An examination of the effect of six types of error pertubation on fifteen clustering algorithms. Psychometrika, 45, 325–342. 87 Milligan, G. & Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50, 159–179. 93 Mojena, R. (1977). Hierarchical grouping methods and stopping rules: an evaluation. Computer Journal, 20, 359–363. 93 Morse, J. M. (2003). Principles of mixed methods and multimethod research design. In A. Tashakkori & C. Teddlie (Eds.), Handbook of mixed methods in social and behavioral research (pp. 189–208). Thousand Oaks: Sage Publ. 25 Murrell, P. (2005). R Graphics. Boca Raton/ London: Chapman and Hall/ CRC. 39 Norwick, S. (2006). The Quine-McCluskey Method. Handout 5. Technical report, Columbia University, Computer Science, CSEE W4861y. http://www. cs.columbia.edu/~cs4861/handouts/quine-mccluskey-handout/. 145 155 156 LITERATUR Oevermann, U. (2000). Die Methode der Fallrekonstruktion in der Grundlagenforschung sowie der klinischen und pädagogischen Praxis. In K. Kraimer (Ed.), Die Fallrekonstruktion. Sinnverstehen in der sozialwissenschaftlichen Forschung (pp. 58–156). Frankfurt am Main: Suhrkamp. 26 Oldenbürger, H. A. (1981). Methodenheuristische Überlegungen und Untersuchungen zur »Erhebung« und Repräsentation kognitiver Strukturen. Dissertation zur Erlangung des Doktorgrades der Mathematisch-Naturwissenschaftlichen Fachbereiche der Georg-August-Universität Göttingen. Göttingen/ Braunschweig: Technische Universität Carolo-Wilhelmina. 86, 87, 88, 89, 95, 121 Oldenbürger, H. A. (1994). Clusteranalyse. In T. Herrmann (Ed.), Enzyklopädie der Psychologie, volume 4 chapter 7, (pp. 390–439). Göttingen: Hogrefe. 86, 87, 88 Oldenbürger, H. A. (1996). Exploratorische, graphische und robuste datenanalyse. In E. Erdfelder, R. Mausfeld, T. Meiser, & G. Rudinger (Eds.), Handbuch Quantitative Methoden chapter I, (pp. 71–86). Weinheim: Beltz: PVU. 63, 88 Oldenbürger, H. A. (2003). Repräsentation von proximitymatrizen durch clusteranalysen und deren evaluation — r-programme (clustana). Zuletzt: 17.06.2004, Zugriff: 21.09.2004, http://www.liteline.de/~holdenb/ fst/nwz/R-PHP/ClustAna.R. 88 Oldenbürger, H. A. & Becker, D. (1976). Are there clusters of frequencies in power-spectra of eeg? how to find and prove them statistically. In M. Matejcek & G. Schenk (Eds.), Quantitative analysis of the EEG. Proceedings of 2nd Symposium of the Study Group for EEG Methodology, Jongny sur Vevey, Mai 1975 (pp. 601–611). Konstanz: AEG-Telefunken. 86 Pearson, K. (1900). On the criterion that a given system of derivations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(5), 157–175. 130 Peirce, C. S. (1965). Collected papers of Charles Sanders Peirce: Vol V.: Pragmatism and pragmaticism; Vol. VI: Scientific metaphysics (C. Harsthorne, and P. Weiss, Eds.). Cambridge, MA: The Belknap Press of Harvard University Press. 141 Peirce, C. S. (1997). Pragmatism as a principle and method of right thinking. (Edited by P.A. Turrisi). New York: State of University of New York Press. 141 Piranheiro, J. & Bates, D. (2009). Mixed-effects models in S and S-PLUS. New York: Springer. 39, 130 LITERATUR Popper, K. (1943). Logik der Forschung. 11. Auflage 2005, herausgegeben von Herberth Keupp, Tübingen: Mohr. Wien. 142 Quenouille, M. (1956). Notes on bias in estimation. Biometrika, 43, 353–360. 109 R Development Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna/ Austria. http: //www.r-project.org. 20 Ragin, C. C. (1987). The comparative method. Moving beyond qualitative and quantitative strategies. Berkeley: Berkeley University Press. 18, 142, 143, 148, 149 Ragin, C. C. (2000). Fuzzy-Set Social Science. Berkeley: Berkeley University Press. 142 Restle, F. (1959). A metric and ordering on sets. Psychometrika, 24, 207–220. 89 Sayre, S. (2001). Qualitative methods for marketplace research. Thousand Oaks: Sage. 70 Smith, J. (1983). Quantitative versus qualitative research: An attempt to clarify the issue. Educational Researcher, 12(3), 6–13. 25 Stark, Robin und Renkl, A. u. G. H. u. M. H., Ed. (1996). Learning from workedout examples: The effects of example variability and elicited self-explanations. (Forschungsbericht Nr. 76). LMU München: Lehrstuhl für Empirische Pädagogik und Pädagogische Psychologie. http://epub.ub.uni-muenchen.de/184/. 37 Studer, U. (1996). Wahrscheinlichkeit als Logik: Die formale Struktur konsistenten Schlussfolgerns. Technical report, Zürich. Zwischenbericht an das Bundesamt für Justiz (BAJ) vom Dezember 1996. 94 Studer, U. (1998). Verlangen, Süchtigkeit und Tiefensystemik. Technical report, Zürich. Evaluationsbericht an das Justizministerium (BAJ) der Schweiz, http: //www.ofj.admin.ch/themen/stgb-smv/ber-mv/37.pdf. 19, 23, 94 Studer, U. (2006). Probability theory and inference: How to draw consistent conclusions from incomplete information. Qualitative Research in Psychology, 3, 329–345. 19, 94 Tashakkori, A. & Teddlie, C., Eds. (2003). Handbook of mixed methods in social and behavioral research. Thousand Oaks: Sage. 25 Thiem, A. & Dusa, A. (2013). Qualitative comparative analysis with R. A user’s guide. Ney York: Springer. 142, 143, 147, 149 157 158 LITERATUR Torgerson, W., Ed. (1958). Theory and methods of scaling. New Work: Wiley. 114 Tukey, J. W. (1977). Exploratory data analysis. Boston: Addison-Wesley. 18, 62 Venables, W. & Ripley, B. (2002). Modern applied statistics with S. Fourth Edition. New York: Springer. 88 Waller, N. (2004). The fallacy of the null hypothesis in soft psychology. Applied and Preventive Psychology, 11, 83–86. . 139 Zoonekynd, V. (2007). Statistics with R. Technical report. http://zoonek2.free. fr/UNIX/48_R/all.html. 39 Teil IV Anhang Anhang A R-Skripte, Parameter und Beispiele hcluster.r lda.r Int_MC_x_Person_old.csv iris.csv Clusteranalyse Lineare Klassifikation/ Gruppierung Klassifikation/ Gruppierung Chi-Quadrat Qualitative Inferenzstatistik QCA/ Implikanten – – übergreifend/ Funktionssammlung übergreifend/ Funktionssammlung Analyse komparative Prototypen Klassifikation/ Gruppierung Skalierung Multidimensionale Verfahren aquad_func.r transpose.r booleanalgebra.r Ragin96.csv – chisquare.r – optcut.r chisquare.csv mds.r FR_Codes_freq.csv FR_Codes_freq.csv – – booleanalgebraparameter.aqd chisqparameter.aqd optcutparameter.aqd mdsparameter.aqd ldaparameter.aqd hclusterparameter.aqd descplotparameter.aqd desccorparameter.aqd descstatsparameter.aqd wordfreqparameter.aqd Parameterdatei Tab. A.1: Klassifikation/ Gruppierung descplot.r FR_Codes_freq.csv Plots Deskriptive Statistik Diskrimination desccor.r FR_Codes_freq.csv Korrelation Deskriptive Statistik kerrybush_wl.txt me), kerrybush_sp.txt, descstats.r Verteilungsdeskription FR_Codes_freq.csv Deskriptive Statistik wordfreq.r (AQUAD_7 Projektna- kerry_bush Worthäufigkeiten Deskriptive Statistik R-Skript Beispieldatensatz Analyse A.1 Analysebereich 162 ANHANG A. R-SKRIPTE, PARAMETER UND BEISPIELE Übersicht AQUAD 7 kommt mit den folgenden R-Skripten, Parameterdateien und Beispieldatensätzen: Überblick Anhang B R Skripte – Parameter B.1 Transponierung [tparameter] Tab. B.1: tparameter default value Transponierung possible values FR_Codes_freq.csv B.2 explanation note Name Datei zum transponieren Verteilungsdeskriptionen [descstats] Tab. B.2: Verteilungsdeskription descstats default value infilenam FR_Codes_freq.csv possible values explanation note trans FALSE TRUE/, FALSE transpose table before analysis informat 1 1, 2 input format (mostly csv) or tab-limited outformat 1 1, 2 output format (mostly csv) or tab-limited nk 2 input filename digits after comma 20 6 TRUE TRUE maxcol labbrev histprob multi 1 outformat 3 1 informat 20 FALSE trans maxrow FR_Codes_freq.csv nk default value infilenam plot several plots on one page probabilities of frequencies in case of histograms number of characters to abbreviate names maximum number of rows of input file maximum number of columns of input file digits after comma output format (mostly csv) input format (mostly csv) transpose table before analysis input filename explanation not used anymore or tab-limited or tab-limited note Tab. B.3: TRUE, FALSE TRUE, FALSE 1, 2 1, 2 TRUE, FALSE possible values B.3 descplot 164 ANHANG B. R SKRIPTE – PARAMETER Plots [descplot] Plots default value kerrybush_tf.txt kerrybush_cf.txt kerrybush_sp.txt TRUE kerrybush_wl.txt kerrybush 1 2 2 txtinfnam codinfnam speakcinfnam wortlist wortlistnam prjnam outformat nk critcount very low occurences) words & CO remove single (or with process only words with or tab-limited writing frequency > critcount digits after comma output format (mostly csv) required for output file reduction project name read word list for metafile, contains word list read speaker codes read codes read pure text note filename to read reduce by wordlist? filename to read metafile, contains speaker code filenames to read metafile, contains *.aco filenames to read metafile, contains *.atx explanation Tab. B.4: 1, 2 TRUE, FALSE possible values B.4 wordfreq B.4. WORTHÄUFIGKEITEN [WORDFREQ] 165 Worthäufigkeiten [wordfreq] Worthäufigkeiten default value FR_Codes_freq.csv FALSE 1 1 3 20 6 panel.shade panel.pie panel.density infilenam trans informat outformat nk maxdim labbrev lowerpanel upperpanel diagpanel panel.minmax panel.density, panel.bar, panel.conf panel.ellipse, panel.pts, panel.shade, panel.pie, panel.bar, panel.conf see R manual ?corrgram see R manual ?corrgram see R manual ?corrgram number of characters to abbreviate names maximum number of dimensions (columns) digits after comma output format (mostly csv) input format (mostly csv) transpose table before analysis input filename explanation or tab-limited or tab-limited note Tab. B.5: panel.ellipse, panel.pts, panel.shade, panel.pie, 1/, 2 1, 2 TRUE/, FALSE possible values B.5 descorr 166 ANHANG B. R SKRIPTE – PARAMETER Korrelationen [descorr] Korrelation 100 0.25 prop TRUE BOOT nsimnull 3 ngroup 2 TRUE abbrev k TRUE label 3 1.1 fac repli TRUE proba 0.1 100 nperm 0.5 1 bootn mcs TRUE scaling aR 6 labbrev 0.06 2 nk 500 1 outformat nsim 1 informat at least 0.25 8000–10000 at least strictly k > 1 choose mcs < 1 n to remove mcs, 0 < aR <1 at least >500000 TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE 1, 2 1, 2 TRUE, FALSE possible values at each iteration proportion of partition space that is sampled from number of draws from distribution of P(H_0|Y) Hypothesis to test! Assumed number of clusters replication of the (whole) chain (test) of MCMC isolated bayesclust – only for experts bayesclust – only for experts bayesclust – only for experts bayesclust – only for experts bayesclust – only for experts bayesclust – only for experts percentage of time that the random walk is chosen bayesclust – only for experts n groups dendrograms, ie. Assume required for plotting leave as it is | only for experts use TRUE or tab-limited or tab-limited note minimum cluster size, prevents outliers as being (see R vignette) value of M in equation 10 of the Bayes Factor BF critical value to determine statistical significance do pvclust bootstrapping? cut hierarchical cluster object at group n abbreviate names? print labels in dendrograms? factor to display plots properly instead of frequencies plot hierarchical clustertest histogram probabilities call number of permutations for hierarchical clustertest number of bootstraps for pvclust call scale values number of characters to abbreviate names digits after comma output format (mostly csv) input format (mostly csv) transpose table before analysis input filename explanation Tab. B.6: alphalevel FALSE trans freq.csv FR_Codes_- value default B.6 infilenam hcluster B.6. CLUSTERANALYSE [HCLUSTER] 167 Clusteranalyse [hcluster] Clusteranalyse default value iris.csv iris_groupfactor.txt FALSE 1 1 2 6 B LDA TRUE 100 TRUE TRUE infilenam groupfile trans informat outformat nk labbrev typ method sim nsim compareLDAQDA compareLDAPCA TRUE, FALSE TRUE, FALSE TRUE, FALSE LDA, QDA compare LDA with PCA compare LDA with QDA number of simulations simulate? method of analysis type of simulation abbreviate names number of characters to digits after comma output format (mostly csv) input format (mostly csv) analysis transpose table before group filename input filename explanation (I)nternal Jack-knife/ (J)ack-knife (B)ootstrap/ (P)ermutation/ or tab-limited or tab-limited required! note Tab. B.7: B, P, I, J 1, 2 1, 2 TRUE, FALSE possible values B.7 lda 168 ANHANG B. R SKRIPTE – PARAMETER Lineare Diskrimination [lda] Lineare Diskrimination TRUE 1.1 TRUE expand fac linien TRUE TRUE scaling TRUE FALSE labbrevMDSplot hprot 6 labbrev protoplot 2 nk TRUE 1 outformat TRUE 1 informat texte TRUE trans TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE 1, 2 1, 2 TRUE, FALSE possible values print names on plot.prototype highlight prototype? leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts print points on plot.prototype show prototype connections leave as it is | only for experts leave as it is | only for experts print lines on plot.prototype leave as it is | only for experts use TRUE or tab-limited or tab-limited note factor to display plots properly use fac to expand grid scale values use abbreviated names for MDS plot? number of characters to abbreviate names digits after comma output format (mostly csv) input format (mostly csv) transpose table before analysis input filename explanation Tab. B.8: punkte default value FR_Codes_freq.csv infilenam B.8 mds B.8. MULTIDIMENSIONALE SKALIERUNG [MDS] 169 Multidimensionale Skalierung [mds] Multidimensionale Skalierung FR_Codes_freq.csv TRUE 1 1 2 6 TRUE TRUE TRUE 1.1 3 TRUE TRUE TRUE TRUE TRUE infilenam trans informat outformat nk labbrev labbrevMDSplot scaling expand fac pos linien punkte texte protoplot hprot default value TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE TRUE, FALSE plot.prototype print names on plot.prototype show prototype connections highlight prototype? print points on print lines on plot.prototype on plot.prototype position where to print names factor to display plots properly use fac to expand grid scale values MDS plot? use abbreviated names for abbreviate names number of characters to digits after comma output format (mostly csv) input format (mostly csv) transpose table before analysis input filename explanation leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts leave as it is | only for experts use TRUE or tab-limited or tab-limited note Tab. B.9: TRUE, FALSE TRUE, FALSE TRUE, FALSE 1, 2 1, 2 TRUE, FALSE possible values B.9 optcut 170 ANHANG B. R SKRIPTE – PARAMETER Prototypen [optcut] Prototypen default value chisquare.csv TRUE 10000 1 2 FALSE 0.1 0.05 0.8 speaker word infilenam HC reps outformat nk proptrendtest ES alphalevel powerv rnam cnam colnam of contingency table rownam of contingency table power value significance critical value to determine statistical effect size perform also prop.trend.test digits after comma output format (mostly csv) bootstrapping chisquare number replications for perform exact Fisher test? input filename explanation not yet used or tab-limited HC==TRUE dim==2x2 or Fisher test if note Tab. B.10: TRUE/ FALSE 1/2 TRUE, FALSE possible values B.10 chisquare B.10. CHI QUADRAT [CHISQUARE] 171 Chi Quadrat [chisquare] Chi Quadrat TRUE, FALSE leave as it is | only for experts see R manual package ’qca’: ?truthTable 0 essential TRUE vennstyle fileyn 1 incl.cut cov.cut TRUE necessity relation rowdom details TRUE FALSE all.sol TRUE, FALSE essential, all TRUE, FALSE TRUE, FALSE TRUE, FALSE variables!) (PI) for Venn Diagram write Venn Diagram directly to file R restrictions (number of use all or only essential primary implicants leave as it is | only for experts 1 explain leave as it is | only for experts leave as it is | only for experts see R manual package ’qca’: ?truthTable see R manual package ’qca’: ?superSubset FALSE sort.by TRUE, FALSE leave as it is | only for experts see R manual package ’qca’: ?truthTable see R manual package ’qca’: ?truthTable leave as it is | only for experts TRUE show.cases TRUE, FALSE leave as it is | only for experts see R manual package ’qca’: ?truthTable leave as it is | only for experts TRUE complete leave as it is | only for experts see R manual package ’qca’: ?truthTable see R manual package ’qca’: ?superSubset 1 incl.cut0 neg.out == FALSE → positive outcome leave as it is | only for experts 1 incl.cut1 outcome variable negative or positive outcome? see R manual package ’qca’: ?superSubset 1 n.cut TRUE, FALSE see R manual package ’qca’: ?eqmcc FALSE neg.out cut off < cutoff (below) OR cut off <= cutoff (notbelow) leave as it is | only for experts D outcome below, notbelow quantile crit% for cutoff (0.5 ~ 50%) leave as it is | only for experts below critype if input file = aquadstyle (aA etc) then convert to 1/0 truth table see R manual package ’qca’: ?eqmcc 0.5 crit TRUE, FALSE calculate cutoff based on quantiles? Or already cutoff? or tab-limited or tab-limited see R manual package ’qca’: ?eqmcc TRUE aquadstyle TRUE, FALSE output format (mostly csv) input format (mostly csv) leave as it is | only for experts FALSE cutoffreq 1, 2 input filename leave as it is | only for experts 1 outformat 1, 2 note see R manual package ’qca’: ?eqmcc 1 informat explanation Tab. B.11: include Ragin96.csv infilenam possible values B.11 see R manual package ’qca’: ?eqmcc default value booleanalgebra 172 ANHANG B. R SKRIPTE – PARAMETER Implikanten [booleanalgebra] Implikanten Anhang C R-Lernskripte Die R-Lernskripte liegen in den Verzeichnissen “Einführung_in_R_part[1-3]”. Neben dem eigentlichen *.r Skript sind zusätzlich die jeweligen Ausgaben (.csvDatei, Textdatei, Graphik) mit enthalten sowie das Abbild der R-Sitzung (Image) mit einer Historie der Befehlseingaben. Das zweite Skript hat zusätzlich als Input einen Datensatz aus der PISA Studie. Es empfiehlt sich, mit einer Kopie der Verzeichnisse bzw. Skripte zu arbeiten, um den eigenen Output (oder Veränderungen) mit dem originalen vergleichen zu können. Der Beispieldatensatz ist in dasselbe Verzeichnis wie das R-Skript zu kopieren oder der Dateipfad muss angepasst werden. Konkret sollten die R-Skripte mit einem R-Editor geöffnet werden, der Code direkt an R senden kann. Dann können die Zeilen im Sinne der “worked examples” abgearbeitet werden. Dabei lohnt es sich, gleich die jeweiligen Befehle abzuändern, um die Funktionsweise von R besser zu verstehen. Die R-Lernskripte decken einen Minimalkonsens ab, um die ersten Schritte mit R zu ermöglichen. Dem sollte ein Grundlagenbuch zu RAnwendungsbereichen der Statistik folgen. Am leichtesten arbeitet es sich, wenn regelmäßig die manpages der R-Befehle zu Hilfe genommen werden und die Vignetten gelesen, sofern welche vorliegen. Die folgenden R-Lernskripte liegen vor: 174 ANHANG C. R-LERNSKRIPTE Tab. C.1: Lernskripte Skriptname Inhalte R-als-Taschenrechner_v1.r Einführung R, R als Taschenrechner, Bemerkungen Umgang mit Objekten, plotten R-desk-Stat_v1.r Automatisierung von Aufgaben in R: Schleifen, Funktionen, Objektorientiertheit R-zur-Simulation_v1.r Umgang mit Simulation, Zufallswerten aus Verteilungen und graphische Ausgabe Beispieldatensatz: PISA
© Copyright 2024