View · Index

Sekundäranalyse

Was ist eine Sekundäranalyse?

Verallgemeinert lässt sich sagen, dass eine Sekundäranalyse – im Gegensatz zur Primäranalyse – anhand von Daten durchgeführt wird, die bereits erhoben bzw. auch analysiert wurden (Dale, Arber, & Procter, 1988, S. 3). Daten sind die in geeigneter Form festgehaltene und abrufbare symbolische Repräsentation der bei den Untersuchungseinheiten beobachteten Merkmale (Kromrey, Roose, & Strübing, 2016, S. 212). Diese (Primär-)Daten können einerseits für einen anderen (Forschungs-)Zweck, als die mittels der Sekundäranalyse untersuchten Fragestellungen, gesammelt worden sein (Committee on National Statistics, 1993, S. 9; Hakim, 1982 S. 1; Hyman, 1972 S. 1; Roose, 2013; Stewart, 1984, S. 11). Andererseits können aber auch idente Fragestellungen behandelt werden, mit dem Ziel sie erneut anhand derselben Daten, jedoch bspw. mit anderen statistischen Analysemethoden zu untersuchen (Glass, 1976). Die Daten können sowohl von einer anderen Person bzw. Institution (Klingemann & Mochmann, 1975, S. 178) als auch von demselben bzw. derselben Forscher*in, welche/r die Sekundäranalyse durchführt, erhoben worden sein (Schutt, 2007, S. 4135). Sekundärdaten stammen darüber hinaus entweder aus einer Datenquelle oder wurden aus verschiedenen Quellen integriert (Stewart, 1984, S. 11). Letzteres ist bspw. der Fall, wenn Makrodaten (z.B.: BIP) und Mikrodaten (z.B.: die Einstellung von Personen zu gewissen Themengebieten) zusammengespielt und für Mehrebenenanalysen genutzt werden. Häufig sind die produzierten Sekundärdatensätze nicht ausschließlich für eine spezifische Fragestellung erhoben worden (Hakim, 1982, S. 95ff., Stewart, 1984, S. 11), sondern umfassen eine Vielzahl an Themen (Stichwort: Omnibusumfragen) und werden bewusst der Öffentlichkeit bzw. der wissenschaftlichen Community für Forschungszwecke zugänglich gemacht (Roose, 2013; Vezzoni, 2015). Solche sozialwissenschaftlichen Sekundärdaten, wie sie DataWiki präsentiert, sind üblicherweise das Resultat der (wissenschaftlichen) Survey Forschung oder amtlicher Statistik (Smith, 2008). Eine wichtige Rolle nimmt die europäische Union ein, welche ländervergleichende Surveys mitfinanziert bzw. zur besseren Koordination Erhebungen wie den EU-SILC angestoßen hat.

Zusammenfassend bezieht sich die Sekundäranalyse auf eine Analyse von gesammelten Daten, die auf systematische Art und Weise, entweder auf Individual- oder aggregierter Ebene, sortiert sind und aus einer oder mehreren Datenquellen stammen, mit dem Ziel eine Fragestellung zu beantworten, die unabhängig von jener, auf deren Basis die Daten ursprünglich erhoben wurden, sein kann.

Die Sekundäranalyse geht dabei über den reinen Umgang mit bereits erhobenen Datensätzen hinaus, es handelt sich eher um eine eigene Art der Forschung, welche von der Definition der Fragestellung bis zur Entwicklung eines adäquaten Forschungsdesigns reicht (Merton, 1973; Roose, 2013). Auch wenn die Auswahl eines bestimmten Sekundärdatensatzes durchaus nach inhaltlichen Gesichtspunkten erfolgt, „wird nicht einfach ein bestehender Datensatz für eine feststehende Fragestellung eingesetzt, sondern die Fragestellung selbst ergibt sich nicht unwesentlich aus den verfügbaren Daten“ (Roose, 2013, S. 708). Das Kapitel „Forschungsprozess“ widmt sich diesem Thema genauer.


Abgrenzung zur Metaanalyse und Big Data

Im Zuge einer Metaanalyse werden bisherige Studien zu einem bestimmten Thema analysiert. D.h. es werden die Ergebnisse der Studien, die eine statistische Analyse erlauben, auf systematische Weise sortiert. In diesem Sinne ist eine Metaanalyse eine Primäranalyse, wobei die einzelnen Studien die Analyseeinheiten darstellen (Vezzoni, 2015).

Big Data kann aus allen möglichen Bereichen stammen: Aus dem Internet, einer Firma oder von Regierungen und internationalen Organisationen. Die Daten werden oft in unsortierter Form zur Verfügung gestellt, Informationen über die Population auf die sich die Daten beziehen oder zur Repräsentativität, sind meist nicht gegeben. Surveys stellen demgegenüber eine Vielzahl an Metadaten, wie in etwa Informationen zur Datenerhebung, Entstehung der Fragebögen, Stichprobenverfahren, Zielpopulation, Repräsentativität, Antwortraten etc. bereit, um wissenschaftlichen Qualitätskriterien zu genügen. Während Sekundäranalysen zudem auf eine tiefergehende Information und Beschreibung abzielen, steht bei Big Data die Quantität im Vordergrund. Sekundärdatensätze bestehen daher im Vergleich zu Big Data Datensätzen aus einer größeren Anzahl an Variablen, im Gegenzug dazu beinhalten Big Data Datensätze für gewöhnlich bedeutend mehr Fälle. Der Analyseansatz ist bei Big Data datenorientiert, wohingegen er in der Sekundäranalyse vorwiegend auf theoretischen Annahmen beruht (Vezzoni, 2015).

Vor- und Nachteile der Sekundäranalyse

Sekundäranalysen anhand von Surveydaten anerkannter Forschungseinrichtungen stellen durch ihre (meist) hohe Qualität bei gleichzeitig leichter Verfügbarkeit ein ideales Übungsfeld dar. Sie ermöglichen es, in einem ersten Schritt bisherige Forschungsergebnisse zu replizieren und deren Einschränkungen zu reflektieren bzw. mögliche Lösungen zu finden. In einem weiteren Schritt kann eine eigene Fragestellung entwickelt und überprüft werden, wobei sich hier die Notwendigkeit einer präzisen Fragestellung sowie der Verbindung zwischen den Hypothesen und den Daten zeigt. Außerdem führen Sekundärdatensätze zu einer Auseinandersetzung mit dem Survey-Design, insbesondere der Stichprobenziehung und der Fragebogenkonstruktion, d.h. der Operationalisierung von Konstrukten, der Skalenbildung, der Reihung von Fragen etc. (Smith, 2008; Sobal, 1981). Ebenso wird dadurch die Komplexität bestimmter Fragestellungen bzw. Grenzen der Durchführbarkeit von Untersuchungen deutlich. Im Zuge dieser Schritte nähert man sich sukzessive der „richtigen“ akademischen Forschung an (Vezzoni, 2015).

Neben der Möglichkeit, mittels Sekundärdatensätzen empirisches Forschen „zu üben“, geht die Verwendung von Sekundärdatensätzen mit einer Reihe weiterer Vorteile, aber auch Nachteile bzw. Herausforderungen einher, die es gilt, für jedes Forschungsprojekt erneut abzuwägen. Die wichtigsten werden hier kurz dargestellt:

Vorteile Nachteile

Das Heranziehen von Sekundärdaten bringt eine bedeutende Kosten-, Personal- und Zeitersparnis mit sich, da die Datenerhebung entfällt. Diese Ersparnis macht Ressourcen für andere Bereiche (bspw. Theoriearbeit, Auswertung) frei.

Die Erhebung von umfassenden Sekundärdatensätzen ist – insbesondere länderübergreifend – sehr teuer. Dies hat Folgewirkungen in anderen Bereichen (siehe weiter unten).

Daten stehen in einem Umfang zur Verfügung (bspw. länderübergreifende Panelstudien), wie sie ein/e Forscher/in alleine bzw. auch ein kleineres wissenschaftliches Team nicht erheben könnte (Roose, 2013; Smith, 2008).

Um mit empirischen Sekundärdaten arbeiten zu können, bedarf es einer ausreichenden Dokumentation etwa über die Methodologie des dahinterstehenden Surveys. Solche Informationen stehen aber nicht immer (oder verspätet) zur Verfügung. Gibt es keine Dokumentation, ist eine Verwendung abzulehnen!

Sekundärdaten sind gewöhnlich für alle Forscher/innen gleichermaßen zugänglich und führen so zu einer Demokratisierung der Forschung (Diekmann, 2002, S. 173; Glaser, 1963; Hyman, 1972, S. 9). Forschung, die früher oft nur von einem kleinen Kreis an Wissenschafter/innen durchgeführt werden konnte, ist durch die Entwicklung von Sekundärdatensätzen (theoretisch) für alle möglich.

Vorteile Nachteile

Zusätzlich zur ursprünglichen Fragestellung für deren Zweck die Daten gesammelt wurden, können weitere Fragestellungen untersucht werden (Vezzoni, 2015). Zudem werden bestimmte Analysen erst durch Sekundärdaten ermöglicht. Dies trifft insbesondere auf Fragestellungen zu, die sich auf die Vergangenheit bzw. auf einen größeren Zeitraum beziehen, also Längsschnittanalysen. Retrospektive Daten bieten hier aufgrund von Erinnerungslücken und -verzerrungen nicht dieselbe Qualität, außerdem sind die zu befragenden Personen mitunter nicht mehr verfügbar (Roose, 2013; Vezzoni, 2015).

Der Horizont an sozialwissenschaftlichen Fragestellungen wird durch das thematische Spektrum, welches die zur Verfügung stehenden Sekundärdatensätze abdecken, in Kombination mit der Grundgesamtheit auf die sie sich beziehen, eingeschränkt. Ein Phänomen, das bisher nicht gemessen wurde, kann mittels Sekundäranalyse auch nicht untersucht werden (Roose, 2013). Häufig sind zumindest Einschränkungen in der Operationalisierung in Kauf zu nehmen.

Kostspielige Untersuchungen müssen nicht im Vorhinein durch eine Begutachtungskommission (bei Ansuchen von Fördermitteln) bewilligt werden und vorherrschenden Paradigmen folgen; auch zunächst wenig plausibel erscheinende Fragestellungen (oder neue Perspektiven) lassen sich womöglich mittels Sekundärdaten testen. Dadurch kommt es zu einer thematischen Öffnung (Glaser, 1962, in: Roose, 2013).

Eine sehr genaue Kenntnis der Sekundärdatensätze ist nötig, um zu Beginn der Untersuchung beurteilen zu können, welche Fragestellungen empirisch umsetzbar sind (Roose, 2013).

Durch die Kombination verschiedener Datenquellen können Erkenntnisse gewonnen werden, die sich auf Basis einer einzigen Datenquelle nicht aufzeigen lassen (Stewart, 1984, S. 12).

Eine Verknüpfung (im Besonderen personenbezogener Informationen) ist aus technischen Gründen oder aufgrund datenrechtlicher Bestimmungen häufig nicht möglich. Viele Sekundärdatensätze stehen damit für sich und bilden den Rahmen der Untersuchung.

Sekundärdatensätze ermöglichen es insbesondere Jungforscher/innen unabhängige, interessensbasierte Untersuchungen durchzuführen (Smith, 2008).

Sozialwissenschaftliche Sekundäranalysen beziehen sich fast nie auf aktuelle Daten, da der Weg von der Datenerhebung bis zur Veröffentlichung eine Zeit (teils Jahre) in Anspruch nimmt (Stewart, 1984, S. 14; Vezzoni, 2015). Somit können akute Ereignisse meist nicht untersucht werden.

Vorteile Nachteile

Die Entwicklung der Survey Instrumente wird von Expert/innen durchgeführt, wodurch Messfehler verringert werden sollen und die Qualität der Daten tendenziell sehr hoch ist (Roose, 2013; Smith, 2008). Insbesondere dann, wenn Primärerhebungen knappen Budget- und Zeitvorgaben ausgesetzt sind, können Surveys oftmals eine bessere Datenqualität anbieten (Stewart, 1984, S. 14).

Für einen bestimmten Sekundärdatensatz spezifische (Mess-)Fehlerquellen (Auswahl der Erhebungsgesamtheit, Interviewereffekte, Ausstrahlungseffekte, Einflüsse durch Frageformulierung/Fragebogengestaltung, Art und Weise der Operationalisierung komplexer Phänomene etc.), fließen in Folge der wiederholten Verwendung eines Datensatzes immer wieder in die Ergebnisse von Studien ein, d.h. sie multiplizieren sich im Wissensbestand einer Disziplin (Roose, 2013).

Sekundäranalysen stellen eine Maßnahme gegen die zunehmende Überlastung der Befragten durch zu viele Umfragen, welche sich negativ auf die Ausschöpfungsquote auswirkt, dar (Roose, 2013).

Die Passung zwischen den interessierenden Phänomenen und den zur Verfügung stehenden Variablen ist in der Sekundäranalyse mit größeren Problemen verbunden als in der Primäranalyse (Hyman, 1972, S. 29ff.; Roose, 2013). „Die Primäranalyse kann die besten realisierbaren Indikatoren nutzen, die Sekundäranalyse nur die besten verfügbaren Variablen“ (Roose, 2013, S. 703).

Surveys – insbesondere länderübergreifende Längsschnittstudien – unterstützen die Standardisierung der Erhebungsinstrumente. Dadurch wird der Vergleich zwischen verschiedenen Kontexten und Zeitpunkten vereinfacht, mitunter können auch Sekundärdatensätze aus verschiedenen Surveys über unterschiedliche Zeitpunkte hinweg miteinander kombiniert werden (Smith, 2008; Vezzoni, 2015).

In Folge der Standardisierung von Survey Instrumenten wird die Gestaltbarkeit eingeschränkt: Gewisse „Standardfragen“ finden sich in vielen Surveys wieder, beleuchten womöglich aber nur eine Facette eines Phänomens.

Sekundärdaten werden unter Umständen zunächst als Primärdaten für einen bestimmten Zweck, d.h. eine spezifische Fragestellung gesammelt. Dadurch können spezifische Bias entstehen bzw. kann es sein, dass die Form der Operationalisierung, der Stichprobenziehung etc. für die eigene Fragestellung nicht gut geeignet ist (Stewart, 1984, S. 14).

Länderübergreifende Datensätze bringen zusätzliche Herausforderungen und Schwierigkeiten mit sich, wie in etwa die Validität bestimmter Fragen in unterschiedlichen kulturellen Kontexten (bspw. Vertrauen in Institutionen). Ebenso ist es beinahe unmöglich, die Datenerhebung (bspw. Interviewertraining, Stichprobenziehung und -umfang) über verschiedene Länder hinweg zu vereinheitlichen (Vezzoni, 2015).

Vorteile Nachteile

Bisherige Forschungsergebnisse auf Basis eines Datensatzes können anhand ein und derselben Daten überprüft werden (Vezzoni, 2015).

Alternative Messungen, die zu denselben Ergebnissen kommen, können davon ausgehen, dass diese nicht auf Messfehler zurückzuführen sind. Sekundäranalysen, die auf demselben Datensatz beruhen, können diese Validierung nicht vornehmen (Roose, 2013).

Studien, die einen identischen Datensatz verwenden, bilden sogenannte Ergebnis-Cluster. Die Aussagekraft einer gegenseitigen Bestätigung von Ergebnissen wird dadurch abgeschwächt (Roose, 2013).

Kontextinformationen, die zur Beurteilung von Messfehlern und Verzerrungen herangezogen werden können, sind in der Sekundärforschung meist limitiert (Hyman, 1972, S. 27).

Begriffserklärungen
Literaturverzeichnis

Committee on National Statistics. (1993). Issues and recommodations. In S. E. Fienberg, M. E. Martin, & M. L. Straf (Hrsg.), Sharing research data (S. 3–36). Washington: National Academy Press.

Dale, A., Arber, S., & Procter, M. (1988). Doing Secondary Analysis. London: Unwin Hyman.

Diekmann, A. (2002). Empirische Sozialforschung: Grundlagen, Methoden, Anwendungen. Reinbek bei Hamburg: Rowohlt.

Glaser, B. G. (1962). Secondary analysis. A strategy for the use of knowledge from research elsewhere. Social Problems, 10, 70–74.

Glass, G. V. (1976). Primary, Secondary, and Meta-Analysis of Research. Educational Researcher, 5(10), 3–8.

Hakim, C. (1982). Secondary analysis in social research. A guide to data sources and methods with examples. London: George Allen & Unwin.

Hyman, H. H. (1972). Secondary analysis of sample surveys: principles, procedures, and potentialities. New York: Wiley.

Klingemann, H.-D., & Mochmann, E. (1975). Sekundäranalyse. In J. van Koolwijk & M. Wieken-Mayser (Hrsg.), Techniken der empirischen Sozialforschung (Bd. 2: Untersuchungsformen, S. 178–194). München: Oldenbourg Verlag.

Merton, R. K. (1973). The Sociology of Science. Chicago, IL: University of Chicago Press.

Roose, J. (2013). Fehlermultiplikation und Pfadabhängigkeit: Ein Blick auf Schattenseiten von Sekundäranalysen standardisierter Umfragen. KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie, 65(4), 697–714. https://doi.org/10.1007/s11577-013-0239-0

Schutt, R. K. (2007). Secondary Data Analysis. In G. Ritzer (Hrsg.), The Blackwell Encyclopedia of Sociology. Malden, MA: Blackwell Pub.

Smith, E. (2008). Pitfalls and Promises: The Use of Secondary Data Analysis in Educational Research. British Journal of Educational Studies, 56(3), 323–339. https://doi.org/10.1111/j.1467-8527.2008.00405.x

Sobal, J. (1981). Teaching with secondary data. Teaching Sociology, 8(2), 149–170.

Stewart, D. W. (1984). Secondary research: information sources and methods. Beverly Hills: Sage Publications.

Vezzoni, C. (2015). Secondary analysis in the social sciences and its relation to futures studies. On the Horizon, 23(2), 128–139. https://doi.org/10.1108/OTH-02-2015-0006

V.4.0 - 2021