Vergleich zweier Zeitreihen < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
Hallo ich weiß meine Frage nicht so richtig einzuordnen vllt. kann mir jemand von euch helfen.
Ich möchte herausfindne ob zwei Zeitreihenmessungen miteinander korrelieren oder nicht.
Es geht um die Medienpräsenz von Frauen als Unternehmerinnin in den Medien und die Frage ob das einfluss darauf hat, wieviele Frauen sich selbstständig machen. Ich habe also 2 Zahlenreihen. Die eine beinhaltet das Auftreten spezifischer Worter (Unternehmerin, Gründerin usw) in großen Magazinen pro Jahr. Die zweite Zahlenreihe beinhaltet den Prozentualen Anteil an Frauen unter den Personen die ein Unternehmen gründen.
Ich möchte jetzt herausfinden ob beide Zahlenreihen korrelieren, d.h. ob ich mit Fug und Recht behaupten kann, dass beides miteinander zusammenhängt.
Ich brauche dazu eine große Schritt für Schritt anleitung wie ich das ganze machen soll. Ich habe von verschiedenen Personen gehört ich muss einen Signifikanztest und ein Histogramm und sowas alles machen aber ich weiß überhaupt nicht melche Daten ich wozu zu grunde lege.
Kann mir vllt. jemand einen großen "Schritt-für-Schritt-Plan" geben?
Danke im Vorraus
Katja
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 05:37 Di 18.02.2014 | Autor: | tobit09 |
Hallo Katja!
Leider habe ich keine Ahnung von angewandter Statistik und kann dir daher bei deinem eigentlichen Problem nicht weiterhelfen.
Ich möchte jedoch eine sehr verbreitete Fehlinterpretationen korrigieren.
> Ich möchte herausfindne ob zwei Zeitreihenmessungen
> miteinander korrelieren oder nicht.
> Es geht um die Medienpräsenz von Frauen als
> Unternehmerinnin in den Medien und die Frage ob das
> einfluss darauf hat, wieviele Frauen sich selbstständig
> machen. Ich habe also 2 Zahlenreihen. Die eine beinhaltet
> das Auftreten spezifischer Worter (Unternehmerin,
> Gründerin usw) in großen Magazinen pro Jahr. Die zweite
> Zahlenreihe beinhaltet den Prozentualen Anteil an Frauen
> unter den Personen die ein Unternehmen gründen.
(Hast du dir schon Gedanken darüber gemacht, ob deine Entscheidung gerade diese beiden Zahlenreihen zu betrachten sinnvoll ist? Auf der einen Seite betrachtest du absolute Zahlen (Anzahlen der weiblichen Formen von "Gründer"/"Unternehmer" usw. in den Medien und nicht etwa deren Anteil), auf der anderen Seite relative Zahlen (Anteil der Frauen unter den Gründern und nicht etwa deren Anzahl).
Diese Problematik ignoriere der Einfachheit halber im Folgenden mal. Viel wichtiger ist mir der folgende Punkt.)
> Ich möchte jetzt herausfinden ob beide Zahlenreihen
> korrelieren, d.h. ob ich mit Fug und Recht behaupten kann,
> dass beides miteinander zusammenhängt.
Nehmen wir mal an, die beiden Zahlenreihen korrelieren tatsächlich.
Dann heißt das noch lange nicht, dass die Medien Einfluss auf die Gründerinnen-Zahl haben!
Das wäre sonst ein Schluss von Korrelation auf Kausalität in eine (willkürlich gewählte) Richtung. Ein solcher Schluss ist ohne Weiteres nicht möglich.
Zunächst einmal wäre genauso gut Kausalität in die andere Richtung denkbar: Wenn mehr Frauen Unternehmen gründen, erscheinen sie auch häufiger in dieser Rolle in den Medien.
Weitere nicht auszuschließende Erklärung: Vielleicht sind die von dir gewählten Begriffe im Laufe der Zeit populärer geworden und gleichzeitig werden Unternehmensgründungen von Frauen immer "normaler".
Weiterhin käme eine dritte Ursache, die auf beide Größen einwirkt, in Betracht. Dazu ein schönes Beispiel:
Es gibt eine Korrelation zwischen Schuhgröße und Gehalt von Personen in Deutschland. Typischer Fehlschluss auf Kausalität in eine Richtung: Größere Füße verbessern die Gehaltschancen. (Beachte: Dieser Schluss ist vollkommen analog zu deinem beabsichtigten Schluss von Korrelation auf Kausalität.) Es gibt jedoch eine viel einleuchtendere Erklärung: Die dritte "Größe" Geschlecht hat Auswirkungen auf Schuhgröße und Gehalt; Männer haben im Schnitt größere Füße und ein größeres Gehalt als Frauen.
Diese Auflistung von möglichen anderen Erklärungen für Korrelation erhebt keinen Anspruch auf Vollständigkeit.
Der Fehlschluss von Korrelation auf Kausalität erscheint mir leider sehr verbreitet. Vielleicht müssten die empirisch arbeitenden Richtungen der Universitäten hier mehr Aufklärungsarbeit leisten.
Nichtsdestotrotz viel Erfolg bei deinen Vorhaben!
Viele Grüße
Tobias
|
|
|
|
|
Hi,
Tobit hat natürlich Recht bei seinem Beitrag.
Wenn du aber keine Kausalität herausfinden möchtest, sondern nur eine Korrelation "messen" möchtest, so sind folgende Schritte möglich:
- Daten glätten: Wenn du eine Zeitreihe hast, die wie ein Random-Walk aussieht, so ist dieser Schritt recht wichtig. (Mir fällt da "gleitende Durchschnitte" ein.) Vielleicht auch DTW (aber ich glaube, dass das zu sehr verzerrt).
- Möglichkeit: Betrachte Indikatoren bzw. monotone Transformationen der Zeitreihe, statt der Zeitreihe selber (RelativeStrengthIndex etc.)
Dann die Korrelation direkt berechnen. Es gibt mehrere Korrelations-Koeffizienten:
a) Pearson Correlation Coefficient (Pearson Produkt-Moment-Korrelation): (vermutlich einer der bekanntesten Koeffizienten) Dieser wird u.a. von Google genutzt
b) Kendalls Tau: wie a) mit weniger Annahmen
c) Spearmans Rangkorrelationskoeffizient
d) Goodman and Kruskal's gamma
e) Distance correlation
Dann steht noch die Frage im Raum, ob du wirklich Paare bei den Messungen hast, sprich: Hast du für beide Zeitreihen die gleiche Anzahl an Daten bzw. wurden die Messung etwa zur gleichen Zeit durchgeführt?
Womit rechnet man? MATLAB ist für solche Sachen recht geeignet, da man schnell Ergebnisse erhält.
Mögliche Suche bei Google: "measure similarity between signals" und Zack:
http://www.mathworks.de/de/help/signal/examples/measuring-signal-similarities.html
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 12:54 Do 20.02.2014 | Autor: | Marcel |
Hallo,
> Hi,
>
> Tobit hat natürlich Recht bei seinem Beitrag.
> Wenn du aber keine Kausalität herausfinden möchtest,
> sondern nur eine Korrelation "messen" möchtest, so sind
> folgende Schritte möglich:
>
> - Daten glätten: Wenn du eine Zeitreihe hast, die wie ein
> Random-Walk aussieht, so ist dieser Schritt recht wichtig.
> (Mir fällt da "gleitende Durchschnitte" ein.) Vielleicht
> auch DTW (aber ich glaube, dass das zu sehr verzerrt).
> - Möglichkeit: Betrachte Indikatoren bzw. monotone
> Transformationen der Zeitreihe, statt der Zeitreihe selber
> (RelativeStrengthIndex etc.)
>
> Dann die Korrelation direkt berechnen. Es gibt mehrere
> Korrelations-Koeffizienten:
>
> a) Pearson Correlation Coefficient (Pearson
> Produkt-Moment-Korrelation): (vermutlich einer der
> bekanntesten Koeffizienten) Dieser wird u.a. von
> Google genutzt
>
> b) Kendalls Tau: wie a) mit weniger Annahmen
> c) Spearmans Rangkorrelationskoeffizient
> d)
> Goodman and Kruskal's gamma
>
> e)
> Distance correlation
>
>
> Dann steht noch die Frage im Raum, ob du wirklich Paare bei
> den Messungen hast, sprich: Hast du für beide Zeitreihen
> die gleiche Anzahl an Daten bzw. wurden die Messung etwa
> zur gleichen Zeit durchgeführt?
>
> Womit rechnet man? MATLAB ist für solche Sachen recht
> geeignet, da man schnell Ergebnisse erhält.
> Mögliche Suche bei Google: "measure similarity between
> signals" und Zack:
>
> http://www.mathworks.de/de/help/signal/examples/measuring-signal-similarities.html
ob's ein entsprechendes Paket auch gibt, weiß ich nicht. Aber nur zur
Ergänzung: Vieles, was Matlab kann, kann die freie Software
Octave
auch (und Octave und Matlab sind ja "quasi-gleich"). Ansonsten scheint
mir momentan (die auch freie Software)
R
sehr beliebt, zumal diese ja auch gerade für Statistik ausgelegt ist (auskennen
tue ich mich damit noch nicht wirklich, aber ich kann gerne ein paar
Links ergänzen, falls sich jemand dafür interessiert - am Besten einfach
kurz eine PN, damit ich Bescheid weiß, dann ergänze ich die Links, die ich
habe, hier in einer Mitteilung).
Gruß,
Marcel
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:12 Do 20.02.2014 | Autor: | wieschoo |
Stimmt. Allerdings ist bei Octave und Matlab nur "vieles" kompatibel.
Für R ist RStudio sehr zu empfehlen.
Matrixmanipulationen sind aber eben in Matlab eleganter durchzuführen.
Bei R sind es eben alles Funktionen. Da ist Matlab flexibler und hat meistens einen übersichtlicheren Quelltext zur Folge.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 19:37 Do 20.02.2014 | Autor: | Marcel |
Hallo wieschoo,
> Stimmt. Allerdings ist bei Octave und Matlab nur "vieles"
> kompatibel.
joa, aber das sind meistens echt nur Kleinigkeiten (außer, wenn man
natürlich ein großes "Softwarepaket" in Matlab kaufen musste). Im
übrigens gibt's auch noch
Scilab,
aber damit kenne ich mich so gar nicht aus, soll heißen: Noch nie getestet
und installiert.
Während ich sagen kann: Was bei mir in Matlab funktioniert, funktioniert
prinzipiell auch in Octave (evtl. muss man ein paar Kleinigkeiten anpassen).
> Für R ist RStudio sehr zu
> empfehlen.
> Matrixmanipulationen sind aber eben in Matlab eleganter
> durchzuführen.
>
> Bei R sind es eben alles Funktionen. Da ist Matlab
> flexibler und hat meistens einen übersichtlicheren
> Quelltext zur Folge.
Das stimmt - wobei ich auch sagen muss: Mit Statistik habe ich wenig am
Hut, und daher konnte alles, was ich bisher brauchte, im Wesentlichen
einfach in Matlab runterprogrammieren, habe aber auch gesehen, dass
der ein oder andere das genau so übersichtlich in R hinbekommen hat.
Matlab ist aber typisch für "Matrix-" oder "Vektor-"Geschichten - das
stimmt auf jeden Fall. Aber solange man nicht zu speziell wird, kann man
das dann auch alles in Octave machen - und das kostet halt weniger,
nämlich nichts. ( Wenn man von Zeit, Geduld und Nerven absieht. )
Gruß,
Marcel
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:20 Mo 24.02.2014 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|