2 Standardabweichungen < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 00:00 Mi 13.10.2004 | Autor: | Edi |
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
Ich habe seit einiger Zeit beruflich mit vielen
Messdaten (in diesem Fall, die Reißfestigkeit von Papier)
zu tun, wobei ich die anfallenden
Einzeldaten auf Anzahl (n), Mittelwert (xquer) und
Standardabweichung (s) verdichte.
Ist es möglich (wenn Ja, wie?), die Standardabweichung
zwei verschiedener Messreihen zusammenzufassen ohne
von diesen die Einzelwerte zu kennen?
Kleines Zahlen-Beispiel:
1. Messreihe: n=10; xquer=1753,3; s=123,43
2. Messreihe: n= 9; xquer=1688,6; s= 80,60
Zusammengefasst:
n=19; xquer=1722,63; s= ??
Meine bisherige Recherche blieb erfolglos.
Von einigen Kollegen habe ich gehört, das man die
Standardabweichung nicht zusammenfassen kann, da die
quadratische Gewichtung, die in den Differenzen
zwischen Einzelwert und Mittelwert steckt, verloren
geht.
Würde mich über eine Antwort freuen.
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 08:11 Mi 13.10.2004 | Autor: | Stefan |
Lieber Edi!
Ich bin wie deine Kollegen der Ansicht, dass es keine Formel gibt, wie man aus den empirischen Standardabweichungen der beiden Zeitreihen eine empirische Standardabweichung für die "zusammengesetzte" Zeitreihe bekommt. Ich habe es versucht, aber es erscheint mir völlig aussichtslos. Die Quadrate machen einem einen Strich durch die Rechnung.
Liebe Grüße
Stefan
|
|
|
|
|
Hallo ihr beiden!
> Ist es möglich (wenn Ja, wie?), die Standardabweichung
> zwei verschiedener Messreihen zusammenzufassen ohne
> von diesen die Einzelwerte zu kennen?
Ich widerspreche Stefan nur sehr ungern und extrem selten, aber ich denke schon, dass das geht
> Kleines Zahlen-Beispiel:
> 1. Messreihe: n=10; xquer=1753,3; s=123,43
> 2. Messreihe: n= 9; xquer=1688,6; s= 80,60
>
> Zusammengefasst:
> n=19; xquer=1722,63; s= ??
Schau mal hier:
https://matheraum.de/read?f=21&t=12572&i=12713&v=s
Das müsste Dein Problem lösen. Mit der Formel
[mm] s_z^2=\frac{1}{m+n-1}\left((m-1)s_x^2+ (n-1)s_y^2+\frac{mn}{(m+n)}(\bar{x}-\bar{y})^2\right)
[/mm]
erhältst Du für Dein Problem [mm] $s_z\approx [/mm] 107.7328$.
Kannst es ja mal mit Daten durchrechnen, bei denen alle Einzelwerte bekannt sind und vergleichen.
Viele Grüße
Brigitte
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 10:15 Mi 13.10.2004 | Autor: | Edi |
Hallo Brigitte,
ich hatte schon mehrere Monate nach einer Lösung gesucht, und Du schüttelst es Dir so mal eben aus dem Handgelenk (Respekt
Und das tolle daran, sie funktioniert !!!
Vielen, vielen Dank
Gruss
Edi
|
|
|
|
|
Hallo, alle da draußen,
hallo Brigitte.
Da ich neu hier bin, kurz ein paar Takte zu meiner Person. Ich studiere Psychologie in Marburg (zweite Berufsausbildung), stehe im Hauptstudium und sehe meinen Abschluss langsam näher rücken. Psychologie in Marburg hat viel mit Methodenlehre zu tun, Statistik rauf und runter -- für mathematische Leichtgewichte wie mich nicht immer einfach, aber immer reizvoll.
Ich bin hier im Forum gelandet, weil ich auf der Suche nach der Lösung eines methodischen Problems nirgendwo fündig geworden bin -- bis ich auf einen Beitrag von Brigitte zur Berechnung einer Gesamt-Standardabweichung aus den Standardabweichungen zweier Teilstichproben gestoßen bin (in Antwort auf Edis Frage vor etwa einer Woche).
Diese Angelegenheit kommt meinem derzeitigen Problem sehr nahe, und es beschäftigt und blockiert mich sehr. Wem der Vorspann zu lang ist, kann vielleicht im letzten Drittel mit dem Lesen beginnen; für alle anderen ein bisschen theoretischer Hintergrund zur Einstimmung: In der psychologischen Forschung geht es häufig um die statistische Untersuchung von Gruppenunterschieden. Die "Gruppen" werden z.B. definiert durch Kombinationen verschiedener kategorialer Merkmale (sagen wir mal
Merkmal 1, Geschlecht, 2 Ausprägungen;
Merkmal 2, Altersklasse, 3 Ausprägungen).
Durch vollständige Kombination aller Merkmalsausprägungen ergeben sich die Teilstichproben einer Untersuchung (also z.B.
Frauen der Altersklasse 1;
... der Altersklasse 2;
... der Altersklasse 3;
Männer ... dito).
Die psychologische Frage ist dann, ob bzw. welche Gruppen sich in einer Variablen x unterscheiden (z.B. "Akzeptanz elektronischer Medien" oder "mathematische Begabung" ). Das Beispiel ist nicht besonders originell, zeigt aber die Schematik.
Jetzt komme ich so langsam zur Sache: Fragestellungen dieser Art werden in der Regel mit einer Varianzanalyse (ANOVA) bearbeitet. Für varianzanalytische Designs gilt vor allem eine praktisch sehr relevante Fallunterscheidung:
(1) Sind alle "Zellen"/Merkmalskombinationen im Untersuchungsdesign -- in diesem Beispiel "Geschlecht x Altersklasse" -- mit der *gleichen* Menge an Messwerten besetzt (sagen wir mal 10 Werte pro Merkmalskombination)?
Dann haben wir ein sog. orthogonales Design.
(2) Oder sind die einzelnen Zellen mit unterschiedlichen Mengen an Messwerten besetzt?
Dann haben wir ein sog. nicht-orthogonales Design.
Die Konsequenz: Die Kennwerte (Mittelwerte und Standardabweichungen) der Randbereiche in der Matrix der Merkmalskombinationen (= Zusammenfassung der Werte *eines oder mehrerer* Faktoren, also z.B. Zusammenfassung aller Altersklassen, um nur den Geschlechtseffekt zu bekommen) werden, je nachdem, welcher Fall vorliegt, unterschiedlich berechnet.
Fall 1) Sind alle Zellen gleich stark besetzt, werden Teilstichproben gewichtet kombiniert und zusammengefasst: die Gewichtung erfolgt in der ANOVA korrekt über die Anzahl der Messwerte in den Teilstichproben (d.h. die Mittelwerte und Standardabweichungen der Randbereiche werden auf dem üblichen Weg, unter Einbeziehung der Teilstichprobengrößen, berechnet).
Die Mittelwerte der Randbereiche werden hier "gewichtete Mittelwerte" genannt.
Fall 2) Sind die Zellen *nicht* gleich stark besetzt, bleiben bei der Berechnung der *Randmittel* die Stichprobengrößen unberücksichtigt -- man zählt einfach alle Mittelwerte der Teilstichproben zusammen und teilt sie durch die Anzahl der Teilstichproben... man tut quasi so, als wären alle Teilstichproben gleich groß, um keine Merkmalskombination zu benachteiligen.
Diese Mittelwerte werden als "ungewichtete Mittelwerte" bezeichnet und in so einem Fall z.B. von SPSS genau so berechnet. Standardabweichungen allerdings werden in diesem Fall zumindest von SPSS für die Randbereiche NICHT berechnet, obwohl sie inhaltlich Sinn machen würden.
(Nebenbei: offensichtlich sind "ungewichtete" und "gewichtete Mittelwerte" der Randbereiche identisch, wenn die Teilstichproben den gleichen Umfang haben.)
BIS HIERHIN IST ALLES KLAR UND MACHT INHALTLICH SINN.
Das *Problem* betrifft aber die Standardabweichungen, ist zweigeteilt und hängt wiederum mit der Fallunterscheidung "gleiche vs. ungleiche Messwerthäufigkeiten in den Zellen" zusammen. Ausgangspunkt ist folgendes Szenario:
-- Ich habe von einer Menge Teilstichproben die Zellenhäufigkeiten (n von i), die Mittelwerte (x-quer von i) und die Standardabweichungen (s von i) der vollständigen Merkmalskombinationen.
-- Ich habe NICHT die Kennwerte der Randbereiche ("Verallgemeinerung" eines oder mehrerer Faktoren), keinen einzigen, nehmen wir mal an.
-- Die Bestimmung der fehlenden Randmittel ist sowohl bei Orthogonalität als auch bei Nicht-Orthogonalität trivial (wenn auch mit Arbeit verbunden )
-- Die Menge der Teilstichproben ist größer als 2...
=> Wie berechne ich die fehlenden Standardabweichungen der Randbereiche?
Fall 1) Für den Fall von 2 Teilstichproben funktioniert Brigittes Formel PERFEKT. Ich habe ein Perl-Skript mit einem SPSS-Log gefüttert und gegengerechnet -- Brigittes Formel liefert exakt die ("gewichteten") Standardabweichungen, die auch SPSS zurückgibt, bloß dass SPSS mit den Rohwerten rechnet, und mein Perl-Skript mit den Kennwerten der Teilstichproben und Brigittes Formel. Exakt heißt hier "bis zur sechsten Dezimalstelle deckungsgleich, mehr wird nicht angezeigt" -- also auch von meiner Seite: Respekt und vielen Dank!)
Bloß: Was mache ich, wenn ich eine Gesamt-Standardabweichung aus *mehr als 2* Teilstichproben berechnen muss? Kann ich die Formel abstrahieren? Meine eigenen Versuche endeten leider vor der Wand...
Fall 2) Wie sollte ich verfahren, wenn ich 2 oder mehr Standardabweichungen zu einer zusammenfassen möchte, die Teilstichproben ungleich groß sind und ich hier der varianzanalytischen Logik folgen muss (aka "wir tun jetzt mal so, als wären alle Teilstichproben gleich groß, damit keine benachteiligt wird, und berechnen deshalb ungewichtete Kennwerte").
Kann ich die Logik der ungewichten Mittel einfach so übertragen, die Standardabweichungen addieren und durch die Stichprobenanzahl teilen? (Diesen Rat habe ich an der Uni bekommen, aber in mir nagt die Skepsis...)
Aperitif) Hallo Brigitte! Kannst Du zu Deiner Formel etwas zitierfähiges nachreichen, eine Quellenangabe? Muss nicht bibliografisch vollständig sein, nachrecherchieren kann ich dann schon selber. Mit "Jörg Beyer macht's so, weil Brigitte es auch so macht" werde ich niemanden vollständig überzeugen können :-( .
Das war jetzt entsetzlich viel Zeug für meinen "Einstand" hier -- ich hoffe, ich habe damit niemandes Toleranzschwelle gesprengt.
Vielen Dank für Eure Aufmerksamkeit, und vielleicht fällt ja jemandem was geniales ein.
Bis dahin, und
Gute Nacht
|
|
|
|
|
Hallo!
> => Wie berechne ich die fehlenden Standardabweichungen der
> Randbereiche?
> Fall 1) Für den Fall von 2 Teilstichproben funktioniert
> Brigittes Formel PERFEKT. Ich habe ein Perl-Skript mit
> einem SPSS-Log gefüttert und gegengerechnet -- Brigittes
> Formel liefert exakt die ("gewichteten")
> Standardabweichungen, die auch SPSS zurückgibt, bloß dass
> SPSS mit den Rohwerten rechnet, und mein Perl-Skript mit
> den Kennwerten der Teilstichproben und Brigittes Formel.
> Exakt heißt hier "bis zur sechsten Dezimalstelle
> deckungsgleich, mehr wird nicht angezeigt" -- also auch von
> meiner Seite: Respekt und vielen Dank!)
> Bloß: Was mache ich, wenn ich eine
> Gesamt-Standardabweichung aus *mehr als 2* Teilstichproben
> berechnen muss? Kann ich die Formel abstrahieren? Meine
> eigenen Versuche endeten leider vor der Wand...
Die einfachste Lösung ist wahrscheinlich, wenn Du schrittweise (iterativ) vorgehst. Du fasst erst zwei Messreihen zu einer zusammen und berechnest deren Standardabweichung, dann nimmst Du die eben entstandene Messreihe und fügst die nächste hinzu. Dafür berechnest Du dann wieder die Standardabweichung mit der Formel für zwei und bekommst so schon die für drei Messreihen insgesamt usw. Ich bin recht sicher, dass es auch für eine Formel für drei und mehr Messreihen gibt, allerdings dürfte diese dann ziemlich umständlich aussehen.
> Fall 2) Wie sollte ich verfahren, wenn ich 2 oder mehr
> Standardabweichungen zu einer zusammenfassen möchte, die
> Teilstichproben ungleich groß sind und ich hier der
> varianzanalytischen Logik folgen muss (aka "wir tun jetzt
> mal so, als wären alle Teilstichproben gleich groß, damit
> keine benachteiligt wird, und berechnen deshalb
> ungewichtete Kennwerte").
> Kann ich die Logik der ungewichten Mittel einfach so
> übertragen, die Standardabweichungen addieren und durch die
> Stichprobenanzahl teilen? (Diesen Rat habe ich an der Uni
> bekommen, aber in mir nagt die Skepsis...)
Sorry, ich habe gerade nicht die Zeit, mich da komplett reinzudenken. Vielleicht sagt jemand anderes etwas dazu...
> Aperitif) Hallo Brigitte! Kannst Du zu Deiner Formel etwas
> zitierfähiges nachreichen, eine Quellenangabe? Muss nicht
> bibliografisch vollständig sein, nachrecherchieren kann ich
> dann schon selber. Mit "Jörg Beyer macht's so, weil
> Brigitte es auch so macht" werde ich niemanden vollständig
> überzeugen können :-( .
Nein, das habe ich noch nirgends so gesehen, aber ich habe ja den Beweis für die Formel aufgeschrieben (verfolge den Link in meiner ersten Antwort). Damit solltest Du auch in der Lage sein, den Fall für drei Messreihen mal nachzurechnen, wenn Du magst.
VIele Grüße
Brigitte
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:28 So 24.10.2004 | Autor: | JoergBeyer |
Hallo Brigitte.
Vielen Dank für Deinen Beitrag. Bingo.
Ich habe Deinen Vorschlag aufgegriffen und schrittweise je zwei Teilstichproben zusammengefasst; die erhaltenen Werte mit der nächsten Messreihe kombiniert; etc., durchiteriert, bis nichts mehr übrig war.
Dieser Ansatz ist für meinen Fall tatsächlich der mit dem höchsten pragmatischen Wert und war in Perl mit wenigen Änderungen an meiner ursprünglichen "2-Stichproben"-Lösung realisiert.
Für die Testreihe, die mir hier im Moment vorliegt, kann ich folgendes berichten:
-- Genau wie im Fall der "2-Stichproben"-Lösung funktioniert Deine Formel auch bei bis zu 4 Teilstichproben, Kriterium sind wiederum diejenigen Werte, die man von SPSS anfordern kann, wenn man die Original-Rohdaten zur Verfügung hat.
-- SPSS liefert Werte mit sechs Dezimalstellen. Meine Perl-Funktion rechnet intern während der Iteration über die Kennwerte mit 12 Dezimalen und rundet erst bei der Rückgabe auf einen explizit angeforderten Wert (ich benutze eine selbstgebaute Rundungsfunktion, um nicht in die POSIX-Falle der eingebauten 'round'-Funktion zu tappen).
=> Erwartungsgemäß weichen *bei Iteration über 4 Teilstichproben* manche der nach Deiner Formel und der von SPSS berechneten Kennwerte minimal in der sechsten Dezimalstelle voneinander ab. Betroffen sind etwa 10% der Werte.
Bei der Genauigkeit psychologischer Messungen und der verwendeten Skalierungen sind diese Unterschiede marginal und praktisch ohne jede Bedeutung.
-- Der Härtetest/der Ernstfall findet im Lauf der nächsten Woche statt, dann sind bis zu zehn Teilstichproben miteinander zu kombinieren, vielleicht rechne ich auch spaßes-/erkenntnishalber noch tiefere Verschachtelungen durch.
Ich werde auf jeden Fall hier wieder über meine Erfahrungen berichten.
DIR noch einmal einen ganz herzlichen Dank. Wer so mühelos eine so harte Nuss knackt,
(1) sollte einen Schwarzen Gürtel tragen
(2) ist sein Lebendgewicht in Gold wert -- oder vielleicht in Erdöl, dieser Tage .
Schönen Rest-Sonntag,
Jörg
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 00:31 Mo 25.10.2004 | Autor: | Stefan |
Lieber Jörg!
Gut, dass du Brigitte so sehr lobst, zu Recht. Das tut ihr sicherlich gut, dieser Tage. (Um in deinen Worten zu bleiben...)
Liebe Grüße
Stefan
|
|
|
|