Test auf Verteilungen < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 01:31 Fr 10.08.2007 | Autor: | chris65 |
Hallo Forum,
ich habe einige Daten für eine Hausarbeit erhoben und in ein Histogrammen zusammengefasst.
Nun müsste ich testen, ob sich die Daten durch geeignete Verteilungen, z.B. Poisson- und Exponentialverteilung, approximieren lassen. Einige davon sind kategorisiert, andere nicht.
1.) Von Hand:
Ich meine es müsste mit einem Chi-Quadrat-Test gehen, jedoch ist mir unklar wie genau dies mit kategorisierten Daten gehen soll.
Und wie bestimme ich das [mm] \mu [/mm] und [mm] \lambda [/mm] der Poisson- bzw. Exponentialverteilung gegen die ich testen will?
Bei der Normalverteilung würde man ja einfach den Mittelwert und die Streuung nehmen, ist das hier ähnlich?
2.) Mit PC:
Gibt es eine Möglichkeit diese Tests mit SAS oder SPSS durchzuführen? Über Hinweise zum Vorgehen wäre ich sehr dankbar.
Wenns gar nicht anders geht, hab ich auch R auf dem Rechner, jedoch hab ich davon so gut wie gar keine Ahnung, also müsste die Anleitung schon etwas genauer sein.
Bin über jeden Tipp und Hinweis dankbar.
Liebe Grüße,
chris
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 10:20 Fr 10.08.2007 | Autor: | anitram |
hallo chris!
wies von hand geht, da kann ich dir leider nicht weiterhelfen.
In SPSS findest du den chi-quadrat test unter
analysieren -> deskriptive statistik -> kreuztabellen
dort muss du dann unter Statistik die Option chi-quadrat test wählen.
Ich hoff, dass dir das ein bisschen weiterhilft...
lg anitram
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 15:26 Fr 10.08.2007 | Autor: | psjan |
Hallo chris65,
ich denke, ich kann mich erinnern, wie man das rechnet, allerdings nur in groben Zügen (habe leider die passenden Unterlagen nicht bei mir):
Zuerst brauchst Du tatsächlich die Parameter der Verteilung, gegen die zu testen willst. Dazu sollte es in Lehrbüchern Formeln geben [mm] (\lambda [/mm] der Poisson-Verteilung z.B. war eine sehr einfache Formel...). Den Parameter schätzt du so, als ob Du schon wüsstest, dass es richtige Verteilungsfamilie ist (also hier Poisson) - was Besseres fällt mir da gerade nicht ein... mmh. Weiter:
Der Chi-Quadrat-Test ist ja ein Test, der erst einmal mit Kategorien arbeiten will. Es gibt ihn in einer Variante, in der man überprüfen kann, ob bei einzelnen Multinomialwahrscheinlichkeiten die erwarteten mit den beobachteten "zusammenpassen". Und hier setzt der Chi-Quadrat-Anpassungstest an: Du kategorisierst Deine Daten und bestimmst die relativen Häufigkeiten in den Klassen. Das sind die beobachteten Multinomialwahrscheinlichkeiten. Dann musst Du noch die erwarteten bestimmen: Die kriegst Du über Tabellen oder Software heraus, indem Du die Wahrscheinlichkeit berechnen lässt, dass von der zu vorgegebenen Verteilung ein Wert in die entsprechende Klasse fällt.
(unter SPSS z.B.: Transform | Compute | CDF & noncentral CDF) (Achtung, diese Funktionen berechnen, die Wahrscheinlichkeit für x<=Grenze, d.h. Du musst das für die untere Klassengrenze wiederholen und diesen Wert dann vom ersten abziehen).
Mit den beobachteten und den theoretischen Klassenhäufigkeiten (oder auch Wahrscheinlichkeiten) kann dann der Chi-Quadrat-Anpassungstest gerechnet werden können. Wenn ich mich richtig erinnere, kann man bei SPSS genau diesen Schritt machen lassen: Man kann die erwarteten Wahrscheinlichkeiten der Klassen vorgeben und SPSS rechnet dann einen p-Wert aus.
Hoffe das hilft irgendwie...
Grüße
psj
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 14:46 Sa 11.08.2007 | Autor: | chris65 |
Supi, das bringt mich schonmal einen Schritt weiter. Danke schön!
Den Chi-Quadrad-Test hab ich unter "Analysieren" -> "Nichtparametrische Tests" gefunden. Blicke zwar noch das genau Vorgehen nicht, werde mich da aber über die Hilfe von SPSS versuchen einzulesen.
Nun etwas konkreter zu meinem Problem: Habe ca. 450 Zwischenankunftszeiten bei einem Bahnhofsbäcker erhoben, also die immer Zeitabstände zwischen den antreffenden Kunden gestoppt. Es ergaben sich Werte von 0 bis 100 Sekunden + ein Ausreißer von 244 Sekunden.
Die Frage ist jetzt, wie kategorisiere ich diese richtig? Müssen alle Kategorien gleich groß sein? Habe mal die Häufigkeitsverteilung angehängt, dazu das Histogramm von SPSS. SPSS kategorisiert die Daten aber sehr willkürlich, vermute ich. Hauptsache es sieht gut aus. Vor allem steht auch nirgendwo wie genau die Klassen aussehen.
Gibt es irgendeine Daumenragel, nach der man geeignete Klassen bilden?
Zwischenankunftszeiten sind ja in der Regel exponentialverteilt, deshalb reicht es wohl wenn ich auf Exponentialverteilung hin teste.
Es gilt ja E(X) = 1 / [mm] \lambda, [/mm] also nehme ich an, dass der Parameter der Verteilung [mm] \lambda [/mm] , gegen die ich teste einfach gleich dem Kehrwert des Mittelwertes der empirischen Daten ist, oder irre ich mich?
Liebe Grüße,
chris
Dateianhänge: Anhang Nr. 1 (Typ: jpg) [nicht öffentlich] Anhang Nr. 2 (Typ: PDF) [nicht öffentlich]
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 14:58 So 12.08.2007 | Autor: | psjan |
Hallo chris,
> Den Chi-Quadrad-Test hab ich unter "Analysieren" ->
> "Nichtparametrische Tests" gefunden.
Genau den hatte ich gemeint. In dem rechten unteren Gruppierungsfeld ist bei mir (SPSS14, engl): "Expected Values". Default ist hier "All categories equal". Das musst Du auf "Values" setzen und die erwarteten Werte pro Kategorie eintragen. Die erwarteten Werte sind dann die Wahrscheinlichkeiten, die Du per CDF... usw (s.o.), multipliziert mit der Gesamtzahl.
> Die Frage ist jetzt, wie kategorisiere ich diese richtig?
Das ist eine gute Frage. Mir ist da keine Regel bekannt. Nur über den Chi-Quadrat-Test selber ist mir eine Einschränkung bekannt: Es sollten nicht weniger als 2 (zur Not auch 1) erwartete(!) Beobachtungen in jede Kategorie fallen. Außerdem weist SPSS selber noch auf problematische erwartete Zellbesetzungen hin (Kleingedrucktes unter "Statistics for Test")
> Müssen alle Kategorien gleich groß sein?
Soweit ich weiß, ist das egal. Ich würde sie allerdings möglichst gleich groß wählen.
> Gibt es irgendeine Daumenragel, nach der man geeignete
> Klassen bilden?
Für das Histogramm selber schon, aber für den Chi-Quadrat-Test s.o.
> Zwischenankunftszeiten sind ja in der Regel
> exponentialverteilt, deshalb reicht es wohl wenn ich auf
> Exponentialverteilung hin teste.
> Es gilt ja E(X) = 1 / [mm]\lambda,[/mm] also nehme ich an, dass der
> Parameter der Verteilung [mm]\lambda[/mm] , gegen die ich teste
> einfach gleich dem Kehrwert des Mittelwertes der
> empirischen Daten ist
Das hört sich gut an. Kleine Randbemerkung: Es gibt wohl eine Regel, nach der man die Anzahl der Freihheitsgrade des Chi-Quadrat-Tests um die Anzahl der zusätzlich geschätzten Paramter (also hier 1) verringern muss. Das könntest Du dann so bewerkstelligen, indem Du SPSS den Test wie gehabt rechnen lässt, dann den Wert der Chi-Quadrat-Statistik nimmst und den entsprechenden p-Wert für die Chi-Quadrat-Verteilung mit den um eins verringerten Freiheitsgraden rechnen lässt (Stichwort wieder: CDF)
Die von SPSS verwendeten Freiheitsgrade stehen im Output bei "df", die Statistik selber bei "Chi-Quadrat".
Viele Grüße
psj
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 19:07 Di 14.08.2007 | Autor: | chris65 |
Supi, habs jetzt hingekriegt.
Und noch besser: Die Zwischenkunftszeiten sind exponentialverteilt!
Lieben Dank für deine Hilfe!!!
|
|
|
|