separate Regressionsschätzung < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 20:17 So 25.07.2004 | Autor: | Katti |
Hallo!
Ich habe ein "kleines Problem". Ich studiere BWL und muss ein Referat über die Stichprobeninventur mit der seperaten Regressionsschätzung vorbereiten. Leider habe ich keine Ahnung, wie eine Regressionsschätzung abläuft. Kann mir jemand von Euch da helfen?
Gruss Katti
Ich habe diese Frage in keinem weiteren Forum gestellt
|
|
|
|
Hallo Katti
Ja, ich kann dir einen ganzen roman dazu erzählen.
aber was ich davor wissen muss, bevor ich loslege *G*, ist, ob es sich um eine Regressionsrechnung (univariate) oder um eine multivariate Regression handelt.
Univarit heißt, dass wir nur eine unabhängige Variable haben, multivariat heißt, dass wir mehrer Variablen haben.
Ich meine, dass Prinzip ist zwar sehr ähnlich, aber bei der Notation ist ein kleiner Unterschied.
Worum geht es bei der REgression_schätzung? (univariater Fall)
Bei der Regression, nehme an du meinst eine lineare, geht es darum eine solche Gerade in eine PUnktewolke bestmöglich hineinzulegen.
Die Aufgabe, die Regressionsgerade optimal in die Punktewolke hineinzulegen, also ihre Parameter a und b so zu bestimmen, dass die Gerade optimal durch die gegebenen Punkte hindurchläuft, kann umformuliert werden: Der Ordinatenabschnitt a und die Steigung b sind so zu bestimmen, dass die Summe der quadrierten Abweichungen zwischen den Y Werten und den Yt Werten minimiert wird. Diese Vorschrift nennt man die Methode der kleinsten Quadrate (LS Methode)
a = yquer - b* xquer
b = n* Summe von 1 bis n von (xi*yi) - Summe von 1 bis n von xi * Summe von 1 bis n von yi dividiert durch n * Summe von 1 bis n von xi² - dem Quadrat von der Summe von 1 bis n von xi
Dann folgt die Regressionsgerade yt = a - b*xi
Hoffe, dass hilft dir ein bissi weiter.
Falls nicht, dann helfe ich dir morgen gerne weiter.
schönen abend
magister
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 18:32 Mo 26.07.2004 | Autor: | Katti |
Hallo Magister!
Vielen Dank für Deine Antwort. Das Ganze ist zumindest schon mal übersichterlicher als das, was ich so im Internet oder meinen tollen Büchern gefunden habe.
Ob es nur um eine oder mehrere Variablen geht, kann ich nicht sagen. Das Ganze geht halt um eine Stichprobeninventur. Sehe ich das richtig, dass es sich bei der univariaten um eine Regressionsanalyse handelt?
Gruss
Katti
|
|
|
|
|
Hallo Katti
also ob es sich um eine univariate oder multivariate regressione handelt hängt wie gesagt von der anzahl der unabhängigen variablen ab. regressionen sind beide.
vielleicht einmal ein beispiel:
abh.var = einkommen und eine unabh var. = durchschn. Ausgaben für Urlaub
Regressionsfrage: gibt es einen zusammenhang zwischen dem Einkommen und den Ausgaben für den Urlaub ??
Man schätzt dann wie in meinem ersten artikel formuliert die Koeffizient a und b und erhält so die geschätzte regressionsgerade an der man ablesen kann wie die geschätze regr.gerade in die datenwolke passt.
wobei ich nicht ganz weiß, was du mit inventurstichprobe meinst.
erzähl mal darüber. wie schauen deine daten bzw. variablen aus.
dann kann ich dir konkreter helfen.
bis dahin
lg
magister
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 15:35 Di 27.07.2004 | Autor: | Katti |
Hallo magister!
Hmm. Grundsätzlich ist das Problem, dass das Ganze in meiner Firma ein Programm durchführt und letztendlich keiner mehr wirklich weiss, wie es per Hand abläuft, aber ich kann kurz beschreiben, wie das Ganze durchgeführt wird, vielleicht werden daraus die Daten und die Variablen ersichtlich.
In unserem Lager gibt es ungefähr 25.000 Fächer mit Artikeln (ein Artikel kann natürlich auch über mehrere Fächer verteilt sein). Diese Artikel stehen mit ihrem Bestand im System. Für die Stichprobe wird der Teil, der voll aufgenommen wird, abgetrennt. Dabei handelt es sich um die Positionen, die einen sehr hohen Wert haben. Der Rest bildet die statistische Grundgesamtheit. Diese wird dann wiederum in 7 Schichten unterteilt und aus diesen Schichten werden dann jeweils 35 Fächer als Stichproben aufgenommen und der ermittelte Istwert wird im System festgehalten. Das Ganze wird dann auf den Gesamtlagerbestand hochgerechnet. Zuletzt werden der Soll- und der Istwert miteinander verglichen. Tut mir leid, dass ich nicht genau beantworten kann, um wie viele Variablen es gibt. Ich kann ja morgen nochmal fragen, glaube aber nicht, dass mir jemand Auskunft geben kann.
Gruessle
Katti
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 21:56 Di 27.07.2004 | Autor: | magister |
Liebe Katti
Ich möchte mit einer Aussage bis morgen warten, ob du noch etwas in erfahrung bringen kannst. jetzt eine aussage machen ist ziemlich schwer.
lasse dein problem einmal über nacht wircken.
bis morgen
lg magister
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 17:17 Mi 28.07.2004 | Autor: | Katti |
Halloele magister!
Also, ich habe jetzt in meinem schoenen, mir nichts-sagenden Buch nachgeschaut. Da stehen ein Haufen Formel drin, die alles sauschwer zum Abschreiben wären. Allerdings steht da auch, dass für jedes Stichprobenverfahren eine Stichprobe gezogen und ausgewertet wird. Die einzelnen Stichproben sind voneinander unabhängig. Vielleicht meintest Du ja das?
Gruessle Katti
|
|
|
|
|
hy katti
<<Allerdings steht da auch, dass für jedes Stichprobenverfahren eine <<Stichprobe gezogen und ausgewertet wird. Die einzelnen Stichproben <<sind voneinander unabhängig. Vielleicht meintest Du ja das?
Das hilft uns ein BISSI weiter
Warum?
weil du schreibst es wir pro stichprobenverfahren 1 stichprobe gezogen und ausgewertet. was mich allerdings verwirrt ist, dass die stichproben voneinander unabhängig sind.
okay, heißt dass, dass wir eine stichprobe ziehen ( abhängige Var.) und die restlichen stichproben von einander unabh. sind. (mehrere unabh Var)
DANN folgt daraus eine MULTIVARIATE REGRESSIONSANALYSE
okay, heißt es allerdings, dass wir nur eine stichprobe haben und diese zu einer anderen regressieren und somit mehrere UNIVARIATE REGRESSIONSANALYSEN durchführen.
Welche Variable wollt ihr denn überhaupt regressieren (denke an das beispiel urlaubsausgaben bei entsprechenden einkommen[regressierte Variable])
das ist das letzte kleine problemchen was wir zwei haben, dann können wir gezielt und mit blickkontakt richtung ziellinie fortschreiten.
liebe grüsse
magister
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 15:48 Do 29.07.2004 | Autor: | Katti |
Halloele magister!
Hoffentlich nerve ich nicht so viel, dass ich bald keine Antwort mehr bekomme? Ich habe jetzt noch mal in der Firma geschaut, und ich habe einen kleinen Abschnitt gefunden. Neben der Regressionsschaetzung waeren auch noch die Differenzschätzung und die Verhältnisschätzung mölgich. Bei der Regressionsschätzung steht, dass sie auf einem annähernd linearen Zusammenhang zwischen Buch- und Istwerten aufbaut. Für das Verfahren muss ich einige Parameter festlegen: den relativen Schätzfehler und die Sicherheitswahrscheinlichkeit. Angenommen derBuchwert ist 100.000 und der hochgerechneten Inventurwert ist 102.000. Bei einem relativen Schätzfehler von 2% und einer Sicherheitswahrscheinlichkeit von 95% bedeutet dies, dass der wahre Inventurwert mit einer Wahrscheinlichkeit von 95% zwischen 100.000 und 104.000 liegt. So, dass ist alles, was ich gefunden habe.
Gruessle
Katti
|
|
|
|
|
liebe katti
<<Bei der Regressionsschätzung steht, dass sie auf einem annähernd <<linearen Zusammenhang zwischen Buch- und Istwerten aufbaut.
okay, also wissen wir jetzt 100%ig, dass es sich um eine lineare regression handelt.
<<Für das Verfahren muss ich einige Parameter festlegen: den relativen <<Schätzfehler und die Sicherheitswahrscheinlichkeit.
Sehr richtig.
<<Angenommen derBuchwert ist 100.000 und der hochgerechneten <<Inventurwert ist 102.000. Bei einem relativen Schätzfehler von 2% und <<einer Sicherheitswahrscheinlichkeit von 95% bedeutet dies, dass der <<wahre Inventurwert mit einer Wahrscheinlichkeit von 95% zwischen <<100.000 und 104.000 liegt.
Der Abschnitt sagt wiederum, dass wir das ganze auf also ein simples Schätzverfahren betrachten könnten. wie bei deinem bsp oben, haben wir unsere stichprobe und wie du treffend formuliert hast, kann man dann Aussagen folgender Art machen
5% Fehlergenauigkeit.... Das Konfindenzintervall überdeckt mit einer Wahrscheinlichkeit von 95% den wahren Paramter ( bezogen auf die Grundgesamtheit)
nein, nein, frag einfach so oft du lust hast.das nervt nicht, im gegenteil, mir macht es spass mein "wissen" anderen mitzuteilen.
wenn es dir hilft, sehr gerne.
hoffe du fängst damit etwas an und kennst dich jetzt aus. falls nicht, dann meld dich so oft du willst.
liebe grüße
magister
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 17:46 Do 29.07.2004 | Autor: | Katti |
Halloele!
Heisst das, dass ich das dafuer verwenden kann?
y=a+bx
[mm] \sum_{i=1}^{n} (y_i -(a+b*x_i))^2 [/mm]
Bestimmungsgleichung:
[mm] b= \sum_{i=1}^{n} (x_i-\bar x)*(y_i-\bar y)/\sum_{i=1}^{n}(x_i-\bar x)^2 [/mm]
a= [mm] \bar y-b*\bar x [/mm]
Wenn ja, was genau berechne ich denn dann?
|
|
|
|
|
tagchen
Die Formeln die wir bzw. du im letzten poster geschrieben hast haben folgende bedeutung.
Wir versuchen mit diesen Formeln die unbekannte regressionsgerade zu schätzen. wir verwenden hierzu die methode der kleinsten quadrate, die besagt, dass wir die geschätzte regressionsfunktion als jene gerade bestimmen, die die quadrierten abstände zu den beobachtungen minimiert. das sind eben die koeffizienten a und b, wobei der erste der ordinatenabschnitt ist, also auf welcher höhe auf der y achse und b gibt uns die steigung an.
bildhaft vorstellen:
ein 2 dim koordinatensystem, x achse ist einkommen und y achse ist sind die ausgaben für den urlaub. somit kriegen wir eine punktewolke im koordinatensystem. nun folgt die berechnung der geschätzten regressionsgeraden und da wir wissen, dass es einen plausiblen zusammenhang zwischen den beiden variablen gibt, bekommt das eben gesagte gültigkeit.
ganz banal formuliert: gibt es einen zusammenhang zwischen den beiden variablen und wenn ja, ist es statistisch nachweisbar, dass es sich um einen linearen zusammenhang handelt. aus diesem grund schätzt man die unbekannte regressionsgerade.
eine andere fragemöglichkeit wäre zb die frage nach der prognose des körpergewichtes einer person mit einer größen von 170cm.
falls dir das alles nichts hilft, dann kann es nur sein
- du bist an einer prognose mittels regression interessiert
- wir haben ein falsches verfahren und das resultiert darin, falls das stimmt,
- dass ich deine frage noch immer nicht richtig interpretiere.
hoffe, es hilft dir weiter.
lg
magister
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 15:58 Fr 30.07.2004 | Autor: | Katti |
Hallihallo!
Ich denke, dass es wohl um eine Prognose/Hochrechnung geht, denn ich nehme Stichproben und rechne das Ganze dann hoch auf den gesamten Buchbestand des Lagers (klingt nach Prognose, oder???)
Gruessle
Katrin
|
|
|
|
|
hi
ja.
nimm eine stichprobe her, errechne dir dann deinen gewünschten paramter der stichprobe zb. mittelwert und dann führe eine prognose durch um mit zb. einer wahrscheinlichkeit von 95% zu überprüfen, ob der wahre paramter innerhalb dieses Konfidenzintervalles gelegen ist oder nicht.
liebe grüße
magister
ps: ein kleiner abschlußtipp noch: überprüfe ob deine daten normalverteilt sind oder nicht. falls sie es sind, erleichtert dir das den weiteren rechengang.
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 18:08 Fr 30.07.2004 | Autor: | Katti |
hallo!
Jetzt habe ich noch eine Absclhussfrage. Wie macht man dann diese Prognose genau?
Grueslle
Katti
|
|
|
|
|
mit deinen worten: halli hallöle
ein einleitendes beispiel, damit wir bzw. du ganz sicher weißt, dass es das richtige verfahren ist.
bsp1
Ein Markforschungsinstitut möchte den Bekanntheitsgrad einer bestimmten Marke erheben. Dazu befragt man eine zufällig ausgewählte Stichprobe von Personen, ob sie die Marke kennen. Der Anteil der "Ja" Antworten in der Stichprobe liefert eine Punktschätzung für den Bekanntheitsgrad in der Grundgesamtheit.
bsp2
nehmen wir an, dass eine zufällige Stichprobe von 100 Tirolern im alter zwischen 30 und 60 jahren einen mittleren morgendlichen blutzuckerspiegel von 97mg/dl ergab. dann ist offenbar 97mg/dl eine punktschätzung für den durchschnittlichen blutzuckerspiegel der Grundgesamtheit, die in diesem fall aus allen tirolern im alter zwischen 30 und 60 jahren besteht. die interessierende eigenschaft der GG ist der mittlere blutzuckerspiegel.
konkrete quantitative aussagen über die schätzgenauigkeit werden mit hilfe der intervallschätzer getroffen. die beruhen auf der annahme, dass eine zufallsstichprobe vorliegt.
Wiederholung:
ein intervallschätzer ist ein stat. verfahren , dass als ergebnisse intervalle liefert, welche die zu schätzende größe, mit einer vom anwender frei wählbare wahrscheinlichkeit enthalten. diese Wahrsch. nennt man die ÜberdeckungsW., SicherheitsW. oder Konfidenzintervall.
Ende Einleitung
Antwort auf deine Frage:
ich gehe davon aus, dass deine daten normalverteilt sind (bitte überprüfe das selbstständig!!!). okay, bei der berechnung ist wiederum zu differenzieren, ob die Varianz aus Erfahrung bekannt ist oder nicht. also die varianz der Grundgesamtheit, was aber eher selten vorkommt.
solltest du sie kennen, dann melde dich einfach ....
ich werde es dir folgend für normalverteilte varianzunbekannte beobachten schildern:
x quer ... stichprobenmittelwert
Q(t)... quantil der t verteilung mit n-1 freiheitsgraden durch das (1- alpha/2)% ersetzten.(ist ein tabellenwert)
s...standardabweichung
n...stichprobengröße
xquer +- Q(t) * (1- alpha/2) * s/wurzel aus n
daraus erhälst du zwei werte und dann kannst du es so wie oben bzw. frühere postings interpretieren.
hoffe es ist alles klaro.
meld dich bei bedarf
liebe grüße
magister
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 19:18 Di 03.08.2004 | Autor: | Katti |
Hallo magister!
Ich versteh es zwar immer noch nicht, aber so langsam gebe ich auf. Ich bin einfach zu bloed dafuer. Vielen dank fuer Deine Hilfe.
Gruss
Katti
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 12:55 Mi 04.08.2004 | Autor: | magister |
Liebe Katti!
Nein, du bist nicht zu blöd.
wahrscheinlich liegt es an meiner erklärung.
ich werde versuchen dir heute am abend einen genaueren wortlaut und die formeln genauer beschreiben.
viele liebe grüße
magister
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 20:05 Mi 04.08.2004 | Autor: | Katti |
Hallo magister!
Das ist echt supernett von Dir!
Gruessle
Katti
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 21:48 Mi 04.08.2004 | Autor: | magister |
vielleicht formulierst du einfach mit dem jetztigen wissen eine erneute frage, damit ich bzw. auch andere unser glück aufs neue versuchen können.vielleicht gibt es jemanden, der es besser erklären kann als ich.
ganz liebe grüße
magister
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 21:38 Mi 04.08.2004 | Autor: | magister |
Ich hoffe, ich erinnere mich richtig.
also ich erkläre dir die lineare regression noch einmal.
die formeln stimmen ja.
wir rechnen uns primär die zwei koeffizienten a und b aus. das sind zwei konstante, die nützlich sind um einen zukünftigen wert zu prognostizieren
natürlich können wir uns auch ein prognoseintervall ausrechnen.wie wir wollen.
beispiele habe ich dir genannt.
in unserem fall, der einfachen linearen regression haben wir eine abhängige variable und eine unabhängige,also eine erklärende variable
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 18:43 Do 05.08.2004 | Autor: | Katti |
Hallo Magister!
Also, der Ablauf unserer Stichprobeninventur sieht folgendermassen aus:
Wir haben in unserem Hochregallager und Kleinteilelager ungefähr 25.000 Fächer. Fach bedeutet beispielsweise, dass dort 100 Dichtringe (buchmäßig), die 1 kosten (also 100) drinliegen. Von diesen 25.000 Fächern gehen aber ungefähr 25-40% in den Vollaufnahmebereich, da ihr Wert zu hoch ist. Über den Rest wird die Stichprobe erhoben. Dazu wird der Rest erst einmal in wertmäßig homogene Schichten geteilt zum Beispiel 0-141, 141,01-... und so weiter. Aus jeder Schicht werden dann per Zufallsauswahl 35 Fächer ausgewählt, die nachgezählt werden müssen. Da kommt dann beispielsweise heraus, dass in unserem Beispielfach tatsächlich nur 90 Dichtringe liegen. Es gibt also eine Minusdifferenz von 10 Stück und damit 10. Das wird fuer alle Stichprobenelemente so durchgefuehrt und ins System eingegeben, daraus wird dann der "tatsächliche Gesamtlagerbestand und Wert" hochgerechnet. Das System hat aber aus den buchmäßigen Beständen schon einen Wert für die statistische Grundgesamtheit ermittelt, beispielsweise sind in dem Lager 100.000 Stück irgendwas mit einem Gesamtwert von 200.000. Da kommen jetzt unsere Parameter ins Spiel. Wir sagen unser relativer Schätzfehle darf maximal 2% betragen, das heisst, der hochgerechnete "tatsächliche" Lagerbestand, muss zwischen 98.000 und 102.000 Stück liegen. Hinzu kommt noch die Sicherheitswahrscheinlichkeit. Die beträgt bei uns 95%. Sie bedeutet, dass die Wahrscheinlichkeit, dass der Wert zwischen 98.000 und 102.000 Stück liegt, 95% ist. (aus diesen 95% können die 35 Stichprobenelemente ermittelt werden (keine Ahnung wie)). Sollten die Parameter nicht eingehalten werden, ist die Stichprobe durchgefallen. So, ich hoffe, das Durcheinander ist einigermassen verständlich.
Gruessle
Katrin
|
|
|
|
|
Abend Katti
Also ich habe echt keine Ahnung mehr wie bzw. was ich noch versuchen könnte. es tut mir leid, dass ich dir nicht weiter helfen konnte.
alles gute.
lg
magister
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 21:46 Mi 04.08.2004 | Autor: | magister |
schaue mal in einem statistikbuch nach, vielleicht haben die einen bessere erklärung. zb. im hartung, statistik
vielleicht schreibe ich in den nächsten tagen noch etwas besseres dazu.
tut mir leid dir nicht richtig weitergeholfen haben zu können.
|
|
|
|