Stochastik - Nullhypothese < Stochastik < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Steuerprüfung
Finanzämter setzen neuerdings zur Steuerprüfung Programme ein, die testen, ob die von den Steuerzahlern angegebenen Zahlen nicht gefälscht sind. So geht man z.B. davon aus, dass in Tagesabrechnungen die Ziffer vor dem Komma (1232,39) zufällig ist.
Die 1000 Tagesabrechnungen, die eine Imbisskette beim Finanzamt einreicht, führen auf die folgende Situation (fiktives Beispiel):
[Dateianhang nicht öffentlich]
Im Folgenden ist zu beschreibe, wie ein Hypothesentest zur Überprüfung dieser Zahlen aussehen kann.
a)
- Formulieren sie eine Nullhypothese
- Eine geeignete Kenngröße, deren Wert Sie einem Hypothesentest unterwerfen könnten, wäre die Spannweite der Häufigkeiten. Begründen Sie dies kurz
- Die Häufigkeit der Ziffer 5 ist keine geeignete Kenngröße. Begründen Sie dies kurz.
b) Wählen sie nun als Kenngröße die Spannweite der Häufigkeiten
- Skizzieren Sie in einem Diagramm qualitativ, wie diese Kenngrößen bei Gültigkeit der Nullhypothese verteilt ist.
- Beschreiben Sie: Welche Werte nimmt die Spannweiter wahrscheinlich an, welche ist weniger Wahrscheinlich?
c)
- Geben Sie (basierend auf Ihrer Skizze) einen möglichen (einseitigen) Verwerfungsbereich an und tragen sie ihn in das Diagramm ein.
- Erläutern Sie an diesem Beispiel die Begriffe Irrtumswahrscheinlichkeit" und "Signifikanzniveau.
d) Man kann den Verwerfungsbereich größer oder kleiner Wählen. Beschreiben Sie, welche Auswirklichen dies jeweils auf das Verfahren der Steuerprüfung des Finanzamtes hätte.
e) Man kann eine Verwerfungsbedingung einseitig oder zweiseitig formulieren. Erklären Sie, was es bedeutet, wenn man auch die linke Seite der Verteilung der Spannweiten mit in den Verwerfungsbereich nimmt. |
So, eigentlich hatte ich immer das Gefühl in Stochastik relativ fit zu sein. Aber an der Aufgabe (Klausuraufgabe des letzten Semesters) scheitere ich grandios!
Vielleicht fehlt mir einfach nur ein Ansatz, aber im Moment bin ich nicht in der Lage auch nur einen Teil selbst zu beantworten.
Vielleicht kann mir jemand erst einmal nur eine kleine Hilfestellung geben die mir hilft überhaupt in diese Aufgabe reinzufinden.
Bin gerade wirklich ratlos.
Die Nullhypothese wäre vermutlich:
Die Daten wurden gefälscht
und die Alternativhypothese:
Die Daten wurden nicht gefälsch
oder umgegkehrt?
und warum eignet sich die Häufigkeit der 5 nicht? in einem ähnlichen Beispiel wurde immer mit der Maximalen Häufigkeit gerechnet.
Aber die wichtigste Frage ist die zweite unter b). Vielleicht ist mir schon geholfen wenn mir das jemand sagen könnte.
Die Spannweite dürfte in den angegebenen Werten ja
S=33 betragen. Wie finde ich nun heraus ob das typisch ist oder nicht? (Vorrausgesetzt ich habe zum lösen der Aufgabe keinen Computer mit Excel zur Hand)
Nun gut, ich denke ich habe meine Verwirrung und Hilflosigkeit genug zum Ausdruck gebracht, wäre klasse wenn mir jemand helfen könnte.
Gruß,
Tobias
P.S.: Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
Dateianhänge: Anhang Nr. 1 (Typ: jpg) [nicht öffentlich]
|
|
|
|
So, da ich auf Grund einer anderen Frage hier im Forum neue Erkenntnisse gewonnen haben, würde ich gerne mal versuchen die Aufgabe selber zu lösen. Wäre toll wenn sich das dann jemand angucken könnte, um mir zu sagen ob ich damit nun völlig daneben liege oder jetzt auf dem richtigen Weg bin. Und wenn es auch nur zu einzelnen Teilaufgaben sein mag, von denen man sich sicher ist, sie ist falsch oder richtig...mir ist mit allem geholfen
danke schonmal im vorraus:
a)
- Nullhypothese: [mm] H_{0}= [/mm] Die Angaben sind gefälscht
Alternativhypothese: [mm] H_{1}= [/mm] Die Angaben sind richtig
- Die Spannweite wäre geeignet, da hierbei sowohl das maximum der auftretenden Werte, als auch das minimum berücksichtigt werden. Das gesamte Signifikanzniveau kann somit berücksichtigt werden
- Weil hier nur das Maximum berücksichtigt werden würde. Zur Überprüfung sollte das Programm aber sowohl das Maximum, als auch das Minimum berücksichtigen (Stichwort: zweiseitiger Binomialtest)
b)
- hier nun meine größte Schwierigkeiten, ich hab einfach mehr oder weniger eine Skizze erstellt, wie die Verteilung ungefähr aussehen könnte. Ohne dabei groß auf die jeweiligen Werte zu achten:
[Dateianhang nicht öffentlich]
- Es ist anzunehmen, dass die Spannweite relativ klein ist. Bei einer Idealverteilung wäre sie "0", aber diesen Wert wird sie in der Realität wohl kaum annehmen.
Viel mehr ist davon auszugehen, das der Wert bei 1000 Stichproben so in etwa bei 14 liegen wird. Ein sehr großer Wert ist neben dem erwähnten sehr kleinen, sehr unwahrscheinlich...bei größen wie z.B. 50 sogar nahezu auszuschließen.
c)
- Ein möglicher Verwerfungsbereich wäre der Bereich >24
[Dateianhang nicht öffentlich]
- Irrtumswahrscheinlichkeit: Die Wahrscheinlichkeit, dass eine Hypothese verworfen, bzw. bestätigt wird, obwohl sie richtig, bzw. falsch ist.
Man spricht hier von einem Fehler 1. Art, bzw. von einem Fehler 2. Art. In diesem Fall wären es die Werte im Verwerfungsbereich, also die Werte für eine Spannweite von 25, 26, 27 und 28 die einen Fehler der 1. Art hervorrufen würden.
- Signifikanzniveau: Der Bereich, in dem die Meßwerte liegen dürfen, um als "richtig" angesehen zu werden, als der Bereich in der Skizze von 0 bis 24
d) Wird der Verwerfungsbereich kleiner, dann tauchen mehr Fehler der 1. Art auf, d.h. es werden häufiger Menschen der Fälscherei bezichtigt, als es sie in wirklichkeit gibt.
Wird der Verwerfungsbereich allerdings größer, dann tauchen mehr Fehler der 2.Art auf, d.h. viele Fälscher werden als solche nicht entlarvt.
e)Hier geht man dann davon aus, dass z.B. die 0 oder andere sehr kleine Werte ebenfalls so unwahrscheinlich sind, dass man auch hier zu der Überzeugung gelangen kann, dass es sich um Fälscher handelt.
Dateianhänge: Anhang Nr. 1 (Typ: jpg) [nicht öffentlich] Anhang Nr. 2 (Typ: jpg) [nicht öffentlich]
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 12:39 Mi 13.02.2008 | Autor: | rabilein1 |
In welchem Zusammenhang stehen die beiden Skizzen zu der Aufgabe?
Die Skizzen sehen so aus, als wäre etwas über einen Monat (Tage von 1 bis 31) verteilt, wobei am 15ten das Maximum erreicht ist.
In der Aufgabe sind es aber die Ziffern von 0 bis 9, die um Werte um die 100 verteilt sind.
|
|
|
|
|
Die Skizze meint die Größe der Spannweite...also zum Beispiel bei ca. 300 Tests dieser Art taucht die Spannweite von 14 insgesamt 35x auf...eine von 30 taucht 0x auf, so dass man davon ausgehen kann, das ein Test, der eine Spannweite von 30 hat, gefälscht ist.
Das die Zahlen von 1-31 hier auftauchen ist ein unglücklicher Zufall, hat aber nichts mit den Tagen eines Monats zu tun
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:44 Mi 13.02.2008 | Autor: | rabilein1 |
Die Theorie, die dahinter steckt (wie entlarvt man "Fälscher"?), ist hochinteressant, und ich denke, dass du mit deiner Analyse Recht hast:
Ein Fälscher, der kein Mathe-Studium hinter sich hat, wird entweder zu schlampig vorgehen (indem eine bestimmte Ziffer extrem oft vor dem Komma steht) oder er macht es zu perfekt (indem jede Ziffer exakt gleich oft vor dem Komma steht).
Wie sich diese Theorie dann allerdings in der Praxis bewährt, ist immer eine andere Frage.
(= Da z.B. alle Lottospieler ihre Zahlen unabhängig voneinander ankreuzen, sollten ihre Tipps eigentlich (theoretisch) gleichmäßig verteilt sein, so dass die Quoten jede Woche etwa gleich sind. In der Praxis jedoch sind die Quoten von Woche zu Woche verschieden, obwohl es eigentlich keinen triftigen Grund gibt, warum manche Zahlenkombinationen von den Spielern bevorzugt werden.)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 12:20 Mo 18.02.2008 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 14:20 Do 13.03.2008 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|