statistisches Problem < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 16:21 Fr 16.07.2004 | Autor: | jopeku |
Hallo,
ich wage mich in dieses Forum, da man mir es im Forum 9-10 Klasse
so geraten hat.
Da ich mir hier etwas Hilfe und Unterstützung erhoffe, versuche ich mein Problem
möglichst konkret zu beschreiben.
Ich beschäftige mich als Autodidakt seit einigen Jahren mit der quantitativen Computerlinguistik. Die dazu erforderlichen Programme schreibe ich erfolgreich
selbst. Die Programme ermitteln aus einer sehr großen Zahl von Texten, spezielle
Kennzahlen wie sie in der entsprechenden Literatur beschrieben werden sowie einige
zusätzliche Kennzahlen, die ich selbst entwickelt habe.
Meine Interesse richtet sich darauf, ob man an Hand des Genres Märchen, Novelle, Erzählung usw. signifikante Unterschiede feststellen kann oder nicht. Als Ausgangsmaterial
verwende ich nur Texte zwischen 1800 und 1900.
So weit, so gut.
Nun mein Problem in der Hoffnung auf Hilfe:
Wenn ich die Entropie der Wörter in einem Text beispielsweise ermittle und die Werte
addiere um sie am Ende durch die Anzahl der im Text vorkommenden Worte dividiere,
dann erhalte ich je Text einen bestimmten Wert.
An Hand dieser ermittelten Kennzahl möchte ich nun die Texte miteinander programmtechnisch vergleichen. Nach meiner Auffassung jedoch übt die Wortanzahl
einen Einfluss aus diesen Wert aus. Nun habe ich mich versucht in der Literatur
schlau zu machen und da wird darauf verwiesen, dass man durch Transformation der
Werte unterschiedliche Stichproben normalisieren kann.
Ich gehe davon aus, das die Stichproben also Texte in Normalverteilter Form vorliegen.
Welches Verfahren kann ich anwenden, um den Einfluss der Wortanzahl zu eliminieren??
Oder sind meine Überlegungen völlig falsch?
Ich würde mich sehr darüber freuen, wenn mir jemand helfen könnte.
Ich bitte aber zu bedenken, dass ich weder jemals studiert habe und mich eher als mathematischer Laie betrachte. Es wäre also sehr nett, wenn man mir eine Lösung so
erklären könnte, das ich sie programmtechnisch einfach umsetzen kann.
Ein kurzes Beispiel:
Text 1 768 Worte Kennzahl 0,346
Text 2 11723 Worte Kennzahl 0,421
Text 3 2812 Worte Kennzahl 0,361
Ich habe diese Frage auch in folgendem Foreum gestellt:
https://matheraum.de/read?f=10&t=650&i=650
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 23:02 Fr 16.07.2004 | Autor: | Stefan |
Hallo!
Ich bin mir zwar nicht ganz sicher, ob ich dein Problem richtig verstanden habe, aber ich versuche es mal.
Bleiben wir mal bei deinem Beispiel:
> Ein kurzes Beispiel:
>
> Text 1 768 Worte Kennzahl 0,346
> Text 2 11723 Worte Kennzahl 0,421
> Text 3 2812 Worte Kennzahl 0,361
Hier würde ich wie folgt vorgehen:
Du gehst ja davon aus, dass die Entropie normalverteilt ist. Den Erwartungswert bezeichne ich mit [mm] $\mu$ [/mm] und die Streuung mit [mm] $\sigma$.
[/mm]
Jetzt könntest du [mm] $\mu$ [/mm] durch das arithmetische Mittel [mm] $\hat{\mu}$ [/mm] der drei Werte $0,346$, $0,421$ und $0,361$ schätzen und [mm] $\sigma$ [/mm] durch die empirische Streuung:
[mm] $\hat{\sigma}= \sqrt{\frac{1}{2} ( (0,346 - \hat{\mu})^2 + (0,421 - \bar{x})^2 + (0,361 - \bar{x})^2 )}$.
[/mm]
So, und jetzt standardisierst du deine Größen mittels:
[mm] $\bar{x_i} [/mm] = [mm] \frac{x_i - \hat{\mu}}{\hat{\sigma^2}} \sqrt{n}$,
[/mm]
also:
[mm] $\bar{x_1} [/mm] = [mm] \frac{0,346 - \hat{\mu}}{\hat{\sigma}} \sqrt{768}$,
[/mm]
[mm] $\bar{x_2} [/mm] = [mm] \frac{0,421 - \hat{\mu}}{\hat{\sigma}} \sqrt{11723}$,
[/mm]
[mm] $\bar{x_3} [/mm] = [mm] \frac{0,361 - \hat{\mu}}{\hat{\sigma}} \sqrt{2812}$.
[/mm]
Liebe Grüße
Stefan
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 23:18 Fr 16.07.2004 | Autor: | jopeku |
Hallo Stefan,
danke für die Antwort, hatte schon befürchtet,
das ich alleine mit meinem Problem bleibe.
Ich denke mal, ich habe es halbwegs verstanden
und versuche es mal
a) programmtechnisch umzusetzen
b) die Ergebnisse an Hand der Augabenstellung zu bewerten
eine abschließende Frage habe ich noch dazu:
Hat dieses Verfahren einen bestimmten Namen, unter dem ich
in einem guten Statistikbuch nachschlagen kann.
Um mich herrum wimmelt es von Stistikbücher z.B. Sachs, aber
je mehr man darin stöbert um so mehr wird man irretiert
danke für deine Hilfe
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 23:44 Fr 16.07.2004 | Autor: | Stefan |
Hallo!
Das ist die ganz gewöhnliche Standardisierung:
Ist $X$ [mm] ${\cal N}(\mu,\sigma^2)$-verteilt, [/mm] so ist [mm] $\frac{X-\mu}{\sigma}$ ${\cal N}(0,1)$-verteilt.
[/mm]
Das einzige, was du hier beachten musst, ist folgendes:
Ist eine Folge [mm] $(X_i)_{i=1,2,\ldots,n}$ [/mm] unabhängig identisch [mm] ${\cal N}(\mu,\sigma^2)$ [/mm] verteilt, so ist das arithmetische Mittel
[mm] $\bar{X} [/mm] = [mm] \frac{1}{n} \sum\limits_{i=1}^n X_i$
[/mm]
gerade [mm] ${\cal N}(\mu, \frac{\sigma^2}{n})$-verteilt.
[/mm]
Jetzt wendest du die obige Standardisierung einfach auf [mm] $\bar{X}$ [/mm] (anstatt auf $X$) an. (Denn: Bei dir sind die Kenngrößen ja bereits arithmetische Mittel der Entropien von Stichproben verschiedener Größen.)
Da [mm] $\mu$ [/mm] und [mm] $\sigma$ [/mm] nicht bekannt sind, musst du diese erst aus dem arithmetischen Mittel der drei Werte und der Stichprobenvarianz der drei Werte schätzen.
Liebe Grüße
Stefan
|
|
|
|