If you're seeing this message, it means we're having trouble loading external resources on our website.

Wenn du hinter einem Webfilter bist, stelle sicher, dass die Domänen *. kastatic.org und *. kasandbox.org nicht blockiert sind.

Hauptinhalt

ANOVA 1: Berechnung der SST (Gesamtsumme der Abweichungsquadrate)

Varianzanalyse 1 - Berechnung SST (Gesamtsumme der Abweichungsquadrate). Erstellt von Sal Khan

Willst du an der Diskussion teilnehmen?

Noch keine Beiträge.
Verstehst du Englisch? Klick hier, um weitere Diskussionen auf der englischen Khan Academy Seite zu sehen.

Video-Transkript

In diesem und folgenden Videos werden wir ein paar Berechnungen mit diesem Datensatz hier machen. Und hoffentlich gibt euch diese Übung ein Gefühl dafür, worum es bei der Varianzanalyse geht. Als erstes möchte ich die gesamte Quadratsumme berechnen. Die sogenannte SST ("sums of squares total"). Ihr könnt das als den Zähler ansehen, wenn es an die Berechnung der Varianz geht. Wir nehmen also die Distanz zwischen jedem dieser Datenpunkte und den Mittelwert all dieser Datenpunkte, quadrieren sie und summieren sie auf. Wir teilen nicht durch den Freiheitsgrad, wie man es normalerweise bei der Berechnung der Stichprobenvarianz macht. Wie gehen wir das an? Zuerst müssen wir den Mittelwert all dieser Zahlen berechnen. Ich werde das "grand Mittel" nennen. Ich werde das "grand Mittel" nennen. Und gleich seht ihr, dass es das gleiche ist, wie der Mittelwert der Mittelwerte dieser Datensätze. Also lasst uns das "grand Mittel" (den übergeordneten Mittelwert) berechnen. Insgesamt sind das neun Datenpunkte, also werden wir durch neun teilen. Was kommt dabei raus, wenn wir die Zahlen addieren? 3+2+1... ...+5+6+7 = 36 Und 36 geteilt durch 9 = 4. Und das ist der Mittelwert der Mittelwerte der drei Datensätze. Der Mittelwert dieser grünen Gruppe hier links ist 3 + 2 + 1 = 6. Und 6 geteilt durch 3 Datenpunkte ist gleich 2. Der Mittelwert der Gruppe 2... Die Summe hier ist 12, denn 5 plus 3 plus 4 ist 12. Und 12 geteilt durch 3 ist 4. Denn wir haben drei Datenpunkte. Und der Mittelwert der Gruppe 3: 5 + 6 + 7 = 18. 18 geteilt durch 3 ist 6. Also, wenn wir den Mittelwert der Mittel nehmen wollen also das "grand Mittel", dann haben wir 2+4+6 = 12 Und 12 geteilt durch 3 ist 4 - wie wir vorhin schon gerechnet haben.. Man kann es also als übergeordneten Mittelwert über alle Daten sehen oder als Mittelwert der Mittelwerte jeder Gruppe. Und da wir den MIttelwert jetzt berechnet haben können wir nun die Quadratsummen berechnen. Los geht's. SST ("sums of squares total") entspricht 3 -4... diese 4, die wir gerade berechnet haben... zum Quadrat SST = (3-4)^2 + (2 - 4)^2 + (1-4)^2...und jetzt kommen die lila Zahlen... ...+ (5-4)^2 + (3-4)^2 + (4-4)^2 ...+ (5-4)^2 + (3-4)^2 + (4-4)^2 Jetzt fehlen noch die letzten drei.... ...+ (5-4)^2 + (6-4)^2 + (7-4)^2. Und was kommt dabei raus? Das erste hier, 3 minus 4, ist gleich 1.... ...also eigentlich gleich -1, und das zum Quadrat ist 1. Plus -2 zum Quadrat ist gleich 4, plus -3 zum Quadrat ist 9. Und hier in Magenta haben wir: 5-4=1, zum Quadrat immer noch 1. (3-4)^2 ist 1. Und 4-4 ist 0, also schreiben wir die 0 hier hin nur um zu sehen, dass wir das wirklich gerechnet haben. Und jetzt zu den letzten Datenpunkten. 5 minus 4 zum Quadrat ist 1. 6 minus 4 zum Quadrat ist 4. 7 minus 4 ist 3, ... ...zum Quadrat ist 9. Wir haben also 1 plus 4 plus 9. Und 1 plus 4 plus 9, also 5 plus 9, das gibt 14. Genau, 14. Und wir haben noch mal 14 genau hier, denn hier haben wir auch 1 plus 4 plus 9. also ist das hier auch 14. Und dann haben wir hier noch 2 14 mal 2, also 14 plus 14 ist 28, plus 2 ist 30. Unser SST ("sums of squares total") ist also 30. Und um die Varianz zu berechnen, würden wir das einfach durch die Freiheitsgrade teilen. Und das hier ist ein Vielfaches der Freiheitsgrade hier. Sagen wir also, wir haben sagen wir wir haben m Gruppen hier. Und ich werde hier nicht den kompletten Beweis führen, aber ich will euch zeigen, wo diese seltsamen Formeln herkommen, die in Statistik auftauchen. Ich will nicht den kompletten Beweis führen, sondern euch nur ein Gefühl dafür geben. Wir haben also m Gruppen und jede Gruppe hat n Elemente. Wie viele Elemente haben wir also insgesamt? Nun, wir haben m mal n oder 9, richtig? 3 mal 3 Elemente. an Freiheitsgraden haben wir also genauso viele wie Datenpunkte minus 1 Freiheitsgrad. Denn wenn ihr den Mittelwert der Mittelwerte kennen würdet, also angenommen, ihr würdet ihn kennen, dann würdet ihr nur durch 9 minus 1, also durch 8 dieser Datenpunkte neue Informationen erhalten denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. Den 9. könntet ihr über den MIttelwert der Mittelwert und die anderen acht berechnen. Es gibt also nur acht unabhängige Messwerte hier. Oder genereller gesprochen: Es gibt m mal n (also die Gesamtzahl der Datenpunkte) minus 1 Freiheitsgrade. Und um die Varianz zu berechnen, würden wir einfach die 30 durch m mal n -1 teilen. Oder anders gesagt: Ihr teilt die 30 durch die 8 Freiheitsgrade und damit habt ihr die varianz für diese gesamte Gruppe an neun Messwerten. Ich belasse es in diesem Video dabei. Im nächsten Video versuchen wir herauszufinden, wie viel dieser Gesamtvarianz, also dieser gesamten Quadratsummen, der gesamten Abweichung durch die Variation innerhalb dieser Gruppen versus der Variation zwischen der Gruppen kommt. Und ich denke ihr werdet ein Gefühl dafür bekommen, worum es bei dieser Varianzanalyse geht. Es gibt Varianz innerhalb der gesamten Stichprobe (also der neun Datenpunkte), aber ein Teil der Varianz könnte auch daher kommen, dass die drei Gruppen unterschiedlich sind. Es geht also darum, die Varianz innerhalb der Gruppen und die Varianz zwischen den Gruppen zu berechnen. Und wenn wir das machen, werden wir sehen, dass sie sich zu unserer Gesamtvarianz aufsummieren.