Hauptinhalt
Aktuelle Zeit:0:00Gesamtdauer:9:10

Video-Transkript

Sagen wir, wir haben zwei verschiedene Datensätze. Im ersten Datensatz habe ich eine 2, noch eine 2, eine 4 und eine 5. Und im anderen Datensatz habe ich eine 1-- --machen wir das auf der rechten Seite. Eine 1, eine 1, eine 6 und eine 4. Nun, das erste, worüber ich nachdenken will, ist, nun, wie kann ich--- Gibt es eine Zahl, die mir ein Maß für das Zentrum dieser Datensätze gibt? Und einer der Wege dafür, die wir kennen, ist der Mittelwert. Berechnen wir also den Mittelwert dieser Datensätze. Der erste Datensatz, der Mittelwert-- Nun, wir brauchen nur die Summe über alle Zahlen, das ist 2 plus 2 plus 4 plus 4. Und dann dividieren wir das durch die Anzahl der Zahlen, die wir haben. Wir haben 1, 2, 3, 4 Zahlen. Das ist diese 4 hier. Und das macht, 2 plus 2 ist 4, plus 4 ist 8, plus 4 ist 12. Das ist also 12 durch 4, was gleich ist 3. Eigentlich, schauen wir ob wir das auf einer Zahlengeraden darstellen können. Eigentlich, ich werde eine Art-- ich mache hier ein Punktediagramm, damit wir alle Werte sehen können. Das ist 0, 1, 2, 3, 4 und 5. Wir haben zwei 2er. Warum mache ich nicht einfach-- Also für jeden dieser 2er-- Eigentlich, ich mache es in gelb. Ich habe also eine 2, und dann eine andere 2. Ich mache hier einfach ein Punktediagramm. Dann habe ich zwei 4er. Also, eine 4 und eine andere 4, gleich hier, und wir haben berechnen, dass der Durchschnitt 3 ist. Der Durchschnitt ist 3. Ein Lageparameter, es ist 3. Ich setze also eine 3 hier her. Ich zeichne ihn mit einer gepunkteten Linie ein. Das ist der Mittelwert. Gut. Nun, wir haben das ein wenig sichtbar gemacht. Das sieht so aus als wäre es das Zentrum. Es ist ein ziemlich-- Es gibt Sinn. Sehen wir uns nun diesen Datensatz hier an. Der Mittelwert hier herüben ist gleich 1 plus 1, plus 6, plus 4, all das geteilt durch-- wir haben noch immer 4 Datenpunkte. Und das ist 2 plus 6 gleich 8, plus 4 ist 12. 12 dividiert durch 4, das ist auch 3. Das hat also denselben Mittelwert. Wir haben verschiedene Zahlen, aber wir haben denselben Mittelwert. Aber es gibt etwas an diesen Datensätzen das ein wenig verschieden wirkt. Und zeichnen wir es, um zu sehen ob wir einen Unterschied sehen. Sehen wir, ob wir das darstellen können. Ich muss ganz bis 6 hinaufgehen. Sagen wir, das ist 0, 1, 2, 3, 4, 5, 6, und wir gehen eines weiter, 7. Wir haben eine 1. Wir haben eine 1, wir haben eine andere 1. Wir haben eine 6. Und wir haben eine 4. Und wir haben berechnet, dass der Mittelwert 3 ist. Wir haben also berechnet, dass der Mittelwert 3 ist. Also der Mittelwert ist 3. Wenn wir den Mittelwert nehmen, ded Mittelpunkt, oder ein Maß für diesen Mittelpunkt, wofür wir den Mittelwert nehmen, nun, es sieht gleich aus, aber die Datensätze sehen unterschiedlich aus. Wie sehen sie unterschiedlich aus? Nun, wir haben über eine Vorstellung von Variabilität oder Variation gesprochen. Und es sieht so aus als sei dieser Datensatz mehr aufgeteilt. Es sieht aus, als seien die Datenpunkte im Durchschnitt weiter entfernt vom Mittelwert. als diese Datenpunkte. Das ist eine interessante Frage die wir uns in der Statistik stellen. Wir wollen nicht nur einen Messwert für das Zentrum, wie den Mittelwert. Wir wollen vielleicht auch einen Messwert für die Variabilität. Und einer der geradlinigsten Wege über Variabilität nachzudenken, ist, nun, im Durchschnitt, wie weit jeder dieser Datenpunkte vom Mittelwert entfernt ist. Das mag etwas kompliziert klingen, aber wir werden gleich herausfinden was das bedeutet, um das Wort "Mittelwert" nicht zu überstrapazieren. Nun, wir wollen herausfinden, wie weit jeder dieser Datenpunkte im Durchschnitt vom Mittelwert entfernt ist. Und was wir berechnen werden, heißt Mittlere Absolute Abweichung. Absolute Abweichung. Mittlere Absolute Abweichung, und die englische Abkürzung ist MAD, MAD, für Mean Absolute Deviation. Und worüber wir sprechen, wir werden herausfinden wie viel diese Punkte -- -- ihre Abweichung, die absolute Abweichung -- wie viel weichen sie vom Mittelwert ab, und der Betrag davon? Also jeder dieser Punkte auf 2, sie sind 1 entfernt vom Mittelwert. Es ist nicht wichtig, ob sie niedriger oder höher sind. Sie sind 1 entfernt vom Mittelwert. Und dann suchen wir den Mittelwert all dieser Abweichungen. Was heißt das jetzt? Ich verwende das Wort "Mittelwert" wohl etwas zu häufig. Berechnen wir also die Mittlere Absolute Abweichung dieses ersten Datensatzes. Wir waren in der Lage, herauszufinden, was der Mittelwert ist. Der Mittelwert ist 3. Wir nehmen also jeden dieser Datenpunkte und wir berechnen, was die Absolute Abweichung vom Mittelwert ist. Wir nehmen die erste 2. Wir sagen also, 2 minus den Mittelwert. 2 minus den Mittelwert, und wir nehmen den Betrag. Das ist also die absolute Abweichung. Dann haben wir eine andere 2, wir berechnen also die absolute Abweichung von 3. Wie zuvor, wenn wir einfach 2 minus 3 nehmen, und davon den Betrag, dann ist das die absolute Abweichung. Und wie weit ist es von 3 entfernt? In den Fall ist das sehr leicht zu berechnen. Dann haben wir eine 4 und eine andere 4. Ich schreibe das auf. Dann haben wir die absolute Abweichung von 4 zu 3, zum Mittelwert. Dann plus, wir haben eine weitere 4. Wie haben diese 4 hier herüben. 4 minus 3. Wir nehmen den Betrag, denn wiederum, es ist die absolute Abweichung. Und dann dividieren wir es, und dann dividieren wir es durch die Zahl der Datenpunkte, die wir haben. Also, was wird das sein? 2 minus 3 ist minus 1, aber wir nehmen den Betrag. Es ist einfach 1. 2 minus 3 ist minus 1. Wir nehmen den Betrag. Es ist einfach 1. Und man sieht das hier dargestellt. Dieser Punkt ist nur 1 entfernt. Es ist nur 1 entfernt von 3. Dieser Punkt ist nur 1 entfernt von 3. 4 minus 3 ist 1. Der Betrag davon ist 1. Dieser Punkt ist nur 1 entfernt von 3. 4 minus 3, und Betrag davon. Das ist wiederum 1. Man sieht also in diesem Fall, jeder Datenpunkt ist exakt 1 entfernt vom Mittelwert. und wir nahmen den Betrag damit wir hier nicht negative 1er haben. Und wir interessieren uns nur für die absolute Abweichung. Wenn man also 4 Datenpunkte hat, ist jede der absoluten Abweichungen 4 entfernt. Der Mittelwert der absoluten Abweichungen ist also 1 plus 1 plus 1 plus 1 plus 1, also 4, geteilt durch 4. Das ist also gleich 1. und wenn man darüber nachdenkt, kann man sagen, im Durchschnitt ist der Mittelwert der Abstände dieser Punkte von ihrem Mittelwert 1. Und das gibt Sinn, denn alle davon sind exakt 1 entfernt vom Mittelwert. Nun, sehen wir wie, welche Ergebnisse wir für diese Datensätze hier bekommen. Und ich werde es machen. Eigentlich, ich mache hier etwas Freiraum. Zu jedem Zeitpunkt, wenn ihr möchtet, will ich euch motivieren die Mittlere Absolute Abweichung selbst zu berechnen. Berechnen wir es also. Die Mittlere Absolute Abweichung hier, ich schreibe stattdessen MAD, wir gleich sein zu-- Nun, überlegen wir uns die absolute Abweichung jedes dieser Punkte vom Mittelwert. Es ist der Betrag von 1 minus 3, das ist diese erste 1, plus die absolute Abweichung, also 1 minus 3, das ist die zweite 1, dann plus den Betrag von 6 minus 3, das ist die 6, dann haben wir die 4, plus den Betrag von 4 minus 3. Dann haben wir vier Punkte. Also 1 minus 3 ist minus 2. Der Betrag ist 2. Und wir sehen das hier. Das ist 2 entfernt von 3. wir interessieren uns nur für die absolute Abweichung. Wir interessieren uns nicht ob es links oder rechts ist. Dann haben wir eine andere 1 minus 3, das ist minus 2. Das ist der Betrag, das ist also 2. Das ist es. Das ist 2 entfernt vom Mittelwert. Dann haben wir 6 minus 3. Der Betrag davon ist 3. Und das ist das hier. Wir sehen dieses 6 ist 3 rechts vom Mittelwert. Wir interessieren uns nicht ob es rechts oder links ist. Und dann 4 minus 3. 4 minus 3 ist 1, der Betrag davon ist 1. Und wir sehen das. Es ist 1 rechts von 3. Und was haben wir nun? Wir haben 2 plus 2 gleich 4, plus 3 ist 7, plus 1 ist 8, durch 4, und das ist gleich 2. Die Mittlere Absolute Abweichung-- Ich schreibe das auf. Das ist hier hinausgefallen. Hier, in diesem Datensatz, ist die Mittlere Absolute Abweichung gleich 2, während in diesem Datensatz, ist die Mittlere Absolute Abweichung gleich 1. Und das gibt Sinn. Sie haben exakt dieselben Mittelwerte. Sie haben beide einen Mittelwert von 3. Aber dieser ist mehr aufgeteilt. Der Datensatz rechts ist aufgeteilter, denn im Durchschnitt ist jeder dieser Punkte 2 entfernt von 3, während jeder dieser Punkte im Durchschnitt 1 entfernt von 3 ist. Die Mittelwerte der absoluten Abweichungen hier ist 1. Die Mittelwerte der absoluten Abweichungen hier ist 2. Die grünen Daten weichen also weiter vom Mittelwert ab.