If you're seeing this message, it means we're having trouble loading external resources on our website.

Wenn du hinter einem Webfilter bist, stelle sicher, dass die Domänen *. kastatic.org und *. kasandbox.org nicht blockiert sind.

Hauptinhalt

Cluster, Lücken, Extrema & Ausreißer

Beispiele für das Betrachten verschiedener Eigenschaften von Verteilungen wie Cluster, Lücken, Peaks und Ausreißern.

Willst du an der Diskussion teilnehmen?

Noch keine Beiträge.
Verstehst du Englisch? Klick hier, um weitere Diskussionen auf der englischen Khan Academy Seite zu sehen.

Video-Transkript

in diesem video schauen wir uns ein paar beispiele von verteilung an und gucken mal auf irgendwas die cluster lücken extremer oder ausreißer in diesem verteilung erkennen okay wir haben jetzt hier eine verteilung gegeben und die aufgabe ist welche der folgenden aussagen sind korrekte beschreibung der unten gezeigten verteilung schauen wir erstmal die verteilung an was haben wir hier wir haben die arbeitsstunden pro klempner also verschiedene klempner und wie viel die in der woche beispielsweise arbeiten unten sind dann die anzahl der stunden aufgetragen also der klempner mit den niedrigsten stunden hatte zwischen 0 5 und der mit den höchsten hatte zwischen 45 und 50 stunden und dann wird hier links die höhe der balken zeigt wie viele klempner auf diese jeweiligen stunden zu treffen dann schauen uns erst mal an die erste frage oder die erste aussage ist die verteilung hat einen ausreißer im klee und ein ausreißer ist ja so ein punkt der ein bisschen abseits von den anderen punkten liegt und wir gucken uns das mal hier an wir sehen die verteilung hat den mal hat die meisten punkte hier in der gegend und dann kommt erst mal eine zeit lang nichts und dann kommt so ein ganz kleiner balken mit wahrscheinlich einem klempner der zwischen null und fünf stunden hat also liegt wirklich abseits der verteilung und das bedeutet nicht dass der punkt falsch sein muss klar es kann sein dass wir den in den daten falsch angegeben haben dass er deswegen bei null ist weil wir zum beispiel nicht herausgefunden haben wie viele stunden erarbeitet aber es kann auch einfach sein das ist ein sehr interessanter fall von camp klempner ist also es muss kein schlechter punkt sein es ist einfach nur ein punkt der weit außen liegt und das nennen wir ausreißer den hat die verteilung offensichtlich deswegen kreuzen wir hier ausreißerin und die nächste aussage die verteilung hat einen höchst punkt von 5 40 bis 45 stunden und dann schauen wir mal hier 40 bis 45 stunden das ist hier die gegend und wir sehen okay das ist tatsächlich die verteilung die verteilung geht er hoch und dann ist sie hier an ihrem maximalen punkt das ist quasi der gipfel wenn man sich das hier als berg vorstellt also ja es ist eine höchst punkt das ist korrekt deswegen kreuzen wir das an und keine der oben genannten ist er natürlich nicht richtig und wir testen mal hat funktioniert die frage ist wieder welche der folgenden aussagen sind korrekte beschreibung der folgende verteilung und wir haben diesmal den benzinverbrauch von den autos bei mileys motors gegeben und wir sehen hier unten ist der benzinverbrauch dann aufgetragen kilometer pro liter und dann wir jetzt hier hoch gucken sehen wir wie viele autos darauf zu treffen also es gibt 123456 autos die 24 kilometer pro liter fahren können oder es gibt zwei autos 12 autos die 31 kilometer pro liter benzin fahren können und die erste aussage ist die verteilung hat eine anhäufung von 30 von 33 bis 37 kilometern pro liter und wir können jetzt hier gucken 33 bis 37 33 ist hier und 37 ist hier da ist keine anhäufung da ist eher so eine art lücke also die aussage ist nicht korrekt eine anhäufung sieht man hier das ist eine anhäufung das ist auch eine anhäufung aber hier sind keine punkte das ist keine anhäufung das heißt die erste aussage ist falsch die zweite aussage die verteilung hat eine lücke von 38 bis 42 km pro liter ok 38 bis 42 das ist hier und wir sehen da ist keine lücke da ist eine anhäufung das heißt keine lücke wir konnten das auch nicht an also kreuzen wir an keine der oben genannten und das ist richtig hier haben wir die tageshöchsttemperatur im juli in eppstein in europa und diese tageshöchsttemperatur ist ein grad celsius angegeben und wir sehen die gt von 19 grad celsius bis maximal 25 grad celsius also noch ganz nette temperatur zahl und die erste aussage ist die verteilung hat einen ausreißer die guckt man sich verteilung mal an die ist recht zusammen hängt also die werte und hängen alle recht nah zusammen und es gibt vor allem kein wert der jetzt irgendwie sehr weit rechts oder sehr weit links wäre zum beispiel irgendwie 35 grad in einem tag oder an einem tag mal minus zwei grad das wären ausreißer weil sie sehr weit entfernt liegen das haben wir hier aber nicht die daten sind alle recht nah beieinander und die sind auch recht zusammen hängt also wenn wir nicht sagen dass die verteilung einen ausreißer hat die verteilung hat einen höchst punkt bei 22 grad celsius dann gucken wir wieder 22 grad celsius das ist genau hier und dann gucken wir mal nach oben und tatsächlich diese diese säule hier die dieser stapel von punkten ist tatsächlich der höchste und wir sehen es ist auch nicht jetzt gerade noch so ein bisschen rauschen sondern das geht ganz systematisch nach oben und dann kommt sie hierher maximum an und geht dann wieder nach unten also das ist tatsächlich ein höchst punkt bei 22 grad celsius das ist richtig und keine der oben genannten ist dann wieder falsch weil wir haben eins gefunden und wir überprüfen und es war richtig