If you're seeing this message, it means we're having trouble loading external resources on our website.

Wenn du hinter einem Webfilter bist, stelle sicher, dass die Domänen *. kastatic.org und *. kasandbox.org nicht blockiert sind.

Hauptinhalt

Beweis (Teil 4) Minimieren des quadratischen Fehlers der Regressionsgeraden

Beweis (Teil 4) Minimieren des quadratischen Fehlers der Regressionsgeraden. Erstellt von Sal Khan

Willst du an der Diskussion teilnehmen?

Noch keine Beiträge.
Verstehst du Englisch? Klick hier, um weitere Diskussionen auf der englischen Khan Academy Seite zu sehen.

Video-Transkript

Nun, wenn ihr so weit gekommen seid, dann habt ihr wohl nur darauf gewartet, die optimale Gerade zu finden, die die quadratische Distanz zu all diesen Punkten minimiert. Also kommen wir zum Höhepunkt. Lösen wir dem optimalen m und b. Und aufbauend auf den letzten Videos, gibt es zwei Wege, das zu tun. Wir kennen bereits zwei Punkte, die auf dieser Geraden liegen, somit können wir buchstäblich die Steigung dieser Geraden finden und den y-Achsenabschnitt, das b hier, oder wir könnten einfach sagen, es ist die Lösung für dieses Gleichungssystem. Und das ist tatsächlich mathematisch äquivalent. Also lösen wir für m zuerst, und wenn wir für m lösen wollen, wollen wir die b's wegkürzen. Ich werde diese obere Gleichung hier neu schreiben so wie sie hier geschrieben ist. Wir haben m mal den Mittelwert von x Quadrat plus b mal den Mittelwert von -- eigentlich, wir könnten es sogar besser machen. Um einen Schritt besser ist, basierend auf unserer Arbeit im letzten Video, wir subtrahieren einfach diese untere Gleichung von dieser oberen Gleichung. Also ich subtrahiere das. Oder ich addiere die Negative. Also wenn ich das negativ mache, wird das negativ, das ist negativ. Was bekommen wir? Wir bekommen m mal den Mittelwert der x-Werte, minus den Mittelwert der x-Quadrat-Werte, geteilt durch den Mittelwert der x-Werte. Das plus b und das minus b kürzen sich raus. Ist gleich dem Mittelwert der y-Werte minus dem Mittelwert der xy-Werte, dividiert durch den Mittelwert der x-Werte. Und nun können wir beide Seiten der Gleichung durch das dividieren. Dann bekommen wir m ist gleich den Mittelwerten der y-Werte, minus dem Mittelwert der xy-Werte, dividiert durch den Mittelwert der x-Werte, dividiert durch das, den Mittelwert der x-Werte, minus dem Mittelwert der x-Werte quadriert, dividiert durch den Mittelwert der x-Werte. Seht ihr, das ist exakt dasselbe, das man bekommen würde wenn man die Steigung zwischen diesen zwei Punkten hier berechnet. Veränderung von y, also die Differenz zwischen diesem y und diesem y, ist das hier herüben, dividiert durch die Veränderung der x-Werte, dieses x minus diesem x, ist exakt das hier herüben. Nun, um das zu vereinfachen, wir können den Zähler und den Nenner jeweils mit dem Mittelwert der x-Werte multiplizieren. Und ich mache das einfach, damit wir das nicht mehr im Nenner haben an beiden Stellen. Wenn wir also den Zähler mit dem Mittelwert der x-Werte multiplizieren, haben wir den Mittelwert der x-Werte, mal den Mittelwert der y-Werte, minus-- das und das kürzen sich raus-- minus dem Mittelwert der xy-Werte. All das geteilt durch den Mittelwert der x-Werte mal den Mittelwert der x-Werte, also den Mittelwert der x-Werte quadriert, minus-- hier herüben haben wir-- den Mittelwert der x-Werte quadriert. Und das ist, was wir für m bekommen. Und wenn wir für b lösen wollen, können wir buchstäblich einfach zurück einsetzen in irgendeine der Gleichungen, aber diese Gleichung hier ist einfacher. Wenn wir das also für b auflösen wollen, können wir nach b bezüblich m auflösen. Wir subtrahieren einfach m mal den Mittelwert der x-Werte von beiden Seiten. Wir erhalten b ist gleich dem Mittelwert der y-Werte, minus m mal dem Mittelwert der x-Werte. Was ihr also macht, ist, ihr nehmt eure Datenpunkte, berechnet den Mittelwert der x-Werte, den Mittelwert der y-Werte, den Mittelwert der xy-Werte, den Mittelwert der x-Werte quadriert. Ihr berechnet m. Sobald ihr m gefunden habt, setzt ihr zurück ein, um b zu finden. Und dann habt ihr eure tatsächliche optimale Gerade. Und wir sind fertig. Das sind also die beiden großen Formeln zum Mitnehmen für unsere optimale Gerade. Was ich im nächsten Video tun werde, und das ist wo ihr irgendwie-- -- wenn jemand die Videos bis hierher übersprungen ist, sollte er sich mit dem nächsten Video wieder beschäftigen, denn wir werden diese Formeln verwenden für die best passende Gerade, zumindest wenn man den Fehler als ihre quadrierte Distanz von den Messpunkten bemisst. Wir werden diese Formeln verwenden, um die beste Gerade für einige Daten zu finden.