Top 10 Machine Learning Algorithmen: Warum sind sie im Jahr 2021 so wichtig?

Veröffentlicht: 2019-06-10
Inhaltsverzeichnis
  • Im Kaninchenloch des maschinellen Lernens

  • Anwendungen aus dem wirklichen Leben

  • Was versteht man unter Machine-Learning-Algorithmen?

  • Arten des maschinellen Lernens

  • Top 10 der maschinellen Lernalgorithmen

  • Einpacken

  • Im Jahr 2021 können Computer nicht nur sehen , sondern auch selbstständig lesen und schreiben .

    Schauen wir uns die moderne Horrorgeschichte an, in der wir tatsächlich leben.

    Wie würden Sie beispielsweise reagieren, wenn Ihnen jemand sagen würde, dass bald 30 % der Arbeitsplätze durch Automatisierung ersetzt werden? Es ist unverschämt, nicht wahr?

    Und was hat das mit Machine-Learning-Algorithmen zu tun ?

    Zum Glück gibt es ein Licht am Ende des Tunnels. Lassen Sie sich von mir durchgehen.

    Im Jahr 2021 können Computer:

    • Erkennen Sie Stimmen, Gesichter und Handschriften. (CSI-Stil…)
    • Bildunterschriften automatisch.
    • Erfahren Sie, wie Sie den Inhalt eines Bildes erkennen und nach einem bestimmten Merkmal klassifizieren.
    • Erledige Aufgaben für dich. (Und erstellen Sie die erforderlichen Algorithmen, um sie auszuführen.)

    Die Liste geht natürlich weiter.

    Jeden Tag führen wir Webrecherchen durch, besuchen Websites und soziale Medien. Und wir stellen uns nie die grundlegende Frage:

    Wie weit ist die KI-Technologie gegangen?

    Auf geht's!

    Die Errungenschaften der Technik werfen Fragen nach der Zukunft der Menschheit auf.

    Vielleicht geben uns diese Fakten einen Einblick:

    (Quelle: Futurismus , Dezyre )

    • In Südkorea sind durchschnittlich 4,78 von 100 Arbeitern Roboter .
    • 88 % der Beschäftigten in Äthiopien sind vom Verlust ihres Arbeitsplatzes durch Roboter bedroht.
    • In New York City sind 40,7% gefährdete Arbeitnehmer .
    • 9 Zeilen Code werden benötigt, um ein maschinelles Lernprogramm zu schreiben.
    • 97% der Jobs in der Fast-Food-Küche werden durch Maschinen ersetzt.
    • 98% der Landwirte werden ihren Arbeitsplatz durch Maschinen verlieren.
    • Maschinelles Lernen kann in der Pharmaindustrie bis zu 1 Milliarde US-Dollar pro Jahr generieren .
    • In den nächsten 10 Jahren wird maschinelles Lernen schätzungsweise 25 % der Arbeitsplätze ersetzen .

    2021 können wir tatsächlich einen Roboter zu Hause besitzen.

    Sie können sich mit Jibo oder Tapia fließend unterhalten . Sie werden nicht ohne Grund soziale Roboter genannt .

    Sie erinnern sich an die Namen, Gesichter und Stimmen deiner Freunde und Familienmitglieder (was überhaupt nicht gruselig ist!), sie können auf dein Kind aufpassen (oh ja!), und wenn du zu Hause einen Unfall hast, rufen sie 911 an Sie. Letzteres kann besonders nützlich sein, wenn niemand sonst in der Nähe ist. Aber dazu kommen wir später.

    Heutzutage können Algorithmen sich Sprachen „beibringen“ und sogar gesprochenes Englisch in geschriebenes Chinesisch simultan mit der Geläufigkeit eines durchschnittlichen chinesischen Muttersprachlers übersetzen. Früher oder später wird das Studium von Fremdsprachen unweigerlich obsolet sein.

    Und wie wäre es damit:

    Unsere Smartphones spionieren uns im wahrsten Sinne des Wortes aus… Sie wissen sicher, wovon ich rede! Stellen Sie sich vor – Sie erwähnen beim Mittagessen im Büro (verbal!), dass Sie Luzifer beobachten möchten . Zurück an deinem Schreibtisch öffnest du Pinterest oder Facebook auf deinem Handy, und da ist er – der Teufel selbst… (Ja, Tom Ellis ist verträumt, aber darum geht es nicht!)

    Empfehlungssysteme sind überall um uns herum. Wenn Sie eine Suche nach „Lego“ eingeben, wurden die zugehörigen Bilder, die auftauchen und als Lego klassifiziert werden , von einer KI als solche erkannt. Mit anderen Worten, sie wurden nicht von einem Menschen manuell als Lego-Blöcke annotiert

    Was das ist, hatte sich der Algorithmus selbst beigebracht, indem er Millionen von Bildern betrachtete.

    Gänsehaut!

    All diese Fähigkeiten und vieles mehr werden bereits von Unternehmen genutzt.

    Die Implikationen sind hier:

    Erstens besitzen Computer Bringen Sie sich selbst bei , Jungs! Denken Sie an alle Roboterarbeiter in der Zukunft. Sie lernen und erledigen Aufgaben VIEL schneller als menschliche Arbeiter.

    Und zweitens – ich weiß, was du denkst – OMG, die Menschheit ist so dem Untergang geweiht!

    Viele Leute reagieren so.

    Viele Autoren des letzten Jahrhunderts haben über eine Zukunft geschrieben, in der Roboter den Menschen dominieren. Künstliche Intelligenz floriert, Roboter werden die Welt regieren und sich von Menschen ernähren. Singularität ist nahe.

    Okay, das ist ein guter Ort, um aufzuhören.

    Nun, da wir das aus unserem System herausgeholt haben, schauen wir uns an, was tatsächlich wahr ist.

    Im Kaninchenloch des maschinellen Lernens

    Wir brauchen zuerst einen Kontext.

    Vor 15.000 Jahren wurde eines der beliebtesten Spiele der Welt erfunden. Irgendwann zwischen dem 12. und 14. Jahrhundert wurde dieses Spiel als Schach bekannt .

    Es hat 10 hoch 40 mögliche Ergebnisse (das ist 1 mit 40 Nullen am Ende).

    Im Jahr 2017 nutzte der AlphaZero- Algorithmus von Google maschinelles Lernen , um sich selbst beizubringen, zu spielen UND das Spiel zu gewinnen.

    Der gesamte Prozess, von der Einführung des Spiels über den Algorithmus bis zum Gewinn seiner ersten Partie gegen Stockfish – eine der stärksten Schachengines der Welt – dauerte:

    (Halte dich fest!)

    4 Stunden.

    Autsch!

    Ja, wir stehen am Rande einer Revolution des maschinellen Lernens .

    Rückblickend ist dies nicht die erste Störung dieser Art. Die industrielle Revolution Ende des 19. und Anfang des 20. Jahrhunderts führte zwar auch zu sozialen Störungen, aber schließlich erreichten Mensch und Maschine ein Gleichgewicht.

    Ja, die Dinge ändern sich, und das ist auch gut so!

    Machine-Learning-Software besitzt die Fähigkeit, ein Problem mit neuen Augen zu betrachten und durch unbekannte Umgebungen zu navigieren.

    Wie wir gleich sehen werden, ist es also keine Horrorgeschichte.

    Eher ein technisches Wunder.

    Jetzt:

    Warum ist die Klassifizierung so wichtig?

    Was ist maschinelles Lernen per Definition ?

    Grundsätzlich ist eine Maschine so programmiert, dass sie sich selbst beibringt, wie man ein Programm erstellt und Lösungen schafft. Machine Learning produziert immer die genauesten Zahlen (und bei Bedarf – Vorhersagen) möglich.

    Denken Sie an eine Technologie, die ganz unterschiedliche Probleme lösen kann.

    Und das ist das Schöne daran!

    Der Hauptzweck des Systems besteht darin, zu klassifizieren . Dies wird auch als Computervision bezeichnet . Es wird selbstständig lernen, Unterscheidungen zu treffen. Und die Anzahl der unterschiedlichen Probleme auf der Welt, die sich auf die scheinbar einfache Aufgabe der Klassifikation reduzieren lassen, ist absolut überwältigend.

    Stellen Sie sich vor, Sie können klassifizieren zwischen:

    • Gute und schlechte Schachstellungen (Spielen)
    • Grammatisch korrekte und falsche Sätze (Übersetzung)
    • Eine leere Straße und eine mit Autos oder Fußgängern darauf (selbstfahrende Autos)
    • Eine gesunde Zelle und eine Krebszelle (medizinische Diagnose)

    Genau deshalb werden Experten in vielen Bereichen obsolet. Sie müssen kein Experte sein, um einen Code zu erstellen, der solche Aufgaben ausführt. Die Jungs, die das Englisch-Chinesisch-Simultanübersetzungsprogramm geschrieben haben, sprachen kein Wort Chinesisch.

    Der Algorithmus wird sich selbst beibringen, ein Experte zu sein.

    Und ja, es ist wichtig, sie kennenzulernen und kennenzulernen… so wie wir Computer am Anfang kennengelernt haben.

    Wir sind jetzt gut mit Computern. So gut, dass wir dazu neigen, sie zu vermenschlichen (oder bin das vielleicht nur ich?).

    Es scheint, dass dies die Zeit ist, uns zu fragen:

    Was passiert mit all den Menschen, die irgendwann ihren Job durch KI- und Machine-Learning-Programme verlieren?

    Haben Sie von einer Kleinigkeit namens Universelles Grundeinkommen gehört?

    Hier kommt's:

    In Zukunft werden die Bürger ein Einkommen haben, bei dem sie keine Arbeit verrichten. Das Geld kommt aus der wahnsinnigen Effizienz, die die Automatisierung bietet, und den Einsparungen, die sich daraus ergeben.

    Entweder dies oder – ein etwas realistischeres Szenario – viele neue Jobtypen werden entstehen. Ende des 19. Jahrhunderts waren in den USA etwa 50 % der Bevölkerung in der Landwirtschaft tätig. Heute sind dank leistungsstarker Maschinen weniger als 2% Landwirte und trotzdem Menschen beschäftigt.

    Nun, was kann maschinelles Lernen verwendet werden?

    Anwendungen aus dem wirklichen Leben

    Durch maschinelles Lernen können neue Fakten aus einer Datenbank abgeleitet werden.

    Lassen Sie uns einige der Bereiche sehen , wo maschinelles Lernen einen großen Unterschied machen:

    • Assistiertes Fahren – Autos können automatisch für Sie auf die Bremse treten, wenn Sie sich dem Fahrzeug vor Ihnen nähern. Und so wird die Menschheit irgendwann in der Zukunft fast vergessen, was Autounfall bedeutet. Fahrerlose Autos sind unterwegs.
    • Gesundheitswesen – steigert die Effizienz des medizinischen Fachpersonals. Die Erkennung und Diagnose von Krankheiten wird mit Hilfe des maschinellen Lernens viel einfacher und genauer. Programme können beispielsweise nicht nur Bilder von Krebsgewebe besser scannen und identifizieren als Menschen, sondern sie können auch die Überlebensraten von Patienten basierend auf riesigen Datenbanken mit Krankenakten berechnen. (Schauen Sie sich die Arbeit von Jeremy Howard und sein Projekt namens Enlitic an . Es ist erstaunlich!)
    • Arzneimittelerfindung – mit Hilfe von maschinellem Lernen kann jeder Patient eine speziell auf ihn abgestimmte Behandlung erhalten.
    • Landwirtschaft – Die Landwirtschaft wird mit Computer Vision und Robotersteuerung automatisiert: Erntequalität und Vorhersage, Krankheitserkennung, Tierschutz und Produktion.
    • KI-gestützte Sprachfunktionen – in naher Zukunft werden wir in der Lage sein, mithilfe von KI in Echtzeit mit Übersetzungen verbal zu kommunizieren .

    Machine Learning ist nur ein Werkzeug und wird es auch auf absehbare Zeit bleiben.

    Also kein Grund zur Sorge. Lehne Dich zurück und entspanne.

    Nachdem wir nun gesehen haben, was maschinelles Lernen ist, stellen wir uns die nächste Frage:

    Was versteht man unter Machine-Learning-Algorithmen?

    Nachdem wir also festgestellt haben, wie wichtig und nützlich für unser zukünftiges maschinelles Lernen ist, werfen wir einen genaueren Blick auf die Algorithmen, die die Magie ermöglichen.

    Eine gute Möglichkeit, Algorithmen des maschinellen Lernens zu erklären, besteht darin , sie mit der traditionellen Programmierung zu vergleichen .

    Bei der traditionellen Programmierung arbeitet der Programmierer im Team mit einem Experten auf dem Gebiet, für das die Software entwickelt wird. Je komplexer die Aufgabe – desto länger wird der Code und desto schwieriger wird sein Schreiben.

    Machine-Learning-Algorithmen funktionieren ganz anders. Der Algorithmus erhält einen Datensatz für die Eingabe – und einen optionalen für die Ausgabe. Anschließend analysiert es sie (oder sie) und arbeitet den Prozess aus, der ablaufen muss, damit ein nützliches Ergebnis auftritt. Heute ist dies ein Job, der einem menschlichen Programmierer vorbehalten ist. Auch das wird sich in Zukunft ändern.

    Arten des maschinellen Lernens

    Es gibt 4 verschiedene Arten von maschinellen Lernalgorithmen.

    Hier sind sie:

    1. Beaufsichtigtes Lernen

    Die Eingabedaten in überwachten Lernalgorithmen sind gekennzeichnet und die Ausgabe ist bekannt und genau. Um diese Klasse von Algorithmen verwenden zu können, benötigen Sie eine große Menge an gekennzeichneten Daten. Und das ist vielleicht nicht immer eine leichte Aufgabe.

    Überwachte Algorithmen lassen sich in zwei Kategorien einteilen – Regression und Klassifikation . Jeder untersucht unterschiedliche Datensätze.

    Regressionsalgorithmen sind diejenigen, die Vorhersagen und Vorhersagen treffen. Dazu gehören unter anderem Wettervorhersagen, Bevölkerungswachstum und Schätzungen der Lebenserwartung, Marktprognosen.

    Klassifizierungsalgorithmen werden zur Diagnose, Erkennung von Identitätsbetrug, Kundenbindung und, wie der Name schon sagt, zur Bildklassifizierung verwendet.

    2. Unüberwachtes Lernen

    Es tritt auf, wenn die Eingabedaten nicht gekennzeichnet sind. Sie organisieren die Daten in Cluster-Strukturen. Somit stehen alle Eingabedaten sofort zur Analyse bereit.

    Da die Daten nicht gekennzeichnet sind, gibt es keine Möglichkeit, die Genauigkeit des Ergebnisses zu bewerten. Das heißt, es ist nicht die Genauigkeit, auf die unbeaufsichtigte Algorithmen ausgelegt sind. Die Cluster, die der Algorithmus erzeugt, sind dem Programm in keiner Weise bekannt. Die Idee besteht also darin, Daten einzugeben, zu analysieren und in Cluster zu gruppieren.

    Genau wie die überwachten Algorithmen werden ihre unüberwachten Verwandten in 2 Kategorien unterteilt – Dimensionsreduktion und Clustering .

    Clustering-Algorithmen selbst sind offensichtlich ein Teil davon. Es ist nützlich, Daten in Kategorien zu gruppieren, damit Sie nicht jedes Stück einzeln bearbeiten müssen. Diese Algorithmen werden vor allem zur Kundensegmentierung und gezielten Vermarktung eingesetzt.

    Dimensionsreduktionsalgorithmen werden für die Strukturerkennung, Big-Data-Visualisierung, Merkmalsermittlung und sinnvolle Komprimierung verwendet. Wenn Clustering die eine Seite der Medaille ist, wäre die Reduzierung der Dimensionalität die andere. Durch die Gruppierung von Daten in Cluster reduzieren die Algorithmen zwangsläufig die Anzahl der aussagekräftigen Variablen (Dimensionen), die den Datensatz beschreiben.

    Jetzt gibt es eine Klasse von Algorithmen für maschinelles Lernen, die die beiden vorherigen Klassen kombiniert:

    3. Teilüberwachtes Lernen

    Es steht zwischen überwachten mit gekennzeichneten Daten und unüberwachten Algorithmen mit nicht gekennzeichneten Daten .

    Semi-überwachte Algorithmen verwenden eine kleine Menge an gekennzeichneten Daten und eine große Menge an nicht gekennzeichneten Daten. Dies kann zu einer Verbesserung der Lerngenauigkeit führen.

    Es ist auch eine große Erleichterung in Bezug auf die Datenerfassung, da es viele Ressourcen erfordert, um gekennzeichnete Daten zu generieren.

    4. Verstärkungslernen

    Im Gegensatz zu den 3 vorherigen Typen wählen Bewehrungsalgorithmen eine Aktion basierend auf einem Datensatz. Dann bewerten sie das Ergebnis und ändern die Strategie bei Bedarf.

    In Bewehrungsalgorithmen erstellen Sie ein Netzwerk und eine Aktionsschleife, und das war's. Ohne eine Datenbank zu erstellen, haben Sie einen Gewinner. Wieso den?

    Nun, es waren Verstärkungsalgorithmen, die die Partien Dame, Schach und Go herausfanden.

    Reinforcement Learning arbeitet nach dem Prinzip von Versuch und Irrtum. Das System wird eine Art Belohnung erhalten, die ihm hilft, seine Erfolgsrate zu messen. Bei Spielen ist die Belohnung die Anzeigetafel. Immer wenn das System einen Punkt gewinnt, bewertet es dies als erfolgreichen Zug und der Status dieses Zuges wird höher. Es wird die Schleife so lange wiederholen, bis alle Bewegungen erfolgreich sind.

    Und so haben wir einen Algorithmus, der das Schachspiel in 4 Stunden meistern kann.

    Jetzt wissen wir!

    In Ordung. Werfen wir einen Blick auf die Algorithmen selbst:

    Top 10 der maschinellen Lernalgorithmen

    Bevor wir beginnen, werfen wir nun einen Blick auf eines der Kernkonzepte des maschinellen Lernens. Regression , wenn es um Regressionsalgorithmen für maschinelles Lernen geht , bedeutet , dass der Algorithmus versucht, eine Beziehung zwischen zwei Variablen herzustellen.

    Es gibt viele Arten der Regression – lineare, logistische, polynomische, gewöhnliche Regression der kleinsten Quadrate und so weiter. Heute werden wir nur die ersten beiden Typen behandeln, da dies sonst besser als Buch und nicht als Artikel veröffentlicht wird.

    Wie wir gleich sehen werden, sind die meisten der Top-10-Algorithmen überwachte Lernalgorithmen und werden am besten mit Python verwendet.

    Hier ist die Liste der Top 10 der maschinellen Lernalgorithmen :

    1. Lineare Regression

    Es gehört zu den beliebtesten maschinellen Lernalgorithmen. Es funktioniert, um eine Beziehung zwischen zwei Variablen herzustellen, indem eine lineare Gleichung durch die beobachteten Daten angepasst wird.

    Mit anderen Worten, diese Art von Algorithmen beobachtet verschiedene Merkmale, um zu einem Ergebnis zu gelangen. Wenn die Anzahl der Variablen größer als zwei ist, wird der Algorithmus als multiple lineare Regression bezeichnet.

    Die lineare Regression ist auch einer der überwachten Algorithmen für maschinelles Lernen , die in Python gut funktionieren . Es ist ein leistungsstarkes statistisches Werkzeug und kann zur Vorhersage des Verbraucherverhaltens, zur Schätzung von Prognosen und zur Bewertung von Trends verwendet werden. Ein Unternehmen kann davon profitieren, eine lineare Analyse durchzuführen und den Umsatz für einen zukünftigen Zeitraum zu prognostizieren.

    Wenn wir also zwei Variablen haben, ist eine davon erklärend und die andere die abhängige . Die abhängige Variable stellt den Wert dar, zu dem Sie recherchieren oder eine Vorhersage treffen möchten. Die erklärende Variable ist unabhängig. Die abhängige Variable zählt immer auf das Erklärende.

    Der Sinn des linearen maschinellen Lernens besteht darin, zu sehen, ob eine signifikante Beziehung zwischen den beiden Variablen besteht und wenn ja, genau zu sehen, was sie darstellt.

    Die lineare Regression gilt als einfacher maschineller Lernalgorithmus und ist daher unter Wissenschaftlern beliebt.

    Nun gibt es eine lineare Regression und eine logistische Regression. Schauen wir uns den Unterschied an:

    2. Logistische Regression

    Dies ist einer der grundlegenden Algorithmen des maschinellen Lernens . Es ist ein binomialer Klassifikator , der nur 2 Zustände oder 2 Werte hat – denen Sie die Bedeutungen von Die Eingabedaten werden komprimiert und anschließend analysiert.

    Im Gegensatz zur linearen Regression treffen die logistischen Algorithmen Vorhersagen unter Verwendung einer nichtlinearen Funktion. Logistische Regressionsalgorithmen werden zur Klassifizierung und nicht für Regressionsaufgaben verwendet. Die „Regression“ im Namen lässt vermuten, dass die Algorithmen ein lineares Modell verwenden und es in den zukünftigen Raum einbauen.

    Die logistische Regression ist ein überwachter maschineller Lernalgorithmus, der wie die lineare Regression in Python gut funktioniert. Aus mathematischer Sicht ist eine logistische Regression der perfekte Algorithmus, wenn die Ausgabedaten der Forschung in Bezug auf krank/gesund oder Krebs/kein Krebs erwartet werden.

    Im Gegensatz zur linearen Regression, bei der die Ausgabedaten unterschiedliche Werte haben können, kann die logistische Regression nur 1 und 0 als Ausgabe haben.

    Es gibt 3 Arten der logistischen Regression, basierend auf der kategorialen Antwort. Diese sind:

    • Binäre logistische Regression – Dies ist der am häufigsten verwendete Typ, wenn die Ausgabe eine Variation von „ja“/„nein“ ist.
    • Multinominale logistische Regression – wenn die Möglichkeit von 3 oder mehr Antworten ohne Reihenfolge besteht.
    • Ordinale logistische Regression – wieder 3 oder mehr Antworten, aber mit Bestellung. Zum Beispiel, wenn die erwarteten Ergebnisse auf einer Skala von 1 bis 10 liegen.

    Sehen wir uns einen weiteren großartigen Klassifizierungsalgorithmus an:

    3. Lineare Diskriminanzanalyse

    Diese Methode findet lineare Kombinationen von Merkmalen, die verschiedene Eingabedaten trennen. Der Zweck eines LDA-Algorithmus besteht darin, eine zuverlässige Variable als lineare Vereinigung von Merkmalen zu untersuchen. Es ist eine großartige Klassifikationstechnik .

    Dieser Algorithmus untersucht die statistischen Qualitäten der Eingabedaten und führt Berechnungen für jede Klasse durch. Es misst den Wert der Klasse und dann die Varianz zwischen allen Klassen.

    Während des Modellierens der Unterschiede zwischen den Klassen untersucht der Algorithmus die Eingabedaten nach unabhängigen Variablen.

    Die Ausgabedaten enthalten Informationen über die Klasse mit dem höchsten Wert. Die Algorithmen der Linearen Diskriminanzanalyse eignen sich am besten zum Trennen zwischen bekannten Kategorien . Wenn mehrere Faktoren mathematisch in Kategorien unterteilt werden müssen, verwenden wir einen LDA-Algorithmus.

    4. K-nächste Nachbarn

    Der kNN-Algorithmus ist einer der großartigen Algorithmen für maschinelles Lernen für Anfänger . Sie treffen Vorhersagen auf der Grundlage alter verfügbarer Daten, um Daten anhand verschiedener Merkmale in Kategorien einzuteilen .

    Es befindet sich auf der Liste der überwachten Algorithmen für maschinelles Lernen, die hauptsächlich für die Klassifizierung verwendet wird. Es speichert verfügbare Daten und verwendet sie, um Ähnlichkeiten in neuen Fällen zu messen.

    Der K in kNN ist ein Parameter, der die Anzahl der nächsten Nachbarn angibt, die in den „Mehrheitsabstimmungsprozess“ einbezogen werden. Auf diese Weise „stimmen“ die Nachbarn jedes Elements ab, um seine Klasse zu bestimmen.

    Eine der besten Möglichkeiten, den kNN-Algorithmus zu verwenden, ist, wenn Sie einen kleinen, rauschfreien Datensatz haben und alle Daten beschriftet sind. Der Algorithmus ist nicht schnell und bringt sich nicht selbst bei, unreine Daten zu erkennen. Wenn der Datensatz größer ist, ist es keine gute Idee, kNN zu verwenden.

    Der kNN-Algorithmus funktioniert so: Zuerst wird der Parameter K angegeben, danach erstellt der Algorithmus eine Liste von Einträgen, die nahe an der neuen Datenstichprobe liegt. Dann findet es die gebräuchlichste Klassifizierung der Einträge und schließlich gibt es eine Klassifizierung für die neue Dateneingabe.

    In realen Anwendungen werden kNN-Algorithmen von Suchmaschinen verwendet, um festzustellen, ob Suchergebnisse für die Abfrage relevant sind. Sie sind der unbesungene Held, der Benutzern Zeit spart, wenn sie eine Suche durchführen.

    Als nächstes kommt das Tree-Trio: Regression Trees , Random Forest und AdaBoost .

    Auf geht's:

    5. Regressionsbäume (auch bekannt als Entscheidungsbäume)

    Ja, sie werden Bäume genannt , aber da wir über maschinelle Lernalgorithmen sprechen, stellen Sie sich diese mit den Wurzeln oben und Ästen und Blättern unten vor.

    Regressionsbäume sind eine Art überwachter Lernalgorithmus, der – überraschenderweise – in Python gut funktioniert. (Die meisten ML-Algorithmen tun dies übrigens.)

    Diese „Bäume“ werden auch Entscheidungsbäume genannt und dienen der Vorhersagemodellierung . Sie erfordern vom Benutzer relativ wenig Aufwand hinsichtlich der Menge der Eingabedaten.

    Ihre Darstellung ist ein binärer Baum und sie lösen Klassifikationsprobleme. Wie der Name schon sagt, verwendet diese Art von Algorithmus ein baumartiges Entscheidungsmodell. Sie führen ein variables Screening oder eine Merkmalsauswahl durch. Die Eingabedaten können sowohl numerisch als auch kategorial sein.

    Übersetzung bitte!

    Sicher. Jedes Mal, wenn Sie eine Entscheidung treffen, gehen Sie in eine neue Situation über – mit neuen Entscheidungen, die getroffen werden müssen. Jede der möglichen Routen, die Sie nehmen können, ist ein „Zweig“, während die Entscheidungen selbst die „Knoten“ sind. Ihr anfänglicher Ausgangspunkt ist der primäre Knoten.

    Auf diese Weise erstellt ein Entscheidungsbaumalgorithmus eine Reihe von Knoten und Blättern. Wichtig dabei ist, dass alle von einem Knoten kommen. (Im Gegensatz dazu erzeugen Random-Forest- Algorithmen eine Reihe von Bäumen, jeder mit seinem Primärknoten.)

    In der realen Anwendung können Regressionsbäume verwendet werden, um Überlebensraten, Versicherungsprämien und den Preis von Immobilien basierend auf verschiedenen Faktoren vorherzusagen.

    Regressionsbäume „wachsen“ Entscheidungszweige, bis ein Stoppkriterium erreicht ist. Es funktioniert besser mit kleinen Mengen von Eingabedaten, da Sie andernfalls möglicherweise ein verzerrtes Ausgabe-Dataset erhalten.

    Der Algorithmus entscheidet anhand mehrerer Algorithmen, wo aus einer Entscheidung geteilt und ein neuer Zweig gebildet wird. Die Daten sind in Unternotenbereiche unterteilt, die alle verfügbaren Variablen umfassen.

    6. Zufälliger Wald

    Der Random Forest- Algorithmus ist eine weitere Form des überwachten maschinellen Lernens. Es erzeugt mehrere Entscheidungsbäume, anstatt nur einen wie Regressionsbäume. Die Knoten sind zufällig verteilt und ihre Reihenfolge ist für die Ausgabedaten ohne Bedeutung. Je größer die Anzahl der Bäume, desto genauer das Ergebnis.

    Diese Art von Algorithmus kann sowohl für die Klassifizierung als auch für die Regression verwendet werden. Eine der großartigen Eigenschaften des Random Forest-Algorithmus ist, dass er funktionieren kann, wenn ein großer Teil der Daten fehlt . Es hat auch die Möglichkeit, mit einem großen Datensatz zu arbeiten.

    Im Fall der Regression sind diese Algorithmen nicht die beste Wahl, da sie nicht viel Kontrolle darüber haben, was das Modell tut.

    Random Forest-Algorithmen können im E-Commerce sehr nützlich sein. Wenn Sie feststellen möchten, ob Ihre Kunden ein bestimmtes Paar Schuhe mögen, müssen Sie nur Informationen zu ihren vorherigen Einkäufen sammeln.

    Sie geben die Art der Schuhe an, ob sie einen Absatz hatten oder nicht, das Geschlecht des Käufers und die Preisspanne der vorherigen Paare, die sie bestellt haben. Dies sind Ihre Eingabedaten.

    Der Algorithmus generiert genügend Bäume, um Ihnen eine genaue Schätzung zu liefern.

    Gern geschehen!

    Und hier kommt der letzte Baumsystemalgorithmus:

    7. AdaBoost

    AdaBoost steht für Adaptive Boosting. Der Algorithmus gewann 2003 den Gödel-Preis für seine Schöpfer.

    Wie die beiden vorherigen verwendet auch dieses das System der Bäume. Nur statt mehrerer Knoten und Blätter produzieren die Bäume in AdaBoost nur 1 Knoten und 2 Blätter, auch bekannt als Stumpf .

    AdaBoost-Algorithmen unterscheiden sich wesentlich von Entscheidungsbäumen und Random Forests .

    Mal sehen:

    Ein Entscheidungsbaumalgorithmus verwendet viele Variablen, bevor er eine Ausgabe erzeugt. Ein Stumpf kann nur 1 Variable verwenden, um eine Entscheidung zu treffen.

    Bei Random-Forest- Algorithmen sind alle Bäume für die endgültige Entscheidung gleich wichtig . AdaBoost-Algorithmen geben einigen Stümpfen Vorrang vor anderen.

    Und nicht zuletzt sind zufällige Waldbäume sozusagen chaotischer . Das bedeutet, dass die Reihenfolge der Bäume irrelevant ist. Das Ergebnis hängt nicht von der Reihenfolge ab, in der die Bäume produziert wurden. Im Gegensatz dazu ist für AdaBoost-Algorithmen die Ordnung entscheidend.

    Das Ergebnis jedes Baumes ist die Basis für den nächsten. Wenn also auf dem Weg ein Fehler auftritt, ist jeder nachfolgende Baum betroffen.

    Also, was kann dieser Algorithmus im wirklichen Leben tun?

    AdaBoost-Algorithmen glänzen bereits im Gesundheitswesen, wo Forscher sie einsetzen, um Krankheitsrisiken zu messen. Sie haben die Daten, aber verschiedene Faktoren haben unterschiedliche Schweregrade. (Stellen Sie sich vor, Sie sind auf Ihren Arm gefallen und Ihre Ärzte verwenden einen Algorithmus, um festzustellen, ob er gebrochen ist oder nicht. Wenn die Eingabedaten sowohl das Röntgenbild Ihres Arms als auch ein Foto Ihres gebrochenen Fingernagels enthalten … wird mehr Wert darauf gelegt.)

    Jetzt sind wir sozusagen außerhalb des Waldes, also werfen wir einen Blick auf 3 andere Arten von maschinellen Lernalgorithmen:

    8. Naive Bayes

    Dies ist praktisch, wenn Sie ein Textklassifikationsproblem haben . Es ist der Algorithmus des maschinellen Lernens, der verwendet wird, wenn man mit hochdimensionalen Datensätzen umgehen muss, wie z. B. Spam-Filterung oder Klassifizierung von Nachrichtenartikeln.

    Der Algorithmus trägt diesen Signaturnamen, weil er jede Variable als unabhängig betrachtet. Mit anderen Worten, es betrachtet die unterschiedlichen Eigenschaften der Eingabedaten als völlig unabhängig. Dies macht es zu einem einfachen und effektiven probabilistischen Klassifikator.

    Der Teil des Namens „Bayes“ bezieht sich auf den Mann, der das für den Algorithmus verwendete Theorem erfunden hat, nämlich Thomas Bayes. Sein Theorem untersucht, wie Sie vielleicht vermuten, die bedingte Wahrscheinlichkeit von Ereignissen.

    Wahrscheinlichkeiten werden auf zwei Ebenen berechnet. Zuerst die Wahrscheinlichkeit jeder Klasse. Und zweitens die bedingte Wahrscheinlichkeit nach einem gegebenen Faktor.

    9. Vektorquantisierung lernen

    Der Learning Vector Quantization-Algorithmus oder LVQ ist einer der fortschrittlicheren Algorithmen für maschinelles Lernen .

    Im Gegensatz zum kNN stellt der LVQ-Algorithmus einen künstlichen neuronalen Netzalgorithmus dar . Mit anderen Worten, es zielt darauf ab, die Neurologie des menschlichen Gehirns nachzubilden.

    Der LVQ-Algorithmus verwendet eine Sammlung von Codebuchvektoren als Darstellung. Das sind im Grunde Zahlenlisten, die die gleichen Ein- und Ausgabequalitäten wie Ihre Trainingsdaten haben.

    10. Vektormaschinen unterstützen

    Dies ist einer der beliebtesten Algorithmen für maschinelles Lernen .

    Der Support Vector Machines Algorithmus eignet sich für extreme Klassifikationsfälle . Bedeutung – wenn die Entscheidungsgrenze der Eingabedaten unklar ist. Die SVM dient als Grenze, die die Eingabeklassen am besten trennt.

    SVMs können in mehrdimensionalen Datensätzen verwendet werden. Der Algorithmus transformiert den nichtlinearen Raum in einen linearen Raum. In 2 Dimensionen können Sie die Variablen als Linie visualisieren und so die Zusammenhänge leichter erkennen.

    SVMs wurden in der Praxis bereits in verschiedenen Bereichen eingesetzt:

    • Bei medizinischen Bildgebungs- und medizinischen Klassifikationsaufgaben
    • Um die Luftqualität in dicht besiedelten Gebieten zu untersuchen
    • Um bei der Finanzanalyse zu helfen
    • In Page-Ranking-Algorithmen für Suchmaschinen
    • Zur Text- und Objekterkennung.

    Es klingt wie das Schweizer Messer der ML-Algorithmen, nicht wahr?

    Einpacken

    Mensch und Computer können erfolgreich zusammenarbeiten.

    Forscher versichern uns, dass diese Partnerschaft erstaunliche Ergebnisse liefern kann und wird . Algorithmen des maschinellen Lernens helfen der Menschheit bereits in vielerlei Hinsicht.

    Eine der wichtigsten Funktionen von Machine Learning und KI-Algorithmen ist das Klassifizieren.

    Sehen wir uns die Top 10 der maschinellen Lernalgorithmen noch einmal auf den Punkt:

    • Lineare Regression – wird verwendet, um die Beziehung zwischen 2 Variablen herzustellen – einer Logistische Regression – ein binomialer Klassifikator, es gibt nur 2 mögliche Ergebnisse jeder Abfrage.
    • Lineare Diskriminanzanalyse – eignet sich am besten für die Klassifizierung von Daten in bekannte Kategorien.
    • K-Nearest Neighbor – klassifiziert Daten in Kategorien.
    • Regressionsbäume – werden für die Vorhersagemodellierung verwendet.
    • Random Forest – wird bei großen Datensätzen verwendet und wenn ein großer Teil der Eingabedaten fehlt.
    • AdaBoost – binäre Klassifikationen.
    • Naive Bayes – prädiktive Modellierung.
    • Learning Vector Quantization – ein künstlicher neuronaler Netzalgorithmus.
    • Support Vector Machines – Extremfälle der Klassifikation in einem mehrdimensionalen Datensatz.

    All diese Algorithmen (plus die neuen, die noch kommen werden) werden den Grundstein für ein neues Zeitalter des Wohlstands für die Menschheit legen. Es wird ein universelles Grundeinkommen ermöglichen (und sogar notwendig) machen , um das Überleben der weniger leistungsfähigen Menschen zu sichern. (Wer wird sonst revoltieren und unsere Gesellschaft durcheinander bringen. Na ja.)

    Nun, wer hätte gedacht, dass ein Artikel über maschinelle Lernalgorithmen so dumm wäre. Nun, das war es für heute.

    Bis bald Leute!

    FAQ

    Was sind die Grenzen des maschinellen Lernens?

    Maschinelles Lernen ist großartig und wirft Licht in die Zukunft der Technologie. Das hat einige Kosten. Zum Beispiel verbrauchen die Computer, die Machine-Learning-Programme hosten, wahnsinnig viel Strom und Ressourcen. Ein weiteres Manko des maschinellen Lernens war bisher die gelegentliche Begriffsklärung von Entitäten. Manchmal können Maschinen nicht zwischen, sagen wir, dem Namen von Anne Hathaway und dem Aktienwert von Berkshire Hathaway unterscheiden. Jedes Mal, wenn die Schauspielerin mediale Aufmerksamkeit erhält, gewinnt das Unternehmen Geld…

    Was ist ein maschineller Lernalgorithmus?

    Maschinelles Lernen ist eine Berechnungsmethode. Während „herkömmliche“ Algorithmen einen Programmierer benötigen, um sie zu schreiben, trainieren sich maschinelle Lernalgorithmen im Grunde selbst. Ja, kein Scherz!

    Was ist der beste Algorithmus für maschinelles Lernen?

    Das hängt von der Aufgabe ab, die Sie ausführen müssen. Die Auswahl des besten Algorithmus für die jeweilige Aufgabe hängt von der Größe, Qualität und Vielfalt Ihrer Eingaben sowie von der Art der Ausgabedaten ab, die der Benutzer anfordert.

    Wie schreibt man einen Algorithmus für maschinelles Lernen?

    Wie alles andere beginnt der Prozess damit, die Grundlagen des Algorithmus kennenzulernen, den Sie für Ihr Problem ausgewählt haben. Sie müssen verschiedene Lernquellen konsultieren und diejenige auswählen, die für Sie am besten geeignet ist. Beginnen Sie dann damit, den Algorithmus in kleine Einheiten aufzuteilen. Beginnen Sie mit einem einfachen Beispiel, und wenn Sie die Dinge in den Griff bekommen, validieren Sie mit einer vertrauenswürdigen Implementierung. Und dann schließen Sie den gesamten Vorgang ab. Klingt wahrscheinlich schwieriger als es ist. Aber es ist absolut einen Versuch wert!