Zieldefinition

Veröffentlicht: 2015-08-21

Methoden des maschinellen Lernens können in zwei große Kategorien eingeteilt werden: überwacht und nicht überwacht. Überwachtes Lernen lernt aus gekennzeichneten Beobachtungssätzen, bei denen bekannt ist, dass Beobachtungen zu bestimmten Klassen gehören (für Klassifizierungsprobleme) oder bestimmte Werte haben (Regressionsproblem). Unüberwachtes Lernen lernt aus einer nicht gekennzeichneten Menge von Beobachtungen, bei denen außer den Beobachtungen selbst nichts anderes bekannt ist.

Für Methoden des überwachten Lernens sagen wir im Wesentlichen: „Sehen Sie sich diese ‚wahren' Daten an und sagen Sie mir, dass ich die ‚Wahrheit' unsichtbarer Daten kennen muss“. Bei nicht überwachten Lernmethoden ist dies gleichbedeutend mit „Sehen Sie sich diese Daten an und sagen Sie mir etwas Interessantes, das ich nicht weiß“. Während eine klare Dichotomie nützlich ist, werden wir in diesem Beitrag über interessante Varianten sprechen, bei denen die Definition des Ziels selbst zu einer sehr interessanten Aufgabe werden kann!

Halbüberwacht

Dies ist ein Mittelweg zwischen überwachten und nicht überwachten Daten, bei denen „wahre“ Bezeichnungen nur für einige der Beobachtungen existieren, aber nicht für alle. Das Ignorieren vorhandener Informationen ist eine Ungerechtigkeit gegenüber der Qualität analytischer Modelle, aber die Verwendung dieser Informationen kann das Problem ungewöhnlich machen. In einer Welt, in der die Datengenerierung einfach ist – denken Sie an das Internet – und die Etikettierung teuer ist, fallen viele Probleme in den halbüberwachten Bereich.

Ein Ansatz könnte darin bestehen, Labelinformationen nicht für die Modellierung, sondern nur für die Modellvalidierung und den Leistungsvergleich einzubeziehen. Beispielsweise können wir Daten mithilfe von nicht überwachtem Clustering in k Cluster segmentieren und dann die Kompetenz unseres Modells überprüfen, indem wir den vorhergesagten Cluster mit dem tatsächlichen Cluster vergleichen. Dies kann uns helfen, besser zwischen mehreren Clustering-Lösungen zu entscheiden.

Ein anderer Ansatz könnte darin bestehen, diese Informationen für die Modellierung zu verwenden. Wir haben in einem früheren Blogbeitrag über halbüberwachtes Clustering gesprochen.

Diskret versus Kontinuierlich

Während viele Situationen offensichtlich in Klassifizierungs- oder Regressionskategorien fallen – wo der „wahre“ Wert eine diskrete Klasse oder ein kontinuierlicher Wert ist – gibt es Fälle, in denen eine Zieltransformation sinnvoll ist.

Betrachten Sie den Umsatz auf Kundenebene als Funktion des demografischen und früheren Transaktionsverhaltens des Kunden. Dies ist ein häufiges Problem in der Einzelhandels-, Banken-, Versicherungs- und Telekommunikationsbranche. Der Umsatz, oft der letzten N Monate, ist offensichtlich eine fortlaufende Zahl. Eine (vielleicht lineare) Regression könnte hier passen, sagen Sie! Für Klassifizierungsprobleme stehen jedoch komplexere und ausgefeiltere Methoden zur Verfügung, z. B. neuronale Netze, die potenziell bessere Arbeit leisten können, aber nicht für kontinuierliche Ziele gelten. Je nach Geschäftskontext müssen Sie den tatsächlichen Umsatz möglicherweise nicht vorhersagen, sondern nur, ob der Umsatz hoch, mittel oder niedrig sein wird. Wenn ja, können Sie die Umsatzverteilung für alle Kunden überprüfen und Grenzen für hoch-mittel und mittel-niedrig definieren, und voila! Sie haben ein kontinuierliches Zielproblem in ein diskretes Klassifikationsproblem mit drei Klassen umgewandelt.

Wenn Ihr kontinuierliches Ziel ein Prozentsatz ist – sagen wir der Anteil der Schüler, die die Prüfung nach Schulen bestehen – und Sie den Prozentsatz auch für neue/unsichtbare Schulen vorhersagen möchten, dann haben Sie eine andere Option als das Regressionsmodell. Sie dürfen die Daten paketieren! Parzellierung wandelt kontinuierliche Brüche in binäre Klassen um, indem die Beobachtungen repliziert werden. Für eine Beobachtung mit einem Zielwert von 40 % replizieren Sie die Beobachtung 100 Mal und weisen 40 davon die Klasse 1 und den verbleibenden 60 die Klasse 60 zu. Wenn die Beobachtung gleich ist und der Funktionsumfang gleich ist, versucht das Modell, 1 zu differenzieren von 0 und schließen Sie, dass diese Art von Beobachtung mit 40 % Wahrscheinlichkeit 1 und mit 60 % Wahrscheinlichkeit 0 ist. Sie können dasselbe für alle Beobachtungen tun. (Ja, dies erhöht die Größe der Trainingsdaten um ein Vielfaches.) Die meisten gängigen Klassifizierungsmodelle erzeugen ohnehin die Wahrscheinlichkeit von Klasse = 1 als Ergebnis, und das ist das Ergebnis, das Sie sowieso wollen!

Könnte es Gründe geben, diskrete Klassen in kontinuierliche Werte umzuwandeln? Meistens nein, aber es gibt Beispiele. Wenn Sie versuchen, das Alter einer Person in Jahren vorherzusagen – was im Wesentlichen eine diskrete ganze Zahl von 0-100 (oder so) ist – können Sie das Alter als kontinuierliches Ziel behandeln. Wenn Sie Einkommenskategorien mit ausreichender Granularität haben, z. B. 0-50.000, 50.000-100.000, 100.000-150.000 usw., dann können Sie davon profitieren, das Einkommen als kontinuierliche Variable zu behandeln, anstatt das 20-Klassen-Problem zu lösen.

Fall ohne Klasse

Alle Daten sind entweder beschriftet oder nicht beschriftet. Wenn Daten gekennzeichnet sind (angenommen, binär), gehören sie entweder zu der einen oder anderen Klasse. In der Praxis gehören Daten jedoch möglicherweise keiner Klasse an.

Zum Beispiel wissen Sie bei einer Reihe von Versicherungsansprüchen sicher, dass es sich bei bestimmten Ansprüchen um Betrug und bei anderen nicht um Betrug handelt, aber Sie wissen möglicherweise nichts über viele, die nie untersucht wurden. Betrachten Sie unter den Kreditkartenantragstellern, die im Rahmen des Antragsbewertungsmodells im Bankwesen akzeptiert oder abgelehnt wurden. Aber es gibt viele Kunden, die sich gar nicht beworben haben, und man weiß nicht, ob sie angenommen worden wären oder nicht. Oft können wir nicht mit Daten ohne Bezeichnung umgehen, und wir müssen sie aus unserer Entwicklungspopulation ausschließen. Wir müssen jedoch bedenken, ob dies zu Verzerrungen bei der Modellierung führt. Im Versicherungsbeispiel oben waren möglicherweise untersuchte Ansprüche zunächst verdächtig (auch wenn sie nicht als Betrug eingestuft wurden), oder im Bankenbeispiel wurden Kunden, die sich nicht beworben hatten, nicht vom Außendienst angefragt, wodurch eine demografische Kategorie vollständig ausgeschlossen wurde.

Wenn Sie die Zieltransformation wie im vorherigen Abschnitt beschrieben durchführen, können Sie selbst Daten ohne Klasse erstellen. Angenommen, Sie definieren einen Umsatz von über 5000/- pro Jahr als Hoch und weniger als 5000/- pro Jahr als Niedrig, um ein kontinuierliches Ziel in ein binäres Ziel umzuwandeln. Dies wird jedoch ein schlechtes Design sein, da bei 5000 willkürlich abgeschnitten wird. Ein Kunde mit einem Umsatz von 4999,- ist nicht viel anders als ein Kunde mit einem Umsatz von 5001,-, aber Sie trennen Welten. Ihre Definition impliziert, dass ein Umsatz von 5001/- dem Umsatz von 10000/- ähnlicher ist als von 4999/-. Siehst du das Problem? Sie können dies technisch tun, aber das resultierende Modell wird nicht gut und robust sein, da Sie es bitten, Unterschiede von ähnlichen Kunden zu lernen.

Normalerweise ist es eine gute Praxis, eine Puffer-/Keine-Klassen-Zone einzubauen. Sie können also einen Umsatz von 6000,- oder mehr als hoch und 4000,- oder weniger als niedrig definieren und die Beobachtungen mit einem Umsatz zwischen 4000,- und 6000,- ignorieren. Während Sie einige Daten verlieren, wird das Modell viel besser funktionieren, da das, was Sie als anders definieren, wirklich anders ist.

Während der Schwerpunkt zu Recht auf der Datenvorbereitung, der Generierung von Funktionen und der Methode des maschinellen Lernens liegt, kann die Definition des richtigen Ziels auch für die Qualität des gesamten Analyseergebnisses nützlich sein.