Hedef Tanımı
Yayınlanan: 2015-08-21Makine Öğrenimi yöntemleri iki geniş kategoride sınıflandırılabilir: denetimli ve denetimsiz. Gözetimli öğrenme, gözlemlerin belirli sınıflara ait olduğu (sınıflandırma problemleri için) veya belirli değerlere sahip olduğu (regresyon problemi) olduğu bilinen etiketli gözlem setinden öğrenir. Denetimsiz öğrenme, gözlemlerin kendisinden başka hiçbir şeyin bilinmediği, etiketlenmemiş gözlemler kümesinden öğrenir.
Denetimli öğrenme yöntemleri için esasen “bu 'doğru' verilere bakın ve bana görünmeyen verilerin 'gerçeği'ni bildiğimi söyleyin” diyoruz. Denetimsiz öğrenme yöntemleri için bu, "bu verilere bak ve bana bilmediğim ilginç bir şey söyle" ile eşdeğerdir. Açık ikilik yararlı olsa da, bu yazıda hedef tanımlamanın kendisinin çok ilginç bir görev haline gelebileceği ilginç değişkenlerden bahsedeceğiz!
yarı denetimli
Bu, denetlenen ve denetlenmeyen veriler arasındaki orta noktadır; burada 'doğru' etiketler yalnızca bazı gözlemler için bulunur, ancak tümü için geçerli değildir. Eldeki bilgiyi göz ardı etmek analitik modellerin kalitesine haksızlıktır, ancak bu bilgiyi kullanmak sorunu olağandışı hale getirebilir. Veri oluşturmanın kolay olduğu – interneti düşünün – ve etiketlemenin pahalı olduğu dünyada, birçok sorun yarı denetimli alana düşüyor.
Bir yaklaşım, modelleme için etiket bilgilerinin dahil edilmesi değil, yalnızca model doğrulama ve performans karşılaştırması için olabilir. Örneğin, denetlenmeyen kümeleme kullanarak verileri k kümeye ayırabilir ve ardından tahmin edilen kümeyi gerçek kümeyle karşılaştırarak modelimizin yeterliliğini doğrulayabiliriz. Bu, çoklu kümeleme çözümleri arasında daha iyi karar vermemize yardımcı olabilir.
Başka bir yaklaşım, bu bilgiyi modelleme için kullanmak olabilir. Bir önceki blog gönderisinde yarı denetimli kümeleme hakkında tartışmıştık.
Ayrık ve Sürekli
Pek çok durum açıkça sınıflandırma veya regresyon kategorilerine girerken – 'gerçek' değerin ayrı bir sınıf veya sürekli bir değer olduğu durumlarda – hedef dönüşümünün anlamlı olduğu durumlar vardır.
Müşteri düzeyindeki geliri, müşterinin demografik ve geçmiş işlem davranışının bir işlevi olarak düşünün. Bu, perakende, banka, sigorta ve telekom sektörlerinde yeterince yaygın bir sorundur. Gelir, genellikle son N ay, açıkçası sürekli bir sayıdır. Bir (doğrusal, belki) regresyon buraya sığabilir, diyorsunuz! Ancak, potansiyel olarak daha iyi iş yapabilen ancak sürekli hedefe uygulanmayacak olan Sinir Ağları gibi sınıflandırma problemleri için daha karmaşık ve karmaşık yöntemler mevcuttur. İş bağlamına bağlı olarak, gerçek geliri tahmin etmeniz gerekmeyebilir, ancak yalnızca gelir yüksek, orta veya düşük olacaksa. Öyleyse, tüm müşteriler için gelir dağılımını gözden geçirebilir ve yüksek-orta ve orta-düşük için sınırlar tanımlayabilirsiniz ve işte! Sürekli bir hedef problemini üç sınıflı ayrık sınıflandırma problemine dönüştürdünüz.
Sürekli hedefiniz yüzde ise – örneğin sınavı geçen öğrencilerin okullara göre oranı – ve yeni/görünmeyen okul için de yüzde tahmini yapmak istiyorsanız, o zaman regresyon modelinden başka bir seçeneğiniz vardır. Verileri paketleyebilirsiniz! Parselleme, gözlemleri çoğaltarak sürekli kesirleri ikili sınıflara dönüştürür. Hedef değeri %40 olan bir gözlem için, gözlemi 100 kez çoğaltırsınız ve bunların 40'ına 1 sınıf, kalan 60'a 60 sınıf atama yaparsınız. Verilen gözlem aynı ve özellik seti aynı, model 1'i ayırt etmeye çalışacaktır. 0'dan başlayarak bu tür bir gözlemin %40 olasılıkla 1 ve %60 olasılıkla 0 olduğu sonucuna varın. Aynısını tüm gözlemler için yapabilirsiniz. (Evet, bu, eğitim veri manifoldunun boyutunu artıracaktır.) En yaygın sınıflandırma modelleri zaten sonuç olarak class=1 olasılığını üretir ve bu zaten istediğiniz sonuçtur!
Ayrık sınıfları sürekli değere dönüştürmek için bir durum olabilir mi? Çoğunlukla hayır, ama örnekler var. Birinin yaşını yıl olarak tahmin etmeye çalıştığınızda – ki bu esasen 0-100 (ya da öylesine) arasında ayrı bir tam sayıdır – yaşı sürekli hedef olarak kabul edebilirsiniz. Benzer şekilde, örneğin 0-50k, 50k-100k, 100k-150k, vb. gibi yeterince ayrıntılı gelir kategorileriniz varsa, o zaman 20 sınıf problemini çözmek yerine geliri sürekli değişken olarak ele almaktan yararlanabilirsiniz.
Sınıfsız Durum
Tüm veriler etiketlenir veya etiketlenmez. Veri etiketlendiğinde (varsayılan, ikili), ya bir sınıfa ya da diğerine aittir. Ancak pratikte veriler herhangi bir sınıfa ait olmayabilir.
Örneğin, bir sürü sigorta talebi arasında, bazı iddiaların dolandırıcılık olduğunu ve bazılarının dolandırıcılık olmadığını kesin olarak biliyor olabilirsiniz, ancak hiç araştırılmamış birçok iddiayı bilmiyor olabilirsiniz. Bankacılıkta başvuru puanlama modeli kapsamında kabul edilen veya reddedilen kredi kartı başvuru sahiplerini ele alalım. Ama hiç başvurmayan çok müşteri var ve kabul edilip edilmeyeceğini bilmiyorsunuz. Çoğu zaman, etiketsiz verilerle uğraşamayız ve bunları kalkınma popülasyonumuzdan çıkarmamız gerekir. Ancak, bunun modellemede yanlılığa neden olup olmadığını aklımızda tutmalıyız. Yukarıdaki sigorta örneğinde, belki araştırılan iddialar başlangıçta şüpheliydi (dolandırıcılık olmadığı tespit edilenler bile) veya bankacılık örneğinde, demografik bir kategoriyi tamamen hariç tutan satış ekibi tarafından başvuruda bulunmayan müşteriler talep edilmedi.
Önceki bölümde anlatıldığı gibi hedef dönüşümü yaparsanız, kendiniz sınıfsız bir veri oluşturabilirsiniz. Sürekli hedefi ikili hedefe dönüştürmek için yılda 5000/-'nin üzerinde bir yüksek ve 5000/-'den az bir düşük gelir tanımladığınızı varsayalım. Ancak bu kötü bir tasarım olacaktır, çünkü 5000'de keyfi bir kesinti vardır. 4999/- geliri olan bir müşteri, 5001/- geliri olan müşteriden çok farklı değildir, yine de onları dünyalar kadar ayırırsınız. Tanımınız, 5001/- gelirinin 4999/- gelirinden 10000/- gelirine daha benzer olduğunu ima edecektir. Sorunu görüyor musun? Bunu teknik olarak yapabilirsiniz, ancak benzer müşterilerden farklılıkları öğrenmesini istediğiniz için ortaya çıkan model iyi ve sağlam olmayacaktır.
Genellikle iyi bir uygulama, bir arabellek/sınıfsız bölge eklemektir. Böylece, 6000/- veya daha fazla geliri yüksek ve 4000/- veya daha azını düşük olarak tanımlayabilir ve geliri 4000/- ile 6000/- arasında olan gözlemleri göz ardı edebilirsiniz. Bazı verileri kaybederken, farklı olarak tanımladığınız şey gerçekten farklı olduğu için model çok daha iyi iş çıkarır.
Veri hazırlama, öznitelik oluşturma ve makine öğrenimi yöntemine haklı olarak çok fazla odaklanılsa da, doğru hedefin tanımlanması genel analitik sonucun kalitesi için de faydalı olabilir.