Definisi Sasaran
Diterbitkan: 2015-08-21Metode Machine Learning dapat diklasifikasikan menjadi dua kategori besar: diawasi dan tidak diawasi. Pembelajaran terbimbing belajar dari sekumpulan pengamatan yang diberi label, di mana pengamatan diketahui termasuk dalam kelas tertentu (untuk masalah klasifikasi) atau memiliki nilai tertentu (masalah regresi). Pembelajaran tanpa pengawasan belajar dari serangkaian pengamatan yang tidak berlabel, di mana tidak ada hal lain yang diketahui selain dari pengamatan itu sendiri.
Untuk metode pembelajaran yang diawasi, kami pada dasarnya mengatakan bahwa "lihat data 'benar' ini dan beri tahu saya untuk mengetahui 'kebenaran' data yang tidak terlihat". Untuk metode pembelajaran tanpa pengawasan, ini setara dengan "lihat data ini, dan beri tahu saya sesuatu yang menarik yang saya tidak tahu." Meskipun dikotomi yang jelas berguna, dalam posting ini kita akan berbicara tentang varian menarik di mana menentukan target bisa menjadi tugas yang sangat menarik!
Semi-diawasi
Ini adalah jalan tengah antara data yang diawasi dan tidak diawasi, di mana label 'benar' hanya ada untuk beberapa pengamatan tetapi tidak semua. Mengabaikan informasi yang ada adalah ketidakadilan terhadap kualitas model analitik, tetapi menggunakan informasi ini dapat membuat masalah menjadi tidak biasa. Di dunia di mana pembuatan data itu mudah – bayangkan internet – dan pelabelan itu mahal, banyak masalah termasuk dalam domain semi-diawasi.
Salah satu pendekatannya adalah tidak menyertakan informasi label untuk pemodelan tetapi hanya untuk validasi model dan perbandingan kinerja. Misalnya, kita dapat mengelompokkan data menjadi k cluster menggunakan un-supervised clustering dan kemudian memverifikasi kompetensi model kita dengan membandingkan cluster yang diprediksi dengan cluster yang sebenarnya. Ini dapat membantu kami memutuskan lebih baik di antara beberapa solusi pengelompokan.
Pendekatan lain dapat menggunakan informasi ini untuk pemodelan. Kami membahas tentang pengelompokan semi-diawasi di posting blog sebelumnya.
Diskrit versus Kontinu
Sementara banyak situasi jelas termasuk dalam kategori klasifikasi atau regresi – di mana nilai 'benar' adalah kelas diskrit atau nilai berkelanjutan – ada contoh di mana transformasi target masuk akal.
Pertimbangkan pendapatan tingkat pelanggan sebagai fungsi demografis pelanggan dan perilaku transaksi masa lalu. Ini adalah masalah yang cukup umum di industri ritel, bank, asuransi dan telekomunikasi. Pendapatan, seringkali dari N bulan terakhir, jelas merupakan angka yang berkelanjutan. Regresi (linear, mungkin) mungkin cocok di sini, kata Anda! Tetapi ada metode yang lebih kompleks dan canggih yang tersedia untuk masalah klasifikasi, seperti Neural Networks, yang berpotensi dapat melakukan pekerjaan yang lebih baik tetapi tidak akan berlaku untuk target berkelanjutan. Bergantung pada konteks bisnis, Anda mungkin tidak perlu memprediksi pendapatan aktual tetapi hanya jika pendapatan akan tinggi, sedang, atau rendah. Jika demikian, Anda dapat meninjau distribusi pendapatan untuk semua pelanggan dan menentukan batasan untuk tinggi-menengah dan menengah-rendah, dan voila! Anda telah mengubah masalah target berkelanjutan menjadi masalah klasifikasi diskrit tiga kelas.
Jika target berkelanjutan Anda adalah persentase – katakanlah sebagian kecil siswa yang lulus ujian menurut sekolah – dan Anda ingin memprediksi persentase juga untuk sekolah baru/tidak terlihat, maka Anda memiliki pilihan lain selain model regresi. Anda dapat membagi data! Parceling mengubah pecahan kontinu menjadi kelas biner dengan mereplikasi pengamatan. Untuk pengamatan dengan nilai target 40%, Anda mengulangi pengamatan 100 kali dan untuk 40 di antaranya menetapkan kelas 1 dan sisanya 60 menetapkan kelas 60. Mengingat pengamatan sama dan set fitur sama, model akan mencoba membedakan 1 dari 0 dan simpulkan bahwa pengamatan semacam ini 40% kemungkinannya menjadi 1 dan 60% kemungkinannya menjadi 0. Anda dapat melakukan hal yang sama untuk semua pengamatan. (Ya, ini akan meningkatkan ukuran manifold data pelatihan.) Model klasifikasi yang paling umum tetap menghasilkan probabilitas class=1 sebagai hasil, dan itulah hasil yang Anda inginkan!
Mungkinkah ada kasus untuk mengubah kelas diskrit menjadi nilai kontinu? Sebagian besar tidak, tetapi ada contohnya. Saat Anda mencoba memprediksi usia seseorang dalam tahun – yang pada dasarnya adalah bilangan bulat diskrit dari 0-100 (atau lebih) – Anda dapat memperlakukan usia sebagai target berkelanjutan. Demikian pula, jika Anda memiliki kategori pendapatan yang cukup granular, katakanlah, 0-50k, 50k-100k, 100k-150k, dll., maka Anda dapat mengambil manfaat dari memperlakukan pendapatan sebagai variabel berkelanjutan daripada memecahkan masalah 20 kelas.
Kasus Tanpa Kelas
Semua data diberi label atau tidak diberi label. Ketika data diberi label (asumsikan, biner), itu milik satu kelas atau yang lain. Namun dalam praktiknya, data mungkin bukan milik kelas mana pun.
Misalnya, di antara banyak klaim asuransi, Anda mungkin tahu pasti klaim tertentu sebagai penipuan, dan yang lain bukan penipuan, tetapi Anda mungkin tidak tahu banyak yang tidak pernah diselidiki. Pertimbangkan, di antara pemohon kartu kredit yang diterima atau dan yang ditolak sebagai bagian dari model penilaian aplikasi di perbankan. Tapi ada banyak pelanggan yang tidak melamar sama sekali, dan Anda tidak tahu apakah mereka akan diterima atau tidak. Seringkali, kita tidak dapat menangani data tanpa label, dan kita harus mengecualikannya dari populasi pengembangan kita. Namun, kita harus ingat jika ini menyebabkan bias dalam pemodelan. Dalam contoh asuransi di atas, mungkin klaim yang diselidiki awalnya mencurigakan (bahkan yang ditemukan bukan penipuan), atau dalam contoh perbankan, pelanggan yang tidak mengajukan permohonan tidak diminta oleh tenaga penjualan yang mengecualikan kategori demografis sama sekali.
Jika Anda melakukan transformasi target seperti yang dijelaskan di bagian sebelumnya, Anda dapat membuat sendiri data tanpa kelas. Misalkan Anda menentukan pendapatan lebih dari 5000/- per tahun tinggi dan kurang dari 5000/- per tahun rendah untuk mengubah target berkelanjutan menjadi target biner. Namun, ini akan menjadi desain yang buruk, karena ada batas sewenang-wenang pada 5000. Pelanggan dengan pendapatan 4999/- tidak jauh berbeda dengan pelanggan dengan pendapatan 5001/- namun Anda membedakan mereka. Definisi Anda akan menyiratkan bahwa pendapatan 5001/- lebih mirip dengan pendapatan 10000/- daripada 4999/-. Anda melihat masalahnya? Anda dapat melakukannya, secara teknis, tetapi model yang dihasilkan tidak akan bagus dan kuat karena Anda memintanya untuk mempelajari perbedaan dari pelanggan serupa.
Apa yang biasanya merupakan praktik yang baik adalah memasukkan buffer/zona tanpa kelas. Jadi, Anda dapat menentukan pendapatan 6000/- atau lebih tinggi dan 4000/- atau kurang rendah, dan mengabaikan pengamatan dengan pendapatan antara 4000/- dan 6000/-. Meskipun Anda kehilangan beberapa data, model akan melakukan pekerjaan yang jauh lebih baik karena apa yang Anda definisikan berbeda benar-benar berbeda.
Sementara banyak fokus yang sepatutnya pada persiapan data, pembuatan fitur, dan metode pembelajaran mesin, menentukan target yang tepat juga dapat berguna untuk kualitas hasil analitik secara keseluruhan.