10 Algoritma Pembelajaran Mesin Teratas: Mengapa Begitu Penting di Tahun 2021?

Diterbitkan: 2019-06-10
Daftar isi
  • Menyusuri Lubang Kelinci dari Pembelajaran Mesin

  • Aplikasi Kehidupan Nyata

  • Apa yang Dimaksud dengan Algoritma Machine Learning?

  • Jenis Pembelajaran Mesin

  • 10 Algoritma Pembelajaran Mesin Teratas

  • Bungkus

  • Pada tahun 2021, komputer tidak hanya dapat melihat , tetapi juga dapat membaca dan menulis dengan sendirinya.

    Baiklah, mari kita lihat kisah horor modern yang sebenarnya kita jalani.

    Misalnya, bagaimana reaksi Anda jika seseorang memberi tahu Anda bahwa 30% pekerjaan akan segera digantikan oleh otomatisasi? Ini keterlaluan, bukan?

    Dan apa hubungannya dengan algoritma pembelajaran mesin ?

    Untungnya, ada cahaya di ujung terowongan. Biarkan saya memandu Anda melewatinya.

    Pada tahun 2021, komputer dapat:

    • Mengenali suara, wajah, dan tulisan tangan. (Gaya CSI…)
    • Caption gambar secara otomatis.
    • Pelajari cara mengenali konten gambar dan mengklasifikasikannya menurut fitur tertentu.
    • Lakukan tugas untuk Anda. (Dan buat algoritme yang diperlukan untuk melakukannya.)

    Daftarnya terus berlanjut, tentu saja.

    Setiap hari kami melakukan pencarian web, mengunjungi situs web dan media sosial. Dan kami tidak pernah bertanya pada diri sendiri pertanyaan mendasar:

    Seberapa Jauh Teknologi AI Telah Pergi?

    Ini dia!

    Pencapaian teknologi menimbulkan pertanyaan tentang masa depan umat manusia.

    Mungkin fakta-fakta ini akan memberi kita beberapa wawasan:

    (Sumber: Futurisme , Dezire )

    • Di Korea Selatan, dari setiap 100 pekerja, rata - rata 4,78 adalah robot .
    • 88% karyawan di Etiopia berisiko kehilangan pekerjaan karena robot.
    • Di New York City, karyawan yang terancam punah adalah 40,7% .
    • Diperlukan 9 baris kode untuk menulis program pembelajaran mesin.
    • 97% pekerjaan memasak makanan cepat saji akan digantikan oleh mesin.
    • 98% petani akan kehilangan pekerjaan karena mesin.
    • Pembelajaran mesin dapat menghasilkan hingga $1 miliar per tahun di industri farmasi.
    • Dalam 10 tahun ke depan, pembelajaran mesin diperkirakan akan menggantikan 25% pekerjaan.

    Pada tahun 2021 kita sebenarnya sudah bisa memiliki robot di rumah.

    Anda dapat memiliki percakapan yang lancar dengan Jibo atau Tapia . Mereka disebut robot sosial karena suatu alasan.

    Mereka mengingat nama, wajah, dan suara teman dan anggota keluarga Anda (yang sama sekali tidak menyeramkan!), Mereka dapat mengasuh anak Anda (oh ya!), dan jika Anda mengalami kecelakaan di rumah, mereka akan menelepon 911 untuk Anda. Yang terakhir bisa sangat berguna ketika tidak ada orang lain di sekitar. Tapi kita akan membahasnya nanti.

    Saat ini algoritme dapat "mengajar sendiri" bahasa, dan bahkan menerjemahkan bahasa Inggris lisan ke bahasa Mandarin tertulis secara bersamaan dengan kefasihan rata-rata penutur asli bahasa Mandarin. Cepat atau lambat, belajar bahasa asing pasti akan menjadi usang.

    Dan bagaimana dengan ini:

    Ponsel cerdas kami benar-benar memata-matai kami… Saya yakin Anda tahu persis apa yang saya bicarakan! Bayangkan – saat makan siang di kantor Anda menyebutkan (secara verbal!) Anda ingin mulai menonton Lucifer . Kembali ke meja Anda, Anda membuka Pinterest atau Facebook di ponsel Anda, dan itu dia – Iblis itu sendiri… (Ya, Tom Ellis itu melamun, tapi bukan itu intinya!)

    Sistem rekomendasi ada di sekitar kita. Jika Anda memasukkan pencarian untuk "Lego", gambar terkait yang muncul dan diklasifikasikan sebagai Lego, telah dikenali oleh AI. Dengan kata lain, mereka tidak dianotasi secara manual sebagai balok Lego oleh manusia…

    Algoritme telah mempelajari sendiri apa ini dengan melihat jutaan gambar.

    Merinding!

    Semua kemampuan itu dan banyak lagi, sudah dimanfaatkan oleh perusahaan.

    Implikasi di sini adalah:

    Pertama, komputer Ajari diri mereka sendiri , guys! Pikirkan tentang semua pekerja robot di masa depan. Mereka akan belajar dan melakukan tugas JAUH lebih cepat daripada pekerja manusia.

    Dan kedua – saya tahu apa yang Anda pikirkan – OMG, umat manusia sangat hancur!

    Banyak orang bereaksi seperti ini.

    Banyak penulis selama abad terakhir telah menulis tentang masa depan di mana robot mendominasi manusia. Kecerdasan buatan berkembang, robot akan menguasai dunia dan memakan manusia. Singularitas sudah dekat.

    Oke, ini tempat yang bagus untuk berhenti.

    Sekarang setelah kita mengeluarkannya dari sistem kita, mari kita lihat apa yang sebenarnya benar.

    Menyusuri Lubang Kelinci dari Pembelajaran Mesin

    Kita perlu beberapa konteks terlebih dahulu.

    15.000 tahun yang lalu salah satu permainan yang paling dicintai di dunia ditemukan. Di suatu tempat antara abad ke-12 dan ke-14, permainan itu dikenal sebagai catur .

    Ini memiliki 10 pangkat 40 kemungkinan hasil (yaitu 1 dengan 40 nol di akhir).

    Pada tahun 2017, algoritme AlphaZero Google menggunakan pembelajaran mesin untuk melatih dirinya sendiri bermain DAN memenangkan permainan.

    Seluruh proses, mulai dari memperkenalkan game hingga algoritme, hingga memenangkan game pertamanya melawan Stockfish – salah satu mesin catur terkuat di dunia, mengambil:

    (bersiaplah!)

    4 jam.

    Aduh!

    Ya, kita berada di ambang revolusi pembelajaran mesin .

    Melihat ke belakang, ini bukan gangguan pertama semacam ini. Revolusi industri pada akhir abad ke-19 dan awal abad ke-20 memang menyebabkan gangguan sosial juga, tetapi pada akhirnya manusia dan mesin mencapai keseimbangan.

    Ya, banyak hal berubah, dan itu sebenarnya hal yang baik!

    Perangkat lunak pembelajaran mesin memiliki kekuatan untuk melihat masalah dengan mata segar dan menavigasi melalui lingkungan yang tidak diketahui.

    Jadi, seperti yang akan kita lihat, ini sama sekali bukan cerita horor.

    Lebih seperti keajaiban teknologi.

    Sekarang:

    Mengapa Klasifikasi Begitu Penting?

    Sebagai permulaan, apa itu pembelajaran mesin menurut definisi ?

    Pada dasarnya, sebuah mesin diprogram untuk mengajar dirinya sendiri bagaimana menghasilkan program dan membuat solusi. Pembelajaran mesin selalu menghasilkan angka yang paling akurat (dan, jika diperlukan – prediksi) mungkin.

    Pikirkan sebuah teknologi yang dapat memecahkan berbagai masalah yang sama sekali berbeda.

    Dan itulah keindahannya!

    Tujuan utama sistem adalah untuk mengklasifikasikan . Ini juga disebut visi komputer . Ia akan belajar sendiri untuk membuat perbedaan. Dan jumlah masalah yang berbeda di dunia yang dapat direduksi menjadi tugas klasifikasi yang tampaknya sederhana, benar-benar membingungkan.

    Bayangkan saja kemampuan untuk mengklasifikasikan antara:

    • Posisi catur yang baik dan buruk (permainan)
    • Kalimat yang benar dan salah secara tata bahasa (terjemahan)
    • Jalan kosong dan jalan dengan mobil atau pejalan kaki di atasnya (mobil self-driving)
    • Sel sehat dan sel kanker (diagnosis medis)

    Itulah mengapa para ahli di banyak bidang akan menjadi usang. Anda tidak perlu menjadi ahli untuk membuat kode yang akan melakukan tugas tersebut. Orang-orang yang menulis program terjemahan simultan bahasa Inggris ke bahasa Mandarin tidak berbicara sepatah kata pun dalam bahasa Mandarin.

    Algoritma akan mengajarkan dirinya sendiri bagaimana menjadi seorang ahli.

    Dan ya, penting untuk mempelajarinya dan mengenalnya… seperti cara kita mengenal komputer pada awalnya.

    Kami baik dengan komputer sekarang. Sangat bagus sehingga kita cenderung mengantropomorfisasi mereka (atau mungkin itu hanya saya?).

    Tampaknya inilah saatnya untuk bertanya pada diri sendiri:

    Apa yang akan terjadi pada semua orang itu, yang pada akhirnya akan kehilangan pekerjaan karena AI dan program pembelajaran mesin?

    Pernahkah Anda mendengar tentang hal kecil yang disebut Universal Basic Income?

    Ini dia:

    Di masa depan, warga akan memiliki pendapatan yang tidak melibatkan mereka melakukan pekerjaan apa pun. Uang akan datang dari efisiensi gila yang akan diberikan otomatisasi dan penghematan yang dihasilkan darinya.

    Entah ini atau – skenario yang sedikit lebih realistis – banyak jenis pekerjaan baru akan muncul. Pada akhir abad ke-19 sekitar 50% dari populasi di AS terlibat dalam pertanian. Sekarang, berkat mesin yang kuat, kurang dari 2% adalah petani dan masih banyak orang yang bekerja.

    Sekarang, untuk apa pembelajaran mesin dapat digunakan ?

    Aplikasi Kehidupan Nyata

    Pembelajaran mesin dapat digunakan untuk menyimpulkan fakta baru dari database.

    Mari kita lihat beberapa daerah di mana mesin belajar akan membuat perbedaan besar:

    • Mengemudi dengan bantuan – mobil dapat secara otomatis menginjak rem untuk Anda, ketika Anda menutup kendaraan di depan Anda. Dan dengan demikian, di beberapa titik di masa depan, umat manusia akan hampir melupakan apa artinya kecelakaan mobil . Mobil tanpa pengemudi sedang dalam perjalanan.
    • Kesehatan – meningkatkan efisiensi profesional medis. Pengenalan dan diagnosis penyakit akan menjadi lebih mudah dan akurat dengan bantuan pembelajaran mesin. Misalnya, program tidak hanya dapat memindai dan mengidentifikasi gambar jaringan kanker lebih baik daripada manusia, tetapi juga dapat menghitung tingkat kelangsungan hidup pasien berdasarkan basis data catatan medis yang sangat besar. (Lihat karya Jeremy Howard dan proyeknya yang disebut Enlitic . Luar biasa!)
    • Penemuan obat – dengan bantuan pembelajaran mesin, setiap pasien dapat menerima perawatan yang dirancang khusus untuknya.
    • Pertanian – pertanian akan diotomatisasi dengan visi komputer dan kontrol robotik: kualitas dan prediksi tanaman, deteksi penyakit, kesejahteraan ternak, dan produksi.
    • Kemampuan bahasa yang didukung AI – dalam waktu dekat kita akan dapat berkomunikasi secara verbal dengan terjemahan real-time menggunakan AI .

    Pembelajaran mesin hanyalah alat, dan itu akan tetap menjadi alat untuk masa mendatang.

    Jadi, tidak perlu khawatir. Duduk dan rileks.

    Sekarang setelah kita melihat apa itu pembelajaran mesin, mari kita ajukan pertanyaan berikutnya:

    Apa yang Dimaksud dengan Algoritma Machine Learning?

    Jadi, setelah kami menetapkan betapa pentingnya dan bermanfaat bagi pembelajaran mesin kami di masa depan, mari kita lihat lebih dekat algoritme yang membuat keajaiban itu terjadi.

    Cara yang bagus untuk menjelaskan algoritme pembelajaran mesin adalah dengan membandingkannya dengan pemrograman tradisional.

    Dalam pemrograman tradisional , pemrogram bekerja dalam tim dengan seorang ahli di bidangnya, di mana perangkat lunak sedang dikembangkan. Semakin kompleks tugasnya – semakin panjang kodenya dan semakin sulit penulisannya.

    Algoritma pembelajaran mesin bekerja sangat berbeda. Algoritme menerima kumpulan data untuk masukan – dan satu set data opsional untuk keluaran. Kemudian menganalisisnya (atau mereka) dan mengerjakan proses yang harus dilakukan agar hasil yang bermanfaat terjadi. Hari ini, ini adalah pekerjaan yang disediakan untuk programmer manusia. Di masa depan, itu juga akan berubah.

    Jenis Pembelajaran Mesin

    Ada 4 jenis algoritma pembelajaran mesin yang berbeda .

    Di sini mereka:

    1. Pembelajaran yang Diawasi

    Data masukan dalam algoritma pembelajaran terawasi diberi label, dan keluarannya diketahui dan akurat. Untuk menggunakan kelas algoritme ini, Anda memerlukan sejumlah besar data berlabel. Dan itu mungkin tidak selalu menjadi tugas yang mudah.

    Algoritme yang diawasi terbagi dalam dua kategori – regresi dan klasifikasi . Masing-masing memeriksa kumpulan data yang berbeda.

    Algoritma regresi adalah yang membuat prediksi dan ramalan. Antara lain, ini termasuk prakiraan cuaca, pertumbuhan penduduk, dan perkiraan harapan hidup, prakiraan pasar.

    Algoritma klasifikasi digunakan untuk diagnostik, deteksi penipuan identitas, retensi pelanggan, dan seperti namanya – klasifikasi gambar.

    2. Pembelajaran Tanpa Pengawasan

    Itu terjadi ketika data input tidak diberi label. Mereka mengatur data ke dalam struktur cluster. Dengan demikian, setiap data masukan segera siap untuk dianalisis.

    Karena data tidak diberi label, tidak ada cara untuk mengevaluasi keakuratan hasil. Yang mengatakan, bukan akurasi yang dirancang untuk dikejar oleh algoritma tanpa pengawasan. Cluster yang dibuat oleh algoritme sama sekali tidak familiar dengan program. Jadi idenya adalah memasukkan data, menganalisisnya, dan mengelompokkannya ke dalam cluster.

    Sama seperti algoritma yang diawasi, sepupunya yang tidak diawasi dibagi menjadi 2 kategori – pengurangan dimensi dan pengelompokan .

    Algoritma pengelompokan sendiri jelas merupakan bagian dari semua ini. Ini berguna untuk mengelompokkan data ke dalam kategori, jadi Anda tidak harus berurusan dengan setiap bagiannya sendiri. Algoritma ini digunakan terutama untuk segmentasi pelanggan dan pemasaran yang ditargetkan.

    Algoritma pengurangan dimensi digunakan untuk penemuan struktur, visualisasi data besar, elisitasi fitur, dan kompresi yang berarti. Jika pengelompokan adalah satu sisi mata uang, pengurangan dimensi akan menjadi sisi lain. Dengan mengelompokkan data ke dalam cluster, algoritme pasti mengurangi jumlah variabel bermakna (dimensi) yang menggambarkan kumpulan data.

    Sekarang, ada kelas algoritma pembelajaran mesin yang menggabungkan 2 kelas sebelumnya:

    3. Pembelajaran semi-diawasi

    Itu berdiri antara diawasi dengan data berlabel , dan algoritma tanpa pengawasan dengan data tidak berlabel .

    Algoritme semi-diawasi menggunakan sejumlah kecil data berlabel dan sejumlah besar data tidak berlabel. Hal ini dapat menyebabkan peningkatan dalam akurasi belajar.

    Ini juga sangat melegakan dalam hal pengumpulan data karena dibutuhkan banyak sumber daya untuk menghasilkan data berlabel.

    4. Pembelajaran Penguatan

    Berbeda dengan 3 tipe sebelumnya, algoritma penguatan memilih tindakan berdasarkan kumpulan data. Kemudian mereka mengevaluasi hasilnya dan mengubah strategi jika diperlukan.

    Dalam algoritme penguatan, Anda membuat jaringan dan lingkaran tindakan, dan hanya itu. Tanpa membuat database, Anda memiliki pemenang. Mengapa?

    Yah, itu adalah algoritma penguatan yang menemukan permainan catur, catur, dan Go.

    Penguatan belajar bekerja pada prinsip trial and error. Sistem akan diberikan semacam hadiah yang akan membantunya mengukur tingkat keberhasilannya. Dalam hal permainan – hadiahnya adalah papan skor. Setiap kali sistem memenangkan poin, sistem akan mengevaluasinya sebagai langkah yang berhasil dan status gerakan ini menjadi lebih tinggi. Ini akan terus mengulangi loop sampai semua gerakannya berhasil.

    Dan begitulah kami memiliki algoritma yang dapat menguasai permainan catur dalam 4 jam.

    Sekarang kita tahu!

    Baik. Mari kita lihat algoritma itu sendiri:

    10 Algoritma Pembelajaran Mesin Teratas

    Sekarang, sebelum kita mulai, mari kita lihat salah satu konsep inti dalam pembelajaran mesin. Regresi , ketika datang ke algoritma regresi pembelajaran mesin , berarti algoritma akan mencoba membangun hubungan antara dua variabel.

    Ada banyak jenis regresi – linier, logistik, polinomial, regresi kuadrat terkecil biasa, dan sebagainya. Hari ini kita hanya akan membahas 2 jenis pertama karena jika tidak, ini akan lebih baik diterbitkan sebagai buku, daripada artikel.

    Seperti yang akan kita lihat sebentar lagi, sebagian besar dari 10 algoritma teratas adalah algoritma pembelajaran yang diawasi dan paling baik digunakan dengan Python.

    Inilah daftar 10 algoritma pembelajaran mesin teratas :

    1. Regresi Linier

    Ini adalah salah satu algoritma pembelajaran mesin paling populer. Ia bekerja untuk membangun hubungan antara dua variabel dengan memasang persamaan linier melalui data yang diamati.

    Dengan kata lain, jenis algoritma ini mengamati berbagai fitur untuk sampai pada suatu kesimpulan. Jika jumlah variabel lebih besar dari dua – algoritma akan disebut regresi linier berganda.

    Regresi linier juga merupakan salah satu algoritma pembelajaran mesin terawasi yang bekerja dengan baik di Python . Ini adalah alat statistik yang kuat dan dapat diterapkan untuk memprediksi perilaku konsumen, memperkirakan perkiraan, dan mengevaluasi tren. Sebuah perusahaan bisa mendapatkan keuntungan dari melakukan analisis linier dan meramalkan penjualan untuk periode waktu mendatang.

    Jadi, jika kita memiliki dua variabel, salah satunya adalah penjelas , dan yang lainnya adalah dependen . Variabel dependen mewakili nilai yang ingin Anda teliti atau prediksi. Variabel penjelas adalah independen. Variabel terikat selalu mengandalkan penjelas.

    Inti dari pembelajaran mesin linier adalah untuk melihat apakah ada hubungan yang signifikan antara kedua variabel dan jika ada, untuk melihat dengan tepat apa yang diwakilinya.

    Regresi linier dianggap sebagai algoritma pembelajaran mesin sederhana dan karena itu populer di kalangan ilmuwan.

    Sekarang, ada regresi linier, dan ada regresi logistik. Mari kita lihat perbedaannya:

    2. Regresi Logistik

    Ini adalah salah satu algoritma pembelajaran mesin dasar . Ini adalah pengklasifikasi binomial yang hanya memiliki 2 status, atau 2 nilai – di mana Anda dapat menetapkan arti Data input dikompresi dan kemudian dianalisis.

    Tidak seperti regresi linier, algoritma logistik membuat prediksi dengan menggunakan fungsi nonlinier. Algoritma regresi logistik digunakan untuk klasifikasi dan bukan untuk tugas regresi. "Regresi" dalam namanya menunjukkan bahwa algoritme menggunakan model linier dan memasukkannya ke dalam ruang masa depan.

    Regresi logistik adalah algoritma pembelajaran mesin yang diawasi , yang, seperti regresi linier, bekerja dengan baik di Python. Dari sudut pandang matematis, jika data keluaran penelitian diharapkan dalam hal sakit/sehat atau kanker/tidak kanker, maka regresi logistik adalah algoritma yang sempurna untuk digunakan.

    Tidak seperti regresi linier di mana data keluaran mungkin memiliki nilai yang berbeda, regresi logistik dapat memiliki keluaran hanya 1 dan 0.

    Ada 3 jenis regresi logistik, berdasarkan respon kategoris. Ini adalah:

    • Regresi logistik biner – ini adalah jenis yang paling sering digunakan jika outputnya adalah beberapa variasi “ya”/”tidak”.
    • Regresi logistik multi-nominal – ketika ada kemungkinan 3 atau lebih jawaban tanpa urutan.
    • Regresi logistik ordinal – lagi-lagi 3 jawaban atau lebih, tetapi dengan pemesanan. Misalnya, ketika hasil yang diharapkan berada pada skala 1 hingga 10.

    Mari kita lihat algoritma klasifikasi hebat lainnya:

    3. Analisis Diskriminan Linier

    Metode ini menemukan kombinasi linear dari fitur, yang memisahkan data input yang berbeda. Tujuan dari algoritma LDA adalah untuk menguji variabel yang dapat diandalkan sebagai kesatuan linier fitur. Ini adalah teknik klasifikasi yang bagus .

    Algoritma ini memeriksa kualitas statistik dari data input dan membuat perhitungan untuk setiap kelas. Ini mengukur nilai kelas dan kemudian varians di antara semua kelas.

    Selama proses pemodelan perbedaan antar kelas, algoritma memeriksa data masukan menurut variabel bebas.

    Data keluaran berisi informasi tentang kelas dengan nilai tertinggi. Algoritma Analisis Diskriminan Linier bekerja paling baik untuk memisahkan di antara kategori yang diketahui . Ketika beberapa faktor perlu dibagi secara matematis ke dalam kategori, kami menggunakan algoritma LDA.

    4. K- Tetangga Terdekat

    Algoritma kNN adalah salah satu algoritma pembelajaran mesin yang bagus untuk pemula . Mereka membuat prediksi berdasarkan data lama yang tersedia, untuk mengklasifikasikan data ke dalam kategori berdasarkan karakteristik yang berbeda.

    Itu ada dalam daftar algoritma pembelajaran mesin yang diawasi, yang sebagian besar digunakan untuk klasifikasi. Ini menyimpan data yang tersedia dan menggunakannya untuk mengukur kesamaan dalam kasus baru.

    K di kNN adalah parameter yang menunjukkan jumlah tetangga terdekat yang akan dimasukkan dalam “proses pemungutan suara mayoritas”. Dengan cara ini, tetangga setiap elemen "memilih" untuk menentukan kelasnya.

    Salah satu cara terbaik untuk menggunakan algoritme kNN adalah ketika Anda memiliki kumpulan data kecil yang bebas noise dan semua data dalam label. Algoritmenya tidak cepat dan tidak mengajarkan dirinya sendiri untuk mengenali data yang tidak bersih. Ketika dataset lebih besar, bukanlah ide yang baik untuk menggunakan kNN.

    Algoritma kNN bekerja seperti ini: pertama, parameter K ditentukan, setelah itu algoritma membuat daftar entri, yang dekat dengan sampel data baru. Kemudian ia menemukan klasifikasi entri yang paling umum, dan akhirnya, memberikan klasifikasi pada input data baru.

    Dalam hal aplikasi kehidupan nyata, algoritma kNN digunakan oleh mesin pencari untuk menentukan apakah hasil pencarian relevan dengan kueri. Mereka adalah pahlawan tanpa tanda jasa yang menghemat waktu pengguna saat mereka melakukan pencarian.

    Berikutnya adalah Tree-Trio: Regression Trees , Random Forest , dan AdaBoost .

    Ini dia:

    5. Pohon Regresi (alias Pohon Keputusan)

    Ya, mereka disebut pohon , tetapi karena kita berbicara tentang algoritme pembelajaran mesin, bayangkan mereka dengan akar di atas dan cabang dan daun di bawah.

    Pohon regresi adalah jenis algoritma pembelajaran yang diawasi , yang – mengejutkan, bekerja dengan baik di Python. (Omong-omong, sebagian besar algoritme ML melakukannya.)

    “Pohon” ini juga disebut pohon keputusan dan digunakan untuk pemodelan prediktif . Mereka membutuhkan usaha yang relatif sedikit dari pengguna dalam hal jumlah input data.

    Representasi mereka adalah pohon biner dan mereka memecahkan masalah klasifikasi. Seperti namanya, jenis algoritma ini menggunakan model keputusan seperti pohon. Mereka melakukan penyaringan variabel atau pemilihan fitur. Data input dapat berupa numerik dan kategorikal.

    Tolong terjemahkan!

    Tentu. Setiap kali Anda membuat keputusan, Anda bertransisi ke situasi baru – dengan keputusan baru yang harus dibuat. Setiap kemungkinan rute yang dapat Anda ambil adalah "cabang", sedangkan keputusan itu sendiri adalah "simpul". Titik awal awal Anda adalah simpul utama.

    Begitulah cara algoritma pohon keputusan membuat serangkaian node dan daun. Yang penting di sini adalah semuanya berasal dari satu node. (Sebaliknya, algoritma hutan acak menghasilkan sejumlah pohon, masing-masing dengan simpul utamanya.)

    Dalam aplikasi kehidupan nyata, pohon regresi dapat digunakan untuk memprediksi tingkat kelangsungan hidup, premi asuransi, dan harga real estat, berdasarkan berbagai faktor.

    Pohon regresi “menumbuhkan” cabang keputusan sampai kriteria penghentian tercapai. Ini bekerja lebih baik dengan sejumlah kecil data input karena jika tidak, Anda mungkin mendapatkan dataset output yang bias.

    Algoritme memutuskan di mana harus membagi dan membentuk cabang baru dari suatu keputusan, berdasarkan beberapa algoritme. Data dibagi menjadi wilayah sub-catatan, yang mengumpulkan di sekitar semua variabel yang tersedia.

    6. Hutan Acak

    Algoritma hutan acak adalah bentuk lain dari mesin belajar diawasi. Ini menghasilkan beberapa pohon keputusan, bukan hanya satu seperti Pohon Regresi. Node tersebar secara acak dan urutannya tidak signifikan bagi data keluaran. Semakin besar jumlah pohon, semakin akurat hasilnya.

    Jenis algoritma ini dapat digunakan untuk klasifikasi dan regresi. Salah satu fitur mengagumkan dari algoritma hutan acak adalah dapat bekerja ketika sebagian besar data hilang . Ini juga memiliki kekuatan untuk bekerja dengan kumpulan data yang besar.

    Dalam kasus regresi, algoritme ini bukanlah pilihan terbaik, karena algoritme ini tidak memiliki banyak kendali atas apa yang dilakukan model.

    Algoritma Random Forest bisa sangat berguna dalam e-commerce. Jika Anda perlu menentukan apakah pelanggan Anda akan menyukai sepasang sepatu tertentu, Anda hanya perlu mengumpulkan informasi tentang pembelian mereka sebelumnya.

    Cantumkan jenis sepatu, apakah memiliki hak atau tidak, jenis kelamin pembeli, dan kisaran harga pasangan sebelumnya yang mereka pesan. Ini akan menjadi data masukan Anda.

    Algoritme akan menghasilkan cukup banyak pohon untuk memberi Anda perkiraan yang akurat.

    Sama sama!

    Dan inilah algoritma sistem pohon terakhir:

    7. AdaBoost

    AdaBoost adalah kependekan dari Adaptive Boosting. Algoritma memenangkan Hadiah Godel pada tahun 2003 untuk penciptanya.

    Seperti dua sebelumnya, yang satu ini juga menggunakan sistem pohon. Hanya alih-alih beberapa node dan daun, pohon di AdaBoost hanya menghasilkan 1 node dan 2 daun, alias tunggul .

    Algoritma AdaBoost berbeda secara substansial dari pohon keputusan dan hutan acak .

    Ayo lihat:

    Sebuah algoritma pohon keputusan akan menggunakan banyak variabel sebelum menghasilkan sebuah output. Sebuah tunggul hanya dapat menggunakan 1 variabel untuk membuat keputusan.

    Dalam kasus algoritma hutan acak , semua pohon sama pentingnya untuk keputusan akhir. Algoritma AdaBoost menetapkan prioritas untuk beberapa tunggul di atas yang lain.

    Dan last but not least, pohon hutan acak lebih kacau , sehingga untuk berbicara. Artinya urutan pohon tidak relevan. Hasilnya tidak tergantung pada urutan pohon yang dihasilkan. Sebaliknya, untuk algoritma AdaBoost – urutan sangat penting.

    Hasil dari setiap pohon adalah dasar untuk pohon berikutnya. Jadi jika ada kesalahan di sepanjang jalan, setiap pohon berikutnya akan terpengaruh.

    Baiklah, jadi apa yang bisa dilakukan algoritma ini dalam kehidupan nyata?

    Algoritme AdaBoost sudah bersinar dalam perawatan kesehatan, di mana para peneliti menggunakannya untuk mengukur risiko penyakit. Anda memiliki data, tetapi faktor yang berbeda memiliki gravitasi yang berbeda. (Bayangkan Anda jatuh di lengan Anda dan dokter Anda menggunakan algoritme untuk menentukan apakah itu patah atau tidak. Jika data input berisi rontgen lengan Anda dan foto kuku jari Anda yang patah… yah, cukup jelas tunggul yang mana akan diberikan lebih penting untuk.)

    Sekarang, kita keluar dari hutan, jadi mari kita lihat 3 jenis algoritma pembelajaran mesin lainnya:

    8. Naif Bayes

    Yang ini berguna ketika Anda memiliki masalah klasifikasi teks . Ini adalah algoritma pembelajaran mesin yang digunakan ketika seseorang harus berurusan dengan kumpulan data berdimensi tinggi, seperti penyaringan spam atau klasifikasi artikel berita.

    Algoritme membawa nama tanda tangan ini karena menganggap setiap variabel sebagai independen. Dengan kata lain, ia menganggap fitur yang berbeda dari data input sama sekali tidak terkait. Ini membuatnya menjadi pengklasifikasi probabilistik yang sederhana dan efektif.

    Bagian "Bayes" dari nama mengacu pada orang yang menemukan teorema yang digunakan untuk algoritma, yaitu – Thomas Bayes. Teoremanya, seperti yang Anda duga, menguji probabilitas bersyarat dari suatu peristiwa.

    Probabilitas dihitung pada dua tingkat. Pertama, probabilitas setiap kelas. Dan kedua, probabilitas bersyarat menurut faktor yang diberikan.

    9. Belajar Kuantisasi Vektor

    Algoritme Learning Vector Quantization, atau LVQ, adalah salah satu algoritme pembelajaran mesin yang lebih canggih .

    Berbeda dengan kNN, algoritma LVQ mewakili algoritma jaringan syaraf tiruan . Dengan kata lain, ini bertujuan untuk menciptakan kembali neurologi otak manusia.

    Algoritma LVQ menggunakan kumpulan vektor codebook sebagai representasi. Itu pada dasarnya adalah daftar angka, yang memiliki kualitas input dan output yang sama dengan data pelatihan Anda.

    10. Mendukung Mesin Vektor

    Ini adalah salah satu algoritma pembelajaran mesin yang paling populer .

    Algoritma Support Vector Machines cocok untuk kasus klasifikasi yang ekstrim . Artinya – ketika batas keputusan dari data input tidak jelas. SVM berfungsi sebagai perbatasan yang paling baik memisahkan kelas input.

    SVM dapat digunakan dalam kumpulan data multidimensi. Algoritma mengubah ruang non-linier menjadi ruang linier. Dalam 2 dimensi Anda dapat memvisualisasikan variabel sebagai garis dan dengan demikian lebih mudah mengidentifikasi korelasi.

    SVM telah digunakan di berbagai bidang dalam kehidupan nyata:

    • Dalam pencitraan medis dan tugas klasifikasi medis
    • Untuk mempelajari kualitas udara di daerah berpenduduk sebagian besar
    • Untuk membantu dengan analisis keuangan
    • Dalam algoritma peringkat halaman untuk mesin pencari
    • Untuk pengenalan teks dan objek.

    Kedengarannya seperti pisau Swiss algoritma ML, bukan?

    Bungkus

    Manusia dan komputer dapat bekerja sama dengan sukses.

    Para peneliti meyakinkan kami bahwa kemitraan ini dapat , dan akan memberikan hasil yang luar biasa. Algoritma pembelajaran mesin sudah membantu umat manusia dalam beberapa cara.

    Salah satu fungsi terpenting dari pembelajaran mesin dan algoritma AI adalah untuk mengklasifikasikan.

    Mari kita lihat 10 algoritma pembelajaran mesin teratas sekali lagi secara singkat:

    • Regresi Linier – digunakan untuk menetapkan hubungan antara 2 variabel – variabel Regresi Logistik – pengklasifikasi binomial, hanya ada 2 kemungkinan hasil dari setiap kueri.
    • Analisis Diskriminan Linier – berfungsi paling baik untuk mengklasifikasikan data di antara kategori yang diketahui.
    • K-Nearest Neighbor – mengklasifikasikan data ke dalam kategori.
    • Pohon Regresi – digunakan untuk pemodelan prediktif.
    • Hutan Acak – digunakan dengan kumpulan data besar, dan ketika sebagian besar data masukan hilang.
    • AdaBoost – klasifikasi biner.
    • Naive Bayes – pemodelan prediktif.
    • Learning Vector Quantization – algoritma jaringan syaraf tiruan.
    • Dukungan Mesin Vektor – kasus ekstrim klasifikasi dalam dataset multidimensi.

    Semua algoritme ini (ditambah yang baru yang akan datang) akan meletakkan dasar bagi era kemakmuran baru bagi umat manusia. Ini akan memungkinkan (dan bahkan perlu) pendapatan dasar universal untuk memastikan kelangsungan hidup orang-orang yang kurang mampu. (Siapa yang akan memberontak dan mengacaukan masyarakat kita. Oh, ya.)

    Nah, siapa sangka artikel tentang algoritma pembelajaran mesin akan sangat membosankan. Nah, itu saja untuk hari ini.

    Sampai jumpa lagi, teman-teman!

    FAQ

    Apa Keterbatasan Pembelajaran Mesin

    Pembelajaran mesin luar biasa dan menyoroti masa depan teknologi. Itu datang dengan biaya tertentu. Misalnya, komputer yang meng-host program pembelajaran mesin menghabiskan banyak listrik dan sumber daya. Kelemahan lain dari pembelajaran mesin sejauh ini adalah disambiguasi entitas sesekali. Terkadang mesin tidak dapat membedakan, katakanlah, nama Anne Hathaway dan nilai saham Berkshire Hathaway. Setiap kali aktris mendapat perhatian media, perusahaan mendapatkan uang ...

    Apa itu algoritma pembelajaran mesin?

    Pembelajaran mesin adalah metode komputasi. Sementara algoritma "tradisional" membutuhkan programmer untuk menulisnya, yang pembelajaran mesin pada dasarnya melatih diri mereka sendiri. Ya, jangan bercanda!

    Apa algoritma pembelajaran mesin terbaik?

    Itu tergantung pada tugas yang perlu Anda lakukan. Memilih algoritme terbaik untuk tugas yang ada bergantung pada ukuran, kualitas, dan keragaman input Anda, serta jenis data output yang diminta pengguna.

    Bagaimana Anda menulis algoritma pembelajaran mesin?

    Seperti hal lainnya, prosesnya dimulai dengan mengenal dasar-dasar algoritme yang telah Anda pilih untuk masalah Anda. Anda perlu berkonsultasi dengan sumber belajar yang berbeda dan memilih salah satu yang paling sesuai untuk Anda. Kemudian mulailah dengan memecah algoritma menjadi unit-unit kecil. Mulailah dengan contoh sederhana, dan ketika Anda menguasai berbagai hal, Anda memvalidasi dengan implementasi tepercaya. Dan kemudian Anda menyelesaikan seluruh proses. Mungkin terdengar lebih sulit dari itu. Tapi itu benar-benar pantas untuk dicoba!