Data Pelatihan AI: Pakar Pembelajaran Mesin & CEO TechSpeed Mengungkapkan Bagaimana Kualitas Data Dapat Membuat Atau Menghancurkan Produk AI Anda
Diterbitkan: 2020-06-26Pada tahun 2021, lebih dari 80% teknologi baru akan berbasis AI.
Namun, meskipun teknologi ini mendukung hampir setiap produk teknologi baru yang memasuki pasar, ada sedikit percakapan tentang apa yang membentuk sistem kecerdasan buatan kami: kualitas data.
AI, atau pembelajaran mesin (ML), data pelatihan biasanya dibandingkan dengan buku teks; Ini mendidik sistem kecerdasan buatan, memberi mereka konteks serta prisma untuk memahami konsep.
Ini berarti bahwa teknologi bertenaga AI hanya secanggih dan seakurat data yang dipelajarinya.
Kami duduk dengan pakar subjek dan CEO agensi layanan data TechSpeed, Vidya Plainfield, untuk membahas pentingnya data pelatihan AI, konsekuensi dari kumpulan data yang tidak memadai atau dipilih dengan buruk, dan beberapa tren yang dapat kami lihat di lapangan.
1. Hai Vidya, sebelum kita masuk ke teknis, ceritakan sedikit tentang TechSpeed dan latar belakang Anda di AI/ML dan bisnis data?
Vidya: TechSpeed didirikan di Portland, Oregon, pada tahun 2002 oleh seorang geek data (ibu saya) dan seorang penemu (ayah saya).
Meskipun keduanya sudah pensiun sekarang, semangat penemuan, kewirausahaan, dan keluarga mereka masih sangat hidup di tim kami yang berkembang lebih dari 100 teknisi, pengembang, dan manajer.
Selama 18 tahun sejarah kami, kami memiliki kesempatan untuk mengembangkan dan membentuk industri data dengan mitra klien kami saat kami menambang, menyortir, dan mengumpulkan wawasan dari data.
Apa yang kebanyakan orang tidak sadari adalah bahwa ada mesin data besar di belakang frontend AI yang mengkilap dan terabyte data tersebut didukung oleh informasi yang dibuat dengan hati-hati.
Jika Anda tidak berhati-hati dengan data backend Anda, Anda dapat secara tidak sengaja mengajarkan alat AI sesuatu yang tidak Anda inginkan.
TechSpeed secara mendasar memahami data dan itu telah menjadi landasan bagaimana kami bermitra dengan klien untuk membantu melatih dan mengaudit AI mereka.
2. Mari kita definisikan kualitas data dalam konteks AI/ML: Bagaimana TechSpeed mengkualifikasi data?
Vidya: Tentu saja kualitas adalah raja; Sampah yang masuk adalah sampah yang keluar.
Hal ini tentu membosankan untuk membersihkan data mentah, untuk mengkode ulang variabel yang hilang dan mengubah kualitatif menjadi variabel kuantitatif.
Ada pepatah: "Ilmuwan data menghabiskan 80% waktu mereka untuk membersihkan data dan 20% membangun model."
Perangkap terbesar yang kami lihat adalah bahwa perusahaan meremehkan dan kekurangan dana untuk data kualitas bersih.
Meremehkan ini berarti bahwa ketika membangun program mereka, mereka dihadapkan pada pilihan antara memiliki kumpulan data yang cukup besar atau kumpulan data yang berkualitas.
Kuncinya adalah Anda membutuhkan kualitas DAN kuantitas.
TechSpeeds bekerja dengan klien untuk membantu menskalakan set data mereka dengan harga terjangkau sehingga mereka tidak perlu melakukan trade off. Kami menawarkan berbagai layanan termasuk pemrosesan tunggal, multi, dan DEQA untuk memastikan bahwa data memenuhi syarat untuk memenuhi kebutuhan program.
3. Bagaimana Anda mengevaluasi pendekatan industri terhadap kualitas data? Melihat rekan dan klien Anda, apa saja kesalahan atau kesalahpahaman paling umum terkait pelatihan AI/ML yang pernah Anda temui?
Vidya: Ada banyak perusahaan di luar sana yang menawarkan berbagai macam janji kepada perusahaan yang bermaksud baik.
Beberapa penyedia memulai sesuatu tetapi mengharapkan perusahaan untuk menangani beban berat dalam hal pelatihan dan manajemen pengecualian yang berkelanjutan.
Kesalahan terbesar yang kami lihat dilakukan perusahaan saat mengelola paket data mereka adalah:
1. Volume Tidak Cukup
Kumpulan data besar di semua kategori diperlukan untuk memastikan bahwa pembobotan data yang merata tersedia untuk parameter mayoritas dan minoritas. Tanpa itu, algoritme akan membebani data mayoritas saat mencoba merespons situasi minoritas.
Misalnya, Anda ingin mengkategorikan gambar pohon. Katakanlah Anda memiliki banyak data bagus tentang semua spesies pohon yang berbeda dan semua jenis pencahayaan dan tahap kehidupan. Namun Anda tidak memiliki banyak volume seperti apa pohon setelah badai.
Tentu saja, ini akan menjadi contoh minoritas, tetapi jika Anda memiliki jumlah data yang kuat hanya untuk sebagian besar data, ketika alat melihat gambar pohon setelah badai, itu akan mengandalkan dan terlalu membebani data dari mayoritas data pohon yang sehat. mengatur. Hal ini dapat menyebabkan kesalahan.
2. Variasi Tidak Memadai
Kurangnya data yang kuat di berbagai kategori diperlukan untuk memastikan bahwa alat ini mampu menangani perubahan yang sedang berlangsung di lingkungan kumpulan data.
Misalnya, katakanlah Anda sedang membangun alat analisis visual yang melihat gambar wadah penyimpanan. Kemudian, tiba-tiba, upgrade ke sistem kamera dilakukan. Selalu output alat akan terpengaruh.
Dunia adalah tempat yang dinamis. Atribut saat ini dan masa depan untuk pelanggan, lingkungan, sikap dll perlu dipertimbangkan untuk memastikan bahwa alat dapat mengakomodasi perubahan tersebut.
3. Meremehkan Kesulitan Sumber Data
Seringkali perusahaan memiliki banyak data mayoritas yang ingin mereka klasifikasikan dan tantangan dapat datang ketika mereka perlu menambang data minoritas.
Misalnya, katakanlah Anda sedang membangun alat analisis visual yang melihat gambar ponsel cerdas. Anda mungkin memiliki sejuta gambar yang bersumber dari media sosial, di berbagai kategori, tetapi yang tidak Anda miliki adalah semua gambar yang tidak diunggah orang.
Yang saya maksud adalah orang pada umumnya memposting gambar ke media sosial yang mereka sukai, dengan kualitas dan kejelasan yang relatif baik.
Namun, jika alat Anda melihat untuk meninjau gambar ponsel, ada banyak gambar yang buram, terlalu terang, miring, dll. Gambar-gambar ini sulit diperoleh karena di mana Anda menemukan gambar uji minoritas yang tidak diposkan orang?
Perusahaan sering meremehkan jumlah kesenjangan dalam data mereka yang akan membutuhkan sumber daya untuk diisi. Dengan cara itu, partner machine learning yang baik tidak hanya akan membantu Anda mengatur data yang Anda miliki, tetapi juga membantu Anda mencari sumber data yang tidak Anda miliki.
4. Akhirnya, Kekeliruan “Ron Popeil”
Dengan kata lain: Kekeliruan "atur dan lupakan".
Perusahaan sering lupa bahwa mata manusia masih diperlukan untuk pengelolaan dan pemeliharaan yang berkelanjutan.
Baik itu hasil kepercayaan rendah, penanganan pengecualian, audit atau pengoptimalan dengan data penguatan, alur kerja berkelanjutan ini adalah kunci untuk menjaga alat tetap segar dan memungkinkan kesuksesan berkelanjutan.
4. Apa konsekuensi dari pelatihan AI yang tidak ditangani dengan baik?
Vidya: Saya tidak punya cukup jari dan kaki untuk menghitung berapa kali klien datang kepada kami karena mereka meremehkan perencanaan, biaya, dan ruang lingkup yang diperlukan untuk mengembangkan alat pembelajaran mesin mereka.
Bagian terburuknya adalah karena dasar dari program apa pun adalah data, klien dapat kehilangan waktu dan uang yang berharga karena mereka harus membongkar kumpulan data asli mereka dan memulai dari awal.
Jika Anda bertanya kepada panel CEO, mereka semua akan memberi tahu Anda bahwa menurut mereka memanfaatkan AI adalah kunci daya saing di masa depan.
Meskipun demikian, persentase yang sangat kecil dari perusahaan yang benar-benar menganggarkan AI atau memasukkannya sebagai bagian dari proses perencanaan strategis.
Jadi bagi perusahaan yang telah menyisihkan uangnya, biasanya mereka hanya memiliki satu kesempatan untuk membuatnya bekerja.
Pelatihan AI yang ditangani dengan buruk terkadang dapat berarti bahwa perusahaan tidak memiliki kemampuan untuk berinvestasi kembali setelah upaya yang gagal. Ini bisa berarti mereka selamanya mengejar ketinggalan dengan pesaing mereka.
5. Menurut Anda, apa saja contoh terpenting tentang bagaimana data pelatihan AI berdampak pada kita di tingkat masyarakat?
Vidya: Kami berada pada saat dalam sejarah kami di mana ada kesadaran yang muncul tentang bias yang telah diprogramkan ke dalam masyarakat kami.
Ras, jenis kelamin, usia, dan banyak lagi titik data palsu telah digunakan terlalu lama untuk mendorong keputusan, dan menurut saya, pilihan yang tidak dioptimalkan yang telah mencegah kita dari pencapaian kolektif.
Ambil contoh, sebuah perusahaan keuangan yang ingin menggunakan alat pembelajaran mesin untuk membantu mempersempit bidang pelamar.
Katakanlah perusahaan menggunakan 20 tahun data historis karyawannya untuk mengidentifikasi karyawan yang paling banyak dipromosikan, yang memiliki evaluasi kinerja tertinggi dan kemudian melihat di mana mereka bersekolah, pengalaman apa yang mereka miliki sebelum bergabung dengan perusahaan, dll.
Pada awalnya blush ini mungkin masuk akal, "mari kita lihat siapa yang telah sukses di perusahaan kami dan mempekerjakan lebih banyak orang seperti itu".
Apa yang dibutakan oleh alat SDM Anda, adalah bias institusional yang mungkin memengaruhi keputusan perekrutan dan promosi secara historis.
- Pria lebih mungkin untuk dipromosikan daripada wanita.
- Kaukasia lebih mungkin untuk diwawancarai dan akhirnya dipekerjakan dibandingkan dengan orang kulit berwarna.
- Dan secara historis, minoritas berpenghasilan rendah kurang terwakili dalam pendidikan tinggi dan kurang beruntung dalam beberapa atribut dalam hal penerimaan perguruan tinggi di sekolah tingkat 1.
Dalam contoh ini, kumpulan data tidak lengkap, dan data kinerja luar harus disertakan bersama dengan variabel pilihan lainnya seperti potensi.
Keajaiban AI yang dirancang dengan sengaja yang dibuat dari tim yang beragam dengan tujuan tertentu dapat membantu kita menembus bias dan titik buta.
Adalah hal yang kuat dan membebaskan untuk menyadari bahwa kita dapat membuat mesin lebih pintar dari kita jika kita mau.
6. Apakah dan bagaimana fakta bahwa Anda adalah bisnis yang dipimpin wanita membedakan Anda dari pesaing Anda?
Vidya: TechSpeed selalu menjadi organisasi minoritas yang dipimpin perempuan.
Wanita hanya 5% dari semua CEO dan wanita minoritas tingkat eksekutif di bidang teknologi hampir tidak ada.
Menjadi bisnis milik wanita minoritas membedakan kami karena alasan itu. Dalam industri yang sangat didominasi laki-laki, kami bangga untuk menunjukkan bagaimana kepemimpinan perempuan dapat membawa perspektif dan solusi yang berbeda ke meja.
Kami berada dalam bisnis data; Kami mengajarkan mesin untuk melihat dunia apa adanya dengan semua warna dan bentuk yang ditawarkan.
Organisasi kami mencerminkan keragaman perspektif yang kami upayakan untuk tercermin dalam pekerjaan kami.
Saya seorang ibu dari tiga gadis yang berbeda ras dalam rumah tangga campuran.
Keanekaragaman dan pemberdayaan perempuan bukanlah sesuatu yang kita bicarakan, melainkan siapa kita dan bagaimana kita hidup.
7. Sekarang, kembali ke data pelatihan dan melihat sisi positifnya, bagaimana data pelatihan yang berkualitas bermanfaat bagi produk AI, yaitu bisnis yang memilikinya?
Vidya: Pada dasarnya , data pelatihan yang dipikirkan dengan baik berarti lebih sedikit pengecualian dan kesalahan.
Alasan utama untuk berinvestasi dalam pembelajaran mesin dan alat AI adalah untuk dapat memecahkan masalah lebih cepat dan lebih dapat diandalkan.
Ada istilah yang keliru oleh orang-orang yang baru mengenal industri ini bahwa AI dapat bergerak sendiri dan dapat sepenuhnya otonom. Namun, kenyataannya adalah bahwa untuk sebagian besar perusahaan di luar sana, kesalahan 10-20% dan pengecualian akan tetap ada.
Ember kepercayaan rendah atau catatan pengecualian ini bukan kutukan, itu adalah kesempatan. Pengecualian dapat diproses dan dianalisis "secara manual" dan kemudian dapat diubah menjadi aturan atau logika baru atau lebih baik.
8. Proses apa yang akan Anda rekomendasikan untuk jaminan kualitas data berkelanjutan? Kapan, jika pernah, Anda akan merekomendasikan pembelajaran mesin dialihkan ke fungsi otonom sepenuhnya? Apakah pelatihan pernah berakhir untuk AI?
Vidya: Tentu saja beban berat yang diperlukan selama pengaturan awal program AI atau pembelajaran mesin sangat berbeda dari apa yang dibutuhkan untuk pemeliharaan berkelanjutan.
Apa yang kami lihat adalah bahwa program berkelanjutan yang paling efektif mencakup semacam audit berkelanjutan dan pemrosesan pengecualian.
Tinjauan terus-menerus atas pengecualian pemrosesan dan audit berkelanjutan akan mengidentifikasi peluang dan kelemahan dalam program.
Tanpa kecuali, setiap proyek dan setiap kumpulan data mengungkapkan nuansa yang awalnya tidak direncanakan dan terkadang nuansa tersebut perlu waktu untuk muncul.
Dengan cara ini, perencanaan adalah segalanya namun rencana bukanlah apa-apa. Membangun dalam audit memungkinkan rencana tetap fleksibel dan alatnya gesit.
Meskipun tentu saja ada pengecualian untuk alat yang sangat sederhana, sebagian besar dalam hal AI, pekerjaan tidak pernah benar-benar berakhir, itu hanya berkembang.
9. Terakhir, menurut Anda, tren apa yang akan datang dalam pengoptimalan data pelatihan AI? Apa yang harus diwaspadai oleh bisnis yang mengandalkan AI?
Vidya: Ada lonjakan pembelajaran AI/mesin dari alat rak di luar sana dan lebih banyak diluncurkan setiap hari.
Akses ke alat layani diri Anda sendiri memungkinkan semua jenis bisnis bereksperimen dan mulai memanfaatkan data mereka.
Ini, tentu saja, sangat bagus untuk industri dan bisnis. Namun, seperti yang telah kita diskusikan sebelumnya, tanpa data berkualitas dan dukungan berkelanjutan, ini bisa menjadi masalah bagi mereka yang melakukannya sendiri.
Perusahaan ingin menjalankan program mereka sendiri, tetapi mereka jarang memiliki kekuatan untuk mengatur dan memproses kumpulan data pembelajaran.
Ini terkadang dapat menghasilkan kumpulan data yang kecil atau tidak mencukupi dan pada akhirnya model yang buruk.
Di situlah mitra dukungan data yang baik dapat memberikan perspektif dan dukungan yang dapat diskalakan untuk membantu memimpin dari belakang.
Ada pepatah lama di antara para peneliti: Semakin banyak pertanyaan yang Anda ajukan, semakin banyak pertanyaan yang Anda sadari bahwa Anda juga membutuhkan jawaban.
Ketika perusahaan berusaha membangun program pembelajaran mesin yang semakin kompleks, mereka akan terus menemukan bahwa kumpulan data yang mereka miliki yang mereka gunakan untuk memulai, tidak cukup lagi.
Kebutuhan data mining untuk membantu mengisi logika AI akan terus berkembang. Semakin matang industrinya, semakin besar kesadaran akan data yang tidak kita miliki.
Meskipun tidak unik untuk AI atau pembelajaran mesin, saya pikir kita berada dalam sejarah saat orang-orang mengevaluasi kembali cara mereka berpikir tentang bisnis, pelanggan, dan komunitas mereka.
Asumsi dan harapan yang menjadi tulang punggung produk, program, dan strategi yang ada semuanya sedang dievaluasi ulang.
Sekarang saatnya bagi perusahaan untuk melihat AI dan alat pembelajaran mesin yang ada dan yang akan datang dengan pandangan yang segar dan inklusif.
Sebelumnya opsional, tetapi sekarang diharapkan dan perusahaan yang tidak berkembang akan ditinggalkan oleh konsumen yang secara permanen meningkatkan harapan mereka.
Terima kasih, Widya!
Ingin membawa solusi AI/ML Anda ke level selanjutnya? Hubungi TechSpeed melalui [email protected] atau hubungi 503-291-0027.