Yapay Zeka Eğitim Verileri: Makine Öğrenimi Uzmanı ve TechSpeed'in CEO'su, Veri Kalitesinin Yapay Zeka Ürününüzü Nasıl Yaratabileceğini veya Bozabileceğini Açıklıyor
Yayınlanan: 2020-06-262021 yılına kadar, gelişen teknolojilerin %80'inden fazlası yapay zeka tabanlı olacak.
Bununla birlikte, bu teknoloji, piyasaya çıkan hemen hemen her yeni teknoloji ürününün temelini oluştursa da, yapay olarak akıllı sistemlerimizi neyin şekillendirdiği hakkında şaşırtıcı derecede az konuşma var: veri kalitesi.
AI veya makine öğrenimi (ML), eğitim verileri genellikle ders kitaplarıyla karşılaştırılır; Bunlar, kavramları anlamak için onlara bağlam ve prizma vererek yapay zeka sistemlerini eğitir.
Bu, AI destekli teknolojinin yalnızca öğrendiği veriler kadar karmaşık ve doğru olduğu anlamına gelir.
Veri hizmeti ajansı TechSpeed'in konu uzmanı ve CEO'su Vidya Plainfield ile AI eğitim verilerinin önemini, yetersiz veya kötü seçilmiş veri kümelerinin sonuçlarını ve sahada görmeyi bekleyebileceğimiz bazı eğilimleri tartışmak için oturduk.
1. Merhaba Vidya, teknik konulara girmeden önce bize TechSpeed'den ve AI/ML'deki geçmişinizden ve veri işinden biraz bahseder misiniz?
Vidya: TechSpeed, 2002 yılında bir veri meraklısı (annem) ve bir mucit (babam) tarafından Portland, Oregon'da kuruldu.
Şimdi ikisi de emekli olsalar da, +100'ün üzerinde teknisyen, geliştirici ve yöneticiden oluşan büyüyen ekibimizde buluş, girişimcilik ve aile ruhları hala çok canlı.
18 yıllık geçmişimiz boyunca, verilerden içgörüler çıkarırken, sıralarken ve toplarken müşteri ortaklarımızla veri endüstrisini geliştirme ve şekillendirme şansına sahip olduk.
Çoğu insanın anlamadığı şey, yapay zekanın parlak ön yüzünün arkasında devasa bir veri motoru olduğu ve bu terabaytlarca verinin özenle oluşturulmuş bilgilerle desteklendiğidir.
Arka uç verilerinize dikkat etmezseniz, yanlışlıkla bir AI aracına istemediğiniz bir şeyi öğretebilirsiniz.
TechSpeed, verileri temel olarak anlar ve bu, AI'larını eğitmek ve denetlemek için müşterilerle nasıl iş ortaklığı yaptığımızın temeli olmuştur.
2. Veri kalitesini AI/ML bağlamında tanımlayalım: TechSpeed verileri nasıl nitelendiriyor?
Vidya: Elbette kalite kraldır; İçeri giren çöp, dışarıdaki çöptür.
Ham verileri temizlemek, eksik değişkenleri yeniden kodlamak ve nitel değişkenleri nicel değişkenlere dönüştürmek kesinlikle sıkıcıdır.
Bir söz vardır: "Veri bilimcileri, zamanlarının %80'ini verileri temizlemek ve %20'sini bir model oluşturmak için harcarlar."
Gördüğümüz en büyük tuzak, firmaların temiz kaliteli verileri hafife alması ve yetersiz fon sağlamasıdır.
Bu küçümseme, programlarını oluşturmaya gelince, yeterince büyük bir veri setine sahip olmak veya kaliteli bir veri setine sahip olmak arasında seçim yapmak zorunda kaldıkları anlamına gelir.
Anahtar, hem kaliteye hem de miktara ihtiyacınız var.
TechSpeeds, veri kümelerini uygun maliyetli bir şekilde ölçeklendirmeye yardımcı olmak için müşterilerle birlikte çalışır, böylece ödün vermek zorunda kalmazlar. Verilerin programın ihtiyaçlarını karşılayacak şekilde nitelikli olmasını sağlamak için tekli, çoklu ve DEQA işleme dahil olmak üzere geniş bir hizmet yelpazesi sunuyoruz.
3. Sektörün veri kalitesine yaklaşımını nasıl değerlendirirsiniz? Meslektaşlarınıza ve müşterilerinize baktığınızda, karşılaştığınız AI/ML eğitimiyle ilgili en yaygın hatalardan veya yanlış anlamalardan bazıları nelerdir?
Vidya: İyi niyetli şirketlere çok çeşitli vaatler sunan birçok firma var.
Bazı sağlayıcılar işleri başlatıyor ancak şirketlerin eğitim ve devam eden istisna yönetimi söz konusu olduğunda ağır işlerin üstesinden gelmesini bekliyor.
Şirketlerin veri planlarını yönetirken yaptıklarını gördüğümüz en büyük hatalar şunlardır:
1. Yetersiz Hacim
Hem çoğunluk hem de azınlık parametreleri için verilerin eşit ağırlıklandırılmasını sağlamak için tüm kategorilerde büyük veri kümeleri gereklidir. Bu olmadan, bir azınlık durumuna yanıt vermeye çalışırken algoritmalar çoğunluk verisine ağırlık verecektir.
Örneğin, ağaç görüntülerini kategorilere ayırmak istediğinizi varsayalım. Diyelim ki tüm farklı ağaç türleri ve her türlü aydınlatma ve yaşam evresi hakkında çok sayıda iyi veriniz var. Ancak, bir kasırgadan sonra ağaçların neye benzediğine dair çok fazla hacminiz yok.
Elbette bunlar azınlık örnekleri olacaktır, ancak yalnızca çoğunluk verileri için sağlam veri sayımlarınız varsa, araç bir kasırgadan sonra bir ağacın görüntüsüne baktığında, çoğunluk sağlıklı ağaç verilerinden gelen verilere güvenecek ve aşırı ağırlık verecektir. Ayarlamak. Bu hatalara yol açabilir.
2. Yetersiz Çeşit
Aracın veri seti ortamında devam eden değişiklikleri işleyebilmesini sağlamak için çok çeşitli kategorilerde sağlam veri eksikliği gerekir.
Örneğin, saklama kaplarının resimlerine bakan bir görsel analiz aracı oluşturduğunuzu varsayalım. Sonra birdenbire kamera sistemine yükseltme yapıldı. Her zaman takım çıktısı etkilenecektir.
Dünya dinamik bir yer. Araçların bu değişiklikleri karşılayabilmesini sağlamak için müşterilere, ortamlara, tutumlara vb. ilişkin mevcut ve gelecekteki özellikler dikkate alınmalıdır.
3. Veri Kaynağının Zorluğunu Küçümseme
Çoğu zaman firmalar, sınıflandırmak istedikleri çoğunluk verisine sahiptir ve azınlık verileri için madencilik yapmaları gerektiğinde bir zorluk gelebilir.
Örneğin, akıllı telefon görüntülerine bakan bir görsel analiz aracı oluşturduğunuzu varsayalım. Çok çeşitli kategorilerde sosyal medya kaynaklı milyonlarca görseliniz olabilir, ancak sahip olmadığınız şey, insanların yüklemediği tüm görsellerdir.
Demek istediğim, insanlar genellikle sosyal medyada beğendikleri görüntüleri nispeten kaliteli ve net bir şekilde yayınlıyorlar.
Ancak, aracınız cep telefonu görüntülerini incelemeye çalışıyorsa, bulanık, aşırı pozlanmış, eğik vb. birçok görüntü vardır. Bu görüntülerin kaynağı zordur çünkü insanların yayınlamadığı azınlık test görüntülerini nerede buluyorsunuz?
Firmalar, verilerinde doldurulması gereken kaynakları gerektirecek boşlukların sayısını genellikle hafife alırlar. Bu şekilde, iyi bir makine öğrenimi ortağı yalnızca sahip olduğunuz verileri düzenlemenize yardımcı olmakla kalmaz, aynı zamanda sahip olmadığınız verilere kaynak sağlamanıza da yardımcı olur.
4. Son olarak, “Ron Popeil” Yanılgısı
Başka bir deyişle: “Ayarla ve unut” yanılgısı.
Firmalar genellikle, devam eden yönetim ve bakım için insan gözünün hala gerekli olduğunu unuturlar.
Düşük güvenilir sonuçlar, istisna işleme, denetleme veya güçlendirme verileriyle optimizasyon olsun, bu devam eden iş akışları, aracı taze tutmanın ve devam eden başarıyı sağlamanın anahtarıdır.
4. Kötü yönetilen yapay zeka eğitiminin sonuçları nelerdir?
Vidya: Makine öğrenimi araçlarını geliştirmek için gereken planlama, maliyet ve kapsamı hafife aldıkları için bir müşterinin bize ne zaman geldiğini sayacak kadar parmağım ve parmağım yok.
En kötü yanı ise, herhangi bir programın temeli veri olduğu için, müşteriler orijinal veri kümelerini parçalamak ve baştan başlamak zorunda kaldıkları için değerli zaman ve para kaybedebilirler.
CEO'lardan oluşan bir panele sorarsanız, hepsi size AI'dan yararlanmanın gelecekte rekabet edebilirliğin anahtarı olduğunu düşündüklerini söyleyecektir.
Bununla birlikte, firmaların çok küçük bir yüzdesi aslında yapay zeka için bütçe ayırıyor veya bunu stratejik planlama sürecinin bir parçası olarak dahil ediyor.
Yani parayı bir kenara koyan firmalar için, genellikle onu çalıştırmak için tek bir şansları vardır.
Kötü yönetilen AI eğitimi, bazen bir firmanın başarısız bir girişimden sonra yeniden yatırım yapma yeteneğine sahip olmadığı anlamına gelebilir. Bu, sonsuza kadar rakiplerine yetişmeye çalıştıkları anlamına gelebilir.
5. Size göre, AI eğitim verilerinin bizi toplumsal düzeyde nasıl etkilediğinin en önemli örneklerinden bazıları nelerdir?
Vidya: Tarihimizde, toplumumuza programlanmış olan önyargıya ilişkin farkındalığın arttığı bir dönemdeyiz.
Irk, cinsiyet, yaş ve daha pek çok yanlış veri noktası, kararları yönlendirmek için çok uzun süredir kullanılıyor ve bence, bizi toplu başarıdan alıkoyan alt optimize edilmiş seçimler.
Örneğin, başvuru alanlarını daraltmak için bir makine öğrenimi aracı kullanmak isteyen bir finans firmasını ele alalım.
Diyelim ki firma 20 yıllık geçmiş çalışan verilerini en çok terfi eden, en yüksek performans değerlendirmelerine sahip çalışanları belirlemek için kullandı ve ardından nereye gittiklerine, firmaya katılmadan önce ne gibi deneyimlere sahip olduklarına baktı.
İlk bakışta bu çok mantıklı gelebilir, “şirketimizde kimin başarılı olduğunu görelim ve bunun gibi daha fazla insanı işe alalım”.
İK aracınızın kör olduğu şey, tarihsel olarak işe alma ve terfi kararlarını etkilemiş olabilecek kurumsal önyargıdır.
- Erkeklerin terfi etme olasılığı kadınlardan daha fazladır.
- Kafkasyalıların, renkli insanlara kıyasla röportaj yapma ve nihayetinde işe alınma olasılığı daha yüksektir.
- Ve tarihsel olarak, düşük gelirli azınlıklar yüksek öğretimde yeterince temsil edilmiyor ve 1. kademe okullarda üniversiteye giriş söz konusu olduğunda çeşitli özelliklerde dezavantajlı durumdalar.
Bu örnekte, veri seti eksikti ve potansiyel gibi diğer seçim değişkenleriyle birlikte dış performans verilerinin dahil edilmesi gerekiyor.
Amaca yönelik olarak çeşitliliğe sahip bir ekipten yaratılan, kasıtlı olarak tasarlanmış yapay zekanın büyüsü, önyargı ve kör noktaları ortadan kaldırmamıza yardımcı olabilir.
İstersek makineleri bizden daha akıllı hale getirebileceğimizi anlamak güçlü ve özgürleştirici bir şey.
6. Kadın liderliğindeki bir işletme olmanız sizi rakiplerinizden farklılaştırıyor mu ve nasıl?
Vidya: TechSpeed her zaman kadınların önderlik ettiği bir azınlık kuruluşu olmuştur.
Kadınlar, tüm CEO'ların yalnızca %5'ini oluşturuyor ve teknolojide yönetici düzeyindeki azınlık kadınları neredeyse hiç yok.
Azınlık kadınlara ait bir işletme olmak bizi tam da bu nedenle farklı kılıyor. Ağırlıklı olarak erkek egemen bir sektörde, kadın liderliğin masaya nasıl farklı bakış açıları ve çözümler getirebileceğini örneklemekten gurur duyuyoruz.
Biz veri işindeyiz; Makinelere dünyayı sunduğu tüm renk ve şekillerle olduğu gibi görmeyi öğretiyoruz.
Kuruluşumuz, çalışmalarımıza yansıtmak istediğimiz bakış açılarının çeşitliliğini yansıtır.
Karma bir evde ırkları farklı üç kızın annesiyim.
Çeşitlilik ve kadınların güçlendirilmesi hakkında konuştuğumuz bir şey değil, kim olduğumuz ve nasıl yaşadığımızdır.
7. Şimdi, eğitim verilerine geri dönersek ve olumlu tarafa bakarsak, kaliteli eğitim verileri AI ürününe, yani ona sahip olan işletmelere nasıl fayda sağlar?
Vidya: Temel olarak, iyi düşünülmüş eğitim verileri, daha az istisna ve hata anlamına gelir.
Makine öğrenimi ve yapay zeka araçlarına yatırım yapmanın birincil nedeni, sorunları daha hızlı ve daha güvenilir bir şekilde çözebilmektir.
Sektörde yeni olan insanlar tarafından yapay zekanın kendi kendini ilerlettiği ve tamamen özerk olabileceğine dair bir yanlış isim var. Ancak gerçek şu ki, çoğu firma için %10-20 hata ve istisnalar hala var olacak.
Bu düşük güven veya istisna kayıtları bir lanet değil, bir fırsattır. İstisnalar "manuel" olarak işlenebilir ve analiz edilebilir ve ardından yeni veya daha iyi kurallara veya mantığa dönüştürülebilir.
8. Sürekli veri kalitesi güvencesi için hangi süreci önerirsiniz? Makine öğreniminin tamamen özerk işleve geçirilmesini ne zaman önerirsiniz? Bir yapay zeka için eğitim hiç biter mi?
Vidya: Bir yapay zeka veya makine öğrenimi programının ilk kurulumu sırasında ihtiyaç duyulan ağır kaldırma, devam eden bakım için gerekenden kesinlikle çok farklıdır.
Gördüğümüz, en etkili devam eden programların bir tür devam eden denetim ve istisna işlemeyi içermesidir.
İşleme istisnalarının sürekli olarak gözden geçirilmesi ve devam eden denetim, programdaki fırsatları ve zayıflıkları belirleyecektir.
İstisnasız her proje ve her veri seti, başlangıçta planlanmayan nüansları ortaya çıkarır ve bazen bu nüansların ortaya çıkması için zamana ihtiyaç vardır.
Bu şekilde planlama her şeydir ve yine de plan hiçbir şeydir. Denetimi geliştirmek, planın esnek kalmasını ve aracın çevik kalmasını sağlar.
Elbette çok basit araçlar için istisnalar olsa da, çoğunlukla yapay zeka söz konusu olduğunda iş asla gerçekten bitmez, sadece gelişir.
9. Son olarak, AI eğitim verisi optimizasyonunda yaklaşan trendlerin neler olduğunu tahmin ediyorsunuz? Yapay zekaya güvenen işletmeler nelere dikkat etmeli?
Vidya: Dışarıda kullanıma hazır araçlarda bir yapay zeka/makine öğrenimi dalgası var ve her gün daha fazlası piyasaya çıkıyor.
Kendinize hizmet araçlarına erişim, her türden işletmenin deney yapmasına ve verilerinden yararlanmaya başlamasına olanak tanıyor.
Bu, elbette, sektör ve işletmeler için harika. Ancak, daha önce tartıştığımız gibi, kaliteli veriler ve sürekli destek olmadan, kendi işini yapanlar için sorun olabilir.
Firmalar kendi programlarını yürütmek isterler, ancak nadiren organize olmak ve öğrenme veri setlerini işleme almak için beygir gücüne sahiptirler.
Bu bazen küçük veya yetersiz veri kümelerine ve nihayetinde kötü modellere neden olabilir.
İşte bu noktada iyi bir veri destek ortağı, arkadan liderlik etmeye yardımcı olmak için hem perspektif hem de ölçeklenebilir destek sağlayabilir.
Araştırmacılar arasında eski bir söz vardır: Ne kadar çok soru sorarsanız, o kadar çok soruya cevaba ihtiyacınız olduğunu anlarsınız.
Şirketler giderek daha karmaşık makine öğrenimi programları oluşturmaya çalıştıkça, ellerinde bulunan veri kümelerinin artık yeterli olmadığını görmeye devam edecekler.
Yapay zeka mantığını doldurmaya yardımcı olacak veri madenciliğine duyulan ihtiyaç artmaya devam edecek. Sektör ne kadar olgun olursa, elimizde olmayan verilerin farkındalığı o kadar artar.
AI veya makine öğrenimine özgü olmasa da, insanların işleri, müşterileri ve toplulukları hakkında nasıl düşündüklerini yeniden değerlendirdikleri bir tarihte olduğumuzu düşünüyorum.
Mevcut ürün, program ve stratejilerin omurgasını oluşturan varsayımlar ve beklentiler yeniden değerlendiriliyor.
Şimdi firmaların mevcut ve gelecekteki yapay zeka ve makine öğrenimi araçlarına yeni ve kapsayıcı gözlerle bakma zamanı.
Önceleri isteğe bağlıydı, ancak şimdi bekleniyor ve gelişmeyen şirketler, beklentilerini geri dönülmez bir şekilde yükselten tüketiciler tarafından geride bırakılacak.
Teşekkürler Vidya!
AI/ML çözümünüzü bir sonraki seviyeye taşımak ister misiniz? [e-posta korumalı] aracılığıyla TechSpeed ile iletişime geçin veya 503-291-0027 numaralı telefonu arayın.