AI 訓練數據:機器學習專家和 TechSpeed 的 CEO 揭示了數據質量如何成就或破壞您的 AI 產品
已發表: 2020-06-26
到 2021 年,超過 80% 的新興技術將基於人工智能。
然而,儘管這項技術支撐著幾乎所有進入市場的新技術產品,但令人驚訝的是,關於塑造我們人工智能係統的因素——數據質量——的討論卻很少。
AI,或機器學習 (ML),通常將訓練數據與教科書進行比較; 這些教育人工智能係統,為它們提供上下文以及理解概念的棱鏡。
這意味著人工智能驅動的技術與其學習的數據一樣複雜和準確。
我們與數據服務機構 TechSpeed 的主題專家兼首席執行官 Vidya Plainfield 坐下來討論了 AI 訓練數據的重要性、數據集不足或選擇不當的後果以及我們可以預期在該領域看到的一些趨勢。

1. 嗨,Vidya,在我們進入技術細節之前,請告訴我們一些關於 TechSpeed 的信息以及您在 AI/ML 和數據業務方面的背景?
Vidya: TechSpeed 於 2002 年由一位數據極客(我的母親)和一位發明家(我的父親)在俄勒岡州波特蘭市創立。
雖然他們現在都已退休,但他們的發明精神、企業家精神和家庭精神在我們不斷壯大的超過 100 名技術人員、開發人員和管理人員的團隊中仍然非常活躍。
在我們 18 年的歷史中,我們有機會與客戶合作夥伴一起發展和塑造數據行業,因為我們從數據中挖掘、分類和收穫洞察力。
大多數人沒有意識到的是,在人工智能閃亮的前端背後有一個巨大的數據引擎,而那些 TB 級的數據是由精心構建的信息驅動的。
如果您不小心處理後端數據,您可能會意外地教給 AI 工具一些您不打算教的東西。
TechSpeed 從根本上理解數據,這是我們如何與客戶合作以幫助培訓和審核他們的 AI 的基石。
2. 讓我們在 AI/ML 的背景下定義數據質量:TechSpeed 如何限定數據?
Vidya:當然質量為王; 進垃圾就是出垃圾。
清理原始數據、重新編碼缺失的變量並將定性變量轉換為定量變量肯定是乏味的。
有句話說:“數據科學家花費 80% 的時間清理數據,20% 的時間用於構建模型。”
我們看到的最大陷阱是公司低估了清潔質量數據並且資金不足。
這種低估意味著在構建他們的程序時,他們不得不在擁有足夠大的數據集或擁有高質量的數據集之間做出選擇。
關鍵是您需要質量和數量。
TechSpeeds 與客戶合作,幫助他們以經濟實惠的方式擴展他們的數據集,這樣他們就不必做出權衡。 我們提供廣泛的服務,包括單一、多重和 DEQA 處理,以確保數據符合程序需求。
3. 您如何評價該行業的數據質量方法? 看看您的同行和客戶,您在 AI/ML 培訓方面遇到過哪些最常見的錯誤或誤解?
Vidya:有很多公司向善意的公司提供廣泛的承諾。
一些供應商開始工作,但希望公司處理培訓和持續異常管理方面的繁重工作。
我們看到公司在管理數據計劃時犯的最大錯誤是:
1. 容量不足
需要跨所有類別的大型數據集,以確保對多數參數和少數參數均提供均勻的數據權重。 否則,當嘗試響應少數情況時,算法將超重多數數據。
例如,假設您要對樹木的圖像進行分類。 假設您有很多關於所有不同樹種、各種照明和生命階段的良好數據。 但是,您沒有太多關於颶風過後樹木的外觀的信息。
當然,這些將是少數情況,但如果您只有大多數數據的可靠數據計數,當該工具查看颶風後的樹木圖像時,它將依賴並過度加權來自大多數健康樹木數據的數據放。 這可能會導致錯誤。
2、品種不足
需要缺乏跨廣泛類別的可靠數據,以確保該工具能夠處理數據集環境中的持續變化。
例如,假設您正在構建一個查看存儲容器圖像的可視化分析工具。 然後,突然間,對相機系統進行了升級。 工具輸出總是會受到影響。
世界是一個動態的地方。 需要考慮客戶、環境、態度等當前和未來的屬性,以確保工具能夠適應這些變化。
3. 低估了獲取數據的難度
通常,公司擁有大量要分類的多數數據,當他們需要挖掘少數數據時可能會遇到挑戰。
例如,假設您正在構建一個查看智能手機圖像的視覺分析工具。 您可能有 100 萬張來自社交媒體的圖片,涵蓋各種類別,但您沒有的是人們未上傳的所有圖片。
我的意思是人們通常將圖像發佈到他們喜歡的社交媒體上,質量和清晰度都相對較好。
但是,如果您的工具要查看手機圖像,就會發現很多圖像模糊、曝光過度、傾斜等。這些圖像很難找到,因為您在哪裡可以找到人們不發布的少數測試圖像?
公司經常低估需要資源來填補的數據缺口數量。 這樣,一個好的機器學習合作夥伴不僅會幫助您組織您擁有的數據,還會幫助您獲取您沒有的數據。
4. 最後,“Ron Popeil”謬誤
換句話說:“一勞永逸”的謬論。
公司經常忘記,持續的管理和維護仍然需要人眼。
無論是低置信度結果、異常處理、審計還是使用強化數據進行優化,這些持續的工作流程都是保持工具新鮮和持續成功的關鍵。

4. 處理不當的 AI 培訓會產生什麼後果?
Vidya:我沒有足夠的手指和腳趾來計算客戶來找我們的次數,因為他們低估了開發機器學習工具所需的計劃、成本和範圍。

最糟糕的是,因為任何程序的基礎都是數據,客戶可能會失去寶貴的時間和金錢,因為他們必須拆除原始數據集並重新開始。
如果你問一個 CEO 小組,他們都會告訴你,他們認為利用人工智能是未來競爭力的關鍵。
話雖如此,只有極少數公司實際為人工智能預算或將其作為戰略規劃過程的一部分。
所以對於那些把錢放在一邊的公司來說,他們通常只有一次機會讓它發揮作用。
處理不當的 AI 培訓有時可能意味著公司在嘗試失敗後沒有再投資的能力。 這可能意味著他們永遠在追趕他們的競爭對手。
5. 在您看來,AI 訓練數據如何在社會層面影響我們的一些最重要的例子是什麼?
Vidya:我們正處於歷史上的一個時期,人們逐漸意識到已經被編程到我們社會中的偏見。
種族、性別、年齡和更多虛假數據點被用於推動決策的時間太長了,我認為,次優選擇阻礙了我們取得集體成就。
以一家金融公司為例,它希望使用機器學習工具來幫助縮小申請人的範圍。
假設該公司使用其 20 年的歷史員工數據來確定那些晉升最多、績效評估最高的員工,然後查看他們在哪裡上學、他們在加入公司之前的經歷等。
乍一看,這可能很有道理,“讓我們看看誰在我們公司取得了成功,並僱用更多這樣的人”。
您的人力資源工具所忽視的是可能影響歷史招聘和晉升決策的機構偏見。
- 男性比女性更有可能獲得晉升。
- 與有色人種相比,白種人更有可能接受面試並最終被錄用。
- 從歷史上看,低收入少數民族在高等教育中的代表性不足,並且在一級學校的大學錄取方面處於劣勢。
在此示例中,數據集不完整,外部績效數據必須與其他選擇變量(如潛力)一起包括在內。
由一個有目的的多元化團隊創造的有意設計的人工智能的魔力可以幫助我們消除偏見和盲點。
意識到如果我們願意,我們可以讓機器比我們更聰明,這是一件強大而解放的事情。
6. 您是女性主導的企業這一事實是否以及如何使您與競爭對手區分開來?
Vidya: TechSpeed 一直是由少數族裔女性領導的組織。
女性僅佔所有 CEO 的 5%,而技術領域的少數高管女性幾乎不存在。
正是因為這個原因,作為少數族裔女性擁有的企業使我們與眾不同。 在一個男性主導的行業中,我們很自豪地舉例說明女性領導如何能夠帶來不同的觀點和解決方案。
我們從事數據業務; 我們正在教機器用它所提供的所有顏色和形狀來看待世界。
我們的組織反映了我們尋求在我們的工作中反映的觀點的多樣性。
我是一個混血家庭中三個不同種族女孩的母親。
多樣性和女性賦權不是我們談論的話題,而是我們是誰以及我們如何生活。

7. 現在,回到訓練數據,從積極的一面來看,高質量的訓練數據如何使人工智能產品受益,即擁有它的企業?
Vidya:從根本上說,經過深思熟慮的訓練數據意味著更少的異常和錯誤。
投資機器學習和人工智能工具的主要原因是能夠更快、更可靠地解決問題。
該行業的新手誤稱 AI 是自我推進的,並且可以完全自主。 然而,事實是,對於大多數公司來說,10-20% 的錯誤和異常仍然存在。
這桶低置信度或異常記錄不是詛咒,而是機會。 可以“手動”處理和分析異常,然後可以將其轉換為新的或更好的規則或邏輯。
8. 對於持續的數據質量保證,您建議採用什麼流程? 如果有的話,您何時會建議將機器學習轉變為完全自主運作? 人工智能的訓練會結束嗎?
Vidya:當然,在 AI 或機器學習程序的初始設置期間所需的繁重工作與持續維護所需的工作大不相同。
我們看到的是,最有效的持續程序包括某種持續的審計和異常處理。
對處理異常的持續審查和持續審計將識別計劃中的機會和弱點。
無一例外,每個項目和每個數據集都揭示了最初未計劃的細微差別,有時這些細微差別需要時間才能出現。
這樣,計劃就是一切,而計劃又什麼都不是。 內置審計可以讓計劃保持靈活,工具也很靈活。
雖然非常簡單的工具當然有例外,但在大多數情況下,人工智能的工作從未真正結束,它只是在發展。
9. 最後,您預測 AI 訓練數據優化的未來趨勢是什麼? 依賴人工智能的企業應該注意什麼?
Vidya:現成的 AI/機器學習工具激增,而且每天都有更多的發布。
訪問自助服務工具允許各種企業進行試驗並開始利用他們的數據。
當然,這對行業和企業來說是件好事。 然而,正如我們之前所討論的,如果沒有高質量的數據和持續的支持,DIY 者可能會遇到問題。
公司想要運行他們自己的程序,但他們很少有能力組織起來並處理學習數據集。
這有時會導致數據集變小或以其他方式不足,最終導致模型錯誤。
這就是一個好的數據支持合作夥伴可以提供視角和可擴展的支持來幫助背後領導的地方。
研究人員中有一句老話:你問的問題越多,你意識到自己也需要答案的問題就越多。
隨著公司尋求構建越來越複雜的機器學習程序,他們將繼續發現他們手頭上曾經開始的數據集已經不夠用了。
數據挖掘以幫助填補 AI 邏輯的需求將繼續擴大。 行業越成熟,對我們沒有的數據的認識就越大。
雖然並非人工智能或機器學習所獨有,但我認為我們正處於歷史時期,人們正在重新評估他們對業務、客戶和社區的看法。
作為現有產品、計劃和戰略支柱的假設和期望都在重新評估。
現在是公司以全新和包容的眼光看待現有和未來的人工智能和機器學習工具的時候了。
以前它是可選的,但現在是預期的,不進化的公司將被不可逆轉地提高期望值的消費者拋在後面。
謝謝你,維迪亞!
想要將您的 AI/ML 解決方案提升到一個新的水平嗎? 通過 [電子郵件保護] 或致電 503-291-0027 與 TechSpeed 取得聯繫。