目標定義

已發表: 2015-08-21

機器學習方法可以分為兩大類:有監督的和無監督的。 監督學習從一組標記的觀察中學習,其中已知觀察屬於某些類別(用於分類問題)或具有某些值(回歸問題)。 無監督學習從未標記的一組觀察中學習,除了觀察本身之外,沒有其他東西是已知的。

對於監督學習方法,我們基本上說“看看這個‘真實’數據,告訴我知道不知道數據的‘真相’”。 對於無監督學習方法,這相當於“看看這些數據,然後告訴我一些我不知道的有趣的事情”。 雖然明確的二分法很有用,但在這篇文章中,我們將討論有趣的變體,其中定義目標本身可以成為一項非常有趣的任務!

半監督

這是監督數據和非監督數據之間的中間地帶,其中“真實”標籤僅針對某些觀察結果而不是全部存在。 忽略手頭的信息對分析模型的質量是不公平的,但是使用這些信息可能會使問題變得異常。 在數據生成很容易(想想互聯網)且標籤成本高昂的世界中,許多問題都屬於半監督領域。

一種方法可能是不包括用於建模的標籤信息,而僅用於模型驗證和性能比較。 例如,我們可以使用無監督聚類將數據分割成k個聚類,然後通過將預測聚類與實際聚類進行比較來驗證我們模型的能力。 這可以幫助我們在多個集群解決方案中做出更好的決定。

另一種方法是使用此信息進行建模。 我們在之前的博客文章中討論了半監督聚類。

離散與連續

雖然許多情況顯然屬於分類或回歸類別——其中“真實”值是離散類或連續值——但在某些情況下目標轉換是有意義的。

將客戶級別的收入視為客戶人口統計和過去交易行為的函數。 這在零售、銀行、保險和電信行業中很常見。 收入,通常是過去N個月的,顯然是連續的數字。 你說,一個(也許是線性的)回歸可能適合這裡! 但是對於分類問題,還有更複雜和復雜的方法,例如神經網絡,它可能會做得更好,但不適用於連續目標。 根據業務環境,您可能不需要預測實際收入,但前提是收入將是高、中或低。 如果是這樣,您可以查看所有客戶的收入分配情況,並定義高、中和中低的界限,瞧! 您已將連續目標問題轉換為三類離散分類問題。

如果你的連續目標是一個百分比——比如通過學校考試的學生的比例——並且你想預測新/未見過的學校的百分比,那麼除了回歸模型之外,你還有另一個選擇。 您可以打包數據! Parceling 通過複製觀察將連續分數轉換為二元類。 對於目標值為 40% 的觀察,您將觀察複製 100 次,其中 40 次分配 1 類,其餘 60 次分配 60 類。給定觀察相同且特徵集相同,模型將嘗試區分 1從 0 得出結論,這種觀察有 40% 的可能性為 1,有 60% 的可能性為 0。您可以對所有觀察執行相同的操作。 (是的,這會增加訓練數據流形的大小。)無論如何,大多數常見的分類模型都會產生 class=1 的概率作為結果,這就是你想要的結果!

是否有將離散類轉換為連續值的情況? 大多數情況下沒有,但有例子。 當您嘗試以年為單位預測某人的年齡時(本質上是 0 到 100(左右)之間的離散整數),您可以將年齡視為連續目標。 同樣,如果您有足夠細化的收入類別,例如 0-50k、50k-100k、100k-150k 等,那麼您可能會受益於將收入視為連續變量而不是解決 20 類問題。

無課案例

所有數據要么被標記,要么不被標記。 當數據被標記(假設,二進制)時,它要么屬於一個類,要么屬於另一個類。 但實際上,數據可能不屬於任何類別。

例如,在一堆保險索賠中,您可能肯定知道某些索賠是欺詐,而其他索賠不是欺詐,但您可能不知道許多從未被調查過的索賠。 考慮在銀行申請評分模型中被接受或被拒絕的信用卡申請人。 但是有很多客戶根本沒有申請,你不知道他們是否會被接受。 通常,我們無法處理沒有標籤的數據,我們必須將它們排除在我們的開發人群之外。 但是,我們必須記住這是否會導致建模偏差。 在上面的保險示例中,可能一開始就被調查的索賠是可疑的(即使是那些發現不是欺詐的),或者在銀行示例中,沒有申請的客戶沒有被完全排除人口統計類別的銷售人員招攬。

如果您按照上一節所述進行目標轉換,您可以自己創建一個無類數據。 假設您將超過 5000 元/年的收入定義為高點,將低於 5000 元/- 年的收入定義為低點,以將連續目標轉換為二元目標。 然而,這將是一個糟糕的設計,因為在 5000 處存在任意截斷。收入為 4999/- 的客戶與收入為 5001/- 的客戶沒有太大區別- 但是你把它們分開了。 您的定義將暗示 5001/- 的收入更類似於 10000/- 的收入,而不是 4999/- 的收入。 你看到問題了嗎? 從技術上講,您可以這樣做,但生成的模型不會很好和健壯,因為您要求它學習來自類似客戶的差異。

通常一個好的做法是包含一個緩衝區/無類區域。 因此,您可以將 6000/- 或更多的收入定義為高,4000/- 或更少的低收入,並忽略收入在 4000/- 和 6000/- 之間的觀察。 當您丟失一些數據時,模型會做得更好,因為您定義的不同之處確實不同。

雖然數據準備、特徵生成和機器學習方法值得關注,但定義正確的目標也有助於提高整體分析結果的質量。