คำจำกัดความของเป้าหมาย
เผยแพร่แล้ว: 2015-08-21วิธีการเรียนรู้ของเครื่องสามารถจำแนกได้เป็นสองประเภทกว้าง ๆ: มีการควบคุมและไม่ได้รับการดูแล การเรียนรู้ภายใต้การดูแลจะเรียนรู้จากชุดการสังเกตที่มีป้ายกำกับ ซึ่งทราบว่าการสังเกตอยู่ในชั้นเรียนบางประเภท (สำหรับปัญหาการจำแนกประเภท) หรือมีค่าบางอย่าง (ปัญหาการถดถอย) การเรียนรู้โดยไม่ได้รับการดูแลจะเรียนรู้จากชุดการสังเกตที่ไม่มีป้ายกำกับ ซึ่งไม่มีสิ่งอื่นใดที่ไม่รู้จักนอกจากการสังเกตด้วยตัวมันเอง
สำหรับวิธีการเรียนรู้ภายใต้การดูแล เราจะบอกว่า "ดูข้อมูลที่ 'จริง' นี้และบอกให้ฉันรู้ว่า 'ความจริง' ของข้อมูลที่มองไม่เห็น" สำหรับวิธีการเรียนรู้ที่ไม่ได้รับการดูแล จะเทียบเท่ากับ "ดูข้อมูลนี้ และบอกสิ่งที่น่าสนใจที่ฉันไม่รู้" แม้ว่าการแบ่งขั้วที่ชัดเจนจะมีประโยชน์ ในโพสต์นี้ เราจะพูดถึงตัวแปรที่น่าสนใจซึ่งการกำหนดเป้าหมายจะกลายเป็นงานที่น่าสนใจมาก!
กึ่งควบคุม
นี่เป็นจุดกึ่งกลางระหว่างข้อมูลที่อยู่ภายใต้การดูแลและไม่ได้รับการดูแล โดยที่ป้ายกำกับ 'จริง' มีอยู่สำหรับการสังเกตบางส่วนเท่านั้น แต่ไม่ใช่ทั้งหมด การเพิกเฉยต่อข้อมูลในมือถือเป็นความไม่ยุติธรรมต่อคุณภาพของตัวแบบการวิเคราะห์ แต่การใช้ข้อมูลนี้อาจทำให้ปัญหาไม่ปกติ ในโลกที่การสร้างข้อมูลเป็นเรื่องง่าย ลองนึกถึงอินเทอร์เน็ต และการติดฉลากมีราคาแพง ปัญหามากมายอยู่ในโดเมนกึ่งควบคุมดูแล
วิธีหนึ่งอาจเป็นการ ไม่รวมข้อมูลป้ายกำกับสำหรับการสร้างแบบจำลองแต่สำหรับการตรวจสอบความถูกต้องของแบบจำลองและการเปรียบเทียบประสิทธิภาพเท่านั้น ตัวอย่างเช่น เราสามารถแบ่งกลุ่มข้อมูลออกเป็น k clustering โดยใช้ un-supervised clustering จากนั้นตรวจสอบความสามารถของโมเดลของเราโดยการเปรียบเทียบคลัสเตอร์ที่คาดการณ์ไว้กับคลัสเตอร์จริง ซึ่งอาจช่วยให้เราตัดสินใจได้ดีขึ้นระหว่างโซลูชันการทำคลัสเตอร์หลายรายการ
อีกวิธีหนึ่งคือการ ใช้ข้อมูลนี้เพื่อสร้างแบบจำลอง เราได้พูดคุยกันเกี่ยวกับการทำคลัสเตอร์กึ่งควบคุมดูแลในโพสต์บล็อกก่อนหน้านี้
ไม่ต่อเนื่องกับต่อเนื่อง
ในขณะที่หลายๆ สถานการณ์จัดอยู่ในหมวดหมู่การจำแนกหรือการถดถอยอย่างเห็นได้ชัด โดยที่ค่า 'จริง' เป็นค่าที่ไม่ต่อเนื่องหรือค่าต่อเนื่อง แต่ก็มีบางกรณีที่ การแปลงเป้าหมาย มีความสมเหตุสมผล
พิจารณารายได้ระดับลูกค้าเป็นหน้าที่ของพฤติกรรมทางประชากรและการทำธุรกรรมในอดีตของลูกค้า นี่เป็นปัญหาทั่วไปในอุตสาหกรรมค้าปลีก ธนาคาร ประกันภัย และโทรคมนาคม รายได้ ซึ่งมักจะเป็น N เดือนล่าสุด เป็นจำนวนต่อเนื่องอย่างเห็นได้ชัด การถดถอย (เชิงเส้นบางที) อาจพอดีที่นี่! แต่มีวิธีการที่ซับซ้อนและซับซ้อนกว่าสำหรับปัญหาการจำแนกประเภท เช่น Neural Networks ซึ่งอาจทำงานได้ดีกว่า แต่จะไม่นำไปใช้กับเป้าหมายที่ต่อเนื่อง ขึ้นอยู่กับบริบททางธุรกิจ คุณอาจไม่จำเป็นต้องคาดการณ์รายได้จริงแต่เฉพาะในกรณีที่รายได้จะสูง ปานกลาง หรือต่ำเท่านั้น หากเป็นเช่นนั้น คุณสามารถตรวจสอบการกระจายรายได้สำหรับลูกค้าทั้งหมดและกำหนดขอบเขตสำหรับสูง-กลางและกลาง-ต่ำและ voila! คุณได้แปลงปัญหาเป้าหมายต่อเนื่องเป็นปัญหาการจำแนกประเภทไม่ต่อเนื่องสามคลาส
หากเป้าหมายต่อเนื่องของคุณคือเปอร์เซ็นต์ สมมติว่านักเรียนบางส่วนสอบผ่านโดยโรงเรียน และคุณต้องการคาดการณ์เปอร์เซ็นต์สำหรับโรงเรียนใหม่/ที่มองไม่เห็นด้วย คุณมีทางเลือกอื่นนอกเหนือจากแบบจำลองการถดถอย คุณสามารถส่งข้อมูล! Parceling แปลงเศษส่วนต่อเนื่องเป็นคลาสไบนารีโดยการจำลองการสังเกต สำหรับการสังเกตที่มีค่าเป้าหมาย 40% คุณทำซ้ำการสังเกต 100 ครั้งและสำหรับ 40 ครั้งกำหนดคลาส 1 และสำหรับ 60 ที่เหลือกำหนดคลาส 60 เนื่องจากข้อสังเกตเหมือนกันและชุดคุณลักษณะเหมือนกัน โมเดลจะพยายามแยกแยะ 1 จาก 0 และสรุปว่าการสังเกตประเภทนี้มีโอกาส 40% ที่จะเป็น 1 และ 60% น่าจะเป็น 0 คุณสามารถทำเช่นเดียวกันกับการสังเกตทั้งหมด (ใช่ สิ่งนี้จะเพิ่มขนาดของข้อมูลการฝึกที่หลากหลาย) โมเดลการจำแนกประเภททั่วไปส่วนใหญ่สร้างความน่าจะเป็นของ class=1 เป็นผลลัพธ์ และนั่นก็เป็นผลลัพธ์ที่คุณต้องการอยู่ดี!
มีกรณีสำหรับการแปลงคลาสที่ไม่ต่อเนื่องเป็นค่าต่อเนื่องหรือไม่? ส่วนใหญ่ไม่มี แต่มีตัวอย่าง เมื่อคุณพยายามทำนายอายุของใครบางคนในหน่วยปี ซึ่งโดยพื้นฐานแล้วเป็นจำนวนเต็มที่ไม่ต่อเนื่องตั้งแต่ 0-100 (หรือประมาณนั้น) คุณสามารถถือว่าอายุเป็นเป้าหมายที่ต่อเนื่อง ในทำนองเดียวกัน หากคุณมีหมวดหมู่รายได้ที่ละเอียดเพียงพอ เช่น 0-50k, 50k-100k, 100k-150k เป็นต้น คุณอาจได้รับประโยชน์จากการพิจารณารายได้เป็นตัวแปรต่อเนื่องมากกว่าการแก้ปัญหาระดับ 20
กรณีไม่มีชั้น
ข้อมูลทั้งหมดมีป้ายกำกับหรือไม่ติดป้ายกำกับ เมื่อข้อมูลถูกติดป้ายกำกับ (สมมติว่าเป็นไบนารี) ข้อมูลนั้นจะอยู่ในคลาสใดคลาสหนึ่ง แต่ในทางปฏิบัติ ข้อมูลอาจไม่อยู่ในคลาสใดๆ
ตัวอย่างเช่น ท่ามกลางการเรียกร้องค่าสินไหมทดแทน คุณอาจทราบแน่นอนว่าการเรียกร้องบางอย่างเป็นการฉ้อโกง และบางรายการไม่ถือเป็นการฉ้อโกง แต่คุณอาจไม่ทราบเกี่ยวกับหลายข้อที่ไม่เคยถูกสอบสวน พิจารณาในหมู่ผู้สมัครบัตรเครดิตที่ได้รับการยอมรับหรือและผู้ที่ถูกปฏิเสธโดยเป็นส่วนหนึ่งของรูปแบบการให้คะแนนแอปพลิเคชันในธนาคาร แต่มีลูกค้าจำนวนมากที่ไม่ได้สมัครเลย และคุณไม่รู้ว่าจะได้รับการยอมรับหรือไม่ บ่อยครั้ง เราไม่สามารถจัดการกับข้อมูลโดยไม่มีป้ายกำกับ และเราต้องแยกข้อมูลเหล่านี้ออกจากประชากรที่กำลังพัฒนาของเรา อย่างไรก็ตาม เราต้องจำไว้ว่าหากสิ่งนี้ทำให้เกิดอคติในการสร้างแบบจำลอง ในตัวอย่างการประกันภัยด้านบน การเรียกร้องที่ถูกสอบสวนอาจเป็นเรื่องน่าสงสัยตั้งแต่เริ่มต้น (แม้จะพบว่าไม่ใช่การฉ้อโกง) หรือในตัวอย่างการธนาคาร ลูกค้าที่ไม่ได้สมัครไม่ได้รับการเรียกร้องจากพนักงานขายซึ่งไม่รวมหมวดหมู่ข้อมูลประชากรทั้งหมด
หากคุณทำการแปลงเป้าหมายตามที่อธิบายไว้ในส่วนก่อนหน้านี้ คุณอาจสร้างข้อมูลที่ไม่มีคลาสด้วยตนเอง สมมติว่าคุณกำหนดรายได้มากกว่า 5,000/- ต่อปีสูงและน้อยกว่า 5,000/- ต่อปีต่ำเพื่อแปลงเป้าหมายต่อเนื่องเป็นเป้าหมายไบนารี อย่างไรก็ตาม นี่จะเป็นการออกแบบที่ไม่ดี เนื่องจากมีการตัดยอดตามอำเภอใจที่ 5000 ลูกค้าที่มีรายได้ 4999/- ไม่ได้แตกต่างไปจากที่มีรายได้ 5001/- แต่คุณทำให้พวกเขาแตกต่างออกไป คำจำกัดความของคุณจะบ่งบอกว่ารายได้ 5001/- ใกล้เคียงกับรายได้ 10000/- มากกว่า 4999/- คุณเห็นปัญหาหรือไม่? คุณสามารถทำได้ในทางเทคนิค แต่โมเดลที่ได้จะไม่ดีและแข็งแกร่ง เนื่องจากคุณขอให้เรียนรู้ความแตกต่างจากลูกค้าที่คล้ายคลึงกัน
แนวปฏิบัติที่ดีคือการรวมโซนบัฟเฟอร์/ไม่มีคลาส ดังนั้น คุณอาจกำหนดรายได้ 6000/- ขึ้นไปให้สูง และ 4000/- หรือน้อยกว่าให้ต่ำ และละเว้นการสังเกตที่มีรายได้ระหว่าง 4000/- ถึง 6000/- ในขณะที่คุณสูญเสียข้อมูลบางส่วน โมเดลจะทำงานได้ดีกว่ามาก เนื่องจากสิ่งที่คุณกำหนดให้แตกต่างออกไปนั้นแตกต่างกันจริงๆ
แม้ว่าการให้ความสำคัญกับการเตรียมข้อมูล การสร้างคุณลักษณะ และวิธีการเรียนรู้ของเครื่องจะคุ้มค่า แต่การกำหนดเป้าหมายที่เหมาะสมยังมีประโยชน์ต่อคุณภาพของผลการวิเคราะห์โดยรวมอีกด้วย