تعريف الهدف
نشرت: 2015-08-21يمكن تصنيف أساليب التعلم الآلي إلى فئتين عريضتين: خاضعة للإشراف وغير خاضعة للإشراف. يتعلم التعلم الخاضع للإشراف من مجموعة الملاحظات المصنفة ، حيث من المعروف أن الملاحظات تنتمي إلى فئات معينة (لمشاكل التصنيف) أو لها قيم معينة (مشكلة الانحدار). التعلم غير الخاضع للإشراف يتعلم من مجموعة غير محددة من الملاحظات ، حيث لا يُعرف أي شيء آخر باستثناء الملاحظات نفسها.
بالنسبة لأساليب التعلم الخاضعة للإشراف ، نقول بشكل أساسي "انظر إلى هذه البيانات" الحقيقية "وأخبرني أن أعرف كيف أعرف" حقيقة "البيانات غير المرئية". بالنسبة لأساليب التعلم غير الخاضعة للإشراف ، فإن هذا يعادل "انظر إلى هذه البيانات ، وأخبرني بشيء مثير للاهتمام لا أعرفه." في حين أن التقسيم الواضح مفيد ، سنتحدث في هذا المنشور عن متغيرات مثيرة للاهتمام حيث يمكن أن يصبح تحديد الهدف في حد ذاته مهمة ممتعة للغاية!
شبه خاضع للإشراف
هذا هو الحل الوسط بين البيانات الخاضعة للإشراف وغير الخاضعة للإشراف ، حيث توجد تسميات "حقيقية" فقط لبعض الملاحظات ولكن ليس كلها. إن تجاهل المعلومات الموجودة يعد ظلمًا لجودة النماذج التحليلية ، ولكن استخدام هذه المعلومات يمكن أن يجعل المشكلة غير عادية. في العالم حيث يكون إنشاء البيانات أمرًا سهلاً - فكر في الإنترنت - ويكون وضع العلامات مكلفًا ، تقع العديد من المشكلات في المجال شبه الخاضع للإشراف.
يمكن أن يتمثل أحد الأساليب في عدم تضمين معلومات التسمية للنمذجة ولكن فقط للتحقق من صحة النموذج ومقارنة الأداء. على سبيل المثال ، يمكننا تقسيم البيانات إلى مجموعات k باستخدام مجموعات غير خاضعة للإشراف ثم التحقق من كفاءة نموذجنا من خلال مقارنة الكتلة المتوقعة بالمجموعة الفعلية. قد يساعدنا هذا في اتخاذ قرار أفضل من بين حلول المجموعات المتعددة.
نهج آخر يمكن أن يكون لاستخدام هذه المعلومات للنمذجة. ناقشنا حول التجميع شبه الخاضع للإشراف في منشور المدونة السابق.
منفصل مقابل مستمر
في حين أن العديد من المواقف تندرج بوضوح في فئات التصنيف أو الانحدار - حيث تكون القيمة "الحقيقية" فئة منفصلة أو قيمة مستمرة - هناك حالات يكون فيها التحويل الهدف منطقيًا.
ضع في اعتبارك الإيرادات على مستوى العميل كدالة لسلوك العميل الديموغرافي والمعاملات السابقة. هذه مشكلة شائعة بدرجة كافية في صناعات التجزئة والبنوك والتأمين والاتصالات. من الواضح أن الإيرادات ، غالبًا في الأشهر N الأخيرة ، هي رقم مستمر. ربما يكون الانحدار (الخطي) مناسبًا هنا ، كما تقول! ولكن هناك طرق أكثر تعقيدًا وتعقيدًا متاحة لمشاكل التصنيف ، مثل الشبكات العصبية ، والتي من المحتمل أن تؤدي وظيفة أفضل ولكنها لن تنطبق على الهدف المستمر. اعتمادًا على سياق العمل ، قد لا تحتاج إلى توقع الإيرادات الفعلية ولكن فقط إذا كانت الإيرادات عالية أو متوسطة أو منخفضة. إذا كان الأمر كذلك ، يمكنك مراجعة توزيع الإيرادات لجميع العملاء وتحديد الحدود العالية والمتوسطة والمنخفضة ، وفويلا! لقد قمت بتحويل مشكلة هدف مستمرة إلى مشكلة تصنيف منفصلة من ثلاث فئات.
إذا كان هدفك المستمر هو نسبة مئوية - قل نسبة الطلاب الذين يجتازون الامتحان من قبل المدارس - وتريد توقع النسبة المئوية أيضًا للمدرسة الجديدة / غير المرئية ، فلديك خيار آخر بعيدًا عن نموذج الانحدار. يمكنك تقسيم البيانات! يحول التقسيم الكسور المستمرة إلى فئات ثنائية عن طريق تكرار الملاحظات. بالنسبة إلى الملاحظة ذات القيمة المستهدفة 40٪ ، تقوم بتكرار الملاحظة 100 مرة وبالنسبة لـ 40 منها قم بتعيين فئة 1 و 60 فئة تعيين المتبقية 60. نظرًا لأن الملاحظة هي نفسها ومجموعة الميزات هي نفسها ، سيحاول النموذج التفريق 1 من 0 واستنتج أن هذا النوع من الملاحظة 40٪ من المحتمل أن يكون 1 و 60٪ من المحتمل أن يكون 0. يمكنك أن تفعل الشيء نفسه بالنسبة لجميع الملاحظات. (نعم ، سيؤدي هذا إلى زيادة حجم مجمع بيانات التدريب.) معظم نماذج التصنيف الشائعة على أي حال تنتج احتمال الفئة = 1 كنتيجة ، وهذه النتيجة التي تريدها على أي حال!
هل يمكن أن تكون هناك حالة لتحويل الفئات المنفصلة إلى قيمة مستمرة؟ في الغالب لا ، ولكن هناك أمثلة. عندما تحاول التنبؤ بعمر شخص ما بالسنوات - وهو في الأساس عدد صحيح منفصل من 0-100 (أو نحو ذلك) - يمكنك التعامل مع العمر كهدف مستمر. وبالمثل ، إذا كانت لديك فئات دخل دقيقة بما فيه الكفاية ، على سبيل المثال ، من 0 إلى 50 ألفًا ، و 50 ألفًا إلى 100 ألف ، و 100 ألف إلى 150 ألفًا ، وما إلى ذلك ، فقد تستفيد من معاملة الدخل على أنه متغير مستمر بدلاً من حل مشكلة فئة 20.
حالة عدم وجود فئة
جميع البيانات إما مصنفة أو غير مصنفة. عندما يتم تسمية البيانات (لنفترض ، ثنائي) ، فإنها إما تنتمي إلى فئة أو أخرى. ولكن من الناحية العملية ، قد لا تنتمي البيانات إلى أي فئة.
على سبيل المثال ، من بين مجموعة مطالبات التأمين ، قد تعرف بالتأكيد بعض الادعاءات بأنها احتيال ، والبعض الآخر ليس احتيالًا ، لكنك قد لا تعرف الكثير التي لم يتم التحقيق فيها مطلقًا. ضع في اعتبارك ، بين المتقدمين لبطاقات الائتمان الذين تم قبولهم أو الذين تم رفضهم كجزء من نموذج تسجيل الطلبات في البنوك. لكن هناك الكثير من العملاء الذين لم يتقدموا على الإطلاق ، ولا تعرف ما إذا كان سيتم قبولهم أم لا. في كثير من الأحيان ، لا يمكننا التعامل مع البيانات بدون تسمية ، ويجب علينا استبعادها من مجتمع التنمية لدينا. ومع ذلك ، يجب أن نتذكر ما إذا كان هذا يؤدي إلى التحيز في النمذجة. في مثال التأمين أعلاه ، ربما كانت المطالبات التي تم التحقيق فيها مشبوهة في البداية (حتى تلك التي تم العثور عليها غير احتيالية) ، أو في مثال مصرفي ، لم يتم طلب العملاء الذين لم يتقدموا بطلب من قبل فريق المبيعات الذي استبعد فئة ديموغرافية تمامًا.
إذا كنت تستهدف التحويل كما هو موضح في القسم السابق ، فيمكنك إنشاء بيانات بدون فئة بنفسك. لنفترض أنك حددت إيرادات تزيد عن 5000 / - سنويًا ، أعلى وأقل من 5000 / - سنويًا منخفضة لتحويل الهدف المستمر إلى هدف ثنائي. ومع ذلك ، سيكون هذا تصميمًا سيئًا ، لأن هناك حدًا تعسفيًا عند 5000. لا يختلف العميل الذي يبلغ عائده 4999 / - كثيرًا عن ذلك الذي يبلغ عائده 5001 / - ومع ذلك فإنك تفصل بينهما عالمين مختلفين. سيشير تعريفك إلى أن الإيرادات البالغة 5001 / - تشبه إلى حد كبير الإيرادات التي تبلغ 10000 / - من الإيرادات التي تبلغ 4999 / -. هل ترى المشكلة؟ يمكنك القيام بذلك تقنيًا ، لكن النموذج الناتج لن يكون جيدًا وقويًا لأنك تطلب منه معرفة الاختلافات من العملاء المماثلين.
عادة ما يكون من الممارسات الجيدة تضمين منطقة عازلة / لا توجد بها فئة. لذلك يمكنك تحديد عائد 6000 / - أو أكثر على أنه مرتفع و 4000 / - أو أقل من منخفض ، وتجاهل الملاحظات ذات الإيرادات بين 4000 / - و 6000 / -. بينما تفقد بعض البيانات ، سيقوم النموذج بعمل أفضل بكثير لأن ما تحدده ليكون مختلفًا حقًا.
في حين أن الكثير من التركيز يكون مستحقًا على إعداد البيانات ، وإنشاء الميزات ، وطريقة التعلم الآلي ، فإن تحديد الهدف الصحيح يمكن أن يكون مفيدًا أيضًا لجودة النتيجة التحليلية الإجمالية.