الإفطار مع مليار بريد إلكتروني

نشرت: 2020-02-05

كل ما نطلبه هو يوم الجمعة الأسود السلس

بحلول الوقت الذي تناولت فيه وجبة الإفطار في حوالي الساعة 8 صباحًا بتوقيت المحيط الهادي (PST) كل يوم خلال عطلة نهاية أسبوع الجمعة السوداء ، كان Twilio SendGrid قد عالج بالفعل أكثر من مليار بريد إلكتروني كما هو محسوب في التوقيت الشرقي للولايات المتحدة (EST).

بالنظر إلى الإحصائيات ، قمنا بمعالجة ما يزيد عن 16.5 مليار رسالة بريد إلكتروني من عيد الشكر إلى سايبر الاثنين ، وما يزيد عن 22.3 مليارًا للأسبوع الذي يبدأ يوم الثلاثاء قبل عيد الشكر. هذه أرقام جيدة حقًا للعمل. من منظور مؤسسة هندسية ، كان القيام بذلك دون إطلاق أي تنبيهات أو أي تجربة عملاء متدهورة مرضيًا بشكل لا يصدق.

أوصي بقراءة مقال المدونة هذا ، تحجيم البنية التحتية لدينا لأكثر من 4 مليار بريد إلكتروني في يوم واحد ، كتبته زميلتي سارة سعيدينيا ، والتي تتحدث عن أهمية العمل بسلاسة على هذا النطاق لأعمالنا وللشركات التي تعتمد علينا. هنا ، سأركز على استعداداتنا التي جعلت عطلة نهاية الأسبوع الأكثر أهمية في العام لعملائنا عبر البريد الإلكتروني هي الأكثر سلاسة حتى الآن.

كيف جعلنا هذه عطلة نهاية أسبوع الجمعة السوداء السلس؟ تتطلب معالجة أكبر أيام الإرسال لدينا تخطيطًا دؤوبًا ، والعديد من اختبارات التأرجح في المنطقة ، وعشرات الأشخاص الذين يقومون بتحليل البيانات ، وتشديد حلقات الملاحظات أثناء قيامنا بالتحقق من صحة التحسينات على أنظمتنا بناءً على ملاحظات القياس عن بُعد. لا يزال لدينا المزيد من الأتمتة والتحسينات التي سنجريها لضمان استمرارنا في إسعاد عملائنا والتأكد من إرسال الاتصالات الصحيحة إلى المستلمين المناسبين على وجه السرعة.

فهم أعمالنا

يتطلب نموذج الأعمال الخاص بـ SendGrid أن نكون مستعدين دائمًا - ليس لدينا نوافذ صيانة لقبول البريد وتسليمه. يحتاج عملاؤنا إلى خدمة موثوقة تقبل البريد وتسلمه دون انقطاع. هذا يعني أن جميع تغييرات البنية التحتية ، والأجهزة ، وكذلك البرامج ، يجب إجراؤها أثناء استمرارنا في معالجة رسائل البريد الإلكتروني وتسليمها دون أي تأخير ملحوظ.

زاد عدد رسائل البريد الإلكتروني التي نعالجها بشكل كبير خلال السنوات القليلة الماضية كما يوضح الرسم البياني التالي.

كان لدينا أول يوم 1B في منتصف عام 2016 ، وكان لدينا أول يوم 4B في يوم الجمعة الأسود. هذا هو 400٪ نمو في أقل من 4 سنوات. لمراعاة حجمنا المتزايد باستمرار ، ولإبقاء تكاليفنا قابلة للإدارة ، ولتوفير قدر أكبر من الموثوقية لعملائنا ، كان علينا إعادة تصميم وتطوير خط أنابيب معالجة البريد الخاص بنا.

الجمعة السوداء قادم

يسألني الناس ، "ما سبب أهمية الجمعة السوداء وإثنين الإنترنت بالنسبة لك؟" في إثنين الإنترنت هذا ، عالجنا رسائل البريد الإلكتروني بنسبة 45٪ أكثر من ذروة العام السابق. الجمعة السوداء هي واحدة من أهم أحداث البيع بالتجزئة والإنفاق في الولايات المتحدة. تقليديا ، هو اليوم الذي سيكون فيه تجار التجزئة في المنطقة السوداء (صافي إيجابي) لهذا العام. أصبح التسويق عبر البريد الإلكتروني واستخدام رسائل البريد الإلكتروني الخاصة بالمعاملات أمرًا بالغ الأهمية لجميع الشركات.

من تجار التجزئة إلى الشركات التي توفر أتمتة التسويق ، يمكن أن تؤدي مواجهة مشاكل تسليم رسائل البريد الإلكتروني بشكل موثوق في عطلة نهاية الأسبوع في الجمعة السوداء إلى خسارة كبيرة في الإيرادات. نتيجة لذلك ، غالبًا ما تكون عطلة نهاية الأسبوع هذه بمثابة عمل يحدد نهاية الأسبوع بالنسبة لنا. نحن نبذل قصارى جهدنا لجعل الأمر سهلاً قدر الإمكان لمهندسينا ووكلاء الدعم ومديري نجاح العملاء والمديرين التنفيذيين ، والأهم من ذلك ، لعملائنا.

التحضير ليوم الجمعة الأسود

إذن كيف نستعد ليوم الجمعة الأسود؟ نشتري القمصان! (وقم بالكثير من العمل). تابع القراءة لمعرفة كيفية الاستعداد.

أعضاء مكتب Twilio SendGrid Irvine

بعض أعضاء مكتب Twilio SendGrid Denver.

احصائيات

لنبدأ ببعض الإحصائيات:

  • تمت معالجة 4.1 مليار + من رسائل البريد الإلكتروني في يوم الجمعة الأسود و 4.2 مليار + رسائل البريد الإلكتروني في Cyber ​​Monday
  • تمت معالجة 16.5 مليار رسالة بريد إلكتروني + من عيد الشكر إلى يوم الإثنين الإلكتروني
  • تمت معالجة أكثر من 315 مليون بريد إلكتروني خلال ساعة الذروة
  • الجمعة السوداء وإثنين الإنترنت ، كان لكل منهما 8 ساعات متتالية لمعالجة 220 مليون بريد إلكتروني أو أكثر
  • كل هذا بنهاية متوسطة لوقت نهاية رسائل البريد الإلكتروني القابلة للتسليم عند 1.9 ثانية
  • في المتوسط ​​، نصدر 5.5 حدث تقريبًا لكل رسالة. بناءً على ذلك ، قامت أنظمتنا بإصدار ومعالجة أحداث 91B + من عيد الشكر إلى Cyber ​​Monday ، 23B + في Cyber ​​Monday وحده

التحديات

مقياس لم يسبق له مثيل : يجب أن يتطابق المقياس الذي نستهدفه للاختبار مع ذروة الحمل المتوقع. عندما أجرينا اختبارنا الأول لتحضير العام الماضي في أوائل أبريل ، كان متوسط ​​حجم أيام الأسبوع أقل من نصف توقعاتنا القصوى. لم تكن قممنا بالساعة حتى نصف ما كنا سنختبر من أجله.

إدارة بيئاتنا : البريد الإلكتروني هو سير عمل مفصل بالحالة: فهو ضروري لتتبع حالة الرسالة. لذلك عندما تنتقل الرسالة عبر خط الأنابيب ، نتتبع ما إذا كانت ترتد أو يتم تأجيلها ، ونمنع الازدواجية. على هذا النحو ، فإن خط أنابيب البريد لدينا عبارة عن سحابة مختلطة وبنية داخلية ، ولا يعد القياس التلقائي حلاً سحريًا. يتمثل التحدي الذي نواجهه في زيادة كفاءة خدمات مركز البيانات لدينا إلى أقصى حد مع إعداد القدرة على التعامل مع ارتفاعات كبيرة في الحجم دون التأثير على التكلفة التي يتحملها العملاء.

التحجيم ليس خطيًا : ليس كل الأنظمة مقياسًا خطيًا. نظرًا لأن مقياسنا المتوقع أعلى بكثير مما كان عليه عندما بدأنا الاختبار لأول مرة ، فلا يمكننا حساب احتياجات أجهزتنا فقط من خلال نموذج رياضي بسيط. من المهم أيضًا أن تتذكر أن توسيع نطاق الخدمات بشكل أعمى سيؤدي إلى زيادة التحميل على التبعيات ، وأن التبعيات مثل قاعدة البيانات لا تتوسع بنفس طريقة وكيل نقل البريد (MTA).

موازنة استثماراتنا : بينما نواصل الابتكار ، ونضمن أننا ندعم احتياجات العملاء المتعلقة بتسليم بريدهم الإلكتروني ، فإننا نتفهم أن ميزاتنا لا توفر لعملائنا أي قيمة إذا لم يكن الوصول إليها متاحًا وتعمل حسب الحاجة. علينا إيجاد التوازن والاستثمار بشكل مناسب في اختبار أنظمتنا وتعلمها وترقيتها وتحسينها حتى تكون موثوقة ومرنة على نطاقنا. يسمح لنا القيام بذلك بكفاءة بمواصلة الاستثمار في الابتكار.

كيف فعلنا ذلك؟

لقد فعلناها معًا كفريق واحد. ذراع في ذراع ، كما نقول. تضمنت استعداداتنا هذا العام ، من أبريل حتى نوفمبر ، مشاركة أكثر من 100 عضو عبر العديد من الفرق. تتطلب نمذجة تنبؤات الذروة ، وتحديد معايير الملاحظة ، والتعلم من ملاحظاتنا ، وهندسة التغييرات اللازمة ، والتخطيط ، والإدارة مهارات مختلفة من عدة أشخاص.

لقد وثقنا ببعضنا البعض مع الحفاظ على الصدق والتركيز وتحقيق أهدافنا.

كان صديقنا عملية فعالة ومتطورة باستمرار.

تخطيط

لدينا ثلاثة مراكز بيانات لمعالجة رسائل البريد الإلكتروني للعملاء. من أجل التخطيط لمقياس لم يتم الوصول إليه ، نتحقق من أنه يمكننا التعامل مع حركة المرور القصوى المتوقعة لدينا مع وجود مركزي بيانات فقط. من أجل تلبية مستوى التوافر العالي لاتفاقية مستوى الخدمة (SLA) ، فإن بنيتنا التحتية تحتوي على تجاوز فشل في المنطقة. هذا يعني أن لدينا القدرة على تجاوز الفشل بين المناطق.

نحن نستفيد من هذه القدرة بإيقاع متكرر على مدار العام كإجراء تشغيل قياسي وتسريعها كجزء من جهودنا لإثبات قدرتنا على تقديم أحجام ذروة الجمعة السوداء / يوم الاثنين الإلكتروني مع الحفاظ على جودة الخدمة. إذا اقترب نظام القياس عن بعد من عتبة هدف مستوى الخدمة (SLO) ، فإننا قادرون على الاستفادة بسرعة من مناطق متعددة لاستئناف الحالة الاسمية. ثم نستفيد من القياس عن بعد الذي تم جمعه لتحديد المكان الذي نحتاج فيه لإجراء التغييرات.

في جهد موازٍ ، بدأنا في مراجعة وترسيخ أهداف مستوى الخدمة (SLO) التي توفر لنا هدفًا رقميًا دقيقًا لتوافر النظام ومؤشرات مستوى الخدمة (SLIs) الخاصة بنا ، والتي توفر لنا تكرار التحقيقات الناجحة لأنظمتنا.

الملاحظات والتعلم والتواصل

قدم كل اختبار كمية كبيرة من المعلومات. كان أحد التحديات التي واجهناها هو توثيق الملاحظات وإيصالها بشكل فعال عبر فرق الاختبار الدورية ، ثم تحليل البيانات عبر أنظمة متعددة. على الرغم من أن لدينا لوحات معلومات قياسية للفريق ، يمكن لكل عضو أن يكون لديه شيء محدد يلاحظه.

بدأنا في عمل رجعي مع فرق الاختبار لتحليل جميع المعلومات الفنية الملقاة لخدمات متعددة تديرها فرق متعددة. كانت هذه الاسترجاع طويلة ، وفي معظم الأوقات ، كانت مفيدة فقط لفريق واحد أو فريقين في كل اختبار. انتقلنا أخيرًا إلى استخدام Slack Thread للملاحظات القديمة لتوفير 10 ثوانٍ من وقت الاجتماع لكل اختبار.

يضم فريق إدارة الاختبار لدينا مديرين هندسيين ، ومهندس معماري ، ومهندس كبير. كان للمديرين دور محوري في التخطيط وإدارة التبعية ، بينما ساعد الأشخاص الأكثر تقنيًا في معالجة المعلومات وتحليلها على مستوى النظام من البداية إلى النهاية.

بناءً على تحليل المعلومات المتاحة ، تحققنا بشكل متكرر من أن SLIs الخاصة بنا كانت متوافقة تمامًا مع SLO الخاصة بنا. لقد قمنا بضبط تنبيهاتنا وجعلنا بعض التنبيهات المهمة أكثر حساسية من أجل تحديد أي تدهور محتمل للنظام مسبقًا.

تحديد الأولويات والتنفيذ

لقد وضعنا تذاكر التغييرات المقترحة وأعطت الفرق الأولوية لهذه التذاكر. كان التحدي الأول هنا هو إدارة هذه التذاكر عبر مجالس إدارة متعددة للفرق. كان التحدي الآخر هو إعطاء الأولوية لعمل الجمعة السوداء بلا رحمة مقابل الأولويات الأخرى.

كنا بحاجة إلى تزويد مهندسينا بحرية الإبداع للتوصل إلى حلول للمشكلات الصعبة. في الوقت نفسه ، كان علينا التأكد من أن هذه الحلول تتماشى مع خططنا طويلة المدى. كان من الأهمية بمكان أيضًا أننا كنا دائمًا على دراية بأي تضارب في المصالح ، مما يعني تجنب أي حلول قصيرة المدى قد تعود لتؤثر علينا.

سيكون التحقق من صحة التغييرات التي تم تنفيذها هدفنا للاختبارات القادمة.

كان الحفاظ على الإيقاع وزيادته مع اقترابنا من يوم الجمعة الأسود تحديًا كبيرًا في التخطيط والتنفيذ.

التسارع

مع دخولنا شهر سبتمبر ، بدأنا في إجراء عدة اختبارات تحمّل كل أسبوع. يتطلب ذلك منا تحديد المشكلات وإصلاحها والتحقق من صحتها بشكل أسرع. كما وفرت لنا دورة تعلم وتكيف أسرع بكثير.

بالإضافة إلى اختبار التأرجح الكامل لخط أنابيب البريد كما هو موضح سابقًا ، بدأنا أيضًا في اختبار الضغط على خدمات الدعم الخاصة بنا خلال نفس الوقت. خلال نفس الفترة ، بدأنا في إجراء اختبارات الحمل مع أحد أكبر عملائنا للتأكد من أن جيوبوداتنا القادمة ستتعامل مع عمليات الإرسال المفاجئة المتوقعة خلال موسم العطلات دون أي مخاوف.

بسبب ساعات العمل الطويلة والتحدي المتمثل في إدارة العمل ، كانت فرقنا منهكة. قمنا بإدراج أهم التنبيهات المطلوبة لإيقاف اختبارنا إذا لزم الأمر ، وجعلناها أكثر حساسية. سمح لنا هذا بالبدء في إجراء اختباراتنا دون مطالبتنا بالحضور لمراقبة أنظمتنا في الصباح الباكر.

السرعة بحذر

مع اقترابنا من نهاية سبتمبر ، كان هناك قلق من أننا قد لا نتحرك بالسرعة الكافية في الاتجاه الصحيح. أنشأنا فريق tiger ، وهو فريق من المتخصصين الذين يمكنهم العمل على أي من التذاكر عبر فرق متعددة ، وفريق عمل بعملية أصغر كثيرًا على المستوى اليومي.

لقد أجرينا تحسينات كبيرة على البنية التحتية التشغيلية لدينا بالإضافة إلى برنامج معالجة البريد الخاص بنا استعدادًا ليوم الجمعة الأسود. تم تحديد أولويات هذه التغييرات بشكل صريح ، وكان على الفرق العمل بتنسيق كبير مع بعضها البعض. لقد كانت تجربة رائعة للأشخاص الذين وضعوا SendGrid أولاً. كنا نجري تغييرات على التطبيقات والبنية التحتية وزيادة سعة أجهزتنا أثناء تشغيل المحرك الأساسي لوحدة أعمال لشركة عامة كل ذلك بوتيرة بدء التشغيل. أفضل ما في الأمر أننا فعلنا كل ذلك دون أي تجربة خدمة متدهورة لعملائنا.

خطط مستقبلية

لقد أمضينا الكثير من ساعات العمل البشرية في التحضير ليوم الجمعة الأسود 2019. وستساعدنا الدروس المستفادة من هذا العام في أتمتة الكثير من استعداداتنا ليوم الجمعة الأسود وإثنين الإنترنت في عام 2020. ونتطلع إلى عام ناجح آخر خالٍ من الإجهاد والتسجيل. - كميات هائلة من رسائل الإجازات لعملائنا وموظفينا.