البودكاست: العب في نافذة جديدة | تحميل (المدة: 39:55 — 36.5 ميجابايت)
الاشتراك: أبل بودكاست | سبوتيفي
الجنرال بريجهام CTO نالان (سري) سريرامان يتجول في المخاطر السحابية التي تحيي محادثة شفافية SaaS، والأنظمة الصحية تصمت. شاهد أدناه أو على يوتيوب.
نالان (سري) سريرامان، CTO، الجنرال بريجهام
بعد سلسلة من انقطاعات السحابة العامة في الخريف الماضي، قداس الجنرال بريجهام توصل CTO Nallan (Sri) Sriraman إلى نتيجة غير مريحة. إن المرونة المتعددة المناطق التي اعتقدت أنظمة الرعاية الصحية أنها تدفع ثمنها كانت في بعض الحالات مجرد وهم. على وجه الخصوص، كانت المناطق السحابية التي تم تصميمها لتفشل بشكل مستقل تعمل بمستويات تحكم مشتركة. وفي الوقت نفسه، لم يُطلب من موردي SaaS المستضافين على هذه السحابة الكشف عن مكان وجود أعباء العمل الخاصة بهم فعليًا.
ردًا على ذلك، نشر رسالة مفتوحة إلى موفري SaaS يدعو فيها إلى مزيد من الشفافية. وكان المنطق بسيطا. عندما يتعثر أحد وحدات التدرج الفائق، تحتاج أنظمة الرعاية الصحية إلى معرفة ما إذا كانت برامجها الهامة قد تم كشفها أم لا.
الانضباط الذي نسي
ويعتقد أن هذه الفجوة يمكن إرجاعها إلى تحول دام 15 عامًا في طريقة شراء برامج الرعاية الصحية. عندما كانت التطبيقات تعمل محليًا، كانت فرق تكنولوجيا المعلومات تطرح بشكل روتيني أسئلة تفصيلية حول المرونة أثناء عملية الشراء. ومع انتقال أعباء العمل إلى السحابة، أصبح الافتراض بأن الاستقلال الإقليمي متأصلًا. وفي الممارسة العملية، تضاءل هذا الافتراض.
وقال سريرامان: “لقد لاحظنا أيضًا أن بعض المتوسعين السحابيين يديرون مستوى التحكم بشكل مشترك”. “وبالتالي، إذا تعطلت منطقة واحدة، تعطلت المنطقة الأخرى. وهذه الخدمات متصلة ببعضها البعض.”
ووفقا له، فإن الربط البيني هو عيب غير مقصود في التصميم وسيقوم الموردون بإصلاحه بمجرد ظهوره. والأهم من ذلك، أن القضية مؤسسية. لأكثر من عقد من الزمان، أغلق العملاء والموردين إلى حد كبير الحديث عن المرونة. ولا تصبح تكاليف هذا الانجراف مرئية إلا عندما يحدث خطأ ما.
31 أكتوبر وخريطة الضعف
وفي 31 أكتوبر 2024، أصبح نصف قطر الانفجار شخصيًا. كان ذلك اليوم هو الموعد النهائي للتسجيل في مزايا الموظفين في النظام الطبي الأكاديمي الذي تبلغ قيمته 23 مليار دولار. أصبح موقع الفوائد مظلمًا. في النهاية، قام الجنرال بريجهام بتتبع انقطاع التيار الكهربائي إلى شريك SaaS المستضاف على وحدة التوسيع المتأثرة. بحلول ذلك الوقت، كان الموظفون يشكون لساعات.
الدرس كان مباشرا إنشاء خريطة الضعف. قم بإعداد استبيان وأرسله إلى كل شريك SaaS رئيسي. اسأل عن أداة Hyperscaler التي يقومون بتشغيلها، وأي منطقة، وكيف يبدو تسلسل تجاوز الفشل. اسأل أيضًا من الذي يقوم بتشغيل تجاوز الفشل والمدة التي يستغرقها ذلك. بالنسبة للعقود الحالية، يسعد معظم الشركاء بالمشاركة بمجرد الطلب. وفي الوقت نفسه، توفر نافذة العطاءات للعقود الجديدة نفوذاً طبيعياً.
في تجربته، يسعد الشركاء بالمشاركة عندما يطلب منهم ذلك. لقد ظلت الأحاديث حول القدرة على الصمود في سبات عميق لأكثر من عقد من الزمان. في الواقع، إعادة تشغيلها يتطلب المزيد من الانضباط من النفوذ.
المستوى 0 وبطاقة الاسترداد
وفي الوقت نفسه، يجري الجنرال بريجهام تمرينًا داخليًا حول أهمية التطبيق. وعلى وجه التحديد، يصنف النظام التطبيقات إلى ست طبقات. يتضمن المستوى 0 البنية التحتية الأساسية مثل اتصال WAN والوصول اللاسلكي وDNS. يجب تأكيد كل هذا قبل بدء استرداد التطبيق. بالإضافة إلى ذلك، يتضمن المستوى الأول السجل الصحي الإلكتروني، والعمل المخبري، وبنك الدم، وغيرها من الأنظمة الأساسية سريريًا. تتناقص المستويات المتبقية حسب الأولوية.
أدى انقطاع CrowdStrike إلى تشديد الإطار. عندما يتعطل كل نظام مرة واحدة، تحتاج فرق تكنولوجيا المعلومات إلى تسلسل محدد مسبقًا للمتابعة. ونتيجة لذلك، يقوم سريرامان بتدوير السجلات الصحية الإلكترونية الخاصة بالإنتاج بين مركزي بيانات كل ستة أشهر. تظل كلتا البيئتين في حالة عمل معروفة. بالإضافة إلى ذلك، يتم تنفيذ تمارين الطاولة بإيقاع منتظم. على وجه الخصوص، يعود تصنيف الخطورة إلى فريق الاستعداد للطوارئ، والذي يتخذ القرار بناءً على الحقائق المقدمة من فرق التكنولوجيا.
وفي نهاية المطاف، تعتبر العلاقة التشغيلية مركزية. يتضمن التصنيف الأطباء وأصحاب الأعمال الذين يقررون أي 200 طلب من بين 2000 طلب يجب تقديمها أولاً. ثم يقوم قسم تكنولوجيا المعلومات ببناء عملية الاسترداد حول هذه الأولويات.
خذها بعيدا
- بناء خريطة الضعف SaaS. قم بتوثيق أداة التوسعة الفائقة والمنطقة التي يعمل عليها كل شريك رئيسي، بالإضافة إلى نطاق تجاوز الفشل ونقاط التشغيل.
- أعد فتح محادثة المرونة. سيقوم البائعون بمشاركة المعلومات بمجرد طلبها؛ الانضباط هو ما ضاع.
- التحقق من استقلال المنطقة. تتم مشاركة مستويات البحث أو التحكم بين المناطق، حيث تربطها بعض تصميمات المقياس الفائق معًا.
- إعطاء كل تطبيق مستوى. يوفر التصنيف المكون من ستة مستويات، بما في ذلك المستوى 0 للبنية التحتية، منطق الفرز في حالة فشل كل شيء آخر.
- تصاميم مراكز البيانات البديلة. ومن خلال تبديل الإنتاج بشكل دوري بين المواقع، يصبح كلاهما جاهزًا لتجاوز الفشل الفعلي.
- دع العمليات تصنف الخطورة. يجب على الفرق التي تستعد لحالات الطوارئ أن تقوم باختيارات كبيرة ومتوسطة وصغيرة بناءً على الحقائق التي تقدمها تكنولوجيا المعلومات.
ويعود تشخيصه إلى عادة مفقودة ميزت عمليات تكنولوجيا المعلومات لعقود من الزمن. قال سريرامان: “لقد نسينا أن نطرح الأسئلة”.













