Her şirketin arka arkaya Facebook kesintilerinden öğrenmesi gereken 4 ders

Hintli Terra Yatırımcıları Yeni Vergi Kanunları Kapsamında LUNA 2.0 Airdrop'tan Sonra Başka Bir Darbeye Hazırlanıyor

Sharing is caring!

Dünya çapında 3,5 milyardan fazla insanı etkileyen ve dünyanın başlıca iletişim ve iş platformlarından biri haline gelen şeyi alt üst eden Facebook ve uygulama ailesinin 4 Ekim’de beş saatten fazla ortadan kalkması , çağlar için bir teknoloji kesintisiydi.

Ardından, geçtiğimiz Cuma öğleden sonra Facebook, bazı kullanıcıların platformlarına erişemediğini bir kez daha kabul etti.

Bir dizi insan ve teknoloji hatasının başlattığı bu arka arkaya olaylar, yalnızca Facebook, Instagram, Messenger ve WhatsApp’a ne kadar bağımlı hale geldiğimizi hatırlatmakla kalmadı, aynı zamanda şu soruyu da gündeme getirdi: en yaygın kullanılan sosyal medya platformunun başına talihsizlik gelebilir, herhangi bir site veya uygulama güvenli midir?

Rahatsız edici cevap hayır. Değişen kapsam ve sürelerdeki kesintiler, geçen haftadan önce hayatın bir gerçeğiydi ve bundan sonra da olacak. Teknoloji bozulur, insanlar hata yapar, bir şeyler olur.

Her şirket için doğru soru, her zaman bir kesinti olup olmayacağı değil – elbette olabilir – ama riski, süreyi ve etkiyi azaltmak için ne yapılabileceği olmuştur ve olmaya devam etmektedir.

Özel olarak 4 Ekim’de, çeşitli tahminlere göre Facebook’a 60 ila 100 milyon dolar arasında reklam maliyetine mal olan bölümleri izledik – kesintileri yönetmeye gelince, sektördekilerin benzersiz bakış açısıyla ortaya çıktı.

Birimiz (Anurag) yedi yıldan fazla bir süredir Amazon Web Services’te başkan yardımcısıydı ve şu anda web sitesi ve uygulama performansında uzmanlaşmış bir şirketin kurucusu ve CEO’su. Diğeri (Niall) Microsoft Azure için üç yıl site güvenilirlik mühendisliğinin (SRE) küresel başkanı olarak ve ondan önce de Google’da aynı uzmanlık alanında 11 yıl geçirdi. Birlikte, teknoloji devlerinde sayısız kesinti yaşadık.

Çeşitli şekillerde, bu kesintiler, kuruluşların içine bakmaları ve Facebook benzeri bir felaketi önlemek veya hafifletmek için doğru teknik ve kültürel atmosferi yarattıklarından emin olmaları için bir uyandırma çağrısı görevi görmelidir. Atmaları gereken dört temel adım:

1. İnsan hatasını verili olarak kabul edin ve onu telafi etmeyi amaçlayın

BT fiyaskolarının ne sıklıkla bir yazım hatasıyla başladığı dikkat çekicidir.

Facebook altyapı başkan yardımcısı Santosh Janardha tarafından yapılan bir açıklamaya göre, mühendisler “küresel omurga kapasitesinin kullanılabilirliğini değerlendirmek amacıyla bir komut verildiğinde, omurga ağımızdaki tüm bağlantıları istemeden kaldıran ve etkin bir şekilde bağlantıyı kesen bir komut verildiğinde rutin ağ bakımı yapıyorlardı. Facebook veri merkezleri dünya çapında.”

Bu, Şubat 2017’de bir dizi web sitesini birkaç saat boyunca devre dışı bırakan bir Amazon Web Hizmetleri (AWS) kesintisini hatırlatıyor . Şirket, çalışanlarından birinin faturalandırma sistemiyle ilgili bir sorunu ayıkladığını ve yanlışlıkla daha fazla sunucuyu amaçlanandan daha fazla çevrimdışı duruma getirerek daha fazla sistemin kademeli olarak arızalanmasına yol açtığını söyledi. İnsan hatası , Nisan 2011’de önceki büyük bir AWS kesintisine katkıda bulundu .

Şirketler, daha çok denerlerse insanların hata yapmasını engelleyebileceklerini iddia etmemelidir. Gerçek şu ki, her gün binlerce komutu manuel olarak tuşlayan yüzlerce insanınız varsa, birinin feci bir kıvılcım yapması sadece bir zaman meselesidir. Bunun yerine, şirketlerin bir komut satırındaki görünüşte küçük bir hatanın neden bu kadar yaygın hasara yol açabileceğini araştırmaları gerekiyor.

Temeldeki yazılım, herhangi bir komutun patlama yarıçapını doğal olarak sınırlayabilmelidir – aslında, tek bir komuttan etkilenen öğelerin sayısını sınırlayan devre kesiciler. Janardha’ya göre Facebook’un böyle bir kontrolü vardı, “ancak bu denetim aracındaki bir hata, komutu düzgün bir şekilde durdurmasını engelledi.” Ders: Şirketler, bu tür yeteneklerin amaçlandığı gibi çalışıp çalışmadığını kontrol etme konusunda gayretli olmalıdır.

Buna ek olarak, kuruluşlar, çok fazla gafın meydana geldiği tekrarlayan, genellikle sıkıcı manuel süreçlerin miktarını azaltmak için otomasyon teknolojilerine bakmalıdır. Onarımların kontrolden çıkarak daha fazla soruna yol açmasını önlemek için otomasyonlar için devre kesicilere de ihtiyaç vardır. Slack’in Ocak 2021’deki kesintisi , otomasyonların nasıl kademeli arızalara neden olabileceğini gösteriyor.

2. Suçsuz otopsi yapın

Facebook’tan Mark Zuckerberg 5 Ekim’de şöyle yazdı: “Son 24 saati bu tür arızalara karşı sistemlerimizi nasıl güçlendirebileceğimize dair bilgi almak için harcadık.” Bu önemli, ancak aynı zamanda kritik bir noktayı da gündeme getiriyor: Kesinti yaşayan şirketler asla bireyleri işaret etmemeli, bunun yerine hangi sistemlerin ve süreçlerin onu engelleyebileceğinin büyük resmini düşünmelidir.

Jeff Bezos’un bir zamanlar dediği gibi, “İyi niyetler işe yaramaz. Mekanizmalar yapar.” Demek istediği, daha çok çalışmak ya da daha çok çalışmak sorunları çözmez, altta yatan sistemi düzeltmeniz gerekir. Burada da aynı. Hiç kimse sabah hata yapmak niyetiyle kalkmaz, bunlar sadece olur. Bu nedenle, şirketler hataları azaltmak için teknik ve organizasyonel araçlara odaklanmalıdır. Konuşma şöyle devam etmeli: “Bu kesinti için zaten ödeme yaptık. Bu harcamadan ne fayda sağlayabiliriz?”

3. “Ölümcül kucaklaşma”dan kaçının

Ölümcül kucaklama, bir ağdaki çok fazla sistemin karşılıklı olarak birbirine bağımlı olduğu durumlarda ortaya çıkan kilitlenmeyi tanımlar – başka bir deyişle, biri bozulduğunda diğeri de başarısız olur.

Bu, Facebook’un kesintilerinde önemli bir faktördü. Bu tek hatalı komut, Facebook’un tüm veri merkezlerini küresel olarak birbirine bağlayan omurgayı kapatan bir domino etkisi yarattı.

Ayrıca, Janardha, Facebook’un DNS sunucularıyla ilgili bir sorun – Alan Adı Sistemi’nin kısaltması olan DNS, insan tarafından okunabilen ana bilgisayar adlarını sayısal IP adreslerine çevirir – “normalde bunun gibi kesintileri araştırmak ve çözmek için kullandığımız dahili araçların çoğunu bozdu” diye yazdı. .

Burada iyi bir ders var: Bir ağdaki bağımlılıklar hakkında derin bir anlayışa sahip olun, böylece sorun başlarsa düz ayaklı yakalanmazsınız. Ayrıca, bir kesintiyi çözme çabalarının hızlı bir şekilde devam edebilmesi için fazlalıklar ve yedekler oluşturun. Düşünce, bir doğal afet ilk müdahale ekiplerinin modern iletişim sistemlerini çökerttiğinde, işlerini yapmak için amatör radyo kanalları gibi daha eski teknolojilere nasıl dönebileceklerine benzer olmalıdır.

4. Merkezi olmayan BT mimarilerini tercih edin

Facebook’un BT yaklaşımında ne kadar dikkat çekici bir şekilde yekpare olduğunu keşfetmek, birçok teknoloji endüstrisinden kişiyi şaşırtmış olabilir. Her ne sebeple olursa olsun, şirket ağını oldukça merkezi bir şekilde yönetmek istedi. Ancak bu strateji, kesintileri olması gerekenden daha kötü hale getirdi.

Örneğin, dahili sunucular erişemediğinde erişilebilen harici bir DNS sağlayıcısı aracılığıyla bulutta konuşlandırmak yerine DNS sunucularını tamamen kendi ağlarına yerleştirmeleri muhtemelen bir yanlış adımdı.

Diğer bir konu da Facebook’un “küresel bir kontrol düzlemi” kullanmasıydı – yani şirketin dünya çapındaki tüm kaynakları için tek bir yönetim noktası. Daha merkezi olmayan, bölgesel bir kontrol düzlemi ile, uygulamalar dünyanın bir yerinde, örneğin Amerika’da çevrimdışı olmuş olabilir, ancak Avrupa ve Asya’da çalışmaya devam edebilirdi. Karşılaştırıldığında, AWS ve Microsoft Azure bu tasarımı kullanıyor ve Google bir şekilde buna yöneldi.

Facebook tüm kesintilerin anasını çekmiş olabilir – ve bunda arka arkaya – ancak her iki bölüm de diğer şirketlere aynı kaderi önlemek için değerli dersler verdi. Bu dört adım harika bir başlangıç.

Anurag Gupta , bir olay otomasyon şirketi olan Shoreline.io’nun kurucusu ve CEO’sudur . Daha önce AWS’de Başkan Yardımcısı ve Oracle’da Mühendislik Başkan Yardımcısıydı.

Niall Murphy, Shoreline.io’nun danışma kurulu üyesidir. Daha önce Microsoft’ta Azure SRE’nin Küresel Başkanı ve Google İrlanda’da Reklam Sitesi Güvenilirlik Mühendisliği ekibinin başkanıydı.

Facebook
Twitter
LinkedIn
Pinterest
Tumblr
WhatsApp

Benzer Haberler

Son Haberler