Youtube大規模障害サーバ管理者の視点から（少しマトモな）分析を試みる

本日 2018/10/17（水）。Youtubeで大規模障害が発生。

世の中では例えば「Twitterで #YouTubeDOWN タグが話題になった」とか「エラー画面に登場したサル画像のセンスがいい」とかホントどうでもいい情報しかニュースになっていない。

f:id:min117:20181017224636p:plain f:id:min117:20181017224712p:plain

しかし「Youtubeが落ちた」というこの事実はもっと重大に捉えていいと思う。

現在YouTubeは毎日1ペタバイトの新規ストレージが必要なほど大量のデータがアップロードされるほどのサービスになっている。

japan.zdnet.com

f:id:min117:20181017225615p:plain

これが今まで一度も障害に陥ることなく動いていたこと自体がまず凄い。相当な冗長化が施されていたのだろう。それは、ディスクの冗長化ももちろんだが、ネットワークの冗長性が（相当に練られた）凄まじいものだったからだろうと想像できる。

それが今回落ちた。全世界からの動画リクエストを捌いてきた巨大サービスが、落ちた。これは本当に記録すべき日だし、記録されるべき出来事だと思う。

自分も（規模は小さいながらも）サーバを管理する身だし、せめて「発生した現象は具体的に何だったのか」「原因は何だったのか」くらいは想像してみたい。

＜発生した現象と原因の想定＞

　① HTTPエラーコードは 500（Internal Server Error）だった

　② 世界同時に起きた

　③ 障害中は（サルの）画像が出た（出せた）

　④ 1時間後に復旧した

　⑤ 社会への影響（お祭り騒ぎ）

順番に見ていく。

① HTTPエラーコードは 500（Internal Server Error）だった

　まずこれが目に付く。

f:id:min117:20181017232835p:plain

500は「サーバ内部エラー」だ。

404エラーではないから「コンテンツが存在しない」というわけではない。

　→「動画が削除された」とか「コンテンツが消えてしまった」とかではない。

504エラーではないから「ゲートウェイのエラー」というわけではない。

　→「ネットワーク障害」や「ルータ・スイッチの障害」というわけでもない。

f:id:min117:20181017233044p:plain

そして、505エラーの原因は概ねこのへんだろう。

ganbarustars.info

f:id:min117:20181017233817p:plain

f:id:min117:20181017233850p:plain

Googleほどの大企業が設定ミス（ディレクトリのパーミッションや改行コード）をやらかすとは考えにくい（起きてもチェックする仕組みがある）と思われるから、原因はアクセスが集中しすぎていたことではなかろうか？

しかしYouTubeほどのシステムだし、アクセスが大量なのは日常なハズで。それでも耐えられない大きな負荷がかかったとすれば

　・外部から攻撃があった

　・外部から攻撃等は無かったが機器交換等でキャパが低くなっていた

等が考えられると思う。

② 世界同時に起きた

　これも気になる。

f:id:min117:20181017232905p:plain

f:id:min117:20181017232759p:plain

「Youtubeは世界サービスなんだから全世界で止まるのは当たり前じゃん」とも思いそうだが、それならオーストラリア大陸では一切起きていないのが不思議だ。

繰り返しになるが、今回のエラーコードは「500」つまりサーバ内部の問題であってネットワークの問題では無い。とすれば全ユーザーで起きるのが当然なわけで、局所的に「発生しない」状態があるのがとても不思議。YouTubeはコンテンツサーバを世界に分散させている（？）からなのか。Googleの技術についてはまた調べてみる。

③ 障害中は（サルの）画像が出た（出せた）

　エラー中はサルの画像が出ていたらしい。

f:id:min117:20181017233028p:plain f:id:min117:20181017233032p:plain