
こんにちは、ギフティでエンジニアをしているkiyomiです。この記事はギフティ Advent Calendar 2025 10日目の記事です。
この記事では、私がチーム内で感じていた障害対応における課題に対し、SRE関連のカンファレンスや書籍『システム障害対応の教科書』から得た知見を取り入れながら実施した、運用プロセスの改善事例をご紹介します。
チームが抱えていた課題
以前から、チームの障害対応プロセスに対して課題感を持っていました。 障害となりうる事象を知らせてくれるアラート発生時の初動対応において、自信を持って対応できるメンバーが限られており、私自身も自信を持てずにいました。自分の中で整理したところ、その要因は以下の2点にあると考えました。
障害対応の手順書の信頼性が低下していること
チーム独自の手順書は存在していましたが、最終更新から長い期間が経過しており、記載内容が現在のシステム構成や運用フローに適応しているか不明確な状態でした。全社標準の障害対応フローも整備されてはいます。しかし、それらは汎用的な内容に留まるため、チーム固有の事案に対応するには、やはり独自の手順書が必要です。その手順書の信頼性が低いため、いざ障害が発生した際に、この通りに進めてよいかという疑念が生じ、自信を持って対応にあたることができない状況でした。
障害対応の習得が属人的になっていること
障害対応に関するオンボーディングが十分に整備されていませんでした。これまでは、テックリードや他メンバーの対応を見て学ぶというOJT的な習得方法に依存しており、必要な知識や情報が十分に得られていませんでした。障害時は復旧の速さが求められる一方で、誤った操作による二次災害を防ぐための正確性が何よりも重要です。しかし、正確な情報源が不足している現状では、特に新しくチームに参画したメンバーにとって適切な判断をしづらい状況にありました。
解決へのアプローチ
こうした課題に対し現状の運用から脱却し、プロセスを再構築する必要があると考えました。
そこで、SRE NEXTなどのカンファレンスで得た知見や、体系的なノウハウがまとまっている『システム障害対応の教科書』を参考文献として、現在のチームに必要な要件を整理しました。改善にあたっては、以下の2つの観点を重要な指針として設定しました。
障害対応の手順が誰でもわかる状態になっていること
運用の中で属人性が排除されていることは重要です。しかしこれまでは、最新の正しい手順が手順書ではなく、特定のメンバーの「暗黙知」として留まっている部分がありました。一刻を争う障害発生時に、属人性が存在すると対応の遅れや判断ミスの原因となります。そこで、個人の知識を、手順書という共有知へ再度移すことを要件としました。そして、経験の浅いメンバーであっても手順書通りに動けば対応できる状態を目指しました。
手順書が常に最新の状態になっていること
手順書とシステム実態の乖離は、手順書に対する信頼を損なう原因となります。手順書が正しくないのではないかという疑念が生まれると、その後参照されなくなるリスクが高まります。以上のことから現状の運用と手順書の内容に乖離がない状態を保つことが、チームが安心して手順書を参照できる運用体制を作るために必要であると位置づけました。
この指針に基づき、チーム内でルールの見直しと手順書の刷新を実施しました。
運用の見直し会の実施
チーム全体で運用を再確認する会を開き、主に以下の2点を実施しました。
障害定義の明確化
何をもって障害とみなすか、その定義を再確認しました。これまでは、通知されるアラートごとの重要度や緊急性の違いを、自身の中で明確に判別できていませんでした。そのため、全ての通知に対して過剰に身構えてしまう状態でした。そこで、即時対応が必要な『致命的エラー』の定義について改めてチームで認識を合わせました。具体的には、eギフトの中身が確認できなかったり、発行できないといったユーザー体験を著しく損なう事象が該当することを再確認しました。この整理により、サービスとして守るべきラインが明確化されました。結果として、個人の感覚による迷いがなくなり、チーム全体が障害発生時に対応しやすい体制が整いました。
手順書の刷新
既存の手順書は最終更新から長い期間が経過していたため、現行の運用に耐えうる内容かどうかの確認を行いました。その上で、形骸化した古い手順や不要な記述を削除し、現在の構成に即した内容へ刷新しました。今回は特に復旧スピードに直結する、障害発生から復旧までの手順について重点的に見直し、それぞれの手順の記載についてチームメンバーと確認を行いました。結果として、手順書の信頼性が高まり、障害対応時の迅速なアクションを取りやすくなりました。
取り組みの結果
一連の取り組みの結果、障害対応の「初動」において、まず自分の行動に変化が生じました。以前は、アラートの際に即座に対応すべき事象かの判断がつかず、対応手順が適正かどうかも不明確な状態でした。そのため、テックリードの対応を伺い、その動きを見てから学ぶという受動的な姿勢になっていました。 障害定義の明確化と手順書の整備を経た現在では、アラートに対して迷いなく対応できるようになりました。判断におけるグレーゾーンが解消されたことで、必要なメンバーを巻き込む際にも、適切にエスカレーションを行えるようになりました。結果として、チーム全体の初動スピード向上に寄与していると考えています。
まとめ
SRE関連カンファレンスへの参加や、『システム障害対応の教科書』での学びをきっかけに、課題に感じていた属人化と手順書の形骸化に向き合うことができました。 手順書の整備に加え、明確な判断基準の確立や訓練を行う文化の定着が、堅牢な運用体制強化の第一歩であると認識しています。 一方で、Slack通知のさらなる最適化や、オンボーディング体制の改善など、解決すべき課題は残っているように思います。今後は運用フローを実践しつつ、事後の振り返りを通じて継続的なプロセス改善を図っていく方針です。
ギフティでは、こうした運用課題の解決や、信頼性の高いシステム構築に継続的に取り組んでいます。こうした取り組みに関心をお持ちいただけましたら、ぜひお話ししましょう!