「Stock & Steps」は、IT・システム設計、日々の気づきを記録する個人ブログです。
短期的な正解よりも、判断に至るプロセスや制約条件に目を向け、思考の積み重ねを「一歩ずつ」残していきます。

~”Stock & Steps” is a personal blog that records IT and system design, and daily insights. Rather than short-term correct answers, I focus on the process and constraints that lead to decisions, and record the accumulation of my thoughts “step by step.”~

最新記事 ~Recent posts~


遠隔地システムでは、多くの重要な処理が夜間バッチとして実行されます。 日中はオンライン業務が中心となる一方で、夜間はデータ集計、バックアップ、レプリケーションなど、大量の内部処理が集中的に実行される時間帯となります。 一見すると、夜間はユーザトラフィックが少ないため、障害復旧やメンテナンスに適した時間帯のように思われます。 (more…)
システム障害は、単一リソースの限界によって発生するとは限りません。むしろ多くの場合、CPU・メモリ・ストレージ・ネットワークといった複数のリソースが同時に逼迫することで、連鎖的に性能劣化が進行します。 3-2ではピークワークロードを特定しましたが、本章では一歩踏み込み、**「同時ピークをどう評価するか」**という設計視点を整理します。 (more…)
ITインフラ運用において、システムの安定性が最も問われるのは「平常時」ではなく、処理負荷が集中するピーク処理期間です。 平均的な負荷状況だけを基準に設計・評価されたシステムは、トラフィック集中、バックアップやバッチ処理の重複、冗長構成の切り替え発生時などに想定外の性能劣化や障害を引き起こすリスクを抱えています。 そのため、ピーク処理期間を明確にし、その状態を前提とした負荷評価が行われていることは、安定したITインフラ運用における重要な確認ポイントとなります。 (more…)
遠隔拠点や無人環境では、サービス停止時に即座の人的対応が期待できない。そのため、多くのシステムでは自動再起動が設定される。しかし、再起動ポリシーの設計を誤ると、無限再起動ループやリソース枯渇といった二次障害を引き起こし、かえって復旧を困難にする。 本節では、無人運用を前提としたサービス再起動ポリシーの考え方と、再起動回数・監視・アラート設計まで含めた実践的な設計指針を整理する。 (more…)
遠隔地や夜間の IT インフラ運用では、障害発生時に必ず人間が即座に対応できるわけではありません。 この前提に立つと、アラート設計で重要になるのは「すぐ人が見ること」ではなく、人が介入しなくてもシステムが一定レベルまで自律的に動き続けられることです。 本章では、自動アラートを前提とした運用設計について整理します。 (more…)
本節では、遠隔地・無人運用を前提としたインフラ環境において、夜間にシステム障害が発生した場合の「人とシステムの行動」をあらかじめ定義しておく重要性について整理します。 1-5 では「夜間に許容するサービス状態」を扱いましたが、本項ではそれとは異なり、その状態に達した際に誰が・いつ・何を行うのかという運用行動そのものに焦点を当てます。 (more…)
Overview(概要) This section is intended for engineers designing or operating remotely managed NFVI / VNF environments. 本章は、NFVI / VNF をリモート運用する設計者・運用者を主な読者としています。 In remote operation environments, not all failure scenarios can be resolved through automation. リモート運用環境では、すべての障害を自動復旧で解決できるとは限りません。 (more…)
MENU
PAGE TOP