「Stock & Steps」は、収益活動、IT・システム設計、日々の気づきを記録する個人ブログです。
短期的な正解よりも、判断に至るプロセスや制約条件に目を向け、思考の積み重ねを「一歩ずつ」残していきます。

~”Stock & Steps” is a personal blog that records stock investment, IT and system design, and daily insights. Rather than short-term correct answers, I focus on the process and constraints that lead to decisions, and record the accumulation of my thoughts “step by step.”~

最新記事 ~Recent posts~


IT (IT関連)
夜間や無人時間帯に発生する障害に対して、すべてを即時に人手で調査・復旧する運用は現実的ではない。重要なのは、事前に「既知事象」を整理し、夜間は情報収集と状態確認に留めることで、不要な介入を減らすことである。 (more…)
IT (IT関連)
遠隔拠点や無人環境では、サービス停止時に即座の人的対応が期待できない。そのため、多くのシステムでは自動再起動が設定される。しかし、再起動ポリシーの設計を誤ると、無限再起動ループやリソース枯渇といった二次障害を引き起こし、かえって復旧を困難にする。 本節では、無人運用を前提としたサービス再起動ポリシーの考え方と、再起動回数・監視・アラート設計まで含めた実践的な設計指針を整理する。 (more…)
IT (IT関連)
遠隔地や夜間の IT インフラ運用では、障害発生時に必ず人間が即座に対応できるわけではありません。 この前提に立つと、アラート設計で重要になるのは「すぐ人が見ること」ではなく、人が介入しなくてもシステムが一定レベルまで自律的に動き続けられることです。 本章では、自動アラートを前提とした運用設計について整理します。 (more…)
IT (IT関連)
本節では、遠隔地・無人運用を前提としたインフラ環境において、夜間にシステム障害が発生した場合の「人とシステムの行動」をあらかじめ定義しておく重要性について整理します。 1-5 では「夜間に許容するサービス状態」を扱いましたが、本項ではそれとは異なり、その状態に達した際に誰が・いつ・何を行うのかという運用行動そのものに焦点を当てます。 (more…)
MENU
PAGE TOP