タグ ‘システム障害’ の記事

モテるシステム障害対応って?

ちょっと最近、残念なシステム障害の対応現場を見る機会があったので、「障害対応はこうあるべき?」っていう個人的メモを。

障害発生!さぁどうする?

障害が発生するとSEさんってすぐに端末にかじりついて、ログ解析やプロセスの再起動などの作業に夢中になったりしません?(もちろん自分も経験あり)
障害の内容を把握する、システムの早い復旧を行うのはSEの大切な仕事なんで否定はしないですけどね。

実は、大多数の人にとって障害の原因なんて、SE本人が考えるほど意外なほどどうでもいいことです。(障害復旧後に作成する報告書なんて誰も見てなかったりして)

まずはアナウンス

大切なのは、障害のアウトラインが分かった段階で、外に向かって情報提供してあげることかもしれません。

  • 被害の範囲(FAX受注は問題ないが、Web受注は使えませんとか)
  • 被害の重大度(午前中に入力した伝票が全て消えましたとか。そりゃ大変だ)
  • 復旧までの見込時間(あと30分でWeb閲覧はできるけど、メール復旧までは1時間かかるとか)

その時「JVMのGCか…」とか意味不明な専門用語使っちゃダメですよ(^^;

少なくとも何も情報がないと、システムを使ってるオペレータはシステムを使っていいんだか悪いんだか分からない。
もっと大きなシステムになると、

  • 「システム使えねぇ!」って問合せを受けるサポート窓口
  • 顧客に対して、早くお詫び連絡をしたい営業

など、外に向かって告知をしなくてはいけない人達がとにかく情報を欲しているはず。

もしかするとそんな皆さんは少し怒ってるかもしれないけど、堂々と情報提供してみましょう。

障害対応に燃えろ!

普段は縁の下の力持ちとして、深夜や大型連休に人目につかず頑張っているSEさんですが、障害対応はそんなSEの一番の見せ場!(いや、そんな格好いいもんじゃないな…)
そんな時に、実際対応は誰かに任せて、全体的な状況を把握して的確に情報提供をしてあげられると「デキるSE」としておいしいとこ取り出来るチャンスですぞ。

これ普通の人にとっては「当たり前だ!」って思われるかもしれないんですが、草さえも食べない超草食系揃いのシステム屋さん達にとって、こういう外向きアクションは苦手なんですって…
わかってあげてくださいね(^^;

お客さんのサーバーをぶっ壊して泣きました

昨日はあるクライアントさんのシステムの本番日でした。
もう10年くらい使っているWindows NT Server 4.0 &Windows98クライアントのシステムで、ハードウェアのメーカー保守がいよいよ切れてしまうので、Windows 2003 ServerとWindows Vistaのシステムの入れ替えて欲しいと去年に依頼があったものです。
そりゃあ、設計ドキュメントも無いOracle7(データベース)とPro*Cobolで出来ているシステムを移行するというのは、想像を絶するエライ苦労でした。
大事故
で、ようやくこぎつけたシステム切替の日。
まずはデータの移行作業。
データベースのバックアップを待っている間に、新サーバーを置く場所を確保しようと、サーバーの横のキャスター付きキャビネットをゴロゴロと移動させようとすると…
「ヒュゥゥン…」
\(◎o◎)/
サーバー外付けの増設ディスクが止まってる!データベースのメインディスクやのに!
サーバーのコンソールを見るとデータベースのバックアップも異常終了してる!!
サーバー裏側を確認するとケーブルが一本抜けきっているのでした。
よく見るとキャビネットの引き出しがケーブルをはさんでいたようで、そのキャビネットを動かした瞬間にまた何故かもともとネジ止めされていなかったケーブルが抜けたようでした
「これって、完全にトラップですやんか(ーー;)  しかし、これはヤバイですぞ……」
いろいろと復旧にチャンレジしたものの、結果的に財務、顧客、売上、在庫の全てのデータベースが壊れてしまっている事を知るのでした。

(続きを読む…)

【速報】トレンドマイクロまたやっちゃった?(パターンファイル4.995.00障害)

【速報】トレンドマイクロがまたやっちゃたか?(パターンファイル4.995.00の障害)
朝からOracleが起動しないっす。
再起動させても動作がものすごく遅いっす。
でっかいファイルを操作できないっす。
そんな症状にピンと来た方は…
そいつの犯人はウイルスバスターかもしれません!
一度パターンファイルの番号をチェックしてみてください。
もし、パターンファイル4.995.00になっていたら、そいつは危険だ!
どうやら、パターンファイル4.995.00では、でっかいサイズのファイルを扱えっぽいです。
いますぐにアップデートして4.997.00にするか、サービスを停止しませう。
サーバー側の製品、サーバープロテクトも同様です。
すぐにアップデートするか、コントロールパネルのサービスから、Trend ServerProtectと念のためTrend ServerProtect Agentを停止しましょう。
または、そろそろトレンドマイクロをやめて、他のプロダクトに切り替えるかですね。
まだ現在のところ、トレンドマイクロのサイトには何も情報が公開されていないので、大胆にも見切りで情報発信してします。
ですので、この情報については自己責任で参考にしてください。
とりあえず、朝から発生している謎のシステム障害に頭を抱えているかもしれないシステム管理者の皆さん向けに速報でした。
皆さんのご検討を祈ります。
しかし、トレンドマイクロはなかなか以前から体質が変わりませんねぇ…(ーー;)
以下、検索でなるべくヒットしやすいようにキーワードを列挙。
ファイル共有、ネットワーク、遅い、ファイル、サイズ、大きな、Oracle、ORA-00600、ウイルスバスター、トレンドマイクロ、trendmicro、サーバープロテクト、server protect、パターンファイル、ロータス、notes、outlook、SQL Server、Exchange
【追記】
トレンドマイクロが15時過ぎにオフィシャルに情報を公開したようです。
ウイルスパターンファイル4.995.00へのアップデート後に発生する現象についてのお知らせ
パターンファイルを手動で更新する方法など少し情報が出てます。

障害のお知らせとお詫び(10/19)

本当に申し訳ありません。最近障害続きで。
障害発生期間は、
2005/10/19 9:30~21:10です。本当にこれほどの長期間申し訳ありませんでした。
今回の原因は久々にスパムメールです。
スパムメールについては、メールトレードmyna.jpおよびQRコードのQRyで利用されているメールアプリケーションは、日々150通ものスパムにさらされても平気なのですが、今回のような通常のメールの形式にのっとっていないものについては、たまに停止してしまうことがあります(ーー;)
どういうメーラーから配信されたのかは分かりませんが、今回のメールは「今日は何の日」というタイトルで大量に送信された出会い系の広告で、メールヘッダーの日付が「2005-10-19 06:35:03 」なんていうデタラメな形式で送信されておりました。
本来は、メールヘッダーに記述される日付は「Wed, 19 Oct 2005 06:35:03 +0900」とかっていう形式が一般的だと思われます。
まずは、不正な日付のヘッダーを持つメールを無視するよう対応を入れさせていただきました。
「そもそも未知の形式のメールに対応できていないシステムが悪いのだ!」というご指摘はもっともなのですが、なかなか想定できないメールが多すぎて…(ーー;)
とりあえず、スパム業者さんにお願いなのですが、あまりおかしなメールヘッダーのメールを送信するのは、何卒おやめくださいませ。
とにかく、また今回もご迷惑をおかけしてしまったユーザーの皆様、誠に申し訳ありませんでした。

障害のお知らせとお詫び(10/15)

毎月、なんらかお詫びをしてしまっておりますが、また障害のお詫びですm(_ _)m
2005/10/15 2:30~7:30の期間中、サーバーが全てのアクセスを遮断していたため、以下のサイト、およびサービスの利用ができなくなってしまっておりました。
メール人語(このブログです)
メールトレード myna.jp
QRコードのQRy
・愛・地球博メモリアルバナー
・私宛のメール
おそらく、皆様のブログに貼って頂いているメモリアルバナーはその間、跡形もなく完全に無くなっていたと思われます。
特にメールトレードでメール交換をされていたユーザーの皆さん、本当に申し訳ありませんでした。
おそらく「サーバーが止まってるぞー!」ってメール頂いた方もおられたかと思うのですが、そのメールもエラーで返ってきてしまったんじゃないでしょうか。
ご迷惑をおかけしました。
メモリアルバナーの改造
原因ははっきりしております。
愛・地球博のメモリアルバナーのアクセスによって、契約しているサーバーホスティングのデータ転送量が全て使い果たされてしまい、アクセスを遮断されてしまったためです。
実はこのメモリアルバナーを始めた10月は転送量を使い果たしかけた事がすでに2回あり、その度に転送量の追加購入をしていたのですが、昨日は深夜まで外で飲んでいたもので気づきませんでした…(ーー;)
現在の仕掛けのままメモリアルバナーを今月いっぱい続けると、かなりの転送量になる事が間違いないため、少しだけ仕掛けを変えてみました。
もし、「バナーが見えにくくなった」などの現象が見られましたら、またご報告ください。
最後に皆様、本当にご迷惑をおかけしました。

必殺!「Raw Recovery」!!

じゃーん!
今年2回目のハードディスク障害から無事に生還しました。
障害発生の当日は、ほとんど徹夜の復旧作業でしたが、今回の事で喪失ファイルの復旧にはかなり自信をもってしまったドンQでした。
それでは、ファイル復旧のお話を。
サルベージ祭 2005 Summer(その2)
まずは被害対象(復旧対象)範囲の確認。
・7月にパソコンを買い換えたタイミングのバックアップがあった
・クライアントに提案中の資料については、本業の会社にも3日前くらいのファイルがあった
事などから、実質の被害はこの7月~8月の間にデジカメで撮影した画像ファイル(jpeg形式)約170枚と判明。
この特定ディレクト配下のjpegファイルのサルベージに全力を尽くすことにしました。
インターネットでリカバリーのソフトを探してみると、随分とたくさんあるんですよね。
とりあえずフリーソフトから、
復元(作者:加藤 高明様)
このソフトは無料のうえに、インストールも不要でレジストリなどを汚さないという実によく出来たフリーウェアです。
通常の誤操作によるファイル削除などに対しては、これだけで充分対応できそうです。
しかしながら今回は、単純削除ではなくファイルサイズもおかしな事になっているんで、この「復元」でのリカバリーは無理でした。
そこで…

(続きを読む…)

夏の終わりとディスク障害

お盆休みも終わって、あれほどうるさかったセミも静かになって、そろそろ日テレで24時間テレビも始まる頃になると、子供の頃から癖で「早く宿題しなければ!」と思ってしまうのは、私だけじゃないはずですよね?
もう夏も終わりです。皆さんこの夏やり残した事はないですか?
などと、
落ち着いた事を言っている場合ではないのです!!
(これまで一度もこうやってフォントサイズを変えた事がない私ですが、今回はそれくらいさせてくださいませm(__)m)

(続きを読む…)

【重大】障害のお知らせとお詫び

本日、落雷の影響によりサーバーが停止いたしまして、メールトレード myna.jpおよびQRコードのQRyにて、頂戴したメールが喪失してしまうという重大な障害が発生いたしました。
メールの喪失が発生してしまったのは、2005/8/10の14:30~21:00の間です。
メールトレードmyna.jpにご登録の皆様には、お詫びのメールを配信させて頂きましたが、QRコード読み取りサービスなどをご利用の方には連絡する術がなく、このブログ上にてお詫びとご報告させて頂きます。
申し訳ありませんでした。
障害対策はどこまでも続く…
これまで、スパムメールの攻撃にさらされて、サーバーがダウンする事は何度があり、そのたびにアプリケーションの強化を行ってきたのですが、落雷にやられて、しかもメールが喪失してしまったのは初めてです。
すごくショックでした。
何せ、両サイトとも個人運営サイトなもので、一日一回バックアップはとっているものの、サーバー1台で動いており、そのサーバーが停止すると完全にサービスが止まってしまいます。
さらに平日の日中は、私が会社勤めのため、障害に気がつくのはいつも夜になってしまいます。
本当に皆様には、ご迷惑をおかけいたします。
(とはいえ、突然サービス提供を停止するという事はございませんので、メールトレードをお楽しみの皆様、ご安心ください)
もう少しいろんな個人事業がうまくいきましたら、サーバーも増強したりして安定したサービスを目指す予定です。
今後ともどうぞよろしくお願いいたします。

障害は忘れた頃にやってくる

私がメインに使っているパソコンが昨日壊れました。
何度、起動しても真っ青の画面が出てくる状態で…(ToT)
BIOSがどうのこうの、カーネルがどうのこうとの冷たく英語で突き放されております。
で、昨晩は現実逃避して「寝よう!」と決めて、早めに眠ったのですが、朝に電源を入れてみると、やっぱり同じ。
寝てる間に優しい小人さんが出てきて直してくれるわけではないようでした。(–;
おそらく、たまにハードディスクがおかしな音出してたので、ハードウェア障害の疑いが濃厚なのですが、完全に壊れきっているわけではないようです。
で、現在久しぶりにMS-DOSコマンドなんぞを思い出しながら、懸命の救助活動に励んでおります。
このメインマシンには
メールトレード myna.jpQRコードのQRyのサーバーアプリケーションソース
・作成中のクライアントさんへの提案書
・2年間のデジカメ写真
・8年分くらいのメールボックス
などなど、非常に貴重な資源が入っています。
(ほなバックアップとっておけよ!って? いやいやバックアップを取れるだけの空きディスクもなかったもので)
とりあえず、ほとんどパソコンが使えない生活が続きそうです。
おかげで、しばらく夜は早く布団に入れるんじゃないかと(^o^;)
でも、PCヘビーユーザーのあなた!
ほんとに深夜に起きてまで、それほどコンピュータに向かう必要がありますか?
もしかしてPCの無い生活の方が、友達と遊びにいけたり、家族と話せたりして、潤いのある生活ができる気がしません?
と、まぁ戯言を言ってしまいましたが、「まぁパソコンが無いのもいいかも」と思った一日でした。(実はすぐにでも仕事に困るんですけどね)
また元気に皆さんの前に現れる事ができるよう頑張って復旧させる事にします。

サーバー障害のお知らせとお詫び

いつもながら申し訳ありません。
下記の期間でメールトレード myna.jpおよびQRコードのQRyのメールサーバーにて障害が発生して、メールの返信が遅延する状態が発生しておりました。
QRコードの読み取りや、メール交換をお楽しみの皆様にご迷惑をおかけした事をお詫びいたします。
2005年6月22日 13時15分~21時43分
原因は、毎度恒例のスパムメールでした。
また想定外のヘッダーがついた、出会い系サイトのメールを受信してしまいまして、メール解析サーバーがダウンしたようです。
管理人が本業の仕事をしている間にサーバー障害が発生した場合は、感知できずに帰宅後に障害対応を行うため、通常のサービスにはありえないくらい長い障害期間になってしまっております。
早急にサーバーの稼動監視についても考える事にします。
本当に申し訳ありませんでした。