2012年2月14日火曜日

HAIP(Highly Available virtual IP)その6

HAIP(Highly Available virtual IP)その5のつづき

忘れた頃にHAIPばなし。
知り合いが(゚∀゚ノツ HAIP HAIP☆
とかやっちゃっているので、ちょっとよもや話を。



KROWN#156243
================================================================
HAIP リソースが ONLINEにならず 2ノード目以降の Clusterwareが起動しない
対象リリース:11.2.0.2系
================================================================
ノード間のClusterwareの停止からの起動順序によって発生するようです。

まぁ、もう11.2.0.3.0が出てるし、大丈夫ですかね。

HAIPも11.2.0.3.0ならね。

・・・。

なんて安心するのは甘いのであった。。。


BUG:13555570
AFTER RECOVERING PRIVATE LAN FAILURE, GI ON NODE#2 DID NOT STARTED.


インターネクト障害時からの障害復旧時に、
Clusterから外されたノード2側のHAIPが自動起動起動せず 、
CRS(Grid Infrastructure)が起動しないため、Clusterに参加できない。
また、ノード2のサーバ再起動を行っても状況は変わらない。

ひどし。。。

HAIPが起動できないということは、すなわちインターコネクト通信が
出来ないってことなので、当然Clusterには参加できない。

どないすればええねん!!
というのがBUG:13555570。


一歩踏み込んで記載します。

■復旧手順
1)インターコネクト障害を発生
2)ノード1のインターコネクト復旧するが、ノード2のHAIPならびにCRS起動せず
----[事象発生]------

3)ノード1のインターコネクト用NIC停止(or抜線)。
4)ノード2のCRSを強制停止
 ⇒crsctl stop crs -f
  以前の記事で紹介したMOSのドキュメント手順にあるコマンドで、
  中途半端に上がっているGIを強制停止します。
  (通常コマンドだと、止めようとすると、いや上がってないし。
  上げようとすると上がってるしとか言われる状態になっているので。)

5)ノード1のNICインターコネクト用NIC開始(or結線)
6)ノード2でCRSを手動起動


前回の記事のように、とてもおまじないチックです(苦笑)

この問題も再現性が不安定なので、
同じマシンによる同じ構成でも出たり出なかったりしますので要注意。
カットオーバ前にしっかり障害テストをして確認しましょう。

・・・

個人的な感想として、
11.2.0.2.0以降、CRSやGIが起動しない場合の原因として、
HAIPの起動や通信に問題が発生しているケースが多い気がします。

CRSやGI、HAIPの挙動がおかしいようであれば、
ocssd.log、orarootagent_root.log、ohasd.logあたりのログを確認して、
エラーメッセージや特定メッセージがループしていないかなどのチェックがおすすめ。



また、HAIPの絡みで問題が出てるかな?と思ったら、

MOS[ID 1210883.1]
11gR2 Grid Infrastructure Redundant Interconnect and
ora.cluster_interconnect.haip

の内容がとても有効です。


では、楽しいHAIPライフを♪

0 件のコメント:

コメントを投稿