مانیتورینگ سرورهای HP در محیط متنی لینوکس

مانیتورینگ سرورهای HP در محیط متنی لینوکس



چکیده

در این مستند به معرفی ابزارهایی پرداخته می شود که به سبب آن می توان قسمت‌های سخت افزاری سرورهای HP را نظارت نمود .

 

 

 

1 مقدمه

جهت بررسی نمودن وضعیت سخت افزار سرور های HP، ابزارهای متعددی طراحی شده است که هر کدام از آنها جهت تحقق هدفی ایجاد گردیده است.در این بین، ابزارهایی وجود دارند که در محیط Command line مورد استفاده قرار می‌گیرند.در این مستند به بررسی ابزارهای نظارتی سرورHP در محیط متنی پرداخته شده است.همچنین کنترل سخت‌افزار های سرور از طریق پورت iLO نیز مورد بررسی قرار می گیرد.

 

2 hplog

2.1 معرفی

hplog ابزاری است که اجازه می‌دهد تا به قسمت‌هایی از سرورهای hp نظارت گردد.این ابزار اطلاعات خود را از طریق IML دریافت می‌کند.

IML ابزاری است که تمام سوابق مربوط به رویداد های اتفاق افتاده بر روی سرور را نگهداری می کند.

رویدادهای ذخیره شده در IML به سه دسته تقسیم‌بندی می‌شوند،که این دسته بندی بر اساس نوع رویدادی است که در سرور اتفاق افتاده است .

این چهار دسته عبارتند از:

۱-CAUTION :اخطارها (warning)

۲-CRITICAL :خطاها (error)

۳-INFO :پیغام ها (information)

۴-REPAIRED اطلاع از رفع شدن خرابی توسط خود سرور.

 

2.2 پارامترهای ابزار hplog

  • پارامتر t

نمایش اطلاعات حرارتی مربوط به تمام سنسورهای سرور، که این اطلاعات شامل نوع ،وضعیت، موقعیت،درجه حرارت فعلی و آستانه حرارتی سنسورها می باشد.

 

تصویر 1: خروجی دستور hplog با پارامتر t

  • پارامتر f

نمایش اطلاعات جاری فن های سرور که این اطلاعات شامل نوع ،وضعیت،سرعت و موقعیت فن ها میباشد.

  • پارامتر p

نمایش اطلاعات جاری منابع تغذیه سرور شامل نوع،وضعیت و موقعیت منبع تغذیه می باشد.

  • پارامتر s

از این پارامتر جهت مشاهده محتوای IML بر اساس نوع رویدادی که در سرور اتفاق افتاده،استفاده می شود

  • پارامتر v

محتوای IML را نمایش می دهد.

 

تصویر 2: خروجی دستور hplog با پارامتر v

  • پارامتر a

جهت فعال وغیر فعال نمودن،مشاهده وضعیت و تعیین زمان برای (Automatic Server Recovery (ASR سرور به کار می رود.

بازیابی سیستم به صورت خودکار(ASR): زمانی یک قسمت سخت افزاری و یا یک فرآیند در سرور با مشکل(failure) مواجه می‌شود.سرور تلاش می‌کند تا آن را تشخیص و بازیابی نماید.

 

تصویر 3: خروجی دستور hplog با پارامتر a

3 hpacucli

3.1 معرفی hpacucli

hpacucli برگرفته از جمله HP Array Configuration Utility CLI می باشد.

ابزار hpacucli جهت ساخت، حذف و تعمیر درایوهای فیزیکی و منطقی بر روی کنترلر های RAID در سرور های HP مورد استفاده قرار می‌گیرد.به عبارتی بر تنظیمات مربوط به RAID تمرکز دارد.

 

تصویر 4: خروجی دستور hpacucli

3.2 پارامتر های ابزار hpacucli

این ابزار شامل پارامتر های زیادی می باشد که برای ساخت،حذف و نظارت برروی کنترلر هایRAID به کار می رود.

  • پارامتر help

این پارامتر یک راهنمای کامل در مورد نحوه استفاده از ابزار hpacucli را ارائه می دهد.

 

تصویر 5: خروجی دستور hpacucli با پارامتر help

  • پارامتر show

جهت نظارت بر قسمت‌های مختلف کنترلرRAID از پارامتر show به همراه دیگر پارامتر ها استفاده می گردد .

  • پارامتر ctrl

از (ctrl (controller جهت بررسی و نظارت بر کنترلر های RAID استفاده می‌شود.

  • پارامتر all

جهت نمایش اطلاعات مربوط به تمام بخش های کنترلر RAID بر روی سرور به کار برده می شود.

  • پارامتر slot

جهت بررسی نمودن وضعیت یکslot در کنترلر RAID به کار برده می شود . Slot جایگزین پارامتر all می‌شود.


تصویر 6 :خروجی دستور hpacucli با پارامتر slot

  • پارامتر pd

    از این پارامتر(pd(physical drive جهت مشاهده مشخصات درایو های فیزیکی استفاده می گردد.

درایو فیزیکی به هر یک از هارددیسک های نصب شده بر روی کنترلر RAID اطلاق می شود.با استفاده از این پارامتر از وضعیت و میزان حجم هر هارددیسک ،نوع هارد دیسک ها و موقعیت آن‌ها بر روی کنترلر RAID می‌توان آگاهی یافت.

 

تصویر 7: خروجی دستور hpacucli با پارامتر pd

  • پارامتر ld

از پارامتر ( ld( logical drive جهت مشاهده مشخصات درایوهای منطقی به کار برده می شود.

درایو منطقی اشاره به تقسیمات منطقی RAID دارد.و مشخص کننده نوع RAID ای می‌باشد که بر روی کنترلر RAID تعریف گردیده است .در تصویر 8 مشخص است که دو درایو منطقی از نوع RAID5 بر روی کنترلرRAIDتعریف گردیده است.

 

تصویر 8: خروجی دستور hpacucli با پارامتر ld

  • پارامتر config

از این پارامتر جهت مشاهده تنظیمات صورت گرفته بر روی کنترلر RAID استفاده می گردد.

 

تصویر 9: خروجی دستورhpacucli با پارامتر config

  • پارامتر detail

جهت بدست آوردن اطلاعات کامل‌تر در مورد قسمت‌های مختلف کنترلر RAID از این پارامتر همراه با پارامتر های دیگر استفاده می شود.

 

تصویر 10: خروجی دستور hpacucli با پارامتر detail

  • پارامتر config detail

از ترکیب دو پارامتر config و detail برای بدست آوردن اطلاعات کامل از تمام تنظیمات و مشخصات مربوط به کنترلر RAID استفاده می شود.

 

تصویر 11: خروجی دستورhpacucli با پارامترهای config detail

  • پارامتر status

جهت بررسی وضعیت کلی کنترلرRAID استفاده می گردد.

 

4 ابزار hpasmcli

hpasmcli برگرفته از جمله HP Server Management Application and Agents Command Line

می باشد.

از این ابزار جهت نمایش تنظیمات سیستم ،BIOS سیستم و وضعیت سخت افزارها در سرور های HP مورد استفاده قرار می گیرد.

 

4.1 پارامتر های hpasmcli جهت بررسی وضعیت سیستم

  • پارامتر help

نمایش لیستی از پارامتر هایی که با این دستور به کار برده می شوند.

 

تصویر 12: خروجی دستور hpasmcli با پارامتر help

  • پارامتر show

برای نمایش وضعیت قسمت‌های مختلف سرور از این پارامتر استفاده می شود.

زمانی که از پارامتر show به تنهایی استفاده گردد تمام پارامترهایی که می توان همراه با آن به کار برده شود را نمایش می دهد .


تصویر 13: خروجی دستور hpasmcli با پارامتر show

  • پارامتر server

نمایش مشخصات سرور از جمله نوع سرور ،تعداد CPUهاو مدل آن‌ها ،تعداد کارت های شبکه و... .


تصویر 14: خروجی دستور hpasmcli با پارامتر server

  • پارامتر temp

از این پارامتر جهت نمایش وضعیت سنسورهای سرور استفاده می گردد.

  • پارامتر dimm

این پارامتر اطلاعات RAMهایی که بر روی سرور نصب شده‌اند را نمایش می دهد.


تصویر 15: خروجی دستور hpasmcli با پارامتر dimm

  • پارامتر fans

جهت نمایش اطلاعات مربوط به فن های نصب شده بر روی سرور به کار برده می شود.

  • پارامتر boot

نمایش لیستی از device های سرور بر اساس اولویت بوت شدن آنها.

  • پارامتر ht

از این پارامتر جهت نمایش وضعیت Hyper-Threading یا همان فراریسمانی سرور استفاده می شود .

فراریسمانی یک فناوری اختصاصی شرکت اینتل است که برای بهبود « رایانش موازی یا پردازش موازی» (انجام چند دستورالعمل به طور همزمان) در پردازنده به کار رفته‌ است. با این فناوری، برای هر هسته پردازشی (هسته‌های واقعی)سیستم عامل دو هستهٔ مجازی ادرس دهی می‌کند و در هنگامی که امکان داشته باشد حجم کار را بین آنها تقسیم می‌کند. برای این فناوری نه تنها لازم است که سیستم عامل از چند پردازنده پشتیبانی کند بلکه باید برای آن بهینه سازی شده باشد؛ و شرکت اینتل توصیه می‌کند که در صورتی که از سیستم عاملی استفاده می‌کنید که هایپرتردینگ را پشتیبانی نمی‌کند، این فناوری را غیر فعال کنید.


تصویر 16: خروجی دستور hpasmcli با پارامتر های boot , ht

  • پارامتر iml

با استفاده از این پارامتر می توان مجموعه ای از اتفاقاتی که روی سرور رخ داده است را نمایش داد.این پارامتر محتوای IML سیستم را نمایش می دهد.

 

تصویر 17: خروجی دستور hpasmcli با پارامتر iml

  • پارامتر ipl

لیستی از انواعdevice های نصب شده بر روی سرور را نمایش می دهد.

  • پارامتر powersupply

جهت نمایش اطلاعات مربوط به وضعیت منبع تغذیه های نصب شده بر روی سرور به کار برده می شود.


تصویر 18: خروجی دستور hpasmcli با پارامتر های ipl , powersupply

  • پارامتر uid

جهت نمایش وضعیت led مربوط به uid سرور به کار برده می شود.

 

تصویر 19: LED مربوط uid سرور hp

  • پارامتر wol

جهت نمایش فعال یا غیر فعال بودن سیستم wake-on-lan بر روی سرور های hp به کار برده می شود.

Wake on lan یک سیستم استاندارد شبکه است که اجازه روشن یا همان بیدار شدن را با یک پیغام شبکه به سرور می‌دهد. این پیغام معمولاً توسط یک برنامه ساده بر روی سیستمی دیگر روی همان شبکه محلی ارسال می‌شود. بیدار شدن از شبکه یا همان Wake-on-LAN را به اختصار WOL نیز می‌نامند.

 

تصویر 20: خروجی دستور hpasmcli با پارامتر های uid , wol

5 ابزار dmidecode

ابزار dmidecode ،جدول DMI (بعضی ها به اسم SMBIOS آن را می شناسند) را می خواند و اطلاعات کاملی در مورد سخت‌افزار سرور , BIOS ،CPU و RAMها را نمایش می دهد.

DMI تمام اطلاعات سخت افزاری سیستم را در خود نگهداری می نماید.

 

5.1 پارامتر های دستور dmidecode

در صورتی که دستورdmidecode به تنهایی استفاده گردد تمام اطلاعات مربوط به سخت افزارهای شناسایی شده سرور را نمایش می دهد.

  • پارامتر t یا type

برای اینکه بتوان از پارامتر های مختلف سخت افزاری به صورت keyword (یا نام سخت‌افزاری) استفاده کرد،از این پارامتر استفاده می گردد.در غیر این صورت بایستی از id های از پیش تعریف شده برای هر نوع سخت‌افزار استفاده شود.

  • پارامتر Memory

اطلاعات مربوط به RAM های سیستم و اسلات های حافظه را به نمایش می دهد.


تصویر 21: خروجی دستور dmidecode باپارامتر memory

  • پارامترBios

جهت نمایش اطلاعات مربوط به BIOS سیستم به کار برده می شود.

  • پارامترSystem

جهت نمایش اطلاعات مربوط به مدل ، Serial number وسازنده سیستم استفاده می شود.


تصویر 22: خروجی دستور dmidecode با پارامتر system

  • پارامترProcessor

این پارامتر اطلاعات کاملی از نوع پردازشگرها ، تعداد آنها ، سرعت و مدل آن‌ها را به نمایش میگذارد.


تصویر 23: خروجی دستور dmidecode با پارامترprocessor

  • پارامترCache

جهت نمایش اطلاعات مربوط به cache پردازشگر سیستم استفاده می شود.


تصویر 24: خروجی دستور dmidecode با پارامتر cache

  • پارامترConnector

جهت نمایش اطلاعات مربوط به تمام پورت های سیستم از این پارامتر استفاده می گردد.

 

تصویر 25: خروجی دستور dmidecode با پارامترconnector

  • پارامترSlot

جهت نمایش مشخصات مربوط به تمام slot های سیستم استفاده می گردد.

 

تصویر 26: خروجی دستور dmidecode با پارامتر slot

6 بررسی لاگ های iLO جهت مشخص شدن مشکلات سخت افزاری

6.1 معرفی پورت iLO

Integrated Lights-Out Management یا iLO نام تکنولوژی مورد استفاده شرکت HP در تجهیزات سرور تولید شده توسط این شرکت میباشد.

iLO در زمانی به کار میرود که شما به هر دلیلی و از راه دور نیازمند به دسترسی سطح پایین ( Out-Band Management ) به سرور خود میباشید.

این امکان در عموم سرور های سری 300 به بالای این شرکت ( به عنوان مثال DL380-G5 یا ML370 ) به صورت پیش فرض وجود دارد.

کانکتور مورد استفاده در این تکنولوژی یک عدد کارت شبکه 100Mbps میباشد که در کنار بقیه کانکتور های شبکه سرور و با برچسب iLO قابل شناسایی میباشد.

 

تصویر 27: iLO Port

6.2 بررسی وضعیت سرور توسط iLO

با استفاده از اینترفیس تحت وب مخصوص iLO می‌توان وضعیت تمام قسمت‌های سخت افزاری سرور های hp را کنترل نمود.جهت استفاده از این اینترفیس در پنجره مرورگر ، IP تنظیم شده برای پورت iLO را وارد نموده تا به صفحه login برسید.برای این منظور بعد از ورود نام کاربری و رمز عبور تعریف شده برای پورت iLO در قسمت مربوطه که در تصویر 31 نیز قابل ملاحظه است وارد صفحه اصلی می‌شوید(تصویر 32). در این صفحه در قسمت System Information اطلاعات مربوط به قسمت‌های مختلف سخت افزاری به صورت سربرگ های جدا گانه دسته بندی شده‌اند که جهت بررسی وضعیت هر قسمت سخت‌افزاری به سربرگ مربوط به آن وارد شده و اطلاعات مربوط به آن را مشاهده نمایید.

 

تصویر 28: پنجره login مربوط به iLO

 

تصویر 29: قسمت system information مربوط به iLO

6.3 بررسی خطاهای سخت افزاری سرور در iLO

تمام خطاهای سخت افزاری که در سرور رخ می‌دهد در قسمت Integrated Management Log به ثبت می رسد.و با بررسی این قسمت از iLO می‌توان تمام خطاهای فعلی و قبلی مربوط به سرور را مشاهده نمود.در قسمت description از این صفحه می‌توان پی برد که خطاهای اتفاق افتاده مربوط به چه قسمتی از سرور می‌باشد.

Integrated Management Log اطلاعاتش را از IML سرور می‌گیرد.که تمام لاگ های مربوط به سرور در آن ذخیره می شود.

 

تصویر 30: پنجره IML مربوط به iLO

7 بررسی سلامت سیستم

  1. چگونه می‌توان وضعیت کنترلر RAID را چک نمود؟

    با استفاده از دستور زیر می‌توان تمام اطلاعات مربوط به کنترلر RAID را بررسی نمود.

hpacucli controller all show config detail

 

2) چگونه می‌توان وضعیت Cache , Battery کنترلر RAID را چک نمود؟

Cache یک قطعه سخت افزاری مهم در کنترلر RAID می باشد که بایستی مورد توجه قرار گیرد. به این دلیل که جهت بالا بردن سرعت ذخیره سازی اطلاعات، قبل از آنکه اطلاعات بر روی هارددیسک ذخیره شود ،ابتدا درون Cache قرار می‌گیرد.وزمانی که Cache مربوط به کنترلر RAID در وضعیت مناسبی نباشد سرعت ذخیره سازی اطلاعات نیز پایین می آید.

Battery نیز قسمتی از کنترلرRAID می باشد.که وظیفه تأمین انرژی لازم جهت روشن نگه داشتن کنترلر RAID را برعهده دارد. زمانی که برق سرور به هر دلیل قطع شود باتری مخصوص کنترلر RAID انرژی مصرفی مورد نیاز کنترلرRAID را تأمین می نماید تا اطلاعات موجود در Cache کنترلر RAID درون هارددیسک ها ذخیره شود.زمانی که باتری در وضعیت مناسبی نباشد و سرور خاموش شود اطلاعاتی که درCache مخصوص کنترلر RAID قرار دارد از بین می‌رود.

 

تصویر 31: Cache and Battery RAID

برای مشاهده وضعیت دو قسمت مهم کنترلر یعنی Battery , Cache می‌توان از دستور زیر استفاده نمود.

hpacucli ctrl all show detail

 

  1. چگونه می‌توان وضعیت هارددیسک های سرور را چک نمود؟

    با استفاده از دستور زیر می‌توان وضعیت هارددیسک های سرور را چک نمود :

    hpacucli ctrl all show config

در نتیجه دستور قبل، لیستی از تمام هاردیسک های سرور همراه با وضعیت هر کدام نمایش می دهد.

روش دیگر اینکه توسط iLO سرور در قسمت System Informaion در سربرگstorage وضعیت تمام هارد دیسک ها مشخص شده است.

 

4)چگونه می‌توان از تعداد،حجم و وضعیت RAM های سرور با خبر شد؟

با مراجعه بهiLO سرور در قسمت System Informaion در سربرگ memory اطلاعات کاملی از تمام RAM های سرور وجود دارد.

روش دیگر با استفاده از دستور زیر اطلاعات کاملی از RAM های سرور قابل مشاهده است:

dmidecode -t memory

 

  1. چگونه می‌توان درصد استفاده از CPU , RAM را مشاهده نمود؟

    با استفاده از دستور top، تمام اطلاعات مربوط به میزان استفاده از RAM , CPU قابل مشاهده می باشد.