مانیتورینگ سرورهای HP در محیط متنی لینوکس
مانیتورینگ سرورهای HP در محیط متنی لینوکس
چکیده
در این مستند به معرفی ابزارهایی پرداخته می شود که به سبب آن می توان قسمتهای سخت افزاری سرورهای HP را نظارت نمود .
فهرست مندرجات
3.2- پارامتر های ابزار hpacucli
4.1- پارامتر های hpasmcli جهت بررسی وضعیت سیستم
5.1- پارامتر های دستور dmidecode
6- بررسی لاگ های iLO جهت مشخص شدن مشکلات سخت افزاری
6.2- بررسی وضعیت سرور توسط iLO
1 مقدمه
جهت بررسی نمودن وضعیت سخت افزار سرور های HP، ابزارهای متعددی طراحی شده است که هر کدام از آنها جهت تحقق هدفی ایجاد گردیده است.در این بین، ابزارهایی وجود دارند که در محیط Command line مورد استفاده قرار میگیرند.در این مستند به بررسی ابزارهای نظارتی سرورHP در محیط متنی پرداخته شده است.همچنین کنترل سختافزار های سرور از طریق پورت iLO نیز مورد بررسی قرار می گیرد.
2 hplog
2.1 معرفی
hplog ابزاری است که اجازه میدهد تا به قسمتهایی از سرورهای hp نظارت گردد.این ابزار اطلاعات خود را از طریق IML دریافت میکند.
IML ابزاری است که تمام سوابق مربوط به رویداد های اتفاق افتاده بر روی سرور را نگهداری می کند.
رویدادهای ذخیره شده در IML به سه دسته تقسیمبندی میشوند،که این دسته بندی بر اساس نوع رویدادی است که در سرور اتفاق افتاده است .
این چهار دسته عبارتند از:
۱-CAUTION :اخطارها (warning)
۲-CRITICAL :خطاها (error)
۳-INFO :پیغام ها (information)
۴-REPAIRED اطلاع از رفع شدن خرابی توسط خود سرور.
2.2 پارامترهای ابزار hplog
نمایش اطلاعات حرارتی مربوط به تمام سنسورهای سرور، که این اطلاعات شامل نوع ،وضعیت، موقعیت،درجه حرارت فعلی و آستانه حرارتی سنسورها می باشد.
تصویر 1: خروجی دستور hplog با پارامتر t
نمایش اطلاعات جاری فن های سرور که این اطلاعات شامل نوع ،وضعیت،سرعت و موقعیت فن ها میباشد.
نمایش اطلاعات جاری منابع تغذیه سرور شامل نوع،وضعیت و موقعیت منبع تغذیه می باشد.
از این پارامتر جهت مشاهده محتوای IML بر اساس نوع رویدادی که در سرور اتفاق افتاده،استفاده می شود
-
پارامتر v
محتوای IML را نمایش می دهد.
تصویر 2: خروجی دستور hplog با پارامتر v
جهت فعال وغیر فعال نمودن،مشاهده وضعیت و تعیین زمان برای (Automatic Server Recovery (ASR سرور به کار می رود.
بازیابی سیستم به صورت خودکار(ASR): زمانی یک قسمت سخت افزاری و یا یک فرآیند در سرور با مشکل(failure) مواجه میشود.سرور تلاش میکند تا آن را تشخیص و بازیابی نماید.
تصویر 3: خروجی دستور hplog با پارامتر a
3 hpacucli
3.1 معرفی hpacucli
hpacucli برگرفته از جمله HP Array Configuration Utility CLI می باشد.
ابزار hpacucli جهت ساخت، حذف و تعمیر درایوهای فیزیکی و منطقی بر روی کنترلر های RAID در سرور های HP مورد استفاده قرار میگیرد.به عبارتی بر تنظیمات مربوط به RAID تمرکز دارد.
تصویر 4: خروجی دستور hpacucli
3.2 پارامتر های ابزار hpacucli
این ابزار شامل پارامتر های زیادی می باشد که برای ساخت،حذف و نظارت برروی کنترلر هایRAID به کار می رود.
این پارامتر یک راهنمای کامل در مورد نحوه استفاده از ابزار hpacucli را ارائه می دهد.
تصویر 5: خروجی دستور hpacucli با پارامتر help
جهت نظارت بر قسمتهای مختلف کنترلرRAID از پارامتر show به همراه دیگر پارامتر ها استفاده می گردد .
از (ctrl (controller جهت بررسی و نظارت بر کنترلر های RAID استفاده میشود.
جهت نمایش اطلاعات مربوط به تمام بخش های کنترلر RAID بر روی سرور به کار برده می شود.
جهت بررسی نمودن وضعیت یکslot در کنترلر RAID به کار برده می شود . Slot جایگزین پارامتر all میشود.
تصویر 6 :خروجی دستور hpacucli با پارامتر slot
درایو فیزیکی به هر یک از هارددیسک های نصب شده بر روی کنترلر RAID اطلاق می شود.با استفاده از این پارامتر از وضعیت و میزان حجم هر هارددیسک ،نوع هارد دیسک ها و موقعیت آنها بر روی کنترلر RAID میتوان آگاهی یافت.
تصویر 7: خروجی دستور hpacucli با پارامتر pd
از پارامتر ( ld( logical drive جهت مشاهده مشخصات درایوهای منطقی به کار برده می شود.
درایو منطقی اشاره به تقسیمات منطقی RAID دارد.و مشخص کننده نوع RAID ای میباشد که بر روی کنترلر RAID تعریف گردیده است .در تصویر 8 مشخص است که دو درایو منطقی از نوع RAID5 بر روی کنترلرRAIDتعریف گردیده است.
تصویر 8: خروجی دستور hpacucli با پارامتر ld
از این پارامتر جهت مشاهده تنظیمات صورت گرفته بر روی کنترلر RAID استفاده می گردد.
تصویر 9: خروجی دستورhpacucli با پارامتر config
جهت بدست آوردن اطلاعات کاملتر در مورد قسمتهای مختلف کنترلر RAID از این پارامتر همراه با پارامتر های دیگر استفاده می شود.
تصویر 10: خروجی دستور hpacucli با پارامتر detail
از ترکیب دو پارامتر config و detail برای بدست آوردن اطلاعات کامل از تمام تنظیمات و مشخصات مربوط به کنترلر RAID استفاده می شود.
تصویر 11: خروجی دستورhpacucli با پارامترهای config detail
جهت بررسی وضعیت کلی کنترلرRAID استفاده می گردد.
4 ابزار hpasmcli
hpasmcli برگرفته از جمله HP Server Management Application and Agents Command Line
می باشد.
از این ابزار جهت نمایش تنظیمات سیستم ،BIOS سیستم و وضعیت سخت افزارها در سرور های HP مورد استفاده قرار می گیرد.
4.1 پارامتر های hpasmcli جهت بررسی وضعیت سیستم
نمایش لیستی از پارامتر هایی که با این دستور به کار برده می شوند.
تصویر 12: خروجی دستور hpasmcli با پارامتر help
برای نمایش وضعیت قسمتهای مختلف سرور از این پارامتر استفاده می شود.
زمانی که از پارامتر show به تنهایی استفاده گردد تمام پارامترهایی که می توان همراه با آن به کار برده شود را نمایش می دهد .
تصویر 13: خروجی دستور hpasmcli با پارامتر show
نمایش مشخصات سرور از جمله نوع سرور ،تعداد CPUهاو مدل آنها ،تعداد کارت های شبکه و... .
تصویر 14: خروجی دستور hpasmcli با پارامتر server
از این پارامتر جهت نمایش وضعیت سنسورهای سرور استفاده می گردد.
این پارامتر اطلاعات RAMهایی که بر روی سرور نصب شدهاند را نمایش می دهد.
تصویر 15: خروجی دستور hpasmcli با پارامتر dimm
جهت نمایش اطلاعات مربوط به فن های نصب شده بر روی سرور به کار برده می شود.
نمایش لیستی از device های سرور بر اساس اولویت بوت شدن آنها.
از این پارامتر جهت نمایش وضعیت Hyper-Threading یا همان فراریسمانی سرور استفاده می شود .
فراریسمانی یک فناوری اختصاصی شرکت اینتل است که برای بهبود « رایانش موازی یا پردازش موازی» (انجام چند دستورالعمل به طور همزمان) در پردازنده به کار رفته است. با این فناوری، برای هر هسته پردازشی (هستههای واقعی)سیستم عامل دو هستهٔ مجازی ادرس دهی میکند و در هنگامی که امکان داشته باشد حجم کار را بین آنها تقسیم میکند. برای این فناوری نه تنها لازم است که سیستم عامل از چند پردازنده پشتیبانی کند بلکه باید برای آن بهینه سازی شده باشد؛ و شرکت اینتل توصیه میکند که در صورتی که از سیستم عاملی استفاده میکنید که هایپرتردینگ را پشتیبانی نمیکند، این فناوری را غیر فعال کنید.
تصویر 16: خروجی دستور hpasmcli با پارامتر های boot , ht
با استفاده از این پارامتر می توان مجموعه ای از اتفاقاتی که روی سرور رخ داده است را نمایش داد.این پارامتر محتوای IML سیستم را نمایش می دهد.
تصویر 17: خروجی دستور hpasmcli با پارامتر iml
لیستی از انواعdevice های نصب شده بر روی سرور را نمایش می دهد.
جهت نمایش اطلاعات مربوط به وضعیت منبع تغذیه های نصب شده بر روی سرور به کار برده می شود.
تصویر 18: خروجی دستور hpasmcli با پارامتر های ipl , powersupply
جهت نمایش وضعیت led مربوط به uid سرور به کار برده می شود.
تصویر 19: LED مربوط uid سرور hp
جهت نمایش فعال یا غیر فعال بودن سیستم wake-on-lan بر روی سرور های hp به کار برده می شود.
Wake on lan یک سیستم استاندارد شبکه است که اجازه روشن یا همان بیدار شدن را با یک پیغام شبکه به سرور میدهد. این پیغام معمولاً توسط یک برنامه ساده بر روی سیستمی دیگر روی همان شبکه محلی ارسال میشود. بیدار شدن از شبکه یا همان Wake-on-LAN را به اختصار WOL نیز مینامند.
تصویر 20: خروجی دستور hpasmcli با پارامتر های uid , wol
5 ابزار dmidecode
ابزار dmidecode ،جدول DMI (بعضی ها به اسم SMBIOS آن را می شناسند) را می خواند و اطلاعات کاملی در مورد سختافزار سرور , BIOS ،CPU و RAMها را نمایش می دهد.
DMI تمام اطلاعات سخت افزاری سیستم را در خود نگهداری می نماید.
5.1 پارامتر های دستور dmidecode
در صورتی که دستورdmidecode به تنهایی استفاده گردد تمام اطلاعات مربوط به سخت افزارهای شناسایی شده سرور را نمایش می دهد.
برای اینکه بتوان از پارامتر های مختلف سخت افزاری به صورت keyword (یا نام سختافزاری) استفاده کرد،از این پارامتر استفاده می گردد.در غیر این صورت بایستی از id های از پیش تعریف شده برای هر نوع سختافزار استفاده شود.
اطلاعات مربوط به RAM های سیستم و اسلات های حافظه را به نمایش می دهد.
تصویر 21: خروجی دستور dmidecode باپارامتر memory
جهت نمایش اطلاعات مربوط به BIOS سیستم به کار برده می شود.
جهت نمایش اطلاعات مربوط به مدل ، Serial number وسازنده سیستم استفاده می شود.
تصویر 22: خروجی دستور dmidecode با پارامتر system
این پارامتر اطلاعات کاملی از نوع پردازشگرها ، تعداد آنها ، سرعت و مدل آنها را به نمایش میگذارد.
تصویر 23: خروجی دستور dmidecode با پارامترprocessor
جهت نمایش اطلاعات مربوط به cache پردازشگر سیستم استفاده می شود.
تصویر 24: خروجی دستور dmidecode با پارامتر cache
جهت نمایش اطلاعات مربوط به تمام پورت های سیستم از این پارامتر استفاده می گردد.
تصویر 25: خروجی دستور dmidecode با پارامترconnector
جهت نمایش مشخصات مربوط به تمام slot های سیستم استفاده می گردد.
تصویر 26: خروجی دستور dmidecode با پارامتر slot
6 بررسی لاگ های iLO جهت مشخص شدن مشکلات سخت افزاری
6.1 معرفی پورت iLO
Integrated Lights-Out Management یا iLO نام تکنولوژی مورد استفاده شرکت HP در تجهیزات سرور تولید شده توسط این شرکت میباشد.
iLO در زمانی به کار میرود که شما به هر دلیلی و از راه دور نیازمند به دسترسی سطح پایین ( Out-Band Management ) به سرور خود میباشید.
این امکان در عموم سرور های سری 300 به بالای این شرکت ( به عنوان مثال DL380-G5 یا ML370 ) به صورت پیش فرض وجود دارد.
کانکتور مورد استفاده در این تکنولوژی یک عدد کارت شبکه 100Mbps میباشد که در کنار بقیه کانکتور های شبکه سرور و با برچسب iLO قابل شناسایی میباشد.
تصویر 27: iLO Port
6.2 بررسی وضعیت سرور توسط iLO
با استفاده از اینترفیس تحت وب مخصوص iLO میتوان وضعیت تمام قسمتهای سخت افزاری سرور های hp را کنترل نمود.جهت استفاده از این اینترفیس در پنجره مرورگر ، IP تنظیم شده برای پورت iLO را وارد نموده تا به صفحه login برسید.برای این منظور بعد از ورود نام کاربری و رمز عبور تعریف شده برای پورت iLO در قسمت مربوطه که در تصویر 31 نیز قابل ملاحظه است وارد صفحه اصلی میشوید(تصویر 32). در این صفحه در قسمت System Information اطلاعات مربوط به قسمتهای مختلف سخت افزاری به صورت سربرگ های جدا گانه دسته بندی شدهاند که جهت بررسی وضعیت هر قسمت سختافزاری به سربرگ مربوط به آن وارد شده و اطلاعات مربوط به آن را مشاهده نمایید.
تصویر 28: پنجره login مربوط به iLO
تصویر 29: قسمت system information مربوط به iLO
6.3 بررسی خطاهای سخت افزاری سرور در iLO
تمام خطاهای سخت افزاری که در سرور رخ میدهد در قسمت Integrated Management Log به ثبت می رسد.و با بررسی این قسمت از iLO میتوان تمام خطاهای فعلی و قبلی مربوط به سرور را مشاهده نمود.در قسمت description از این صفحه میتوان پی برد که خطاهای اتفاق افتاده مربوط به چه قسمتی از سرور میباشد.
Integrated Management Log اطلاعاتش را از IML سرور میگیرد.که تمام لاگ های مربوط به سرور در آن ذخیره می شود.
تصویر 30: پنجره IML مربوط به iLO
7 بررسی سلامت سیستم
-
چگونه میتوان وضعیت کنترلر RAID را چک نمود؟
با استفاده از دستور زیر میتوان تمام اطلاعات مربوط به کنترلر RAID را بررسی نمود.
hpacucli controller all show config detail
2) چگونه میتوان وضعیت Cache , Battery کنترلر RAID را چک نمود؟
Cache یک قطعه سخت افزاری مهم در کنترلر RAID می باشد که بایستی مورد توجه قرار گیرد. به این دلیل که جهت بالا بردن سرعت ذخیره سازی اطلاعات، قبل از آنکه اطلاعات بر روی هارددیسک ذخیره شود ،ابتدا درون Cache قرار میگیرد.وزمانی که Cache مربوط به کنترلر RAID در وضعیت مناسبی نباشد سرعت ذخیره سازی اطلاعات نیز پایین می آید.
Battery نیز قسمتی از کنترلرRAID می باشد.که وظیفه تأمین انرژی لازم جهت روشن نگه داشتن کنترلر RAID را برعهده دارد. زمانی که برق سرور به هر دلیل قطع شود باتری مخصوص کنترلر RAID انرژی مصرفی مورد نیاز کنترلرRAID را تأمین می نماید تا اطلاعات موجود در Cache کنترلر RAID درون هارددیسک ها ذخیره شود.زمانی که باتری در وضعیت مناسبی نباشد و سرور خاموش شود اطلاعاتی که درCache مخصوص کنترلر RAID قرار دارد از بین میرود.
تصویر 31: Cache and Battery RAID
برای مشاهده وضعیت دو قسمت مهم کنترلر یعنی Battery , Cache میتوان از دستور زیر استفاده نمود.
hpacucli ctrl all show detail
-
چگونه میتوان وضعیت هارددیسک های سرور را چک نمود؟
با استفاده از دستور زیر میتوان وضعیت هارددیسک های سرور را چک نمود :
hpacucli ctrl all show config
در نتیجه دستور قبل، لیستی از تمام هاردیسک های سرور همراه با وضعیت هر کدام نمایش می دهد.
روش دیگر اینکه توسط iLO سرور در قسمت System Informaion در سربرگstorage وضعیت تمام هارد دیسک ها مشخص شده است.
4)چگونه میتوان از تعداد،حجم و وضعیت RAM های سرور با خبر شد؟
با مراجعه بهiLO سرور در قسمت System Informaion در سربرگ memory اطلاعات کاملی از تمام RAM های سرور وجود دارد.
روش دیگر با استفاده از دستور زیر اطلاعات کاملی از RAM های سرور قابل مشاهده است:
dmidecode -t memory
-
چگونه میتوان درصد استفاده از CPU , RAM را مشاهده نمود؟
با استفاده از دستور top، تمام اطلاعات مربوط به میزان استفاده از RAM , CPU قابل مشاهده می باشد.