آشنایی با System Center Operations Manager

سازمان ها کوچک یا بزرگ؛ عموما وابسته به زیرساخت های IT خود هستند. بزرگ ترین وظیفه دپارتمان های IT نگه داری از این زیرساخت ها است. گسترش ابزار ها و کاربرد ها IT سبب شده است مانیتورینگ این سرویس ها به صورت سنتی امکان پذیر نباشد و نیازمند ابزار های جدیدی برای مانیتورینگ زیرساخت های IT سازمان های وجود دارد. عملکرد (performance) مناسب زیرساخت ها و در دسترس بودن آن ها دو نکته حیاتی برای دپارتمان های IT است.

image

با استفاده از این ابزار یکپارچه، امکان مانیتورینگ به شکل جامع فراهم شده و سبب می گردد سازمان با مانیتورینگ یکپارچه عملکرد، دسترسی پذیری سرویس ها را با تدوین برنامه ریزی؛ تضمین کند. این امر سبب می گردد تا تعیین عوامل مشکلات آسان تر گردد و همچنین با مانیتورینگ دقیق و شناسایی چالش ها، از وقوع هر گونه اختلال در سرویس ها، زیرساخت ها و دیوایس ها جلوگیری به عمل آید. توزیع جغرافیایی و کمی سبب می گردد تا چالش های پیش روی و ریشه یابی خطاها، با دشواری رو به رو شده و یا امکان پذیر نباشد. با استفاده از یک سامانه یکپارچه، این امکان حاصل می گردد تا گزارشات جامع یکپارچه با دقت بالا، دپارتمان IT سازمان بتواند اقدامات لازم در زمان لازم اعمال نماید و با استفاده از سایر راهکار های system center با تغییر سیاست ها (policy) و جریان های کاری (work flow) از بروز اختلال ها و یا کاهش عملکرد سیستم جلوگیری نماید همچنین دپارتمان IT قادر می شود رویه ای خودکار جهت اعمال در سرویس ها، دیوایس ها و کلاینت ها اتخاذ نماید. این ابزار پیشرفته می تواند اشیایی که سالم نیستند را شناسایی کنند و پیام هشدار تولید کند تا با شناسایی مشکلات پیش از وقوع آن ها اهداف نگه داری زیرساخت های IT ذکر شده محقق گردند.

image

زیرساخت SCOM

یک Management Group مولفه ی بنیادین برای مانیتور اشیاء می باشد. یک Management Group شامل یک Management Server، Operational Database و Reporting data warehouse database است.

مولفه توضیح
Management server نقطه مرکزی جهت مدیریت Management Group و ارتباط با DB است. یک Management Group می تواند شامل یک یا چند Management Server باشد.
Operational database یک SQL database است که شامل تمام داده های تنظیمات Management Group است. همچنین شامل تمام داده های جمع آوری شده و پردازش شده برای Management Group است. این DB داده های کوتاه مدت را نگه داری می کند (به صورت پیش فرض برای ۷ روز)
Data warehouse database یک SQL database برای نگه داری داده های مانیتورینگ و هشدار ها در طولانی مدت. داده های تولید شده، علاوه بر DB فوق در این DB نیز ذخیره می گردند تا همیشه نسخه فعلی برای Reporting از روی این DB موجود باشد.
Reporting Server جهت ساخت گزارشات از روی Data Warehouse می تواند راه اندازی گردد.

 

SCOM
سرور های یک Management Group

عامل ها

عامل (Agent) یک سرویس است که روی کامپیوتر ها نصب می گردد و وظیفه جمع آوری اطلاعات از روی کامپیوتر ها بر عهده دارد. علاوه بر آن، داده های جمع آوری شده را با مقادیر از پیش تعیین شده مقایسه می کنند و در صورت لزوم هشدار تولید می کنند و پاسخ ها را اجرا می کنند. یک Management Server داده های تولید شده توسط Agent ها را دریافت می کنند و تنظیمات مربوط به آن ها را توزیع می کند. هر عامل به یک Management Server در یک Management Group گزارش می دهد، این Management Server را agent’s primary management server می گوییم. Agent ها همچنین health state را محاسبه می کنند و گزارش می دهند.

یک Agent می تواند به عنوان proxy agent تنظیم گردد. یک proxy agent می تواند از طرف یک هاست به غیر از کامپیوتری که روی آن قرار دارد به سرور گزارش دهد. با استفاده از این روش، امکان مانتیورینگ هاست هایی که امکان نصب عامل روی آن ها وجود ندارد محقق می گردد.

 

Management Servers

یک Management Group می تواند شامل چند Management Server باشد. وقتی که دو یا بیشتر Management Server در یک Management Group اضافه می شوند، آن ها قسمتی از یک Resource Pool می شوند و فشار کاری بین اعضای Pool تقسیم می گردد. زمانی که یکی از اعضا از کار افتد، اعضای دیگر وظایف آن را بر عهده می گیرند. به عبارت دیگر با استفاده از Resource Pool علاوه بر load balanced شدن سرویس، مقاومت در برخطا نیز ایجاد می گردد. تمام اعضای resource pool در هر لحظه یک مجموعه متمایز از اشیاء را تحت مدیریت خود قرار می دهند.

SCOM
نحوه ارتباط اجزاء در حضور یک Resource Pool

سرویس System Center Management Health

این سرویس روی کامپیوتر هایی که تحت مانیتور قرار گرفته اند داده ها را جمع آوری می کند و وظایف مختلفی را اجرا می کند. حتی زمانی که سرویس قادر نیست با سرور ارتباط داشته باشد، همچنان به جمع آوری اطلاعات ادامه می دهد و زمانی که ارتباط دوباره ایجاد شد، تمام اطلاعات قرار گرفته در صف در زمان عدم اتصال را ارسال می کند.

پکیج های مدیریتی

پک های مدیریتی معین می کنند که چه اطلاعاتی توسط عامل ها جمع آوری شده و به Management Server بازگردانده شود. تنظیماتی که به عامل ها ارسال می شود شامل نوع اشیاء، Object Discoveries و غیره می باشد. یک Rule وقایع و داده های performance را برای جمع آوری اطلاعات کامپیوتر ها و وقایع مربوطه است. به عنوان مثال، یک پک مدیریتی می تواند شامل rule هایی به شرح زیر باشد:

  • اگر یک پیام نشان می دهد که یک اپلیکیشن در دسترس نیست، یک هشدار صادر کن.
  • اگر آپلود فایل با مشکل رو به رو شد، وقایع مربوط به خطا را جمع آوری کن.

این پکیج ها به صورت مستقل از نرم افزار قابل دریافت و به روز رسانی می باشند. بسیاری از Management Pack های تولید شده برای SCOM رایگان می باشند و برخی از آن ها نیازمند تهیه لایسنس های جداگانه دارند. علاوه بر آن قابلیت Customization برای Management Pack ها وجود دارد.

فرآیند کلی

به صورت کلی، فرآیند زیر چگونگی تحت نظارت قرار گرفتن اشیاء مختلف را نشان می دهد:

  • جستجو به دنبال نود هایی که تحت نظارت قرار نگرفته اند
  • نصب عامل و ارسال تنظیمات به عامل
  • یافتن اشیاء توسط عامل روی نود خود
  • ارسال دستور العمل نظارتی به عامل برای اشیاء پیدا شده
  • ارسال داده های نظارتی به سرور
  • فرآیند نظارتی برای سناریو های بدون عامل متمایز است. گفتی است سناریو نظارت بدون عامل، برای زمانی طراحی شده است که بین Agentless managed computer و proxy agent فایروال قرار ندارد.
  • Agentless managed computers به منابع بیشتری روی management server در مقایسه با agent managed computers دارند.
  •  

    SCOM
    فرآیند کلی ارتباط عامل ها با Management Server
  • Agentless managed computers به منابع بیشتری روی management server در مقایسه با agent managed computers دارند. تمام عامل ها یک پکت دیتا به نام heartbeat، به صورت پیش فرض هر ۶۰ ثانیه یکبار، به management server ارسال می کنند. heartbeat یک پکت دیتا است که توسط Agent ارسال می شود و به صورت پیش فرض از پورت UDP: 5723 استفاده می کند. اگر ۴ heartbeat متوالی Fail شوند، یک هشدار Health Service Heartbeat Failure تولید می شود و Management Server با استفاده از ping تلاش می کند تا در دسترس بودن آن کامپیوتر را بررسی کند. در صورتی که پاسخ ping دریافت نگردد یک هشدار Failed to Connect to Computer تولید می گردد. تصویر زیر این رویه را نشان می دهد.
  •  

    Heartbeat
    عملکرد Heartbeat
  • به صورت پیش فرض، این دو هشدار برای سیستم عامل های Client غیر فعال است اما امکان فعال کردن آن وجود دارد.

View Types

هر کدام از View های مختلف در Operation Manager، اطلاعات مانیتورینگ را از جنبه های مختلفی نمایش می دهند. View های در دسترس به شرح زیر اند:

Alert View Type

Event View Type

State View Type

Performance View Type

Diagram View Type

Task Status View Type

Web Page View Type

Overrides Summary View Type

Dashboard View Type

Alert View Type

در Alert View امکان مشاهده Alert ها در یک حوزه مشخص همانند severity, resolution state و هشدار های تخصیص داده شده به کاربر وجود دارد. به عنوان مثال امکان یک Alert View سفارشی برای track کردن یک کامپیوتر unix-based وجود دارد.

image

  • Event View Type

Event View با Query از از Event log ها امکان نمایش رویداد ها بر اساس حوزه دارد. این رویداد ها صرفا مربوط به رویداد هایی است که توسط Management Pack ها و با بهره گیری از Agent ها جمع آوری شده اند و شامل تمام رویداد ها نمی باشد.

State View Type

State View ارتباط میان اجزاء و کامپیوتر ها و گروه ها کامپیوتر را نمایش می دهد. اپراتور امکان سفارشی سازی این View را نیز مشابه سایر View ها در اختیار دارد.

Performance View Type

Performance View که یکی از مهمترین View های در دسترس است، قابلیت نمایش داده های جمع آوری شده و ذخیره شده در Operational Database را دارد. در Performance View طبیعتا فقط امکان استفاده از Performance Counter هایی وجود دارد که با استفاده از Management Pack جمع آوری شده است.

image

Diagram View Type

Diagram View یک نمایش گرافیکی از Managed Object ها را در اختیار اپراتور قرار می دهد. Diagram View از یک layout جهت کنترل اطلاعات موجود در diagram استفاده می کند. امکان انتخاب از میان Template های پیش فرض و همچنین ساخت Template های سفارشی وجود دارد.

image

Task Status View Type

Task Status امکان مشاهده ی Task ها در حوزه مشخص شده را فراهم می آورد. کاربران عضو گروه Read-Only Operators امکان مشاهده و یا اجرای Task ها را ندارند.

با استفاده از نمای داشبورد، امکان ایجاد یک تصویر جامع از وضیعت Management Group ایجاد می گردد. Group Management Health view امکان نمایش وضعیت تمام عملکرد های Management Group همانند Resource Pool و Infrastructure را فراهم می آورد که به صورت پیش فرض هر ۱۵ دقیقه یک بار نمایش داده می شود. همچنین امکان نمایش Management Group Health در یک وب سایت Sharepoint با استفاده از Operation Manager Web Parts وجود دارد.

Management Group Function نمایشی از Function های نصب شده روی Management Group را ایجاد می کند که می تواند شامل موارد ذیل باشد:

  • Agentless exception monitoring
  • Audit collection services
  • System Center Data Access service group
  • System Center Management service group
  • Network discovery
  • Resource pools
  • Web user interfaces (web console and reporting web site)

Management Group Infrastructure شامل وضعیت ویژگی های زیرساختی به شرح زیر است

  • Operational database
  • Data warehouse database
  • Management group
  • Management servers
  • Gateway servers
  • Agents

در قسمت Agent Configuration امکان مشاهده وضعیت Agent ها در فلدر Pending Management و دلایل آن در Administration Workspace وجود دارد.

  • Monitoring Workspace

    برای اپراتور های Operation Manager، قسمت Monitoring Workspace اصلی محسوب می گردد. در این بخش امکان مشاهده ی یک overview که خلاصه ای از وضعیت اپلیکشین های توزیع شده و کامپیوتر ها است. تعداد Active Alert های بحرانی، هشدار ها و… در این بخش به خوبی خلاصه شده است.

  • SCOM
    Monitoring Overview
  • My Workspace

    My workspace امکان ساخت یک منطقه شخصی با قابلیت های شخصی سازی متنوع را در کنسول Operation Manager ایجاد می کند. امکان ساخت folder برای مدیریت کردن workspace افزودن shortcut و ذخیره search ها از جمله قابلیت هایی است که اپراتور Operation Manager می تواند به خوبی از آن ها بهره ببرد.

    Alerts و Tasks

    هشدار ها یا Alerts شامل اطلاعاتی هستند که برای یافتن و حل مشکلات کمک کننده اند. همچنین در قسمت Alert Description توضیحات بیشتری در خصوص Alert Properties به نسبت Health Explorer در دسترس است.

    یک Task یک فعالیتی است که توسط یک اپراتور در کنسول Operation Manager آغاز می گردد. Task ها بنا بر Management Pack های نصب شده متفاوت اند. به عنوان مثال با نصب SQL Server Management Pack قابلیت های مختص سرویس SQL همانند استارت کردن SQL agent Server اضافه می گردند. به صورت پیش فرض تعدادی Task ابتدایی با راه اندازی Operation Manager همانند Ping Check وجود دارد. Task ها از action account پیش فرض استفاده می کنند مگر آنکه Credential دیگری برای آن ها تخصیص یابد. لازم است Action Account دارای سطوح دسترسی لازم برای اجرای آن Task را داشته باشد.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *