معرفی فرایندهای داده کاوی

داده کاوی یک فن آوری  نسبتا جدید است. داده کاوی به عنوان فرآیند کشف دانش با تحلیل داده های بزرگ که در پایگاه های داده یا انبار داده ذخیره می شود می باشد. با استفاده از تکنیک های مختلف داده کاوی مانند یادگیری ماشین، هوش مصنوعی و آماری، تعریف می شود.

بسیاری از سازمان ها در صنایع مختلف از مزایای استفاده از داده کاوی از جمله تولید، بازاریابی، پتروشیمی، هوا فضا و غیره بهره می برند تا کارآیی کسب و کارشان را افزایش دهند. بنابراین، نیاز ها برای ایجاد یک فرایند داده کاوی استاندارد افزایش یافت. فرآیند داده کاوی باید  قابل اطمینان و تکرار پذیر باشد و همچنین ساده تا افرادی با کوچکترین دانش در زمینه داده کاوی بتوانند از آن استفاده کنند. در نتیجه، در سال ۱۹۹۰، یک فرآیند استاندارد  صنعت داده کاوی (CRISP-DM) اپس از گذراندن بسیاری از کارگاه ها و کمک های بیش از ۳۰۰ سازمان، منتشر شد.

بیایید فرایند استاندارد صنعت داده کاوی را با جزئیات بیشتری بررسی کنیم.

فرایند استاندارد متقابل صنعت معدن داده  (CRISP-DM) شامل شش مرحله است که به عنوان فرایند چرخه ای به عنوان شکل زیر ذکر شده است:

داده کاوی (data mining)

فهم کسب و کار

در فاز درک کسب و کار:

ابتدا لازم است که اهداف کسب و کار را به وضوح درک کنید و نیازهای کسب و کار را بیابید.

بعدا باید با پیدا کردن منابع، پیش فرض ها، محدودیت ها و سایر عوامل مهم که باید در نظر گرفته شود، وضعیت فعلی را ارزیابی کنیم.

پس ازااهداف کسب و کار و شرایط فعلی، ما باید اهداف داده کاوی را برای رسیدن به اهداف تجاری در وضعیت فعلی ایجاد کنیم.

در نهایت، یک برنامه ریزی داده کاوی خوب باید برای دستیابی به اهداف کسب و کار و داده های استخراج شده ایجاد شود. این طرح باید دقیق باشد.

درک اطلاعات

ابتدا فاز درک اطلاعات با جمع آوری داده های اولیه شروع می شود که از منابع داده موجود به دست می آید و به ما کمک می کند با داده ها آشنا شویم. برخی از فعالیت های مهم باید شامل بارگیری داده ها و ادغام داده ها به منظور جمع آوری داده ها با موفقیت انجام شود.

بعد، خصوصیات “ناخوشایند” یا “سطح” داده های به دست آمده باید با دقت مورد بررسی قرار گیرد و گزارش شود.

سپس، داده ها باید با بررسی سوالات داده کاوی مورد بررسی قرار گیرند، که می تواند با استفاده از query، گزارش دهی و تجسم بررسی شوند.

در نهایت کیفیت داده باید با پاسخ دادن به برخی از سوالات مهم مانند “آیا داده های به دست آمده کامل شده است”، “آیا داده های غلط در داده های به دست آمده وجود دارد؟”

تهیه داده ها

آماده سازی داده ها معمولا حدود ۹۰٪ زمان پروژه را مصرف می کند. نتیجه مرحله آماده سازی داده ها مجموعه داده نهایی است. هنگامی که منابع داده های موجود شناسایی می شوند، باید آنها را انتخاب، تمیز، ساخت و فرمت شده به فرم مورد نظر. وظیفه اکتشاف داده ها در عمق بیشتری ممکن است در طی این مرحله انجام شود تا الگوهای مبتنی بر درک کسب و کار را متوجه شوند.

مدل سازی

اول، تکنیک های مدل سازی باید انتخاب شوند که برای مجموعه داده آماده استفاده شوند.

بعد، سناریو تست باید برای اعتبار کیفیت و اعتبار مدل ایجاد شود.

سپس، با استفاده از ابزار مدل سازی در مجموعه داده آماده، یک یا چند مدل ایجاد می شود.

در نهایت، مدل ها باید با دقت با توجه به ذینفعان بررسی شوند تا اطمینان حاصل شود که مدل های ایجاد شده با ابتکارات تجاری ملاقات می شود.

ارزیابی

در مرحله ارزیابی، نتایج مدل باید در زمینه اهداف کسب و کار در مرحله اول مورد ارزیابی قرار گیرد. در این مرحله، الزامات جدید کسب و کار ممکن است با توجه به الگوهای جدید که در نتیجه مدل یا سایر عوامل کشف شده است مطرح شود. درک کسب و کار، یک فرآیند تکراری در داده کاوی است. در این مرحله بایستی تصمیم بگیرید که بروید یا نه بروید تا به مرحله ی استقرار بروید.

گسترش

دانش یا اطلاعاتی که ما از طریق فرایند داده کاوی به دست می آوریم، باید به گونه ای ارائه شود که ذینفعان بتوانند از آن هنگام استفاده کنند. بر اساس الزامات کسب و کار، مرحله استقرار می تواند به همان اندازه ایجاد یک گزارش یا به عنوان پیچیده ای به عنوان فرآیند پردازش داده های تکراری در سراسر سازمان باشد. در مرحله استقرار، برنامه ریزی برای استقرار، نگهداری و نظارت باید برای پیاده سازی و همچنین حمایت های آینده ایجاد شود. از دیدگاه پروژه، گزارش نهایی پروژه نیاز به خلاصه کردن تجارب پروژه و بررسی پروژه برای دیدن آنچه که نیاز به بهبود درس های یاد شده ایجاد شده است.

CRISP-DM چارچوب یکسانی برای مستند سازی و راهنمایی تجربه ارائه می دهد. علاوه بر این، CRISP-DM می تواند در صنایع مختلف با انواع داده های مختلف اعمال شود.

در این آموزش، شما در مورد فرایندهای داده کاوی یاد گرفته اید و فرایند استاندارد متقابل صنعت را برای معدن داده بررسی کرده اید.

در دامه با سایر آموزش های ما در زمینه داده کاوی همراه باشید.

برای اگاهی از سر فصل ها آموزش data mining کلیک کنید

پاسخ دهید