مقادیر دور افتاده[۶۶] یا حدی، مقادیر گم شده[۶۷]، صفات تکراری[۶۸]، داده­هایی که در فرم مناسب برای مدل­سازی نیستند و داده­هایی که با عقل سلیم جور در نمی­آیند. برای این منظور در داده‌کاوی روش­های مختلف تمیز کردن و تغییر شکل داده‌ها ارائه گردیده است [۱۱].
پایان نامه - مقاله - پروژه
مدل­سازی: در این گام، روش‌های متفاوت مدل‌سازی انتخاب و بکار گرفته می­ شود، و پارامترهای آن­ها به صورت مقادیر بهینه تنظیم می­ شود. بعضی از روش­ها ساختار داده­ای خاصی را می­طلبند. بین فازهای آماده‌سازی و مدل‌سازی داده‌ها ارتباط نزدیکی برقرار است. اغلب مشکلات داده‌ها حین مدل‌سازی درک می­ شود و یا ایده­هایی برای ساخت داده‌های جدید به ذهن می­رسد [۵۰].
این گام شامل بخش­های زیر است [۱۱]:

 

    • انتخاب و استفاده از تکنیک مدل­سازی مناسب

 

    • دست­کاری و تنظیم مدل برای دستیابی به نتایج بهینه

 

    • در صورت نیاز برگشت به گام پیش­پردازش

 

ارزیابی: در پروژه­ای که بر اساس یک یا چند مدل ساخته شده است، پیش از رسیدن به گام به‌کارگیری، مدل­ها باید به طور دقیق ارزیابی شوند و گام‌های اجرایی ساخت مدل­ها بازبینی شوند تا از حصول اهداف کسب و کار اطمینان حاصل شود [۵۰]. مدل­های داده‌کاوی باید به فرایند تصمیم ­گیری کمک کنند [۳۱]. پس مدل زمانی مفید است که تفسیر پذیر باشد زیرا انسان‌ها مایل به استفاده از اصول پیچیده در فرایند تصمیم ­گیری جعبه سیاه مانند خود نیستند [۱۱].
به‌کارگیری: عموماً ساخت مدل پایان کار پروژه نیست. معمولاً دانش حاصل از این چرخه باید به صورتی سازماندهی و ارائه شود که مشتری نهایی بتواند از آن استفاده نماید. بسته به نیازمندی­ها، فاز به‌کارگیری می ­تواند به سادگی یک گزارش و یا به پیچیدگی اجرای یک فرایند داده‌کاوی تکرارپذیر[۶۹] باشد. در بسیاری از موارد کاربر یک تحلیلگر داده نیست که گام‌های استقرار را درک نماید. بنابراین نکات لازم باید برای او توضیح و تبیین شود [۵۰].
هر کدام از گام‌های مدل فرایند CRISP-DM که پیش از این تفسیر شد شامل کارهای[۷۰] مختلفی است که کارهای مربوط به هر گام و خروجی آن به طور خلاصه در جدول ۲-۴ آمده است.
جدول ۲-۴ فعالیت‌های مربوط به فازهای CRISP-DM و خروجی هر فعالیت [۵۰]

 

درک کسب­وکار درک داده‌ها آماده‌سازی داده‌ها مدل­سازی ارزیابی به‌کارگیری
-تعیین اهداف کسب­وکار
درک اهداف کسب و کار و معیارهای موفقیت[۷۱] آن
-ارزیابی وضعیت
موجودی منابع، نیازمندی­ها، فرضیات، محدودیت­ها، ریسک­ها و احتمالات، مجموعه اصطلاحات[۷۲] و هزینه­ها و فایده­ها
-تعیین اهداف داده‌کاوی
اهداف داده‌کاوی، عوامل موفقیت داده‌کاوی
-تولید طرح پروژه
طرح پروژه
تخمین اولیه ابزارها و تکنیک­ها
-جمع آوری داده‌های اولیه
گزارش جمع آوری داده‌های اولیه
-توصیف داده‌ها
گزارش توصیف داده‌ها
-مرور[۷۳] داده‌ها
گزارش مرور داده‌ها
-ارزیابی کیفیت داده‌ها
گزارش کیفیت داده‌ها
-جمع آوری داده‌ها
توصیف مجموعه داده
-انتخاب داده
منطق انتخاب/حذف[۷۴] داده‌ها
-پاک‌سازی داده‌ها
گزارش پاک‌سازی داده‌ها
-ساختاردهی داده‌ها
تفکیک ویژگی­ها
تولید رکوردها
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...