جدول ۴- ۵:مقایسه نتایج بدست آمده برای مجموعه داده Pima با سایر روش‌ها ۹۹
پایان نامه
جدول ۴- ۶: نتایج سایر مطالعات صورت گرفته بر روی مجموعه داده Pima 100
فهرست تصاویر و نمودارها
عنوان صفحه
شکل ۲- ۱: فرایند داده‌کاوی و کشف دانش ۱۲
شکل ۲- ۲: ساختار SLP 17
شکل ۲- ۳: ساختار یک نرون (گره) ۱۸
شکل ۲- ۴: درخت تصمیم جدول (۲-۱) ۲۱
شکل ۲- ۵: مثالی از شبکه‌ی بیزین ۲۲
شکل ۲- ۶: دسته‌بند ماشین بردار پشتیبان ۲۵
شکل ۲- ۷: دسته‌بند ماشین بردار پشتیبان با حاشیه نرم ۲۷
شکل ۲- ۸: شبه کد الگوریتم بهینه‌سازی ازدحام ذرات ۳۴
شکل ۲- ۹: تشریح هندسی مولفه‌های شخصی و اجتماعی در PSO 35
شکل ۲- ۱۰: ساختار یک سیستم قانونمند فازی ۵۹
شکل ۲- ۱۱: ناحیه تصمیم هر قانون فازی ۶۰
شکل ۲- ۱۲: مرزهای دسته‌بندی نُه قانون فازی ۶۰
شکل ۲- ۱۳:مرز دسته‌بندی بعد از اصلاح توابع عضویت ۶۱
شکل ۲- ۱۴: ناحیه تصمیم هر قانون فازی در حالتی که جداول قانون فازی ناکامل باشد ۶۲
شکل ۲- ۱۵: ناحیه تصمیم هر قانون فازی با درجات ۶۳
شکل ۲- ۱۶: تنظیم مرزهای دسته‌بندی بدون استفاده از درجه قطعیت ۶۳
شکل ۲- ۱۷: تنظیم مرزهای دسته‌بندی با بهره گرفتن از درجه قطعیت ۶۴
شکل ۲- ۱۸: تعیین دسته نتیجه و درجه قطعیت ۶۵
شکل ۲- ۱۹: بیش برازش ۷۱
شکل ۳- ۱: نمای کلی مدل پیشنهادی برای واکشی سیستم فازی ۷۴
شکل ۳- ۲: توابع عضویت فازی (S:Small, MS: Medium Small, M: Medium, ML: Medium Large, L: Large) 76
شکل ۳- ۳: نمایش گرافیکی پارامترهای توابع عضویت پیشنهادی ۷۷
شکل ۳- ۴: نمایش گرافیکی فضای جستجو برای یک مسئله چهار بعدی با سه بازه فازی ۷۸
شکل ۳- ۵: کدگذاری پارامترهای متغیرهای ورودی و خروجی ۷۹
شکل ۳- ۶:کدگذاری هر ذره شامل پارامترهای توابع عضویت و مجموعه قوانین ۸۰
شکل ۳- ۷: فلوچارتPSO 83
شکل ۳- ۸: تابع Membership_and_Rule_Learn 86
شکل ۴- ۱: توزیع مقادیر خصیصه‌های مختل مجموعه داده Pima 93
شکل ۴- ۲: توزیع خصیصه اول ۲۰ نمونه‌ی اول pima 94
شکل ۴- ۳: تأثیر پارامتر SwarmSize بر کارایی ۹۵
شکل ۴- ۴: تأثیر پارامتر w بر کارایی ۹۶

فصل اول – مقدمه و کلیات تحقیق

 

۱-۱- مقدمه

افزایش استفاده از کامپیوترها در فعالیت‌های کسب و کار، منجر به رشد سریع پایگاه‌های اطلاعاتی و اجتماع داده‌ها توسط بیشتر سازمان‌ها شده است. روزانه حجم عظیمی از داده‌ها تولید شده و در پایگاه‌های مختلف داده ذخیره می‌شود. در سال‌های اخیر تمایل به جستجو برای کشف الگوهای تکرار‌پذیر به منظور بهبود در تصمیم گیری افزایش چشمگیری داشته است. همچنین کاوش در داده‌های تراکنشی جهت یافتن الگوهای پنهان و تکنیک‌های کشف دانش به منظور شناخت دقیق‌تر و بیشتر تراکنش‌ها، اهمیت بسزایی یافته است. [۱]. در حوزه پزشکی و سلامت با افزایش استفاده از سیستم‌های جامع درمانی و پرونده‌های الکترونیک بیمار در بیمارستان‌ها و مراکز درمانی حجم انبوهی از اطلاعات مربوط بیماران و انواع بیماری‌ها مهیا می‌شود. [۲]. استخراج دانایی از حجم عظیم داده‌های مرتبط با سوابق بیماری و پرونده‌های پزشکی افراد با بهره گرفتن از فرایند داده‌کاوی می‌تواند منجر به شناسایی قوانین حاکم بر ایجاد، رشد و افت بیماری‌ها گردیده و اطلاعات ارزشمندی را به منظور شناسایی علل وقوع بیماری‌ها با توجه به عوامل محیطی حاکم در اختیار متخصصین و دست اندر کاران حوزه سلامت قرار دهد؛ که این امر در نهایت منجر به افزایش متوسط طول عمر افراد جامعه و ایجاد آرامش می‌گردد. [۳].
آنچه مسلم است با افزایش سیستم‌های الکترونیک سلامت حجم داده‌های پزشکی هر روزه در حال افزایش است. اما این مجموعه داده‌های بزرگ به طور خام هیچ کاربردی ندارد برای آنکه بتوان از این داده‌ها ارزشی را استخراج کرد نیاز به تحلیل داده‌ها و تبدیل آن به اطلاعات و دانش، یک نیاز اساسی است. با توجه به چنین حجمی از داده‌ها استفاده از عامل انسانی به عنوان تشخیص دهنده الگوها و تحلیلگر داده‌ها پاسخگو نمی‌باشد؛ لذا داده کاوی روی داده‌های پزشکی از اهمیت بالایی برخوردار است. داده‌کاوی را می‌توان از جنبه‌های مختلف در پیشگیری یا تشخیص انواع بیماری، انتخاب روش‌های درمان بیماری، مدت زمان بستری بیمار و … به کار برد.

۱-۲- بیان مسأله

دیابت یکی از بیماری‌های رایج در جوامع امروزی است که دارای عوارض خطرناکی می‌باشد. این بیماری اگر چه گونه‌ای از بیماری‌های قلبی محسوب نمی‌شود ولی اغلب سبب بیماری‌های قلبی می‌شود.
تشخیص بیماری دیابت و یا آگاهی یافتن از احتمال بالای ابتلا به این بیماری همواره کار آسانی نخواهد بود. چرا که این بیماری علائم متعددی را بروز می‌دهد که بعضی از این علائم در سایر بیماری‌ها نیز وجود دارند. بنابراین پزشک برای اتخاذ یک تصمیم مناسب، باید نتیجه‌ی آزمایش‌های بیمار و تصمیم‌های که در گذشته برای بیماران با وضیعت مشابه گرفته است، را بررسی کند. با توجه به حجم انبوه تعداد بیماران، می‌توان از یک ابزار داده‌کاوی برای شناخت الگوی بیماران قبلی استفاده کرد.
در این پایان‌نامه با توجه به ماهیت مسأله از یک الگوریتم دسته‌بندی برای تشخیص بیماری دیابت استفاده می‌کنیم سپس آن‌را با سایر روش‌ها ارائه شده مقایسه می‌کنیم. روش دسته بندی یک روش یادگیری با نظارت است که داده‌های ورودی به دو بخش داده‌های آموزش و داده‌های آزمون تقسیم می‌شوند. هر الگوریتم کاندید، ابتدا با بهره گرفتن از مجموعه داده آموزش یک مدل را که نشان دهنده الگوی حاکم بر داده‌ها می‌باشد را استخراج می‌کند و سپس با بهره گرفتن از مجموعه آزمون دقت مدل ارائه شده برای دسته‌بندی را بررسی می‌کند.
الگوریتم‌های متعددی برای دسته بندی ارائه شده‌اند که از آن دسته می‌توان؛ به شبکه‌های بیزین [۴]، روش‌های مبتنی بر درخت [۵]، الگوریتم ماشین بردار پشتیبان [۶]، روش‌های مبتنی بر مجموعه فازی [۷]، الگوریتم‌های فرا اکتشافی [۸] و شبکه‌های عصبی [۹] اشاره کرد.
در این نوشتار قصد داریم برای استخراج قوانین فازی از یک الگوریتم آموزش دیده مبتنی بر هوش جمعی، بهینه‌سازی ازدحام ذرات (PSO) استفاده کنیم. خاصیت اصلی الگوریتم‌های هوش جمعی تبادل اطلاعات بین ذرات است که در یافتن حالت بهینه بسیار موثر می‌باشند.
سعی شده با در نظر گرفتن نقاط ضعف و قوت روش‌های مختلف داده کاوی یک الگوریتم ترکیبی برای تشخیص بیماری ارائه شود. الگوریتم شبکه عصبی معمولاً نرخ دسته بندی مناسبی را ارائه می‌دهد ولی از شفافیت لازم برخوردار نیست. بنابراین نمی‌توان این اطلاعات را توسط سیستم‌های خبره بررسی کرد. برای حل این مسئله باید یک ارائه قابل فهم انسانی از دسته‌بندی ایجاد کرد. این هدف می‌تواند با استخراج قوانین فازی تولید شده که برای کاربر قابل فهم است بدست بیاید.
دو معیار اصلی برای برازش الگوریتم‌های دسته‌بندی؛ نرخ دسته بندی و قابلیت تفسیر می‌باشد. نرخ دسته بندی میزان دقت کار الگوریتم در دسته بندی نمونه‌های آزمون را نشان می‌دهد و قابلیت تفسیر به معنی میزان سادگی و قابلیت توسعه روش دسته بندی می‌باشد.
در سال‌های اخیر قوانین فازی از آن جهت که هم دقت مناسبی دارند وهم قابلیت تفسیر مناسبی را ارائه می‌دهند بیشتر مورد توجه قرار گرفته‌اند. یک الگوریتم فازی از آن جهت مورد توجه می‌باشد که شامل مجموعه‌ای از قوانین اگر-آنگاه فازی می‌شود که تفسیر آن‌ها توسط انسان خبره امکان پذیر است. مسئله اساسی در چنین سیستم‌هایی انتخاب مجموعه‌ای از قوانین فازی بهینه است؛ لذا این مسئله را می‌توان نوعی از بهینه سازی ترکیبی در نظر گرفت که با رشد ابعاد مسئله دسته بندی، تعداد جواب‌های بهینه محلی نیز به صورت نمایی افزایش می‌یابد و الگوریتم کاندید برای حل آن باید مجموعه‌ای از جواب‌های بهینه یا نزدیک به بهینه را ارائه دهد [۱۰].

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...