جلد 9، شماره 2 - ( فصلنامه علمی - پژوهشی بیماری های پستان ایران 1395 )                   جلد 9 شماره 2 صفحات 18-7 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Darzi M, Olfat Bakhsh A, Gorgin S, Oveisi F, Hashemi E, Alavi N. Imbalanced Data Classification for Primary Diagnosis of Breast Diseases by AdaBoost.M1, K-Nearest Neighbor and Probabilistic Neural Network. ijbd. 2016; 9 (2) :7-18
URL: http://ijbd.ir/article-1-525-fa.html
درزی محمد، الفت بخش آسیه، گرگین سعید، اویسی فرید، هاشمی عصمت، علوی نسرین. طبقه‏بندی داده‌های نامتوازن در تشخیص اولیه بیماری‌های پستان با روش‌های آدابوست، شبکه عصبی احتمالی و K تا نزدیک‏ترین همسایه. فصلنامه بیماری های پستان ایران. 1395; 9 (2) :18-7

URL: http://ijbd.ir/article-1-525-fa.html


، modarzi@yahoo.com
چکیده:   (6859 مشاهده)

چکیده

مقدمه: سرطان پستان یکی از سرطان‏های شایع در ایران بوده و هرگونه اقدام تشخیصی به هنگام در این­ مورد می‏تواند جان بسیاری از مبتلایان به این سرطان را نجات بخشد. هدف از این پژوهش طبقه­بندی داده­های نامتوازن مربوط به بانوان مراجعه‏کننده به کلینیک پژوهشکده سرطان پستان جهاددانشگاهی به منظور تعیین وضعیت ایشان و طبقه­بندی نرمال و یا غیرنرمال بودن پستان مراجعه‏کنندگان بود. مجموعه داده­های نامتوازن یکی از چالش­های پیش روی طراحی سیستم­های پزشک‏یار برای طبقه­بندی و تعیین وضعیت بیمار محسوب می‏شود که در این پژوهش از روش­های سطح داده برای حل آن استفاده شد.

روش بررسی: در این مطالعه برای طبقه­بندی داده­های 918 نفر، سه الگوریتم AdaBoost.M1، k تا نزدیک­ترین همسایه و شبکه عصبی احتمالی به خدمت گرفته شد. از آنجا که داده­های این مطالعه نامتوازن بود، برای حل این مساله از روش بیش نمونه‏برداری تصادفی کلاس اقلیت، زیرنمونه برداری تصادفی کلاس اکثریت و بیش نمونه‏برداری مصنوعی کلاس اقلیت استفاده شد. به منظور پیاده‏سازی الگوریتم­ها از امکانات و ابزارهای نرم­افزار «متلب» و «آر» استفاده گردید. همچنین برای ورودی الگوریتم­های طبقه­بندی از 60 متغیر مندرج در کاربرگ­­­های شرح حال و معاینه فیزیکی مراجعان استفاده شد. معیارهای دقت و F-measure به منظور ارزیابی در مرحله آزمون الگوریتم­ها مورد استفاده قرار گرفت. 

یافته‏ها: بر اساس معیارهای دقت و F-measure، بهترین عملکرد الگوریتم­های سه­گانه این مطالعه در مواجهه با مجموعه داده تولیدشده با روش بیش نمونه‏برداری مصنوعی کلاس اقلیت بود. در این راستا عملکرد الگوریتم­های AdaBoost.M1، k تا نزدیک­ترین همسایه و شبکه عصبی احتمالی در مواجهه با مجموعه داده مذکور و بر اساس معیارهای دقت و F-measure به ترتیب عبارتند از: 5/93 و 6/93، 5/79 و 7/87 و 86 و 9/91 بدست آمد.

نتیجه‏گیری: روش­های مختلفی برای حل مساله عدم توازن مجموعه داده­ها به منظور طبقه­بندی وجود دارد؛ نمونه­گیری مجدد که از روش­های سطح داده محسوب می­شود یکی از متداول­ترین آنهاست. از سه روش نمونه­گیری مجددی که در این مطالعه استفاده شد، بهترین عملکرد طبقه‏بندها در مواجهه با مجموعه داده ایجاد شده در نتیجه نمونه­گیری مجدد به روش بیش نمونه‏برداری مصنوعی کلاس اقلیت بود. از بین الگوریتم­های به خدمت گرفته شده و بر اساس معیارهای دقت و F-measure بهترین عملکرد در تمامی مجموعه داده­های این مطالعه متعلق به الگوریتم AdaBoost.M1 بود.

متن کامل [PDF 920 kb]   (5355 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: بیماریهای پستان
دریافت: 1395/6/27 | پذیرش: 1395/6/27 | انتشار: 1395/6/27

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به فصلنامه علمی- پژوهشی بیماری های پستان ایران می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2022 CC BY-NC 4.0 | Iranian Quarterly Journal of Breast Disease

Designed & Developed by : Yektaweb