طبقه‏بندی داده‌های نامتوازن در تشخیص اولیه بیماری‌های پستان با روش‌های آدابوست، شبکه عصبی احتمالی و K تا نزدیک‏ترین همسایه

درزی, محمد; الفت بخش, آسیه; گرگین, سعید; اویسی, فرید; هاشمی, عصمت; علوی, نسرین

پیام خود را بنویسید

ارسال به ایمیل

مجله علمی

بیماری های پستان ایران

پنجشنبه 30 فروردین 1403 | English [Archive]

جلد 9، شماره 2 - ( فصلنامه علمی - پژوهشی بیماری های پستان ایران 1395 ) جلد 9 شماره 2 صفحات 18-7 | برگشت به فهرست نسخه ها

‎ 20.1001.1.17359406.1395.9.2.1.5

Mendeley

Zotero

RefWorks

Darzi M, Olfat Bakhsh A, Gorgin S, Oveisi F, Hashemi E, Alavi N. Imbalanced Data Classification for Primary Diagnosis of Breast Diseases by AdaBoost.M1, K-Nearest Neighbor and Probabilistic Neural Network. ijbd 2016; 9 (2) :7-18
URL: http://ijbd.ir/article-1-525-fa.html

درزی محمد، الفت بخش آسیه، گرگین سعید، اویسی فرید، هاشمی عصمت، علوی نسرین. طبقه‏بندی داده‌های نامتوازن در تشخیص اولیه بیماری‌های پستان با روش‌های آدابوست، شبکه عصبی احتمالی و K تا نزدیک‏ترین همسایه. بیماری‌های پستان ایران. 1395; 9 (2) :7-18

URL: http://ijbd.ir/article-1-525-fa.html

طبقه‏بندی داده‌های نامتوازن در تشخیص اولیه بیماری‌های پستان با روش‌های آدابوست، شبکه عصبی احتمالی و K تا نزدیک‏ترین همسایه

محمد درزی

¹، آسیه الفت بخش

1- ، modarzi@yahoo.com

چکیده: (8674 مشاهده)

چکیده

مقدمه: سرطان پستان یکی از سرطان‏های شایع در ایران بوده و هرگونه اقدام تشخیصی به هنگام در این مورد می‏تواند جان بسیاری از مبتلایان به این سرطان را نجات بخشد. هدف از این پژوهش طبقهبندی دادههای نامتوازن مربوط به بانوان مراجعه‏کننده به کلینیک پژوهشکده سرطان پستان جهاددانشگاهی به منظور تعیین وضعیت ایشان و طبقهبندی نرمال و یا غیرنرمال بودن پستان مراجعه‏کنندگان بود. مجموعه دادههای نامتوازن یکی از چالشهای پیش روی طراحی سیستمهای پزشک‏یار برای طبقهبندی و تعیین وضعیت بیمار محسوب می‏شود که در این پژوهش از روشهای سطح داده برای حل آن استفاده شد.

روش بررسی: در این مطالعه برای طبقهبندی دادههای 918 نفر، سه الگوریتم AdaBoost.M1، k تا نزدیکترین همسایه و شبکه عصبی احتمالی به خدمت گرفته شد. از آنجا که دادههای این مطالعه نامتوازن بود، برای حل این مساله از روش بیش نمونه‏برداری تصادفی کلاس اقلیت، زیرنمونه برداری تصادفی کلاس اکثریت و بیش نمونه‏برداری مصنوعی کلاس اقلیت استفاده شد. به منظور پیاده‏سازی الگوریتمها از امکانات و ابزارهای نرمافزار «متلب» و «آر» استفاده گردید. همچنین برای ورودی الگوریتمهای طبقهبندی از 60 متغیر مندرج در کاربرگهای شرح حال و معاینه فیزیکی مراجعان استفاده شد. معیارهای دقت و F-measure به منظور ارزیابی در مرحله آزمون الگوریتمها مورد استفاده قرار گرفت.

یافته‏ها: بر اساس معیارهای دقت و F-measure، بهترین عملکرد الگوریتمهای سهگانه این مطالعه در مواجهه با مجموعه داده تولیدشده با روش بیش نمونه‏برداری مصنوعی کلاس اقلیت بود. در این راستا عملکرد الگوریتمهای AdaBoost.M1، k تا نزدیکترین همسایه و شبکه عصبی احتمالی در مواجهه با مجموعه داده مذکور و بر اساس معیارهای دقت و F-measure به ترتیب عبارتند از: 5/93 و 6/93، 5/79 و 7/87 و 86 و 9/91 بدست آمد.

نتیجه‏گیری: روشهای مختلفی برای حل مساله عدم توازن مجموعه دادهها به منظور طبقهبندی وجود دارد؛ نمونهگیری مجدد که از روشهای سطح داده محسوب میشود یکی از متداولترین آنهاست. از سه روش نمونهگیری مجددی که در این مطالعه استفاده شد، بهترین عملکرد طبقه‏بندها در مواجهه با مجموعه داده ایجاد شده در نتیجه نمونهگیری مجدد به روش بیش نمونه‏برداری مصنوعی کلاس اقلیت بود. از بین الگوریتمهای به خدمت گرفته شده و بر اساس معیارهای دقت و F-measure بهترین عملکرد در تمامی مجموعه دادههای این مطالعه متعلق به الگوریتم AdaBoost.M1 بود.

واژه‌های کلیدی: عدم توازن داده، طبقه‏بندی، بیماری پستان، K، AdaBoost.M1 تا نزدیک ترین همسایه، شبکه عصبی احتمالی، نمونه‏گیری مجدد.

متن کامل [PDF 920 kb] (6727 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: بیماریهای پستان
دریافت: 1395/6/27 | پذیرش: 1395/6/27 | انتشار: 1395/6/27

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

تمامی حقوق نرم‌افزاری اين وب سایت متعلق به مجله علمی بیماری‌های پستان ایران می‌باشد.

طراحی و برنامه نویسی: یکتاوب افزار شرق

Designed & Developed by: Yektaweb

مجله علمی

بیماری های پستان ایران

پایگاه‌های مرتبط