، پونه خدابخش2
، زیبا حیدرپور3
، صهبا پاک طینت2
، علیرضا آتشی4
مقدمه: متاستاز سرطان پستان یکی از علل اصلی مرگومیر ناشی از سرطان است. پیشبینی دقیق پیشرفت متاستاتیک برای تصمیمگیری بالینی ضروری است. هدف این مطالعه، توسعه و اعتبارسنجی مدلهای یادگیری ماشین مبتنی بر درخت برای پیشبینی متاستاز سرطان پستان در زنان ایرانی با استفاده از دادههای بالینی واقعی دارای میزان بالای دادههای مفقود بوده است.
روش بررسی: این مطالعهی گذشتهنگر شامل سوابق بالینی ۸٬۱۴۸ بیمار مبتلا به سرطان پستان بود که بین سالهای ۱۹۹۷ تا ۲۰۲۰ در تهران تحت درمان قرار گرفتند. پس از حذف متغیرهایی که بیش از ۵۰% دادهی مفقود داشتند و رکوردهای مرتبط با آنها، ۴٬۳۱۰ نمونهی کامل باقیماند (برای مثال، اندازهی تومور دارای 4/94% دادهی مفقود بود.) سه مدل درخت تصمیم، جنگل تصادفی و XGBoost (با قابلیت ذاتی در برخورد با دادههای ناقص) با دو الگوریتم مرجع K-NN و Naïve Bayes، با استفاده از اعتبارسنجی متقابل دهتایی مقایسه شدند. عملکرد مدلها با شاخصهای AUC، حساسیت، ویژگی و امتیاز F1 ارزیابی شد.
یافتهها: مدلهای مبتنی بر درخت عملکرد بهتری نسبت به روشهای سنتی داشتند؛ XGBoost بالاترین تمایز را نشان داد (AUC=0.96، دقت=99.4%،F1=0.96) و درخت تصمیم بیشترین قابلیت تفسیر بالینی را ارائه داد (حساسیت =94%، ویژگی=96.9%). علیرغم حذف متغیرهای کلیدی مانند اندازهی تومور و وضعیت HER2، متغیرهای باقیمانده مانند گیرندههای هورمونی و سن شروع قاعدگی توانستند پیشبینیهای دقیقی ارائه دهند. الگوریتم K-NN از نظر بالینی عملکرد ضعیفی داشت (حساسیت=%6) در حالیکه Naïve Bayes ناپایداری نسبی نشان داد (حساسیت=89.01).
نتیجهگیری: مدلهای درخت تصمیم و تجمیعشدهی آنها میتوانند بهطور قابلاعتمادی متاستاز را در دادههای واقعی ناقص پیشبینی کنند و از این رو برای محیطهای با منابع محدود گزینههای مناسبی بهشمار میروند. پژوهشهای آینده باید بر استانداردسازی جمعآوری دادهها و توسعهی رویکردهای ترکیبی جایگزینی دادههای مفقود تمرکز داشتهباشند. این مطالعه بر اهمیت استفاده از مدلهای یادگیری ماشین قابلتفسیر در کاربردهای انکولوژی، بهویژه در جمعیتهای کمتر مورد مطالعه، تأکید دارد.
| بازنشر اطلاعات | |
|
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |