درک منحنی AUC – ROC
در یادگیری ماشین، اندازهگیری عملکرد یک وظیفه ضروری است. بنابراین وقتی صحبت از یک مشکل طبقه بندی می شود، می توانیم روی یک منحنی AUC – ROC حساب کنیم. هنگامی که نیاز به بررسی یا تجسم عملکرد مسئله طبقه بندی چند کلاسه داریم، از منحنی AUC (منطقه زیر منحنی) ROC (ویژگی های عملیاتی گیرنده) استفاده می کنیم. این یکی از مهمترین معیارهای ارزیابی برای بررسی عملکرد هر مدل طبقه بندی است. همچنین به عنوان AUROC (منطقه زیر مشخصات عملیاتی گیرنده) نوشته شده است.
این مقاله قصد دارد به سوالات زیر پاسخ دهد:
1. منحنی AUC – ROC چیست؟
2. تعریف اصطلاحات مورد استفاده در منحنی AUC و ROC.
3. چگونه می توان عملکرد مدل را حدس زد؟
4. رابطه بین حساسیت، ویژگی، FPR، و آستانه.
5. چگونه از منحنی AUC – ROC برای مدل چند کلاسه استفاده کنیم؟
منحنی AUC – ROC چیست؟
منحنی AUC – ROC یک اندازه گیری عملکرد برای مشکلات طبقه بندی در تنظیمات آستانه های مختلف است. ROC یک منحنی احتمال است و AUC نشان دهنده درجه یا معیار تفکیک پذیری است. این نشان می دهد که مدل چقدر می تواند بین کلاس ها تمایز قائل شود. هر چه AUC بالاتر باشد، مدل در پیشبینی کلاسهای 0 بهعنوان 0 و کلاسهای 1 بهعنوان 1 بهتر است. بر اساس قیاس، هرچه AUC بالاتر باشد، مدل در تشخیص بیماران مبتلا به بیماری و بدون بیماری بهتر است.
منحنی ROC با TPR در مقابل FPR ترسیم می شود که در آن TPR روی محور y و FPR روی محور x قرار دارد.
تعریف اصطلاحات مورد استفاده در منحنی AUC و ROC.
TPR (نرخ مثبت واقعی) / فراخوان / حساسیت
اختصاصی
FPR
چگونه می توان در مورد عملکرد مدل حدس زد؟
یک مدل عالی دارای AUC نزدیک به 1 است که به این معنی است که معیار خوبی برای تفکیک پذیری دارد. یک مدل ضعیف دارای AUC نزدیک به 0 است که به این معنی است که بدترین معیار تفکیک پذیری را دارد. در واقع به این معنی است که نتیجه را متقابل می کند. 0 ها را به صورت 1 و 1 ها را به صورت 0 پیش بینی می کند. و وقتی AUC 0.5 باشد، به این معنی است که مدل به هیچ وجه ظرفیت جداسازی کلاس را ندارد.
بیایید عبارات فوق را تفسیر کنیم.
همانطور که می دانیم، ROC یک منحنی احتمال است. پس بیایید توزیع این احتمالات را رسم کنیم:
توجه: منحنی توزیع قرمز از کلاس مثبت (بیماران مبتلا) و منحنی توزیع سبز از کلاس منفی (بیماران بدون بیماری) است.
این یک وضعیت ایده آل است. وقتی دو منحنی به هیچ وجه با هم همپوشانی ندارند، به این معنی است که مدل معیاری ایدهآل برای تفکیک پذیری دارد. کاملاً قادر به تشخیص طبقه مثبت و طبقه منفی است.
هنگامی که دو توزیع با هم همپوشانی دارند، خطاهای نوع 1 و نوع 2 را معرفی می کنیم. بسته به آستانه، می توانیم آنها را به حداقل یا حداکثر برسانیم. وقتی AUC 0.7 است، به این معنی است که 70٪ احتمال دارد که مدل بتواند بین کلاس مثبت و کلاس منفی تمایز قائل شود.
این بدترین وضعیت است. زمانی که AUC تقریباً 0.5 باشد، مدل ظرفیت تمایز قائل شدن بین کلاس مثبت و کلاس منفی را ندارد.
زمانی که AUC تقریباً 0 باشد، مدل در واقع کلاسها را متقابل میکند. به این معنی که مدل یک کلاس منفی را به عنوان یک کلاس مثبت پیش بینی می کند و بالعکس.
رابطه بین حساسیت، ویژگی، FPR و آستانه.
حساسیت و ویژگی با یکدیگر نسبت معکوس دارند. بنابراین وقتی حساسیت را افزایش می دهیم، Specificity کاهش می یابد و بالعکس.
حساسیت⬆️، ویژگی⬇️ و حساسیت⬇️، ویژگی⬆️
وقتی آستانه را کاهش میدهیم، مقادیر مثبت بیشتری به دست میآوریم، بنابراین حساسیت را افزایش میدهیم و ویژگی را کاهش میدهیم.
به طور مشابه، وقتی آستانه را افزایش میدهیم، مقادیر منفی بیشتری دریافت میکنیم، بنابراین ویژگی بالاتر و حساسیت کمتری به دست میآوریم.
همانطور که می دانیم FPR ویژگی 1 است. بنابراین وقتی TPR را افزایش می دهیم، FPR نیز افزایش می یابد و بالعکس.
TPR⬆️، FPR⬆️ و TPR⬇️، FPR⬇️
چگونه از منحنی AUC ROC برای مدل چند کلاسه استفاده کنیم؟
در یک مدل چند کلاسه، میتوانیم N عدد منحنی AUC ROC را برای N کلاس عددی با استفاده از روش One vs ALL رسم کنیم. به عنوان مثال، اگر شما سه کلاس به نامهای X، Y و Z دارید، یک ROC برای X خواهید داشت که در برابر Y و Z طبقهبندی شده است، یک ROC دیگر برای Y که در برابر X و Z طبقهبندی شده است، و سومین کلاس از Z در برابر Y و طبقهبندی شده است. ایکس.
با تشکر برای خواندن.
امیدوارم درک درستی از منحنی AUC – ROC به شما داده باشم. اگر این پست را دوست دارید، کمی انگیزه اضافی با دادن چند دست زدن به این پست مفید خواهد بود ?. من همیشه آماده سوالات و پیشنهادات شما هستم. شما می توانید این را در فیس بوک، توییتر، لینکدین به اشتراک بگذارید، بنابراین ممکن است کسی که نیاز دارد به این موضوع برخورد کند.
موفق باشید .
دیدگاهتان را بنویسید