طبقه بندی یک روش یادگیری ماشینی نظارت شده است که در آن مدل سعی می کند برچسب صحیح یک داده ورودی داده شده را پیش بینی کند. یکی از الگوریتمهایی که برای طبقهبندی استفاده میشود، “K-Nearest Neighbor Classifier” است.
در اینجا، ما از مجموعه داده stars.csv برای اهداف طبقه بندی استفاده می کنیم و می توانید مجموعه داده را از لینک بالای این صفحه دانلود کنید.
این دیتاست دارای 6 متغیر ویژگی است:
“Temperature”, “Relative Luminosity”, “Relative Radius”, “Absolute Magnitude”, “General Obs. Color”, “SMASS Spec” .
و متغیر طبقه بندی برای هر مورد در دیتاست، نوع ستاره است که دارای 6 مقدار است:
“Red Dwarf”, “Brown Dwarf”, “White Dwarf”, “Main Sequence”, “Super Giants”, “Hyper Giants”.
در فرم بالا مقادیر 6 متغیر ویژگی را وارد می کنید و مدل به صورت فرم پاپ آپ نوع ستاره را برمی گرداند. از آنجایی که 2 متغیر ویژگی از دیتاست ما متنی و 4 مورد از آنها عددی است، برای استفاده از K-Nearest Neighbor برای این دیتاست ترکیبی، باید متغیرهای ویژگی متنی را به برچسب های عددی تبدیل کنیم و سپس می توانیم از طبقه بندی K-Nearest Neighbor استفاده کنیم.
فرمول "درخشندگی نسبی": L/Lo (Lo = 3.828 x 1026 وات که معادل میانگین درخشندگی خورشید است.)
فرمول "شعاع نسبی": R/Ro (Ro = 6.9551 x 108 m که معادل میانگین شعاع خورشید است.)
توجه داشته باشید که مقادیر و محدوده های هر متغیر ویژگی به شرح زیر است:
دما (بین 1939 و 40000)
درخشندگی نسبی (بین 0.00008 و 849420)
شعاع نسبی (بین 0.0084 و 1948.5)
بزرگی مطلق (بین 11.92- و 20.06)
کدهای رنگ ها:
0 → آبی
1 → آبی-سفید
2 → نارنجی
3 → نارنجی-قرمز
4 → نارنجی-زرد کم رنگ
5 → قرمز
6 → سفید
7 → مایل به سفید
8 → زرد-سفید
9 → مایل به زرد
کلاس های طیفی:
0 → A , 1 → B , 2 → F , 3 → G , 4 → K , 5 → M , 6 → O
برای اطلاعات بیشتر در مورد کلاس های طیفی، این لینک را مشاهده نمائید.
کد نمونه مورد استفاده برای آموزش مدل طبقه بندی “K-Nearest Neighbor” در لینک بالای همین صفحه ارائه شده است. هر بار که این فرم را اجرا می کنید و پیش بینی های طبقه بندی اتفاق می افتد، مقادیر در پایگاه داده ذخیره می شوند و با لینک "نتایج" در بالای این صفحه، نتایج قبلی پیش بینی مدل را مشاهده خواهید کرد. اجرای اخیر شما به انتهای این لیست اضافه خواهد شد.