رگرسیون یک روش یادگیری ماشینی نظارت شده برای درک رابطه بین متغیرها یا ویژگی های مستقل و یک متغیر یا نتیجه وابسته است. یکی از الگوریتمهایی که برای رگرسیون استفاده میشود، “Lasso Regression” است.
در اینجا، ما از دیتاست diamonds.csv برای اهداف رگرسیونی استفاده می کنیم و می توانید این دیتاست را از لینک بالای این صفحه دانلود کنید. این مجموعه داده دارای 9 متغیر ویژگی است:
“قیرات”, “برش”, “رنگ”,
“شفافیت”, “عمق”, “ نسبت عرضی (Table) ”,
“x”, “y” و “z”
و متغیر پیش بینی برابر است با: “ قیمت الماس ”.
در فرم بالا مقادیر 9 متغیر ویژگی را وارد کرده و مدل قیمت الماس را در یک فرم پاپ آپ برمی گرداند. از آنجایی که قیمت الماس در مجموعه داده از 326 دلار تا 18823 دلار است، هنگامی که مقادیر متغیرهای ویژگی را در فرم وارد می کنید، این امکان وجود دارد که اعداد منفی کوچک برگردانده شده توسط مدل lasso مانند: 50- دلار. بنابراین تمام قیمت های منفی کوچک را به 0 تبدیل کردیم.
همچنین 3 متغیر ویژگی از دیتاست ما متنی و 6 مورد از آنها عددی هستند. از این رو، برای استفاده از رگرسیون Lasso برای این دیتاست ترکیبی، باید متغیرهای ویژگی متنی را به برچسبهای عددی تبدیل کنیم و سپس میتوانیم از روش رگرسیون کمند استفاده کنیم.
توجه داشته باشید که مقادیر و محدوده های هر متغیر ویژگی به شرح زیر است:
نمونه کد مورد استفاده برای آموزش مدل رگرسیون Lasso در لینک بالای همین صفحه ارائه شده است. هر بار که این فرم را اجرا می کنید و پیش بینی ها اتفاق می افتد، مقادیر در پایگاه داده ذخیره می شوند و با لینک "نتایج" در بالای این صفحه، نتایج قبلی پیش بینی مدل را مشاهده خواهید کرد. اجرای اخیر شما به انتهای این لیست اضافه خواهد شد.