loading...

همه چیز درباره امنیت اطلاعات ، امنیت شبکه ، هک و تست نفوذ قانونمند

بازدید : 40
يکشنبه 20 فروردين 1402 زمان : 2:40

یادگیری ماشین با نظارت | Supervised Machine Learning نوعی یادگیری است که در آن ماشین یا مدل با استفاده از داده های آموزشی (دارای برچسب صحیح) آموزش داده می شود تا بتواند برای داده های تستی یا جدید، فرایند تشخیص برچسب (تشخیص خروجی یا پیش بینی خروجی) را انجام دهند. منظور از داده های دارای برچسب این است که برخی از داده های ورودی قبلاً با خروجی صحیح برچسب گذاری شده اند.

داده های آموزشی (دارای برچسب صحیح) در یادگیری ماشین با نظارت | Supervised Machine Learning برای آموزش یک مدل یا ماشین استفاده می شود تا بعدها آن مدل بتواند با توجه به آموزش فرا گرفته شده در امتحانات نمره خوبی کسب کند. منظور از امتحانات، همان پیش بینی برچسب صحیح برای داده های ورودی جدید می باشد. شما می تواند این پاراگراف را از طریق مثال یک دانش آموز و معلم بهتر درک کنید. به عنوان مثال در مدرسه، معلم سوالات و پاسخ های صحیح را به دانش آموز آموزش می دهد و در پایان ترم از دانش اموز امتحان می گیرد، اگر دانش آموز بتواند برای سوالات، پاسخ های درستی بنویسید نمره خوبی کسب می کند در غیر این صورت ممکن از رفوزه شود.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

هدف یک الگوریتم یادگیری با نظارت، یافتن یک تابع نگاشت برای ترسیم متغیر ورودی (x) با متغیر خروجی (y) است یا نگاشت یک سوال به یک پاسخ صحیح می باشد.

در دنیای واقعی، از یادگیری با نظارت می توان برای ارزیابی ریسک، طبقه بندی تصویر، تشخیص تقلب، فیلتر هرزنامه و غیره نیز استفاده کرد.

یادگیری با نظارت | Supervised Machine Learning چگونه کار می کند

در یادگیری نظارت شده | Supervised Machine Learning، مدل‌ها با استفاده از مجموعه داده‌های برچسب‌گذاری شده آموزش داده می‌شوند، پس از تکمیل فرآیند آموزش، مدل بر اساس داده های آزمون دارای برچسب واقعی (زیرمجموعه ای از مجموعه داده) آزمایش می شود تا برای آن ها خروجی صحیح را پیش بینی کند. اگر خروجی بدست امده شده مانند خروجی واقعی داده های آزمون باشد می توانیم بگیم مدل ما از دقت خوبی برخوردار است و می تواند در کسب و کار به منظور افزایش سود دهی از آن استفاده کرد در غیر اینصورت باید به فکر چاره در فرآیند کار بود.

فرض کنید مجموعه داده ای از انواع مختلف اشکال داریم که شامل مربع، مستطیل، مثلث و چند ضلعی است. اکنون اولین قدم این است که باید مدل را برای هر شکل آموزش دهیم.

  • اگر شکل داده شده چهار ضلع داشته باشد و همه اضلاع آن برابر باشند، آن را به عنوان مربع علامت گذاری می کنیم .
  • اگر شکل داده شده دارای سه ضلع باشد، به عنوان یک مثلث علامت گذاری می شود .
  • اگر شکل داده شده شش ضلع مساوی داشته باشد، به عنوان شش ضلعی علامت گذاری می شود .

حالا بعد از گام آموزش، مدل خود را با استفاده از مجموعه تست ( آزمایش )، تست (ارزیابی) می کنیم تا ببینیم برای شکل های تستی به درستی فرایند تشخیص نوع شکل را با توجه به تعداد اضلاع آن، انجام می دهد یا خیر.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

مراحل مربوط به یادگیری با نظارت:

  • ابتدا یک مجموعه داده یا دیتاست انتخاب می کنیم.
  • سپس مجموعه داده را به مجموعه داده آموزشی (75 درصد داده ها) و مجموعه داده آزمایشی (25 درصد داده ها) تقسیم کنید.
  • ویژگی های ورودی مجموعه داده آموزشی را تعیین کنید، که باید دانش کافی داشته باشد تا مدل بتواند خروجی را از طریق آن ها به طور دقیق پیش بینی کند.
  • یک الگوریتم یادگیری ماشین از نوع با نظارت (مانند ماشین بردار پشتیبان، درخت تصمیم) را با توجه به ساختار داده های آموزشی و آزمایشی انتخاب می کنیم
  • الگوریتم را روی مجموعه داده آموزشی اجرا کنید تا مدل آموزش دیده ساخته شود.
  • با ارائه مجموعه تست، دقت مدل ساخته شده از مرجله قبل را ارزیابی می کنیم.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

انواع الگوریتم های یادگیری ماشینی تحت نظارت

رگرسیون

اگر رابطه ای (مثل رابطه افزایشی یا کاهشی) بین متغیر ورودی (ویژگی ها) و متغیر خروجی (برچسب) وجود داشته باشد از الگوریتم های رگرسیون استفاده می شود. از این نوع الگوریتم ها برای پیش‌بینی متغیرهای پیوسته، مانند پیش‌بینی آب‌وهوا، روند بازار، و غیره استفاده می‌شود. در ادامه انواع الگوریتم های رگرسیون ذکر شده است.

  • رگرسیون خطی
  • درختان رگرسیون
  • رگرسیون غیر خطی
  • رگرسیون خطی بیزی
  • رگرسیون چند جمله ای

دسته بندی

از الگوریتم‌های دسته بندی زمانی استفاده می‌شوند که متغیر خروجی از نوع طبقه بندی ( Categorical ) باشد یا بتوان آن را به این نوع تبدیل کرد، به این معنی که متغیر خروجی از نوع دو کلاسه مانند بله-نه، مذکر-مونث، درست-کاذب و غیره وجود باشد. در ادامه انواع الگوریتم های دسته بندی لیست شده اند.

  • جنگل تصادفی | Random Forest
  • درخت تصمیم
  • رگرسیون لجستیک
  • ماشین بردار پشتیبان | SVM

مزایای یادگیری با نظارت

  • با استفاده از یادگیری با نظارت، مدل می تواند خروجی را بر اساس تجربیات قبلی (آموزش) پیش بینی کند.
  • در یادگیری نظارت شده، می‌توانیم ایده دقیقی درباره کلاس‌های اشیاء داشته باشیم.
  • مدل به دست آمده در یادگیری نظارت شده به ما کمک می کند تا مشکلات مختلف دنیای واقعی مانند کشف تقلب، فیلتر هرزنامه و غیره را حل کنیم.

معایب یادگیری با نظارت

  • مدل های یادگیری با نظارت برای انجام وظایف پیچیده مناسب نیستند.
  • اگر داده های آزمون با مجموعه داده آموزشی متفاوت باشد، یادگیری تحت نظارت نمی تواند خروجی صحیح را پیش بینی کند.
  • گام آموزش در الگوریتم های یادگیری با نظارت به زمان محاسباتی زیادی نیاز دارد.
  • در یادگیری نظارت شده، ما به دانش کافی در مورد طبقات داده ها نیاز داریم..

بازدید : 48
يکشنبه 20 فروردين 1402 زمان : 2:18

یکی از مهمترین پارمترهای کلیدی برای تبدیل شدن به یک دانشمند بزرگ داده | data scientist ، تمرین با انواع مختلف مجموعه داده | دیتاست می باشد. اما به راحتی نمی توان یک مجموعه داده مناسب برای یک پروژه و نوع الگوریتم انتخابی یادگیری ماشین | ML انتخاب کرد، بنابراین در ادامه این مبحث، به شما آموزش خواهیم داد که از طریق چه منابعی می توانید به راحتی مجموعه داده هایی را مطابق با پروژه خود تهیه کنید.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

قبل از ذکر منابع مجموعه داده‌های یادگیری ماشین، ابتدا مفهموم مجموعه‌ داده را مورد بحث قرار می دهیم.

مجموعه داده | Dataset چیست؟

مجموعه داده | دیتاست، در واقع مجموعه ای از داده ها است که در آن داده ها به ترتیبی مرتب شده اند. یک مجموعه داده می تواند یک آرایه یا یک جدول از پایگاه داده باشد. جدول زیر نمونه ای از یک مجموعه داده را نشان می دهد که شامل 6 سطر و چهار ستون یا ویژگی کشور، سن، حقوق و خرید می باشد.

یک مجموعه داده را می توان به عنوان یک جدول یا ماتریس پایگاه داده درک کرد که در آن هر ستون در واقع یک متغیر یا ویژگی نامید. بیشترین نوع فایل پشتیبانی شده برای مجموعه داده های جدولی "فایل جدا شده با کاما" یا CSV است.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد.

انواع داده ها در مجموعه داده

  • داده های عددی: مانند قیمت خانه، دما و غیره.
  • داده های طبقه بندی شده: مانند بله/خیر، درست/نادرست، آبی/سبز و غیره.
  • داده‌های ترتیبی: این داده‌ها شبیه به داده‌های طبقه‌بندی هستند، اما می‌توانند بر اساس مقایسه اندازه‌گیری شوند. مانند مقطع تحصیلی که شامل مقادیر وزنی (دیپلم، کاردانی، کارشناسی، کارشناسی ارشد و دکترا می باشد)

توجه: یک مجموعه داده دنیای واقعی دارای اندازه بزرگی است که مدیریت و پردازش آن در سطح اولیه دشوار است. بنابراین، برای تمرین الگوریتم‌های یادگیری ماشین، می‌توانیم از هر مجموعه داده ساختگی استفاده کنیم.

نیاز به مجموعه داده

برای کار با پروژه های یادگیری ماشین | machine learning، به حجم عظیمی از داده نیاز داریم، زیرا بدون داده، نمی توان مدل های ML/AI را آموزش داد. جمع آوری و آماده سازی مجموعه داده | دیتاست یکی از مهم ترین بخش ها در هنگام ایجاد یک پروژه ML/AI است. اگر مجموعه داده به خوبی آماده و از قبل پردازش نشده باشد، فناوری به کار رفته در پشت هر پروژه ML نمی تواند به درستی کار کند و دقت خروجی کمتری خواهد داشت. در طول توسعه پروژه ML، توسعه دهندگان کاملاً به مجموعه داده ها متکی هستند. در ساخت برنامه های ML، مجموعه داده ها به دو بخش تقسیم می شوند:

  • مجموعه داده های آموزشی : با استفاده از این مجموعه داده مدل یادگیری ماشین | machine learning مورد نظر را آموزش می دهیم.
  • مجموعه داده تست : با استفاده از این مجموعه داده مدل یادگیری ماشین | ML آموزش دیده را مورد ارزیابی قرار می دهیم.

توجه: مجموعه داده ها حجم بالایی دارند، بنابراین برای دانلود این مجموعه داده ها باید اینترنت پرسرعتی در رایانه خود داشته باشید.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

بهترین منابع برای دانلود مجموعه داده

در ادامه منابعی معرفی می شود که مجموعه داده های آن به صورت رایگان برای عموم در دسترس می باشد.

Kaggle Datasets

Kaggle یکی از بهترین منابع یا مخازن تهیه مجموعه داده برای دانشمندان داده و کاربردهای یادگیری ماشین می باشد. شما در این سایت به آسانی می توانید منابع مورد نظر را جست و جو، دانلود و حتی منتشر کنید. همچنین در این وب سایت شما می توانید با سایر دانشمندان داده در تحلیل و پیش بینی داده ها رقابت کنید.

مخزن یادگیری ماشین UCI

مخزن یادگیری ماشین UCI یکی از منابع عالی مجموعه داده های یادگیری ماشین برای کاربردهای مختلف ( دسته بندی، رگرسیون، خوشه بندی و ... ) است که از سال 1987، به طور گسترده توسط دانشجویان، اساتید، محققان به عنوان منبع اصلی مجموعه داده های یادگیری ماشین استفاده شده است. از جمله مجموعه‌های داده محبوب آن عبارتند از مجموعه داده‌های Iris، مجموعه داده ارزیابی خودرو، مجموعه داده‌های دستی پوکر که برای آموزش الگوریتم های مختلف یادگیری ماشین از آن استفاده می شود.

مجموعه داده AWS

یکی دیگر از منابعی که با استفاده از آن می توانیم مجموعه داده های سفارشی خود را جست و جو، دانلود و منتشر کنیم عبارتند از سایت AWS. هر کسی می‌تواند با استفاده از مجموع داده‌های به اشتراک گذاشته شده از طریق منابع AWS، الگوریتم های مختلف یادگیری ماشین را بر روی مجموعه داده های مختلف پیاده سازی کند.

موتور جستجوی مجموعه داده های گوگل

موتور جستجوی مجموعه داده های گوگل توسط گوگل در 5 سپتامبر 2018 راه اندازی شد. این منبع به محققان این امکان را می دهد تا مجموعه داده های آنلاین را که به صورت رایگان برای استفاده در دسترس هستند رابه منظور کاربردهای مختلف یادگیری ماشین دانلود کنند.

مجموعه داده Scikit-Learn

Scikit-learn یک کتابخانه یادگیری ماشین برای زبان برنامه نویسی پایتون می باشد که علاوه بر ارائه الگوریتم های مختلف یادگیر ماشین و پردازش امکان دسترسی به یکسری مجموعه داده را برای دانشمندان داده ممکن می سازد.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد.

بازدید : 26
چهارشنبه 16 فروردين 1402 زمان : 4:06

در مقاله یادگیری ماشین بانظارت، یاد گرفتیم که چگونه می توان مدل ها را با استفاده از مجموعه داده آموزشی برچسب دار، آموزش داد و بعد از آزمون قبولی، از آن ها برای سوددهی در هر کسب و کاری استفاده کرد. اما ممکن است در خیلی از پروژه ها یا صنایع امکان دسترسی به یک مجموعه داده برچسب دار نباشد یا به گونه ای تهیه یک مجموعه داده برچسب دار خیلی دشوار باشد، لذا نمی توان مدل ها را با استفاده از این نوع داده ها به خوبی آموزش داد، اما می توان یکسری الگو و رابطه از دل این مجموعه داده استخراج کرد. در این شرایط می توان از الگوریتم های یادگیری بدون نظارت به منظور خوشه بندی و استخراج رابطه بین داده ها نیز استفاده کرد. در ادامه بیشتر در مورد الگوریتم یادگیری بدون نظارت | Unsupervised Machine Learning آشنا خواهیم شد.

یادگیری ماشین بدون نظارت چیست؟

همانطور که از نام این نوع یادگیری پیداست، یادگیری بدون نظارت | Unsupervised Machine Learning یک تکنیک یادگیری ماشین است که در آن مدل‌ها با استفاده از مجموعه داده‌های آموزشی نظارت نمی‌شوند (یعنی از مجموعه داده دارای برچسب آموزش نمی بینند). در عوض، مدل‌ها می توانند یکسری الگوها و بینش‌های پنهان را از دل مجموعه داده ها پیدا ‌کنند.

می توان یادگیری بدون نظارت را اینگونه نیز تعریف کرد:

یادگیری بدون نظارت نوعی از یادگیری ماشینی است که در آن مدل‌ها با استفاده از مجموعه داده‌های بدون برچسب آموزش داده می‌شوند و اجازه دارند بدون هیچ نظارتی بر روی آن داده‌ها عمل کنند.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

یادگیری بدون نظارت | Unsupervised Machine Learning را نمی توان مستقیماً برای حل یک مسئله رگرسیون یا دسته بندی نیز استفاده کرد زیرا برای حل این نوع مسائل ما نیاز به مجموعه داده ای داریم که دارای ویژگی برچسب باشد، لذا برای حل این نوع مسائل باید از الگوریتم های یادگیری بانظارت استفاده کرد. هدف از یادگیری بدون نظارت، یافتن ساختار زیربنایی مجموعه داده، گروه بندی آن داده ها بر اساس شباهت ها و نمایش آن مجموعه داده در یک قالب فشرده است .

مثال: فرض کنید یک مجموعه داده ورودی حاوی هزاران تصویر انواع مختلف گربه و سگ بدون هیچ نوع برچسبی داریم (تصویر زیر) که آن را به یک الگوریتم یادگیری بدون نظارت سپرده ایم. الگوریتم نمی تواند بر روی این مجموعه داده آموزش داده شود اما می تواند با توجه به الگوهای شباهتی که بین تصاویر مختلف گربه و سگ وجود دارد (مانند رنگ چشم، رنگ مو، اندازه و ...)، آن ها را به 2 خوشه گربه و سگ تقسیم نماید.

چرا باید از یادگیری بدون نظارت استفاده کنیم؟

مهمترین عواملی که استفاده از الگوریتم یادگیری بدون نظارت را در صنایع مهم دانسته است عبارتند از:

  • یادگیری بدون نظارت برای یافتن یک دانش عمیق از داده ها مفید است.
  • یادگیری بدون نظارت بسیار شبیه به هوش مصنوعی و یادگیری انسان است که با تجربیات و مشاهدات خود می تواند الگو و رابطه بین در داده ها را بیابد.
  • یادگیری بدون نظارت مهم است چرا که می تواند بر روی داده های بدون برچسب و دسته بندی نشده کار می .
  • در دنیای واقعی، ما همیشه داده های ورودی با خروجی مربوطه نداریم، بنابراین برای حل چنین مواردی، به یادگیری بدون نظارت نیاز داریم.

نحوه کار الگوریتم های یادگیری بدون نظارت :

نحوه کار الگوریتم های یادگیری بدون نظارت را می توان با تصویر زیر درک کرد:

در تصویر فوق و در مرحله اول ما یک مجموعه داده ورودی (تصاویر تصادفی حیوانات) بدون برچسب داریم، به این معنی که بخشی از داده ها از قبل دسته بندی نشده است و دارای برچسب نمی باشند. لذا در مرحله بعد با استفاده از یکی از الگوریتم های یادگیری ماشین بدون نظارت مانند k-means رابطه ها و الگوهای پنهان از دل تصاویر استخراج شده و خوشه بندی داده ها نیز انجام می پذیرد.

انواع الگوریتم یادگیری بدون نظارت:

الگوریتم های یادگیری بدون نظارت | Unsupervised Machine Learning را می توان به دو دسته تقسیم کرد:

  • الگوریتم های خوشه‌بندی | Clustering : خوشه‌بندی روشی است برای قراردادن اشیاء در یکسری خوشه‌ها، به‌گونه‌ای که اشیای (داده های) داخل یک خوشه بیشترین شباهت را با یکدیگر و کمترین شباهت را با اشیای سایر خوشه ها دارند.
  • الگوریتم های قواعد انجمنی | Association rule : از این نوع الگوریتم ها برای تحلیل سبد خرید یک فروشگاه استفاده می شود به عنوان مثال با استفاده از این نوع الگوریتم ها می توانیم رابطه خرید بین محصولات یک فروشگاه را درک کنیم، یکی از این نوع قواعد می تواند به این شکل تفسیر شود. آقای رضاییان با ضریب اطمینان 90 درصد موقع خرید پنیر، محصول دیگری با نام نان نیز خریده است.

الگوریتم های یادگیری بدون نظارت:

برخی از الگوریتم های یادگیری بدون نظارت | Unsupervised Machine Learning نیز در زیر لیست شده است:

  • خوشه بندی سلسله مراتبی
  • خوشه بندی K-means
  • خوشه بندی مبتنی بر چگالی
  • K نزدیکترین همسایه
  • تشخیص ناهنجاری
  • شبکه های عصبی
  • الگوریتم Apriori

مزایای یادگیری بدون نظارت

  • یادگیری بدون نظارت | Unsupervised Machine Learning در مقایسه با یادگیری نظارت شده برای کارهای پیچیده‌تر استفاده می‌شود، زیرا در یادگیری بدون نظارت، داده‌های ورودی برچسب‌دار نداریم.

معایب یادگیری بدون نظارت

  • یادگیری بدون نظارت ذاتاً دشوارتر از یادگیری تحت نظارت است زیرا داده های ورودی دارای هیچ گونه برچسبی نیز نمی باشد.
  • نتیجه عملکردی الگوریتم های یادگیری بدون نظارت ممکن است دقت کمتری داشته باشد زیرا داده‌های ورودی برچسب‌گذاری نمی‌شوند و الگوریتم‌ها خروجی دقیق را از قبل نمی‌دانند و آموزش داده نشده اند.

تعداد صفحات : -1

درباره ما
موضوعات
آمار سایت
  • کل مطالب : 133
  • کل نظرات : 0
  • افراد آنلاین : 1
  • تعداد اعضا : 0
  • بازدید امروز : 86
  • بازدید کننده امروز : 1
  • باردید دیروز : 4
  • بازدید کننده دیروز : 0
  • گوگل امروز : 0
  • گوگل دیروز : 0
  • بازدید هفته : 87
  • بازدید ماه : 622
  • بازدید سال : 2132
  • بازدید کلی : 4601
  • <
    آرشیو
    اطلاعات کاربری
    نام کاربری :
    رمز عبور :
  • فراموشی رمز عبور؟
  • خبر نامه


    معرفی وبلاگ به یک دوست


    ایمیل شما :

    ایمیل دوست شما :



    کدهای اختصاصی