1

الگوریتم های دسته بندی داده کاوی چیست؟

الگوریتم‌های دسته‌بندی داده‌کاوی چیست؟ در این مقاله قصد داریم به یکی از انواع الگوریتم‌ در داده‌کاوی بپردازیم. پس با ما همراه باشید.

بیشتر بخوانید: انواع روشهای داده کاوی چیست؟ ، داده کاوی چیست؟

ما از آموزش (train کردن) مجموعه داده برای به دست آوردن شرایط مرزی (الگوی مرزبندی) بهتر استفاده می‌کنیم که می‌تواند برای تعیین هر کلاس هدف استفاده شود.

هنگامی که شرایط مرزی مشخص شد، کار بعدی پیش‌بینی کلاس هدف است. کل این فرآیند به عنوان دسته بندی شناخته می‌شود.

مثال‌هایی از نمونه‌های کلاس هدف

۱. . تجزیه‌وتحلیل داده‌های مشتریان به‌منظور پیش‌بینی احتمال خرید لوازم جانبی رایانه توسط آنها. (کلاس هدف: بله یا خیر)

۲. طبقه‌بندی میوه‌ها بر اساس ویژگی‌هایی مانند رنگ، طعم، اندازه، وزن (طبقه‌های هدف: سیب، پرتقال، گیلاس، موز)

۳. طبقه‌بندی جنسیتی بر اساس میزان بلندی مو (طبقات هدف: مرد یا زن)

طبق مثال‌های بالا، مفهوم الگوریتم دسته‌بندی را همراه با طبقه‌بندی جنسیتی بر اساس میزان بلندی مو بررسی‌خواهیم کرد. برای طبقه‌بندی جنسیت (کلاس هدف) بر اساس میزان بلندی مو، از طول مو به‌عنوان پارامتر استفاده می‌کنیم و مدلی را طراحی می‌کنیم که بتواند طبق شرط مرزی ما، جنسیت‌ مردانه و زنانه را تشخیص دهد.

این مطلب را نیز حتما بخوانید:  تجسم داده چیست؟

ممکن است بپرسید تعریف شرط مرزی چیست؟ در پاسخ باید بگوییم که معنای شرط مرزی این است که اگر مقدار موردنظر از مرز تعیین شده عبور کرد، درمورد آن  نتیجه‌گیری می‌کنیم. برای فهم بیشتر مطلب بهتر است مثالی بزنیم:
فرض کنید طول موی فردی حدود 15 سانتی‌متر باشد. این عدد طبق مرز تعیین شده ما، کمتر از 20 است. پس این فرد می‌تواند مرد باشد. اما اگر بیشتر از 20 بود، جنسیت او را زن در نظر می‌گرفتیم.

الگوریتم های دسته بندی در مقابل الگوریتم های خوشه بندی

در خوشه‌بندی، ایده پیش‌بینی کلاس هدف مانند طبقه‌بندی نیست، بلکه بیش از هر زمان دیگری تلاش می‌شود تا با درنظرگرفتن رضایت‌بخش‌ترین شرایط، چیزهای مشابه را گروه‌بندی کنیم، همه عناصر یک گروه باید مشابه هم باشند و هیچ دو عنصر گروه  نباید تفاوتی باهم داشته باشند.

نمونه موارد گروه

۱. گروه‌بندی اسناد با یک زبان مشابه (اسناد هر زبان مثلاً انگلیسی یا فرانسه هرکدام یک گروه را تشکیل می‌دهند.)

۲. دسته‌بندی مقالات خبری (مقالاتی از همان دسته خبری (ورزشی) یک گروه تشکیل می‌دهند.)

بیایید این مفهوم را با مثال گروه‌بندی جنسیتی بر اساس مثال طول مو بفهمیم. برای تعیین جنسیت می‌توان از معیارهای مختلف تشابه برای دسته‌بندی جنسیت‌های مرد و زن استفاده کرد. این امر را می‌توان با یافتن شباهت بین دو طول مو و نگه‌داشتن آن‌ها در یک گروه در صورت کم بودن شباهت (تفاوت طول مو کمتر) انجام داد. همین روند می‌تواند ادامه یابد تا زمانی که تمام طول موهای موجود به‌درستی به دودسته تقسیم شود

اصطلاحات پایه در الگوریتم های دسته بندی داده کاوی

الگوریتم دسته‌بند (Classifier): الگوریتمی که داده‌های ورودی را به یک دسته خاص نگاشت می‌کند.

این مطلب را نیز حتما بخوانید:  دریاچه داده چیست؟

مدل طبقه‌بندی (Classification Model): یک مدل طبقه‌بندی سعی می‌کند از مقادیر ورودی ارائه شده بیاموزد و در نهایت طبق آموخته‌هایش نتیجه‌گیری کند. همچنین برچسب‌ها و رده‌های کلاس را برای داده‌های جدید پیش‌بینی می‌کند

مشخصه (Feature): یک ویژگی فردی

طبقه‌بندی باینری (Binary Classification): طبقه‌بندی تنها دو نتیجه ممکن. به‌عنوان‌مثال: طبقه‌بندی بر اساس جنسیت (مرد / زن)

طبقه‌بندی چندتایی (Multi-class Classification): طبقه‌بندی با بیش از دو کلاس. در طبقه‌بندی چند کلاسه، هر نمونه به یک و تنها یک برچسب هدف اختصاص می‌یابد. مثال: یک حیوان می‌تواند گربه یا سگ باشد اما نمی‌تواند هر دوتا در یک‌زمان باشد

طبقه‌بندی چند برچسبی (Multi-label Classification): وظیفه طبقه‌بندی که در آن هر نمونه با مجموعه‌ای از برچسب‌های هدف (چند کلاس) همراه است. به‌عنوان‌مثال: یک مقاله خبری می‌تواند در مورد ورزش، شخص و مکان باشد

کاربردهای الگوریتم های دسته بندی

• طبقه‌بندی هرزنامه‌ها از طریق ایمیل
•  پیش‌بینی میزان تمایل مشتریان بانک به بازپرداخت وام
• شناسایی  تومورهای سرطانی.
• تحلیل احساسات فردی
• طبقه‌بندی داروها
• تشخیص نقاط کلیدی صورت
• تشخیص چهره افراد در ماشین در حال حرکت.

انواع الگوریتم های دسته بندی

الگوریتم‌های دسته‌بندی را می‌توان به‌طورکلی به صورت‌های زیر دسته‌بندی کرد

۱) طبقه‌بندی‌کننده‌های خطی

رگرسیون لجستیک
طبقه‌بندی‌کننده ساده‌لوح بیز
تشخیص خطی فیشر

۲) الگوریتم پشتیبان ماشین‌های برداری

الگوریتم حداقل مربعات (که از ماشین‌های برداری پشتیبانی می‌کند.)

۳) طبقه‌بندی درجه دوم چهارگانه (Quadratic)

۴) تخمین کرنل

الگوریتم k- نزدیک‌ترین همسایه

۵) درخت تصمیم

جنگل های تصادفی

۶) شبکه‌های عصبی

۷) کوانتیزاسیون برداری یادگیری

نکته مهم: برخی از الگوریتم‌های فوق در دسته‌بندی‌های دیگر الگوریتم‌های داده‌کاوی نیز قرار می‌گیرند. مانند شبکه‌های عصبی که خود یک الگوریتم مستقل به شمار می‌آید.

این مطلب را نیز حتما بخوانید:  انبار داده چیست؟

در این مقاله درباره الگوریتم های دسته بندی داده کاوی صحبت‌هایی را مطرح کردیم. با این امید که مورد توجه شما عزیزان قرار گرفته باشد. با تشکر.

منابع

۱. الگوریتم‌های دسته‌بندی – ترجمه از انگلیسی

سهراب محمدی

مهندس سهراب محمدی هستم، دانش آموخته کامپیوتر از دانشگاه خوارزمی تهران؛ رتبه ۹۲۸ کنکور سراسری؛ متخصص ماشین لرنینگ و علم داده؛ انجام دهنده پروژه های صنعتی دانشگاهی معتبر ؛ و سابقه فعالیت به عنوان مسئول آنالیز دیتا و تنظیم الگوریتم دارم.

مطالب مرتبط
1
1 دقیقه

معرفی پنج توزیع معروف لینوکس

golearnwork

معرفی پنج توزیع معروف لینوکس؛ در این مقاله برآنیم چند توزیع معروف و جدید لینوکس را به شما مخاطبان عزیز معرفی کنیم. برای توزیع دبیان (Debian) به دلیل اهمیتش مقاله جداگانه‌ای اختصاص داده‌ایم. حتما مطالعه بفرمائید. توزیع جنتو Gentoo یک توزیع برای استفاده حرفه‌ای و ویژه متخصصان است. این دسته متخصصان شامل توسعه‌دهندگان ، مدیران […]

1 دقیقه

DNS چیست؟ و چه کاربردی دارد؟

golearnwork

DNS چیست؟ و چه کاربردی دارد؟ اجزای آن چیستند و چگونه کار می‌کنند؟ با ما در این نوشتار همراه باشید تا پاسخ این سوالات را بیابیم. DNS چیست؟ واژه DNS مخفف Domain Name System است. DNS در حقیقت شبیه به یک دفترچه راهنماست که نام هر وب‌سایت را به نشانی IP آن برمی‌گرداند. شما در […]

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سبد خرید
Subtotal 0 تومان