پیش پردازش داده ها در داده کاوی چیست؟

پیش پردازش داده ها در داده کاوی

پیش پردازش داده ها در داده کاوی چیست؟ در این نوشتار آموزشی قصد داریم مراحل مهم پیش پردازش داده ها را برای انجام فرآیند داده کاوی توضیح دهیم.

نوشتار اصلی: داده کاوی چیست؟

مقدمه

فاکتورهای زیادی سودمندی داده‌ها را تعیین می‌کنند، مانند دقت، کامل بودن، سازگاری و به‌موقع بودن.

اگر داده‌ها با هدف مورد نظر مطابقت داشته باشند، باید از کیفیت خوبی برخوردار باشند. بنابراین، پیش پردازش در فرآیند داده کاوی بسیار مهم است. مراحل اصلی پیش پردازش داده‌ها در این نوشتار توضیح داده شده است.

۱. پاکسازی (پایش) داده‌ها

پاکسازی یا پایش داده‌ها اولین گام در داده کاوی است. این کار اهمیت دارد زیرا داده‌های کثیف، اگر مستقیماً در استخراج استفاده شوند، می‌توانند رویه‌ها را اشتباه گرفته و نتایج نادرستی ایجاد کنند.

اساساً، این مرحله شامل حذف داده‌های نویزی یا ناقص از مجموعه است. روش‌های زیادی که معمولاً داده‌ها را به تنهایی تمیز می‌کنند، در دسترس هستند، اما قوی نیستند.

این مرحله کار تمیز کردن معمولی را با موارد زیر انجام می‌دهد:

الف) پرکردن داده‌های از دست رفته:

داده‌های از دست رفته را می‌توان با روش‌هایی مانند زیر جبران نمود:

۱) داده‌های مجموعه‌ای یا چندتایی (تاپل) را نادیده بگیرید.

۲) مقادیر از دست رفته را به صورت دستی پر کنید.

۳) از معیار گرایش مرکزی یا میانه استفاده کنید.

۴) محتمل‌ترین مقدار را جایگزین کنید.

این مطلب را نیز حتما بخوانید:  کاربردهای داده کاوی و روندهای آن

ب) حذف داده‌های نویز: یک خطای تصادفی داده‌های نویز نامیده می شود.

روش‌های حذف نویز عبارتند از:

گروه‌بندی Binning: روش‌های گروه‌بندی با مرتب‌سازی مقادیر در دسته‌ها یا در اصطلاح سطل‌ها (Bucket) و یا صندوقچه‌ها (bin) اعمال می‌شود. که ما در این مقاله همان عبارت دسته را به کار می‌بریم.

هموارسازی داده‌ها نیز با نگاه کردن به مقادیر همسایه انجام می‌شود.

دسته‌بندی با هموارسازی به وسیله میانگین و میانه انجام می‌شود.

۱) در هموارساری به وسیله میانگین، داده‌ها توسط میانگین هر دسته انجام می‌شود، یعنی داده‌های موجود در هر دسته با میانگین دسته جایگزین می‌شود.

۲) در هموارسازی با میانه، هر دسته با میانه داده‌های موجود در آن دسته جایگزین می‌شود.

۳) در هموارسازی با حدود بازه، حدودی شامل حداقل و حداکثر مقادیر در داده‌ها هستند که با هر دسته دارای نزدیک‌ترین مقدار حد جایگزین می‌شوند.

سایر روش‌های حذف نویز عبارتند از:

شناسایی نقاط پرت

رفع ناهماهنگی‌ها

۲. یکپارچه‌سازی داده‌ها

هنگامی که چندین منبع داده ناهمگن مانند پایگاه‌های داده، مکعب‌های داده یا فایل‌ها برای تجزیه و تحلیل ترکیب شوند، این فرآیند یکپارچه‌سازی داده‌ها نامیده می‌شود. این امر می‌تواند به بهبود دقت و سرعت فرآیند داده کاوی کمک کند.

پایگاه داده‌های مختلف دارای قراردادهای نام‌گذاری متغیرهای مختلفی هستند که ممکن است باعث افزونگی در پایگاه داده بشود. پاکسازی داده‌های اضافی را می‌توان برای حذف افزونگی‌ها و ناسازگاری‌ها از یکپارچه‌سازی داده‌ها بدون تأثیرگذاری بر قابلیت اطمینان داده‌ها انجام داد.

یکپارچه‌سازی داده‌ها را می‌توان با استفاده از ابزارهای انتقال داده مانند Oracle Data Service Integrator و Microsoft SQL و غیره انجام داد.

۳. کاهش داده‌ها

این تکنیک برای به دست آوردن داده‌های آسان، کم‌حجم اما مرتبط با مجموعه داده‌های اصلی استفاده می‌شود. این امر تجزیه و تحلیل داده‌ها را آسان کرده و نتیجه‌گیری درست از زحمات انجام شده در جمع‌آوری داده‌ها را سبب می‌گردد.

این مطلب را نیز حتما بخوانید:  مقدمات ریاضی برای یادگیری هوش مصنوعی

اگر چه اندازه نمایش از نظر حجم بسیار کوچک‌تر از حجم مقادیر اولیه داده‌ها است، اما در این فرآیند کوچک‌سازی مجموعه داده‌ها، نباید یکپارچگی داده‌ها و نیز دقت آن‌ها از میان برود.

کاهش داده‌ها با استفاده از روش‌هایی مانند Naive Bayes، درخت تصمیم، شبکه عصبی و غیره انجام می‌شود.

برخی از استراتژی های کاهش داده عبارتند از:

تکنیک Dimensionality Reduction: کاهش تعداد صفات در مجموعه داده.

کاهش تعداد: جایگزینی حجم داده‌های اصلی با اشکال کوچکتر نمایش داده‌ها.

فشرده‌سازی داده‌ها: نمایش فشرده داده‌های اصلی.

۴. تبدیل داده‌ها

در این فرآیند داده‌ها به فرمی مناسب برای فرآیند داده کاوی تبدیل می‌شوند. داده‌ها به گونه‌ای ادغام می‌شوند که فرآیند داده کاوی کارآمدتر باشد و درک الگوهای حاصل از آن آسان‌تر باشد.

تبدیل داده‌ها شامل ترسیم و نقشه‌برداری داده‌ها و نیز فرآیندهای تولید کد است.

استراتژی‌های تبدیل داده‌ها عبارتند از:

هموارسازی (Smoothing): حذف نویز از داده‌ها با استفاده از تکنیک‌های خوشه بندی (کلاستر)، رگرسیون و غیره.

خلاصه‌سازی (Aggregation): عملیات خلاصه‌سازی بر روی داده‌ها اعمال می‌شود.

عادی‌سازی (Normalization): داده‌ها را به گونه‌ای تنظیم می‌کند که در محدوده کوچک‌تری قرار گیرند.

گسسته‌سازی (Discretization): مقادیر خام داده‌های عددی با فواصل و بازه‌ها جایگزین می‌شوند. مثلا سن. (تا ۲۰ سال، ۲۰ تا ۴۰ سال، ۴۰ تا ۶۰ سال و ۶۹ سال به بالا.)

۵. داده کاوی

داده کاوی فرآیندی برای شناسایی الگوها و شناخت توالی‌های مرتبط از حجم زیادی از داده‌ها است. در طی این مراحل، از مدل‌های هوشمند برای استخراج الگوهای داده استفاده می‌شوند. داده‌ها به عنوان مدل نمایش داده شده و مدل‌ها با استفاده از تکنیک‌های طبقه‌بندی و گروه‌بندی ساختار یافته نمایش داده می‌شوند.

این مطلب را نیز حتما بخوانید:  خزش وب چیست و چگونه کار می‌کند؟

۶. ارزیابی مدل

این مرحله شامل شناسایی مدل‌های جالبی است که دانش به دست آمده را بر اساس معیارهای مورد انتظار در پژوهش نشان می‌دهند. روش‌های ترکیب و تجسم داده‌ها برای قابل فهم کردن داده‌ها برای کاربر استفاده می‌شود.

۷. بازنمایی و ارائه دانش

بازنمایی دانش مرحله‌ای است که در آن با استفاده از ابزارهای تصویرسازی داده‌ها و ارائه و بازنمایی دانش برای نمایش داده‌های استخراج شده استفاده می‌شود. داده‌ها در قالب گزارش، جداول، اینفوگرافیک و غیره نمایش داده می‌شوند.

پیش پردازش داده ها در داده کاوی چیست؟

فرآیند داده کاوی در Oracle DBMS

تکنیک RDBMS داده‌ها را به صورت جداول با سطر و ستون نشان می‌دهد. داده‌ها با نوشتن پرس‌وجوهای پایگاه داده قابل دسترسی هستند.

سیستم‌های مدیریت پایگاه داده رابطه‌وی مانند Oracle از داده کاوی با استفاده از CRISP-DM پشتیبانی می‌کنند. ویژگی‌های پایگاه داده اوراکل برای تهیه و درک داده‌ها مفید است. اوراکل از داده کاوی از طریق رابط جاوا، رابط PL/SQL، داده کاوی خودکار، توابع SQL و رابط‌های گرافیکی کاربر پشتیبانی می‌کند.

در این نوشتار آموزشی درباره پیش پردازش داده ها در داده کاوی صحبت کردیم. با تشکر از مطالعه شما.

منابع

۱. تعریف داده‌کاوی – ترجمه از انگلیسی

سهراب محمدی

مهندس سهراب محمدی هستم، دانش آموخته کامپیوتر از دانشگاه خوارزمی تهران؛ رتبه ۹۲۸ کنکور سراسری؛ متخصص ماشین لرنینگ و علم داده؛ انجام دهنده پروژه های صنعتی دانشگاهی معتبر ؛ و سابقه فعالیت به عنوان مسئول آنالیز دیتا و تنظیم الگوریتم دارم.

مطالب مرتبط
1 دقیقه

تفاوت دریاچه داده و انبار داده چیست؟

سهراب محمدی

تفاوت دریاچه داده و انبار داده چیست؟ در این مقاله می‌خواهیم درباره این تفاوت صحبت کنیم و آن را برای شما توضیح دهیم. با ما تا انتهای مقاله همراه باشید. تفاوت اصلی بین دریاچه داده و انباره داده در پشتیبانی آن‌ها از انواع داده‌ها و رویکرد آنها به طرح‌واره داده است. در یک انبار داده […]

نقاط داده چیست؟ 1 دقیقه

نقاط داده چیست؟

سهراب محمدی

نقاط داده چیست؟ در این مقاله می‌خواهیم درباره نقاط داده صحبت کنیم و آن‌ها را تعریف و بررسی کنیم. با ما همراه باشید. نوشتار اصلی: پردازش داده چیست؟ چرخه پردازش داده کدام است؟ هم‌چنین بخوانید: داده کاوی چیست؟ نقاط داده که به عنوان عناصر داده نیز شناخته می‌شوند، وضعیت بنیادین داده‌ها را نشان می‌دهند. از […]

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سبد خرید
Subtotal 0 تومان