پیش پردازش داده ها در داده کاوی چیست؟ در این نوشتار آموزشی قصد داریم مراحل مهم پیش پردازش داده ها را برای انجام فرآیند داده کاوی توضیح دهیم.
نوشتار اصلی: داده کاوی چیست؟
مقدمه
فاکتورهای زیادی سودمندی دادهها را تعیین میکنند، مانند دقت، کامل بودن، سازگاری و بهموقع بودن.
اگر دادهها با هدف مورد نظر مطابقت داشته باشند، باید از کیفیت خوبی برخوردار باشند. بنابراین، پیش پردازش در فرآیند داده کاوی بسیار مهم است. مراحل اصلی پیش پردازش دادهها در این نوشتار توضیح داده شده است.
۱. پاکسازی (پایش) دادهها
پاکسازی یا پایش دادهها اولین گام در داده کاوی است. این کار اهمیت دارد زیرا دادههای کثیف، اگر مستقیماً در استخراج استفاده شوند، میتوانند رویهها را اشتباه گرفته و نتایج نادرستی ایجاد کنند.
اساساً، این مرحله شامل حذف دادههای نویزی یا ناقص از مجموعه است. روشهای زیادی که معمولاً دادهها را به تنهایی تمیز میکنند، در دسترس هستند، اما قوی نیستند.
این مرحله کار تمیز کردن معمولی را با موارد زیر انجام میدهد:
الف) پرکردن دادههای از دست رفته:
دادههای از دست رفته را میتوان با روشهایی مانند زیر جبران نمود:
۱) دادههای مجموعهای یا چندتایی (تاپل) را نادیده بگیرید.
۲) مقادیر از دست رفته را به صورت دستی پر کنید.
۳) از معیار گرایش مرکزی یا میانه استفاده کنید.
۴) محتملترین مقدار را جایگزین کنید.
ب) حذف دادههای نویز: یک خطای تصادفی دادههای نویز نامیده می شود.
روشهای حذف نویز عبارتند از:
گروهبندی Binning: روشهای گروهبندی با مرتبسازی مقادیر در دستهها یا در اصطلاح سطلها (Bucket) و یا صندوقچهها (bin) اعمال میشود. که ما در این مقاله همان عبارت دسته را به کار میبریم.
هموارسازی دادهها نیز با نگاه کردن به مقادیر همسایه انجام میشود.
دستهبندی با هموارسازی به وسیله میانگین و میانه انجام میشود.
۱) در هموارساری به وسیله میانگین، دادهها توسط میانگین هر دسته انجام میشود، یعنی دادههای موجود در هر دسته با میانگین دسته جایگزین میشود.
۲) در هموارسازی با میانه، هر دسته با میانه دادههای موجود در آن دسته جایگزین میشود.
۳) در هموارسازی با حدود بازه، حدودی شامل حداقل و حداکثر مقادیر در دادهها هستند که با هر دسته دارای نزدیکترین مقدار حد جایگزین میشوند.
سایر روشهای حذف نویز عبارتند از:
شناسایی نقاط پرت
رفع ناهماهنگیها
۲. یکپارچهسازی دادهها
هنگامی که چندین منبع داده ناهمگن مانند پایگاههای داده، مکعبهای داده یا فایلها برای تجزیه و تحلیل ترکیب شوند، این فرآیند یکپارچهسازی دادهها نامیده میشود. این امر میتواند به بهبود دقت و سرعت فرآیند داده کاوی کمک کند.
پایگاه دادههای مختلف دارای قراردادهای نامگذاری متغیرهای مختلفی هستند که ممکن است باعث افزونگی در پایگاه داده بشود. پاکسازی دادههای اضافی را میتوان برای حذف افزونگیها و ناسازگاریها از یکپارچهسازی دادهها بدون تأثیرگذاری بر قابلیت اطمینان دادهها انجام داد.
یکپارچهسازی دادهها را میتوان با استفاده از ابزارهای انتقال داده مانند Oracle Data Service Integrator و Microsoft SQL و غیره انجام داد.
۳. کاهش دادهها
این تکنیک برای به دست آوردن دادههای آسان، کمحجم اما مرتبط با مجموعه دادههای اصلی استفاده میشود. این امر تجزیه و تحلیل دادهها را آسان کرده و نتیجهگیری درست از زحمات انجام شده در جمعآوری دادهها را سبب میگردد.
اگر چه اندازه نمایش از نظر حجم بسیار کوچکتر از حجم مقادیر اولیه دادهها است، اما در این فرآیند کوچکسازی مجموعه دادهها، نباید یکپارچگی دادهها و نیز دقت آنها از میان برود.
کاهش دادهها با استفاده از روشهایی مانند Naive Bayes، درخت تصمیم، شبکه عصبی و غیره انجام میشود.
برخی از استراتژی های کاهش داده عبارتند از:
تکنیک Dimensionality Reduction: کاهش تعداد صفات در مجموعه داده.
کاهش تعداد: جایگزینی حجم دادههای اصلی با اشکال کوچکتر نمایش دادهها.
فشردهسازی دادهها: نمایش فشرده دادههای اصلی.
۴. تبدیل دادهها
در این فرآیند دادهها به فرمی مناسب برای فرآیند داده کاوی تبدیل میشوند. دادهها به گونهای ادغام میشوند که فرآیند داده کاوی کارآمدتر باشد و درک الگوهای حاصل از آن آسانتر باشد.
تبدیل دادهها شامل ترسیم و نقشهبرداری دادهها و نیز فرآیندهای تولید کد است.
استراتژیهای تبدیل دادهها عبارتند از:
هموارسازی (Smoothing): حذف نویز از دادهها با استفاده از تکنیکهای خوشه بندی (کلاستر)، رگرسیون و غیره.
خلاصهسازی (Aggregation): عملیات خلاصهسازی بر روی دادهها اعمال میشود.
عادیسازی (Normalization): دادهها را به گونهای تنظیم میکند که در محدوده کوچکتری قرار گیرند.
گسستهسازی (Discretization): مقادیر خام دادههای عددی با فواصل و بازهها جایگزین میشوند. مثلا سن. (تا ۲۰ سال، ۲۰ تا ۴۰ سال، ۴۰ تا ۶۰ سال و ۶۹ سال به بالا.)
۵. داده کاوی
داده کاوی فرآیندی برای شناسایی الگوها و شناخت توالیهای مرتبط از حجم زیادی از دادهها است. در طی این مراحل، از مدلهای هوشمند برای استخراج الگوهای داده استفاده میشوند. دادهها به عنوان مدل نمایش داده شده و مدلها با استفاده از تکنیکهای طبقهبندی و گروهبندی ساختار یافته نمایش داده میشوند.
۶. ارزیابی مدل
این مرحله شامل شناسایی مدلهای جالبی است که دانش به دست آمده را بر اساس معیارهای مورد انتظار در پژوهش نشان میدهند. روشهای ترکیب و تجسم دادهها برای قابل فهم کردن دادهها برای کاربر استفاده میشود.
۷. بازنمایی و ارائه دانش
بازنمایی دانش مرحلهای است که در آن با استفاده از ابزارهای تصویرسازی دادهها و ارائه و بازنمایی دانش برای نمایش دادههای استخراج شده استفاده میشود. دادهها در قالب گزارش، جداول، اینفوگرافیک و غیره نمایش داده میشوند.
فرآیند داده کاوی در Oracle DBMS
تکنیک RDBMS دادهها را به صورت جداول با سطر و ستون نشان میدهد. دادهها با نوشتن پرسوجوهای پایگاه داده قابل دسترسی هستند.
سیستمهای مدیریت پایگاه داده رابطهوی مانند Oracle از داده کاوی با استفاده از CRISP-DM پشتیبانی میکنند. ویژگیهای پایگاه داده اوراکل برای تهیه و درک دادهها مفید است. اوراکل از داده کاوی از طریق رابط جاوا، رابط PL/SQL، داده کاوی خودکار، توابع SQL و رابطهای گرافیکی کاربر پشتیبانی میکند.
در این نوشتار آموزشی درباره پیش پردازش داده ها در داده کاوی صحبت کردیم. با تشکر از مطالعه شما.
منابع
۱. تعریف دادهکاوی – ترجمه از انگلیسی
این مقاله برای من مفید بود
1+ 0 نفر این مقاله را پسندیده