انواع داده چیست؟ در این نوشتار بر آنیم که به انواع داده بپردازیم و آنها را با یکدیگر مقایسه کنیم و در ادامه روشهای تحلیل هر یک را بهاختصار بیان کنیم. پس تا انتهای مقاله همراه ما باشید.
هدف علم داده، پژوهش و آزمایش بر روی دادههای خام است. دادهها نیروی محرکه یک کسبوکار هستند. آنها امکان هدایت، جهتدهی و سازماندهی اندیشهها و برنامههای عملی پروژهها را فراهم میکنند. دادهها در واقع ابزارهایی هستند که به کمک آنها میتوان تجربیات مختلف را آزمود و به نتیجه دلخواه رسید.
بیشتر بخوانید: تفاوت داده های سخت و نرم چیست؟
برای انسانی که در عصر دیجیتال زندگی میکند، دادهها نقشی بسیار مهم دارند. ما روزانه حجم بسیار زیادی اطلاعات تولید میکنیم. بهعنوانمثال، شرکتی مانند Flipkart روزانه بیش از 2 ترابایت داده تولید میکند. یا خود ما، در استفاده روزمره از شبکههای اجتماعی، حجم بسیار زیادی از آنها را تولید و منتشر میکنیم.
وقتی نقشی که دادهها در زندگی ما بازی می کنند، تا این اندازه پر رنگ شده است، ذخیره و پردازش صحیح آنها اهمیت بسیار زیادی پیدا میکند. دادهها نقش مهمی در تعیین استراتژی مناسب برای پردازش یک تحلیل آماری ایفا میکنند. بهعبارتدیگر این دادهها هستند که برای بهدستآوردن بهترین روش تحلیل آمارها نقشی تعیینکننده ایفا میکنند.
در ادامه میخواهیم به انواع دادهها بپردازیم:
انواع داده چیست؟ بیایید به برخی از دستههای دادهای که معمولاً استفاده میشود بپردازیم.
دادههای کیفی
دادههای کیفی بر کیفیت مقولههای موردنظر تمرکز دارند و بدیهی است که قابلشمارش نیستند. بهعنوانمثال، جنسیت یک فرد (مذکر، مؤنث یا سایرین) نمونه خوبی از این نوع دادهها است.
منشأ این دادهها معمولاً از صداها، تصاویر یا متنها استخراج میشوند. مثال دیگر ممکن است یک برند گوشی هوشمند باشد که اطلاعاتی در مورد رتبهبندی، رنگ گوشی، دسته گوشی و غیره ارائه میدهد. همه این اطلاعات را میتوان بهعنوان دادههای کیفی طبقهبندی کرد. در این دو زیرمجموعه وجود دارد:
دادههای اسمی
اینها مجموعه ارزشهایی هستند که نظم طبیعی ندارند. برای فهم راحتتر این دسته، بهتر است با ذکر مثال شروع کنیم: رنگ یک گوشی هوشمند را میتوان بهعنوان یک نوع داده اسمی در نظر گرفت چراکه ما نمیتوانیم یک رنگ را با رنگهای دیگر مقایسه کنیم.
نمیتوان ادعا کرد که قرمز برتر از آبی یا زن برتر از مرد است. یا دستههای تلفن همراه، اعم از میانرده یا ردهبالا نیز از انواع دادههای اسمی هستند.
ترتیبی
این نوع دادهها با حفظ کلاس ارزشهای خود دارای نظم طبیعی هستند. اگر اندازه یک برند لباس را در نظر بگیریم، بهراحتی میتوانیم آنها را بر اساس برچسب نامشان به ترتیب کوچک < متوسط < بزرگ مرتب کنیم. سیستم نمره دهی به این شکل است که شرکتکنندگان در آزمون را میتوان بهعنوان یک نوع داده ترتیبی در نظر گرفت که در آن A+ به طور قابلتوجهی بهتر از نمره B است.
این دستهها به ما کمک میکنند تا تصمیم بگیریم استراتژی مناسب برای رمزگذاری هر داده کدام است. رمزگذاری، برای دادههای کیفی اهمیت دارند. چراکه مدلهای کامپیوتری ماهیت ریاضی داشته و با اعداد کار میکنند.
برای دادههای اسمی که مقایسهپذیر نیستند، میتوان از رمزگذاری one-hot که مشابه رمزگذاری باینری است، استفاده کرد. ویژگی اصلی one-hot توانایی مقایسه دادههای اسمی بر اساس عددهای صحیح است.
دادههای کمی
این نوع داده موارد کیفی را تبدیل به عدد میکند که ماهیت آن قابلشمارش باشد. بهعنوانمثال، قیمت یک گوشی هوشمند، تخفیف ارائه شده بر روی یک جنس، تعداد بررسیها در مورد یک محصول، فرکانس پردازنده یا رم یک گوشی هوشمند، همه این موارد در دسته انواع دادههای کمی قرار میگیرند.
نکته اصلی این است که یک ویژگی میتواند بینهایت مقدار داشته باشد. بهعنوانمثال، قیمت یک گوشی هوشمند میتواند از مقدار x تا هر مقدار متفاوت باشد و میتوان آن را بر اساس مقادیر کسری تقسیم کرد. دادههای کمی را به دو زیرمجموعه تقسیم میکنند:
محتاطانه
این مقادیر معمولاً اعداد صحیح یا گسسته هستند. بهعنوانمثال، تعداد بلندگوهای گوشی، دوربینها، هستههای پردازنده، تعداد سیمکارتهای پشتیبانیکننده، همه اینها نمونههایی از دادههای محتاطانه هستند.
ادامه یابنده
این اعداد شامل مقادیر کسری یا پیوسته هستند. اعداد پیوسته میتوانند به شکل فرکانس کاری پردازندهها، نسخه اندروید گوشی، فرکانس وایفای، دمای هستهها و غیره باشند.
آیا انواع ترتیبی و گسسته میتوانند همپوشانی داشته باشند؟
اگر به این دقت کنید میتوانید به کلاسهای ترتیبی شمارهگذاری کنید و بعد باید آن را گسسته یا نوع ترتیبی نامید؟ حقیقت این است که هنوز هم عادی است. دلیل این امر این است که حتی اگر شمارهگذاری انجام شود، فاصله واقعی بین کلاسها را نشان نمیدهد.
بهعنوانمثال، سیستم امتیازدهی را برای یک آزمون در نظر بگیرید. نمرات مربوطه میتواند A، B، C، D، E باشد و اگر آنها را از ابتدا شمارهگذاری کنیم 1،2،3،4،5 میشود. حال باتوجهبه تفاوتهای عددی، فاصله بین درجه E و درجه D برابر است با فاصله بین درجه D و درجه .Cالبته این اختلاف آن قدر دقیق نیست. چرا که همه میدانیم درجه C همواره نسبت به درجه E بالاتر است. اما از آنجایی که اختلاف یکی است، آنها را برابر اعلام میکنیم.
همچنین میتوانید همین تکنیک را در فرم نظرسنجی که در آن تجربه کاربر در مقیاسی از خیلی بد تا خیلی خوب ثبت میشود، اعمال کنید. تفاوتهای بین درجههای مختلف نامشخص است. بنابراین نمیتوان مستقیماً مقدار کمی آن را تعیین کرد.
تستهای مختلف
ما طبقهبندیهای مربوط به دادههای اصلی را موردبحث قرار دادیم و اکنون میتوانیم بهسادگی آزمایشهایی را که باید روی دستههای مختلف انجام شود، اولویتبندی کنیم. شما بهراحتی میتوانید، طبق توضیحات اجمالی که در این مقاله داده شد، یک نمودار هیستوگرام یا فرکانس برای دادههای کمی و نمودار دایرهای و میلهای را برای دادههای کیفی رسم کنید.
تحلیل رگرسیون که در آن رابطه بین یک متغیر وابسته و دو یا چند متغیر مستقل تجزیهوتحلیل میشود، تنها برای دادههای کمی امکانپذیر است. آزمون ANOVA (تحلیل واریانس) فقط بر روی متغیرهای کیفی قابلاستفاده است، اگرچه میتوانید این آزمون دوطرفه را که از دو متغیر اسمی استفاده میکند، اعمال کنید.
بهاینترتیب، میتوانید آزمون کای دو را روی دادههای کیفی اعمال کنید.
جمعبندی و نتیجهگیری
در این مقاله، به انواع داده پرداختیم. همچنین پیرامون چگونگی همپوشانی دادههای ترتیبی با دادههای گسسته بحث کردیم. با سپاس از همراهی شما.
منابع
۱. انواع داده – ترجمه از انگلیسی
این مقاله برای من مفید بود
1+ 0 نفر این مقاله را پسندیده