دریاچه داده چیست؟ در این مقاله قصد داریم درباره دریاچه داده صحبت کرده و ویژگیهای آن را بیان کنیم. با ما همراه باشید
بیشتر بخوانید: پایگاه داده چیست؟ ، انبار داده چیست؟
دریاچه داده یا Data Lakes، یک مخزن ذخیرهسازی است که مقادیر زیادی از دادههای خام را در قالب اصلی خود نگهداری میکند تا زمانی که توسط برنامههای تحلیلی مورد نیاز بوده و فراخوانی شوند.
تفاوت دریاچه داده و انبار داده
یک انبار داده، دادهها را در ابعاد، ویژگیها و دستههای مشخص ذخیره میکند، اما یک دریاچه داده از یک معماری مسطح برای ذخیره سازی دادهها، استفاده میکند.
به عبارت بهتر، در انبار داده، دادههای ساختاریافته نگهداری میشوند. درصورتی که در دریاچه داده، دادهها در اصطلاح مسطح (Flat) بوده و انواع دادههای ساختاریافته، ساختارنایافته و نیمهساختاریافته را شامل میشوند.
بیشتر بخوانید: داده ساختاریافته چیست؟
این امر به کاربران قابلیت انعطاف بیشتری در زمینه مدیریت داده، ذخیرهسازی و استفاده میدهد.
دریاچههای داده اغلب با سیستمهای Hadoop مرتبط هستند. در سامانههای استقراری مبتنی بر زیرساخت پردازش توزیع شده، دادهها در سیستم فایل توزیع شده Hadoop (HDFS) بارگذاری میشوند و در گرههای محاسباتی مختلف یک خوشه Hadoop قرار میگیرند. بااینحال، امروزه به شکلی فزاینده، دریاچههای داده بهجای Hadoop بر روی سرویسهای ذخیرهسازی ابری ساخته میشوند.
بیشتر بخوانید: سیستم توزیع شده چیست؟
برخی از پایگاههای داده NoSQL نیز بهعنوان پلتفرمهای دریاچه داده استفاده میشوند
چرا سازمانها از دریاچه داده استفاده میکنند؟
دریاچههای داده معمولاً مجموعههای بزرگ دادهها را ذخیرهسازی میکنند که این مجموعهها اغلب ترکیبی از دادههای ساختاریافته، ساختارنایافته و نیمهساختاریافته هستند.
چنین محیطهایی برای پایگاهدادههای رابطهای که اکثر انبارهای داده بر آنها بنا شدهاند مناسب نیستند. سیستمهای رابطهای به یک طرحواره سفتوسخت برای دادهها نیاز دارند که معمولاً آنها را به ذخیره دادههای تراکنش ساختاریافته محدود میکند.
دریاچههای داده از طرحوارههای متنوعی پشتیبانی میکنند. بیآنکه نیاز باشد تا سیستم برایشان تعریف کند. این موضوع امکان مدیریت انواع دادهها را در قالبهای گوناگون برایشان میسر میکند.
بنابراین، دریاچههای داده بخش کلیدی معماری دادهها در سازمانها هستند و شرکتها عمدتاً از آنها بهعنوان ابزاری برای تجزیهوتحلیل دادهها استفاده میکنند. دریاچههای داده علاوه بر دسترسی به انبوهی از دادهها، به تکنیکها تحلیلی پیشرفته مانند دادهکاوی و مدلسازی پیشبینیکننده نیز دسترسی دارند.
دریاچه داده مکانی مرکزی را برای دانشمندان و تحلیلگران فراهم میکند تا دادههای مربوطه را پیدا، آمادهسازی و تجزیهوتحلیل کنند.
بدون دریاچهها، تحلیل دادهها بسیار پیچیدهتر خواهد شد. همچنین برای سازمانها سختتر است که از داراییهای دادههای خود برای کمک به اتخاذ تصمیمات و استراتژیهای تجاری آگاهانهتر استفاده کنند.
معماری دریاچه داده
در ادامه این مبحث که دریاچه داده چیست، به بحث معماری آن میرسیم.
فناوریهای زیادی وجود دارند که در دریاچههای داده مورداستفاده قرار میگیرند و سازمانها آنها را با روشهای دیگری ترکیب میکنند. این بدان معناست که معماری دریاچه داده اغلب از سازمانی به سازمان دیگر متفاوت است. بهعنوانمثال، یک شرکت میتواند Hadoop را با موتور پردازش Spark و HBase، یک پایگاهداده NoSQL که بر روی HDFS اجرا میشود، مستقر کند.
دیگری میتواند Spark را روی دادههای ذخیره شده در سرویس آمازون (S3) را اجرا کند. یک سازمان دیگر میتواند فناوریهای دیگری را انتخاب کند.
همچنین، دریاچههای داده فقط دادههای خام را ذخیره نمیکنند. بلکه قابلیت تجزیهوتحلیل دادههای پردازش شده را نیز دارا هستند. در واقع معماری دریاچه داده باید بهگونهای باشد که ذخیرهسازی برای همه انواع دادهها امکانپذیر شود.
بسیاری از دریاچههای داده شامل جعبههای شنی تحلیلی هستند که دانشمندان میتوانند برای کار با دادهها از آنها استفاده کنند.
بااینحال، سه اصل معماری داده، دریاچههای داده را از مخازن دادههای دیگر متمایز میکند:
• هیچ دادهای نباید رد شود. هر چیزی که از سیستمهای منبع جمعآوری میشود باید بارگیری شود و در دریاچه باقی بماند.
• دادهها ممکن است بدون پردازش، همانطور که از سیستم منبع دریافت میشوند، ذخیره شوند.
• سپس این دادهها بر اساس الزامات رویکردی که بهعنوان «طرح خوانده شده» باید به یک طرحواره تبدیل و درنهایت ادغام شوند.
عناصر مهم راهبردی در دریاچه داده
صرفنظر از فناوری مورداستفاده در دریاچه داده، برای اطمینان از عملکرد مفید آن، باید عناصر دیگری نیز در آن گنجانده شوند. این عناصر شامل موارد زیر است:
۱. دارابودن یک ساختار پوشهسازی مشترک با قراردادهای نامگذاری معین.
۲. وجود یک کاتالوگ داده، با قابلیت جستجو، برای یافتن و درک دادهها.
۳. دارابودن یک ساختار طبقهبندی مشخص جهت شناسایی دادههای حساس، با اطلاعاتی مانند نوع داده، محتوا، سناریوهای استفاده و گروههای کاربری مجاز احتمالی.
۴. داشتن پروفایلهای تخصصی برای هر داده جهت ارائه اطلاعات و مسائل مربوط به کیفیت آنها.
۵.امکان دسترسی به دادهها برای کمک به کنترل و ردیابی افرادی که به دادهها دسترسی دارند.
۶. حفاظت از دادهها؛ مانند مخفی کردن، رمزگذاری، و نظارت بر استفاده از آنها
آگاهی از علم داده در میان کاربران یک دریاچه ضروری است، بهخصوص اگر قرار باشد این کاربران بهعنوان دانشمند یا مهندس داده فعالیت کنند. کاربران علاوه بر دادهیابی در دریاچه داده و مدیریت صحیح آن، باید تکنیکهای افزایش کیفیت و سیاستهای مرتبط با سازمان بالادستی را نیز بدانند.
در این مقاله درباره اینکه دریاچه داده چیست صحبت کردیم. با تشکر از همراهی شما
منابع
۱. تعریف دریاچه داده – ترجمه از انگلیسی
این مقاله برای من مفید بود
1+ 0 نفر این مقاله را پسندیده