معماری خط لوله داده چیست؟ در دادههای بزرگ چه کاربردی دارد؟ در این مقاله آموزشی خواهیم آموخت.
برای مدیریت دادهها ، معماریهای گوناگونی وجود دارد که توسط مراجع مختلفی طراحی و استانداردسازی شدهاند.
در اینجا مدلی را تحت عنوان خط لوله داده ، با ۶ لایه + ۲ لایه تکمیلی معرفی خواهیم کرد.
این معماری با هر دو نوع سیستم پردازش دستهای و سیستم پردازش جریان هماهنگ است. برای کسب اطلاعات بیشتر در مورد تفاوت پردازش دستهای و جریان این مقاله را حتما بخوانید.
مکانیزم و عملکرد خط لوله داده
معماری خط لوله داده (Pipeline Architecture) مجموعهای از مراحل پردازش داده است. اگر دادهها در حال حاضر در پلتفرم داده بارگیری نشدهاند ، در ابتدای خط لوله اصطلاحاً بلعیده میشوند. سپس طی یک سری مراحل که در آن هر مرحله یک خروجی را ارائه میدهد که ورودی مرحله بعدی است ، انتقال داده انجام میشود. این کار تا زمان کامل شدن خط لوله ادامه مییابد.
در برخی موارد ، مراحل مستقل ممکن است به طور موازی اجرا شوند.
عناصر اصلی مدل خط لوله داده
خطوط لوله داده از سه عنصر اصلی تشکیل شده است:
- منبع؛
- مرحله یا مراحل پردازش؛
- مقصد
در برخی از خطوط لوله داده ، مقصد ممکن است سینک نامیده شود.
فرآیند کار
خطوط لوله داده جریان دادهها را از یک برنامه به یک انبار داده ، یا در تعریف خودش از یک دریاچه داده به یک پایگاه داده تجزیه و تحلیل ، یا به عنوان مثال به یک سیستم پردازش پرداخت ، امکانپذیر میکند.
خطوط داده نیز ممکن است دارای منبع و سینک یکسانی باشند ، به گونهای که تمایز هر خط لوله صرفاً در تغییر مجموعه داده اتفاق میافتد.
به عبارت بهتر ، یعنی ممکن است این خطوط لوله داده منطقی باشند و نه فیزیکی.
هر زمان که دادهها بین نقطه A و B (یا نقاط B ، C و D) پردازش میشوند ، یک خط لوله داده بین این نقاط وجود دارد.
از آنجا که سازمانها به دنبال ایجاد برنامههای کاربردی با پایگاههای کد کوچک هستند که به منظور خاصی کار میکنند (این نوع برنامه ها “خدمات میکرو” نامیده می شوند). آنها دادهها را بین برنامههای کاربردی بیشتری جابجا میکنند و کارایی خطوط داده را در برنامهریزی خود مورد توجه قرار میدهد.
دادههای تولیدشده در یک سیستم یا برنامه منبع ممکن است چندین خط لوله داده را تغذیه کند ، و این خطوط ممکن است چندین خط لوله یا برنامه کاربردی دیگر داشته باشند که به خروجی آنها وابسته است.
مثال از عملکرد
نگاهی به شبکههای اجتماعی میاندازیم. برای مثال ، یک رویداد انتقال میتواند دادههایی را برای تهیه یک گزارش لحظهای (real-time) از شبکه اجتماعی مذکور به یک برنامه تجزیه و تحلیل احساسات که نتیجه مثبت ، منفی یا خنثی را در یک موضوع خاص نشان میدهد بفرستد. یا به برنامهای که هر کاربر را در نقشه جهان ترسیم میکند و موقعیت آنها را نشان میدهد.
اگرچه دادهها در همه موارد از یک منبع هستند ، اما هر یک از این برنامهها بر اساس خطوط داده منحصر به فرد ساخته شدهاند که قبل از مشاهده نتیجه نهایی توسط کاربر نهایی ، باید به آرامی تکمیل شوند.
مراحل متداول در خطوط داده شامل تبدیل دادهها ، افزایش ، غنیسازی ، فیلتر کردن ، گروهبندی ، تجمیع و اجرای الگوریتمها در برابر آن دادهها است.
خط لوله داده بزرگ چیست؟
با افزایش سه پارامتر اساسی حجم ، تنوع و سرعت دادهها در سالهای اخیر ، معماران و توسعهدهندگان مجبور به سازگاری با “داده های بزرگ” شدند. اصطلاح “کلانداده” نشان میدهد که حجم زیادی داده برای پردازش وجود دارد. این حجم از داده ها می تواند فرصتهایی را برای استفادههای مختلف مانند تجزیه و تحلیل ، پیش بینی ، گزارش لحظهای (real-time) و هشدارها در بین بسیاری از نمونهها ایجاد کند.
مانند بسیاری از اجزای معماری داده ، خطوط لوله نیز برای پشتیبانی از دادههای بزرگ تکامل یافتهاند. خطوط لوله داده بزرگ ، خطوط انتقال داده هستند که برای قرار دادن یک یا چند مورد از سه ویژگی کلان داده طراحی شدهاند.
سرعت دادههای بزرگ ایجاد خطوط لوله پیوسته داده برای کلان داده را جذاب میکند. سپس دادهها را میتوان در زمان واقعی ضبط و پردازش کرد تا اقدامات بعدی انجام شود.
حجم دادههای بزرگ نیازمند مقیاسپذیری خطوط لوله است زیرا حجم میتواند در طول زمان متغیر باشد.
در عمل ، این احتمال وجود دارد که بسیاری از رویدادهای کلان داده به طور همزمان یا بسیار نزدیک به یکدیگر رخ دهند ، بنابراین خط لوله دادههای بزرگ باید بتواند حجم زیادی از داده ها را همزمان پردازش کند. تنوع دادههای بزرگ نیازمند آن است که خطوط داده بزرگ بتوانند دادهها را در قالبهای مختلف تشخیص داده و پردازش کنند: ساختار یافته ، بدون ساختار و نیمهساختار یافته.
لایههای معماری داده بزرگ
- لایه جذب داده
- لایه جمعآوری داده
- لایه پردازش داده
- لایه ذخیره داده
- لایه پرس و جو داده
- لایه نمایش داده
دو لایه مهم و تکمیلی دیگر عبارتند از:
- لایه امنیت داده
- لایه نظارت بر داده
در ادامه بحث معماری خط لوله داده چیست ، به بحث درباره این لایهها میپردازیم.
لایه جذب (بلع) دادههای بزرگ
این لایه اولین لایهای است که لولههای انتقال داده از منابع متغیر برای شروع فرآیند دادهپردازی از آن عبور میکنند.
این مرحله جذب یا بلع داده نامیده میشود. (به دلیل استفاده از تصویرسازی مفهومی لولهها که گویی دادهها را از منبع میبلعند.)
جذب دادهها به این هدف صورت میگیرد که دادهها اولویتبندی و طبقهبندی شوند ، که این امر باعث میشود جریان دادهها در لایههای دیگر روان باشد.
لایه جمعآوری دادههای بزرگ
در این لایه ، تأکید بیشتری بر انتقال دادهها از منبع ورودی به بقیه خط لوله دادهها است. اینجا است که در آن دادهها بر اساس اجزای ساختاری یا مفهومی خود جداسازی میشوند تا سیستم بتواند در لایههای بعدی ، قابلیتهای تحلیلی خود را روی هر دسته داده اعمال کند. دادههای گرفته شده از منابع اولیه ، پس از جمعآوری و دستهبندی به سینکهای جدید تحویل داده میشوند. این سینکها در حکم منابع برای مرحله بعدی هستند.
لایه پردازش دادههای بزرگ
در این لایه ، دادههایی که در لایه قبلی جمعآوری کردهایم از سینک مرحله قبل (و منبع مرحله فعلی) دریافت شده و پردازش میشوند. در اینجا ما با دادهها فرآیند مربوط به این مرحله یعنی پردازش را انجام میدهیم تا آنها را به مقصد بعدی برسانیم و جریان دادهها را دستهبندی کنیم. این اولین نقطهای است که تجزیه و تحلیل داده در آن رخ میدهد.
لایه ذخیره دادههای بزرگ
ذخیرهسازی زمانی چالشبرانگیز میشود که حجم دادههایی که در حال پردازش آنها هستید بزرگ شود. چندین راه حل ممکن ، مانند مدلهای جذب دادهها ، وجود دارد که میتواند چنین مسائلی را حل کند. وقتی حجم دادههای شما مهم میشود ، یافتن راه حل ذخیرهسازی بسیار مهم است. این لایه از معماری دادههای بزرگ بر “محل ذخیره کارآمد چنین داده های بزرگ” متمرکز است.
لایه پرس و جو دادههای بزرگ
این لایه مهم معماری داده بزرگ است که در آن پردازش تحلیلی و فعال Big Data انجام میشود. هدف اصلی در اینجا جمعآوری مقدار داده است تا برای لایه بعدی مفیدتر باشد.
لایه نمایش دادههای بزرگ
سطح نمایش یا ارائه ، احتمالاً معتبرترین سطح ، جایی که کاربران خط لوله داده می توانند ارزش دادهها را احساس کنند.
جمعبندی
در این مقاله آموزشی درباره مدل ویژهای از تحلیل بیگ دیتا ، یعنی اینکه معماری خط لوله داده چیست صحبت کردیم و یک معماری ویژه ۶ لایهای (مانند طبقات یک ساختمان که در آن لولهکشی انجام شده) برای آن در نظر گرفتیم.
منابع مورد استفاده
۱. خط لوله داده چیست؟ – ترجمه از انگلیسی
۲. معماری داده بزرگ – ترجمه از انگلیسی
این مقاله برای من مفید بود
1+ 0 نفر این مقاله را پسندیده