معماری خط لوله داده چیست؟ در داده‌های بزرگ چه کاربردی دارد؟

معماری خط لوله داده چیست؟ در داده‌های بزرگ چه کاربردی دارد؟ در این مقاله آموزشی خواهیم آموخت.

برای مدیریت داده‌ها ، معماری‌های گوناگونی وجود دارد که توسط مراجع مختلفی طراحی و استانداردسازی شده‌اند.

در اینجا مدلی را تحت عنوان خط لوله داده ، با ۶ لایه + ۲ لایه تکمیلی معرفی خواهیم کرد.

این معماری با هر دو نوع سیستم پردازش دسته‌ای و سیستم پردازش جریان هماهنگ است. برای کسب اطلاعات بیشتر در مورد تفاوت پردازش دسته‌ای و جریان این مقاله را حتما بخوانید.

مکانیزم و عملکرد خط لوله داده

معماری خط لوله داده (Pipeline Architecture) مجموعه‌ای از مراحل پردازش داده است. اگر داده‌ها در حال حاضر در پلتفرم داده بارگیری نشده‌اند ، در ابتدای خط لوله اصطلاحاً بلعیده می‌شوند. سپس طی یک سری مراحل که در آن هر مرحله یک خروجی را ارائه می‌دهد که ورودی مرحله بعدی است ، انتقال داده انجام می‌شود. این کار تا زمان کامل شدن خط لوله ادامه می‌یابد.

در برخی موارد ، مراحل مستقل ممکن است به طور موازی اجرا شوند.

عناصر اصلی مدل خط لوله داده

خطوط لوله داده از سه عنصر اصلی تشکیل شده است:

  • منبع؛
  • مرحله یا مراحل پردازش؛
  • مقصد

در برخی از خطوط لوله داده ، مقصد ممکن است سینک نامیده شود.

فرآیند کار

خطوط لوله داده جریان داده‌ها را از یک برنامه به یک انبار داده ، یا در تعریف خودش از یک دریاچه داده به یک پایگاه داده تجزیه و تحلیل ، یا به عنوان مثال به یک سیستم پردازش پرداخت ، امکان‌پذیر می‌کند.

خطوط داده نیز ممکن است دارای منبع و سینک یکسانی باشند ، به گونه‌ای که تمایز هر خط لوله صرفاً در تغییر مجموعه داده اتفاق می‌افتد.

این مطلب را نیز حتما بخوانید:  انواع هوش تهدید چیست؟

به عبارت بهتر ، یعنی ممکن است این خطوط لوله داده منطقی باشند و نه فیزیکی.

هر زمان که داده‌ها بین نقطه A و B (یا نقاط B ، C و D) پردازش می‌شوند ، یک خط لوله داده بین این نقاط وجود دارد.

از آنجا که سازمان‌ها به دنبال ایجاد برنامه‌های کاربردی با پایگاه‌های کد کوچک هستند که به منظور خاصی کار می‌کنند (این نوع برنامه ها “خدمات میکرو” نامیده می شوند). آنها داده‌ها را بین برنامه‌های کاربردی بیشتری جابجا می‌کنند و کارایی خطوط داده را در برنامه‌ریزی خود مورد توجه قرار می‌دهد.

داده‌های تولیدشده در یک سیستم یا برنامه منبع ممکن است چندین خط لوله داده را تغذیه کند ، و این خطوط ممکن است چندین خط لوله یا برنامه کاربردی دیگر داشته باشند که به خروجی آنها وابسته است.

مثال از عملکرد

نگاهی به شبکه‌های اجتماعی می‌اندازیم. برای مثال ، یک رویداد انتقال می‌تواند داده‌هایی را برای تهیه یک گزارش لحظه‌ای (real-time) از شبکه اجتماعی مذکور به یک برنامه تجزیه و تحلیل احساسات که نتیجه مثبت ، منفی یا خنثی را در یک موضوع خاص نشان می‌دهد بفرستد. یا به برنامه‌ای که هر کاربر را در نقشه جهان ترسیم می‌کند و موقعیت آن‌ها را نشان می‌دهد.

اگرچه داده‌ها در همه موارد از یک منبع هستند ، اما هر یک از این برنامه‌ها بر اساس خطوط داده منحصر به فرد ساخته شده‌اند که قبل از مشاهده نتیجه نهایی توسط کاربر نهایی ، باید به آرامی تکمیل شوند.

مراحل متداول در خطوط داده شامل تبدیل داده‌ها ، افزایش ، غنی‌سازی ، فیلتر کردن ، گروه‌بندی ، تجمیع و اجرای الگوریتم‌ها در برابر آن داده‌ها است.

خط لوله داده بزرگ چیست؟

با افزایش سه پارامتر اساسی حجم ، تنوع و سرعت داده‌ها در سال‌های اخیر ، معماران و توسعه‌دهندگان مجبور به سازگاری با “داده های بزرگ” شدند. اصطلاح “کلان‌داده” نشان می‌دهد که حجم زیادی داده برای پردازش وجود دارد. این حجم از داده ها می تواند فرصت‌هایی را برای استفاده‌های مختلف مانند تجزیه و تحلیل ، پیش بینی ، گزارش لحظه‌ای (real-time) و هشدارها در بین بسیاری از نمونه‌ها ایجاد کند.

این مطلب را نیز حتما بخوانید:  دریاچه داده چیست؟

مانند بسیاری از اجزای معماری داده ، خطوط لوله نیز برای پشتیبانی از داده‌های بزرگ تکامل یافته‌اند. خطوط لوله داده بزرگ ، خطوط انتقال داده هستند که برای قرار دادن یک یا چند مورد از سه ویژگی کلان داده طراحی شده‌اند.

سرعت داده‌های بزرگ ایجاد خطوط لوله پیوسته داده برای کلان داده را جذاب می‌کند. سپس داده‌ها را می‌توان در زمان واقعی ضبط و پردازش کرد تا اقدامات بعدی انجام شود.

حجم داده‌های بزرگ نیازمند مقیاس‌پذیری خطوط لوله است زیرا حجم می‌تواند در طول زمان متغیر باشد.

در عمل ، این احتمال وجود دارد که بسیاری از رویدادهای کلان داده به طور همزمان یا بسیار نزدیک به یکدیگر رخ دهند ، بنابراین خط لوله داده‌های بزرگ باید بتواند حجم زیادی از داده ها را همزمان پردازش کند. تنوع داده‌های بزرگ نیازمند آن است که خطوط داده بزرگ بتوانند داده‌ها را در قالب‌های مختلف تشخیص داده و پردازش کنند: ساختار یافته ، بدون ساختار و نیمه‌ساختار یافته.

لایه‌های معماری داده بزرگ

  • لایه جذب داده
  • لایه جمع‌آوری داده
  • لایه پردازش داده
  • لایه ذخیره داده
  • لایه پرس و جو داده
  • لایه نمایش داده

دو لایه مهم و تکمیلی دیگر عبارتند از:

  • لایه امنیت داده
  • لایه نظارت بر داده

در ادامه بحث معماری خط لوله داده چیست ، به بحث درباره این لایه‌ها می‌پردازیم.

لایه جذب (بلع) داده‌های بزرگ

این لایه اولین لایه‌ای است که لوله‌های انتقال داده از منابع متغیر برای شروع فرآیند داده‌پردازی از آن عبور می‌کنند.

این مرحله جذب یا بلع داده نامیده می‌شود. (به دلیل استفاده از تصویرسازی مفهومی لوله‌ها که گویی داده‌ها را از منبع می‌بلعند.)

جذب داده‌ها به این هدف صورت می‌گیرد که داده‌ها اولویت‌بندی و طبقه‌بندی شوند ، که این امر باعث می‌شود جریان داده‌ها در لایه‌های دیگر روان باشد.

لایه جمع‌آوری داده‌های بزرگ

در این لایه ، تأکید بیشتری بر انتقال داده‌ها از منبع ورودی به بقیه خط لوله داده‌ها است. این‌جا است که در آن داده‌ها بر اساس اجزای ساختاری یا مفهومی خود جداسازی می‌شوند تا سیستم بتواند در لایه‌های بعدی ، قابلیت‌های تحلیلی خود را روی هر دسته داده اعمال کند. داده‌های گرفته شده از منابع اولیه ، پس از جمع‌آوری و دسته‌بندی به سینک‌های جدید تحویل داده می‌شوند. این سینک‌ها در حکم منابع برای مرحله بعدی هستند.

این مطلب را نیز حتما بخوانید:  یادگیری عمیق به زبان ساده

لایه پردازش داده‌های بزرگ

در این لایه ، داده‌هایی که در لایه قبلی جمع‌آوری کرده‌ایم از سینک مرحله قبل (و منبع مرحله فعلی) دریافت شده و پردازش می‌شوند. در اینجا ما با داده‌ها فرآیند مربوط به این مرحله یعنی پردازش را انجام می‌دهیم تا آنها را به مقصد بعدی برسانیم و جریان داده‌ها را دسته‌بندی کنیم. این اولین نقطه‌ای است که تجزیه و تحلیل داده در آن رخ می‌دهد.

لایه ذخیره داده‌های بزرگ

ذخیره‌سازی زمانی چالش‌برانگیز می‌شود که حجم داده‌هایی که در حال پردازش آنها هستید بزرگ شود. چندین راه حل ممکن ، مانند مدل‌های جذب داده‌ها ، وجود دارد که می‌تواند چنین مسائلی را حل کند. وقتی حجم داده‌های شما مهم می‌شود ، یافتن راه حل ذخیره‌سازی بسیار مهم است. این لایه از معماری داده‌های بزرگ بر “محل ذخیره کارآمد چنین داده های بزرگ” متمرکز است.

لایه پرس و جو داده‌های بزرگ

این لایه مهم معماری داده بزرگ است که در آن پردازش تحلیلی و فعال Big Data انجام می‌شود. هدف اصلی در اینجا جمع‌آوری مقدار داده است تا برای لایه بعدی مفیدتر باشد.

لایه نمایش داده‌های بزرگ

سطح نمایش یا ارائه ، احتمالاً معتبرترین سطح ، جایی که کاربران خط لوله داده می توانند ارزش داده‌ها را احساس کنند.

جمع‌بندی

در این مقاله آموزشی درباره مدل ویژه‌ای از تحلیل بیگ دیتا ، یعنی اینکه معماری خط لوله داده چیست صحبت کردیم و یک معماری ویژه ۶ لایه‌ای (مانند طبقات یک ساختمان که در آن لوله‌کشی انجام شده) برای آن در نظر گرفتیم.

منابع مورد استفاده

۱. خط لوله داده چیست؟ – ترجمه از انگلیسی

۲. معماری داده بزرگ – ترجمه از انگلیسی

آژانس معاملات هوشمند

آژانس معاملات هوشمند آکادمی آموزشی همکار golearnwork.com در حوزه دیجیتال مارکتینگ ، بازاریابی محتوا ،بهینه سازی محتوا برای موتور جستجو (سئو) ، بازاریابی تأثیرگذار ، بازاریابی شبکه‌های اجتماعی ، داده کاوی آماری و ... .

مطالب مرتبط
1 دقیقه

تفاوت خزش وب و خراش وب چیست؟

golearnwork

تفاوت خزش وب و خراش وب چیست؟ در این مقاله برآنیم تا تفاوت میان این دو مفهوم را توضیح داده و تشریح کنیم. با ما همراه باشید. نوشتارهای اصلی: داده کاوی چیست؟ ، وب کاوی چیست؟ ، خزش وب چیست و چگونه کار می‌کند؟ ، چگونه سئو سایت را بالا ببریم؟ هم‌چنین بخوانید: موتور جستجو […]

هوش تهدید چیست؟ 1 دقیقه

هوش تهدید چیست؟

golearnwork

هوش تهدید چیست؟ در این نوشتار می‌خواهیم درباب هوش تهدید، به عنوان عامل پیشگیرانه وقوع حوادث امنیتی مانند نفوذ و غیره صحبت کنیم. امروزه فناوری‌های دیجیتال در قلب کلیه صنعت‌ها و بیزینس‌ها قرار دارند. اتوماسیون و هوش مصنوعی باعث ایجاد انقلابی در مؤسسات اقتصادی و فرهنگی جهان شده است، اما خطراتی را نیز در قالب […]

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سبد خرید
Subtotal 0 تومان