بحثی که در سال های اخیر بیشتر در کشور مطرح می شود در خصوص کلان داده (Big Data) است. و در کنار آن این سوال مطرح می شود که آیا کلان داده قابل دسترس در کشور داریم؟

پاسخ بدون شک مثبت است. علت وجود شک اولیه در این خصوص برداشت های غلط در خصوص کلان داده است. در این حوزه فقط حجم داده ملاک نیست و سرعت تولید آن و همچنین تنوع آن نیز می تواند باعث ایجاد کلان داده شود.

داده های بزرگ چیست؟

قبل از اینکه به معرفی Big Data بپردازیم ، ابتدا باید بدانید!

داده چیست؟

کمیت ها، نویسه ها یا نمادهایی که در آن عملیات توسط رایانه انجام می شود، که ممکن است به صورت سیگنال های الکتریکی ذخیره و انتقال یابد و در رسانه های ضبط مغناطیسی، نوری یا مکانیکی ثبت شود . دیتا یا داده گفته میشود.

حال ، باید مقدمه ای از  Big Data را بدانید.

Big Data چیست؟

Big Data مجموعه ای از داده ها است که حجم عظیمی دارد. و در عین حال با گذشت زمان رشد چشمگیری می کند. این داده ای با اندازه و پیچیدگی بسیار زیاد است که هیچ یک از ابزارهای سنتی مدیریت داده، نمی توانند آن را ذخیره یا پردازش کارآمد کنند. داده های بزرگ نیز داده ای است اما با اندازه بسیار زیاد.

در زیر برخی از مثالهای Big Data آورده شده است.

رسانه های اجتماعی

این آمار نشان می دهد که هر روز 500+ ترابایت داده جدید در پایگاه داده های سایت رسانه های اجتماعی وارد می شود. این داده ها عمدتا از نظر بارگذاری عکس و فیلم، تبادل پیام، قرار دادن نظر و غیره تولید می شوند.

یک موتور جت می تواند در مدت 30 دقیقه از زمان پرواز 10+ ترابایت داده تولید کند. با هزاران پرواز در روز ، تولید داده به بسیاری از Petabytes می رسد.

Big Data

انواع داده های بزرگ

در زیر انواع Big Data آورده شده است:

  • ساختارمند
  • بدون ساختار
  • نیمه ساختاریافته

ساختارمند

هر داده ای که می تواند به صورت یک قالب ثابت ذخیره، دسترسی و پردازش شود. به عنوان یک داده “ساخت یافته” نامیده می شود. در طول دوره زمانی، استعداد در علوم رایانه در توسعه تکنیک های کار با چنین داده هایی (که قالب از قبل کاملاً شناخته شده است) و همچنین ارزش گرفتن از آن، موفقیت بیشتری کسب کرده است. با این حال، امروزه، ما در حال پیش بینی مواردی هستیم که اندازه این داده ها تا حد زیادی رشد کند.

با نگاهی به این ارقام می توان به راحتی فهمید که چرا نام Big Data داده شده است و چالش های ذخیره سازی و پردازش آن را تصور کنید.

بدون ساختار

هر داده ای با فرم یا ساختار ناشناخته به عنوان داده های بدون ساختار طبقه بندی می شود. داده های غیر ساختاری علاوه بر بزرگ بودن، از نظر پردازش برای بدست آوردن ارزش از آن، چالش های متعددی ایجاد می کنند. یک نمونه معمول از داده های بدون ساختار، یک منبع داده ناهمگن است که شامل ترکیبی از پرونده های متنی ساده، تصاویر، فیلم ها و غیره می باشد. اکنون سازمان ها داده های زیادی را در دسترس خود دارند اما متأسفانه آنها نمی دانند که چگونه ارزش آن را بدست آورند این داده ها به شکل خام یا قالب بدون ساختار هستند.

نمونه هایی از داده های غیر ساختاری

خروجی برگشتی توسط “جستجوی Google”

نیمه ساختاریافته

داده های نیمه ساخت یافته می توانند حاوی هر دو شکل داده باشند. ما می توانیم داده های نیمه ساختاریافته را به صورت ساختاری در فرم ببینیم اما در حقیقت با مثال تعریف نمی شوند. یک تعریف جدول در DBMS رابطه ای. نمونه ای از داده های نیمه ساختار داده ای است که در یک فایل XML نشان داده شده است.

نمونه هایی از داده های نیمه ساخت یافته

داده های شخصی ذخیره شده در یک فایل XML.

مزایای پردازش داده های بزرگ

امکان پردازش Big Data مزایای متعددی از جمله:

مشاغل می توانند هنگام تصمیم گیری از هوش بیرون استفاده کنند.

توییتر با دسترسی به داده های اجتماعی از موتورهای جستجو و سایت هایی مانند فیس بوک، سازمان ها را قادر می سازد تا استراتژی های تجاری خود را به خوبی تنظیم کنند.

شناسایی زود هنگام خطر برای محصول / خدمات ، در صورت وجود

کارایی عملیاتی بهتر

قبل از مشخص کردن داده هایی که باید به انبار داده منتقل شوند، می توان از فناوری های Big Data برای ایجاد یک منطقه مرحله بندی یا منطقه فرود برای داده های جدید استفاده کرد. علاوه بر این ، چنین ادغام فناوری های Big Data و انبار داده ها به یک سازمان کمک می کند تا داده هایی را که به ندرت به آنها دسترسی پیدا می کند، بارگیری کند.

empathyfy.com