بیگ دیتا یا کلان داده چیست؟
بیگ دیتا یا کلان داده چیست؟

همه می‌دانیم که در دنیای امروز، آمار و اطلاعات حرف اول و آخر را می‌زند و به همین دلیل است که دوران فعلی را عصر اطلاعات نام‌گذاری کرده‌اند. اطلاعات و آمارها به ما کمک می‌کنند تا بهتر بدانیم که برای موفقیت بیشتر در زندگی و یا کسب‌وکار خود باید چه کارهایی انجام بدهیم. در این مقاله قصد داریم به توضیح مفهوم بیگ دیتا یا کلان داده و کاربرد آن در زندگی یا کسب ‌و کار خودمان بپردازیم.

داده چیست؟

داده (Data) به مقدارها یا کاراکترها یا نمادهایی گفته می‌شود که براساس آن عملیات توسط رایانه انجام می‌شود. داده‌ها در واقع مجموعه‌ای از حقایق هستند که بصورت اعداد، کلمات، مقدارها، مشاهدات یا توصیف چیزهای مختلف ثبت می‌شود. داده‌ها ممکن است به دو صورت کیفی یا کمی باشند.

داده‌های کیفی شامل اطلاعات توصیفی هستند یعنی اطلاعاتی که چیزی را توصیف می‌کند. داده‌های کمی در واقع اطلاعات عددی هستند. داده ممکن است به صورت سیگنال‌های الکتریکی ذخیره شده و انتقال یابد و در رسانه‌های ضبط مغناطیسی، نوری یا مکانیکی، ضبط شود.

بیگ دیتا یا کلان داده چیست؟

بیگ دیتا یا کلان داده عبارتی‌ است که یک حجم زیاد از  داده‌های ساختاریافته و ساختارنیافته را توصیف می‌کند که بطور روزانه در یک کسب‌ و کار تولید و انباشته می‌شود. اما این مقدار داده نیست که حائز اهمیت است. آنچه مهم است، کاری‌ است که سازمان‌ها با داده‌ها انجام می‌دهند. می‌توان بیگ دیتا را برای بدست آوردن دید و بینش بهتر که منجر به تصمیم ‌گیری درست‌تر و حرکات راهبردی در کسب‌وکار می شوند، مورد تجزیه و تحلیل قرار داد.

به بیان دیگر، بیگ دیتا داده‌ای با اندازه بسیار زیاد است که دارای حجم عظیمی بوده و در عین حال با گذشت زمان به سرعت رشد می‌کند. به طور خلاصه، چنین داده‌هایی آنقدر بزرگ و پیچیده هستند که هیچ یک از ابزارهای سنتی مدیریت داده، قادر به ذخیره یا پردازش موثر آن نیستند.

تاریخچه بیگ دیتا

عبارت «بیگ دیتا» به داده‌هایی گفته می‌شود که آنقدر بزرگ، سریع یا پیچیده هستند و پردازش آن با استفاده از روش‌های سنتی دشوار یا ناممکن است. بدست‌ آوردن و ذخیره مقدار زیادی از اطلاعات برای آنالیز و تحلیل، مدت زیادی است که در میان شرکت‌ها و کسب‌وکارها مطرح شده است. اما مفهوم بیگ دیتا در اوایل دهه 2000 میلادی آرام آرام شروع به رواج یافتن کرد، هنگامیکه تحلیلگر صنعت، داگ لانی، تعریفی از بیگ دیتا را به عنوان سه V بیان کرد. تعریفی که امروزه آن را به عنوان معنای اصلی بیگ دیتا مطرح می‌کنند:

حجم (Volume) 

سازمان‌ها معمولا داده‌ها را از منابع مختلف از جمله معاملات تجاری، دستگاه‌های هوشمند اینترنت اشیا، تجهیزات صنعتی، فیلم‌ها، شبکه‌های اجتماعی و غیره جمع ‌آوری می‌کنند. در گذشته ذخیره‌ سازی این داد‌ه‌ها یک مشکل بزرگ بود اما ذخیره ‌سازی ارزان‌تر در سیستم عامل‌هایی مانند دریاچه‌های داده و هادوپ (Hadoop)، میزان دشواری این کار را کاهش داده است.

سرعت (Velocity)

با رشد اینترنت اشیا (IoT) امروزه داده‌ها با سرعتی بی ‌سابقه به کسب ‌و کارهای مختلف انتقال می‌یابند و باید به موقع مدیریت شوند. برچسب‌های RFID، حسگرها و کنتورهای هوشمند، این نیاز را ایجاد می‌کنند که این سیل داده‌ها تقریبا بصورت لحظه‌ای مدیریت شوند.

تنوع (Variety)

داده‌ها همیشه به یک شکل نیستند و معمولا به شکل‌ها و فرمت‌های مختلفی وجود دارند مانند:

  • داده‌های عددی ساختاریافته در دیتابیس‌های سنتی(پایگاه داده)
  • اسناد متنی ساختارنیافته
  • ایمیل‌ها
  • فایل‌های تصویری
  • فایل‌های صوتی
  • داده‌های مربوط به سهام‌ها و تراکنش‌های مالی

به تازگی، در تعریف بیگ دیتا، دو جنبه دیگر را هم در نظر می گیرند:

تغییرپذیری (Variability)

علاوه بر افزایش سرعت و انواع داده‌ها، مشکل دیگری که به تازگی مشاهده شده این است که جریان داده‌ها قابل پیش‌بینی نیستند یعنی اغلب تغییر می‌کنند و با یکدیگر بسیار متفاوت هستند. این امر چالش برانگیز است، اما کسب‌ و کارها باید خبردار باشند که هرچیزی چه زمانی در شبکه‌های اجتماعی در حال مُد شدن و دست ‌به ‌دست شدن است و بدانند که چگونه می‌توان میزان اوج بار داده‌های روزانه، ترافیک داده‌های مناسبتی و یا ناگهانی را مدیریت کرد.

صحت و درستی (Veracity)

پارامتر صحت و درستی به کیفیت داده‌ها اشاره دارد. از آنجا که داده‌ها از منابع مختلفی بدست می‌آیند، پیوند دادن، همسان‌سازی، پاکسازی و تبدیل داده‌ها در بین سیستم‌ها دشوار است. کسب‌ و کارها باید ارتباط میان روابط، سلسله مراتب و پیوندهای داده‌ای متعدد را پیدا کرده و آن‌ها را به هم پیوند دهند. در غیر این صورت ممکن است داده‌های آن‌ها خیلی سریع از کنترل خارج شوند.

چرا بیگ دیتا مهم است؟

اهمیت بیگ دیتا به میزان و حجم داده‌های شما بستگی ندارد، بلکه آنچه با آن‌ها انجام می‌دهید اهمیت دارد. می‌توانید داده‌ها را از هر منبعی بگیرید و آن‌ها را تجزیه و تحلیل کنید تا پاسخ‌هایی را پیدا کنید که به شما اجازه دهد تا:

  1. هزینه را کاهش دهید.
  2. زمان انجام کارها را کوتاه‌تر کنید.
  3. محصولات جدیدی را تهیه و تولید کنید و آنچه را که عرضه می‌کنید،‌ بهینه کنید.
  4. هوشمندانه تصمیم‌گیری کنید.

اگر از بیگ دیتا برخوردار باشید و در کنار آن بتوانید تحلیل‌های قدرتمند و درستی از این داده‌ها داشته باشید، می‌توانید بسیاری از کارهای مربوط به کسب‌ و کار را انجام دهید. مانند:

  • ریشه‌یابی و تعیین علل اصلی شکست‌ها، ناکامیابی‌ها، مشکلات و نقص ها بصورت تقریبا لحظه‌ای و آنی.
  • تولید کوپن موقع شروع حراج محصولات بر اساس عادت خرید مشتری.
  • محاسبه مجدد کل اوراق بهادار ریسک ظرف مدت چند دقیقه.
  • شناسایی و تشخیص رفتارهای متقلبانه پیش از تاثیرگذاری بر سازمان شما.

نمونه هایی از بیگ دیتا که باید بشناسید

در این بخش به چند نمونه از بیگ دیتا یا کلان‌داده‌ها اشاره می‌کنیم تا کمی بیشتر با شکل‌های مختلف آن آشنا شوید:

-1 سهام و بازار سرمایه

بازار سهام و بازار سرمایه جایی است که در آن در هر ثانیه هزاران بایت اطلاعات جابجا می‌شود و همه چیز بصورت آنی و لحظه‌ای تغییر می‌کند.بورس اوراق بهادار نیویورک روزانه حدود یک ترابایت داده تجاری و معاملاتی جدید تولید می‌کند.

۲- شبکه‌های مجازی

جهت ارائه یک نمونه دیگر در حوزه شبکه‌های مجازی، می‌توان به این مسئله اشاره کرد که براساس آمار منتشر شده، هر روز تقریبا بیش از 500 ترابایت داده جدید در پایگاه داده‌های سایت شبکه اجتماعی فیسبوک وارد می‌شود. بیشتر این داده‌ها از طریق بارگذاری عکس و فیلم، تبادل پیام و نوشتن دیدگاه‌ها و نظرات زیر مطالب مختلف تولید می‌شوند.

۳- موتور هواپیما

موتور یک جت می‌تواند در مدت 30 دقیقه از زمان پرواز، بیش از 10 ترابایت داده تولید کند. با هزاران پروازی در هر روز انجام می‌شود، تولید داده روزانه به چندین پتابایت(معادل هزار ترابایت یا یک میلیون گیگابات) می‌رسد.

انواع بیگ دیتا

گفتیم که داده‌ها شکل‌های مختلفی دارند اما بیگ دیتا یا کلان داده را می‌توان به سه دسته تقسیم‌بندی کرد :

  1. ساختاریافته
  2. ساختارنیافته
  3. نیمه ساختاریافته

ساختاریافته

هر داده‌ای که می‌تواند به صورت یک قالب ثابت ذخیره شده، در دسترس قرار گیرد و پردازش شود، به عنوان یک داده «ساختاریافته» نامیده می‌شود. در درازای زمان، استعداد در علوم رایانه در توسعه روش‌های کار با چنین داده‌هایی (که قالب آن از قبل کاملا شناخته شده است) و همچنین بهره بردن از آن، موفقیت زیادی کسب کرده است.

با این توصیف، امروزه، ما پیشاپیش در حال رصد و بررسی مشکلاتی هستیم که رشد ‌بی‌اندازه این داده‌ها رخ خواهد داد؛ روزی که اندازه‌های معمول داد‌ه‌های ورودی در حد چندین زتابایت باشد. دقت داشته باشید که هر زتابایت برابر با هزار میلیارد گیگابایت، یک میلیارد ترابایت یا یک میلیون پتابایت است.

با نگاهی به این ارقام می‌توان به سادگی فهمید که چرا به این حجم از داده‌ها، بیگ دیتا یا کلان ‌داده گفته می‌شود. فقط یک لحظه چالش‌های موجود در ذخیره‌سازی و پردازش این حجم از داده و اطلاعات را تصور کنید. داده‌های ذخیره شده در یک سیستم مدیریت دیتابیس رابطه‌ای (پایگاه داده)، یکی از نمونه‌های داده «ساختار یافته» است.

ساختارنیافته

هر داده‌ای با فرم یا ساختار ناشناخته به عنوان داده ساختارنیافته دسته‌بندی می‌شود. داده‌های ساختارنیافته علاوه بر بزرگ بودن، از نظر پردازش برای استخراج و بدست آوردن مقادیر از آن، چالش‌های گوناگونی ایجاد می‌کنند. یک نمونه معمول از داده‌های ساختارنیافته، یک منبع داده ناهمگن است که شامل ترکیبی از فایل‌های متنی ساده، تصاویر، فیلم‌ها و غیره می‌باشد.

امروزه، سازمان‌ها مقدار زیادی از داده‌ها‌ را در دسترس خود دارند اما متاسفانه نمی‌دانند که چگونه اعداد و مقادیر آن را بدست آورند چرا که این داده‌ها به شکل خام یا فرمت‌های ساختارنیافته هستند. نمونه‌ای از یک داده‌ی ساختارنیافته، نتیجه‌ای‌ست که پس از یک جستجوی ساده توسط موتور جستجوی گوگل در اختیار ما قرار می‌گیرد.

نیمه ساختاریافته

داده‌های نیمه ساختاریافته می‌توانند حاوی هر دو شکل از داده‌ها باشند. ممکن است داده‌های نیمه ساختاریافته را از لحاظ شکل و حالت کلی با داده‌های ساختاریافته اشتباه بگیریم اما در واقع این داده‌ها با روش‌هایی مثل جدول رابطه‌ای (مانند مثال داده ساختاریافته) تعریف نمی‌شوند. نمونه‌ای از داده‌های نیمه‌ساختاریافته، داده‌ای است که در یک فایل XML ارائه می‌شود. مثلا دقت کنید که اطلاعات شخصی افراد چگونه در یک فایل XML ذخیره می‌شود.

بیگ دیتا چگونه عمل می‌کند؟

پیش از اینکه کسب‌ و کارها بتوانند از بیگ دیتا برای دستیابی به اهداف خود بهره ببرند و از آن در راستای کار خود استفاده کنند، باید بررسی کنند و دریابند که بیگ دیتا چطور در میان تعداد زیادی از مکان‌ها، منابع، سیستم‌ها، مالکان و کاربران جریان پیدا می‌کند. پنج گام کلیدی برای بر عهده گرفتن مسئولیت این «ساختار داده» بزرگ وجود دارد؛ جنسی از داده‌ها که شامل داده‌های سنتی و ساختاریافته و همچنین داده‌های ساختارنیافته و نیمه ساختاریافته است:

  1. برای بیگ دیتا یک راهبرد تنظیم کنید.
  2. منابع بیگ دیتا را شناسایی کنید.
  3. به داده مورد نظر دسترسی پیدا کرده، آن را مدیریت کرده و ذخیره کنید.
  4. داده را تحلیل کنید.
  5. تصمیمات داده-محور اتخاذ کنید.

حالا بیایید با هم،‌ موارد بالا را کمی دقیقتر و موشکافانه‌تر بررسی کنیم تا جزییات بیشتری را در مورد نحوه استفاده از بیگ دیتا یاد بگیریم:

برای بیگ دیتا یک راهبرد تنظیم کنید

در سطوح کلان، راهبرد بیگ دیتا نقشه و برنامه‌ای است که طراحی شده تا به شما در نظارت و بهبود بخشیدن روش دریافت، ذخیره، مدیریت، به اشتراک‌ گذاری و استفاده از داده‌ها در داخل و خارج از سازمانتان کمک کند. داشتن یک راهبرد برای بیگ دیتا زمینه موفقیت کسب‌ و کار شما را در میان انبوه داده‌ها فراهم می‌کند. هنگام تهیه یک راهبرد این مهم است که اهداف و ابتکارات تجاری و فناوری امروز و آینده را در نظر بگیرید. برای این کار باید با بیگ دیتا مانند هر دارایی تجاری ارزشمند دیگر برخورد کنید نه فقط به عنوان یک محصول جانبی که توسط نرم ‌افزارهای مختلف تولید می‌شود.

منابع بیگ دیتا را بشناسید

داده‌های جاری از اینترنت اشیا(IoT) و سایر دستگاه‌های متصل به سیستم های IT از طریق دستگاه‌های پوشیدنی‌ (مانند ساعت‌ها و لباس‌های هوشمند)، خودروهای هوشمند، تجهیزات پزشکی، تجهیزات صنعتی و سایر موارد، وارد می‌شود. می‌توانید این بیگ دیتاها را هنگام ورودشان، تجزیه و تحلیل کنید و تصمیم بگیرید که کدام داده‌ها را نگه دارید یا نگه ندارید، و اینکه کدامیک از این داده‌ها به تجزیه و تحلیل بیشتری نیاز دارند.

داده‌های شبکه‌های اجتماعی از تعاملات افراد در فیسبوک، یوتیوب، اینستاگرام و غیره سرچشمه می‌گیرد. ورودی از این شبکه‌ها، شامل مقادیر زیادی بیگ دیتا به شکل تصاویر، فیلم‌ها، صدا، متن و آهنگ است. تمام این ورودی‌ها برای بازاریابی ، فروش و پشتیبانی بسیار سودمند و کاربردی هستند. این داده‌ها اغلب به صورت ساختارنیافته یا نیمه‌ساختاریافته هستند، بنابراین استفاده و تجزیه و تحلیل این داده‌ها بخودی خود یک چالش منحصر به فرد است.

داده‌های موجود در دسترس عموم از منابع گسترده‌ای از منابع داده‌ای باز، مانند اطلاعات منتشر شده در وبسایت دولت ایالات متحده آمریکا، کتابخانه الکترونیک اسناد جهانی سی آی ای (CIA World Factbook) یا پورتال داده‌های باز اتحادیه اروپا، بدست می‌آیند. سایر بیگ دیتاها ممکن است از دریاچه های داده، منابع داده ابری، تامین کنندگان و مشتریان حاصل شوند.

به داده مورد نظر دسترسی پیدا کرده، آن را مدیریت کرده و ذخیره کنید

سیستم‌های محاسباتی مدرن، سرعت، قدرت و انعطاف‌پذیری لازم برای دسترسی سریع به مقادیر عظیم و انواع بیگ دیتاها را فراهم می‌کنند. شرکت‌ها علاوه بر نیاز به برخورداری از دسترسی قابل اعتماد، به روش‌هایی برای یکپارچه‌سازی داده‌ها، اطمینان از کیفیت داده‌ها، امکان مدیریت و ذخیرهسازی داده‌ها و تهیه داده‌ها برای تجزیه و تحلیل نیاز دارند. برخی از داده‌ها ممکن است در محل و در انبار داده سنتی ذخیره شوند اما گزینه‌های انعطاف‌پذیر و کم هزینه‌ای نیز برای ذخیره و مدیریت بیگ دیتا از طریق فضای ابری، دریاچه های داده و هادوپ (Hadoop) وجود دارد.

بیگ دیتا یا کلان‌داده را تجزیه و تحلیل کنید

با استفاده از فناوری‌های با کارایی بالا مانند محاسبات شبکه‌ای یا تحلیل‌های درون‌ حافظه‌ای، سازمان‌ها می‌توانند از تمام بیگ‌ دیتاهای خود برای تجزیه و تحلیل استفاده کنند. روش دیگر این است که پیش از هرگونه تجزیه و تحلیل مشخص کنید که کدام داده‌ها مرتبط با خواست و نیاز شما هستند و فقط از همان داده‌ها استفاده کنید.

در هر صورت، تجزیه و تحلیل کلان داده‌ ها روشی است که به کمک آن شرکت‌ها چشم ‌انداز و بینش تجاری خود را بدست می‌آورند. پژوهش‌ها و تحلیل‌های پیشرفته امروزی مانند هوش مصنوعی بطور فزایند‌ه‌ای توسط بیگ دیتاها تغذیه می‌شوند و بیگ دیتا تمام آنچه که این تحقیقات و فعالیت‌های تحلیلی نیاز دارند را برای آن‌ها فراهم می‌کند.

تصمیمات داده محور اتخاذ کنید

داده‌های قابل اعتماد و مدیریت شده به ما کمک می‌کنند تا تحلیل‌های قابل ‌اطمینان و تصمیم ‌گیری ‌های قابل اعتمادی داشته باشیم. کسب‌وکارها برای اینکه بتوانند در بازار رقابتی امروز در کورس مسابقه بمانند و به رقابت ادامه دهند، باید از مقادیر داخل بیگ دیتا بطور تمام و کمال بهره ببرند و به روشی داده محور عمل کنند.

یعنی مدیران هر کسب ‌و کار به جای آنکه با اتکا به احساسات و غریزه‌ها تصمیم ‌گیری کنند، باید براساس شواهد ارائه شده توسط بیگ دیتا تصمیمات خود را اتخاذ نمایند. مزایای داده محور بودن روشن و آشکار است. سازمان‌های داده محور عملکرد بهتری دارند، از نظر عملیاتی بیشتر قابل پیش ‌بینی هستند و همچنین سودآوری بیشتری دارند. وین تامپسون مدیر تولید کمپانی SAS در مورد بیگ دیتا اینگونه می‌گوید:

یادگیری عمیق (دیپ لرنینگ (Deep learning- نیازمند بیگ دیتا است زیرا کلان ‌داده ‌ها برای یافتن الگوهای پنهان و گرفتن پاسخ بدون دستکاری زیاد داده‌ها، لازم هستند. با یادگیری عمیق، هرچه داده‌های باکیفیت بیشتری داشته باشید، نتایج بهتری خواهید داشت

مزایای پردازش بیگ دیتا

توانایی پردازش بیگ دیتا مزایای فراوانی دارد که در اینجا می‌خواهیم به چند مورد از آن‌ها اشاره کنیم. این مزایا عبارتند از:

- کمک به تصمیم‌گیری کسب‌وکارها با استفاده از هوش بیرونی: هوش بیرونی در اینجا به معنای اطلاعات بدست آمده از تحلیل داده‌هاست و دسترسی به داده‌های اجتماعی بدست آمده از موتورهای جستجو و سایت هایی مانند فیسبوک و توییتر، به سازمان‌ها کمک می‌کند تا راهبردهای تجاری خود را به خوبی تنظیم کنند.

- خدمت‌رسانی بهتر به مشتریان: سیستم‌های سنتی دریافت بازخورد مشتری، جای خود را به سامانه‌های نوینی می‌دهند که با فناوری‌های بیگ دیتا طراحی شده‌اند. در این سامانه‌ها، از بیگ دیتا و فناوری‌های طبیعی پردازش زبان برای خواندن و ارزیابی بازخورد مشتریان استفاده می‌شود.

- شناسایی زودهنگام ریسک‌های مربوط به محصول/خدمات، در صورت وجود: اگر در حوزه محصولات یا خدماتی که ارائه می‌دهید هرگونه اخلال یا مشکلی به وجود بیاید، میتوانید به کمک بیگ دیتا آن را شناسایی کنید.

- بهبود بخشیدن به کارایی عملیاتی: پیش از مشخص کردن داده‌هایی که باید به انبار داده منتقل شوند، می‌توان از فناوری‌های بیگ دیتا برای ایجاد یک منطقه مرحله‌بندی یا منطقه فرود برای داده‌های جدید استفاده کرد تا همه بتوانند داده‌های ورودی را در دسته ‌بندی مناسبی ذخیره کنند. افزون بر این، ترکیب فناوری‌های مبتنی بر بیگ دیتا با انبار داده‌ها، به هر سازمانی کمک می‌کند تا داده‌هایی را که به ندرت به آن‌ها دسترسی پیدا می‌کند، تخلیه (offload) کند.

 

طراحی اپلیکیشن اندروید | طراحی وب سایت | شرکت ایده پردازان پاراکس

  • logo-samandehi
  • logo-nezam-senfi
  • samane-tadarokat-electronic
  • logo-bakutel
  • انجمن صنفی کارفرمایی فروشگاه های اینترنتی شهر تهران
  • شورای عالی انفورماتیک کشور
  • اتحادیه صنف فناوران رایانه تهران
  • etehadieMajazi