همه میدانیم که در دنیای امروز، آمار و اطلاعات حرف اول و آخر را میزند و به همین دلیل است که دوران فعلی را عصر اطلاعات نامگذاری کردهاند. اطلاعات و آمارها به ما کمک میکنند تا بهتر بدانیم که برای موفقیت بیشتر در زندگی و یا کسبوکار خود باید چه کارهایی انجام بدهیم. در این مقاله قصد داریم به توضیح مفهوم بیگ دیتا یا کلان داده و کاربرد آن در زندگی یا کسب و کار خودمان بپردازیم.
داده چیست؟
داده (Data) به مقدارها یا کاراکترها یا نمادهایی گفته میشود که براساس آن عملیات توسط رایانه انجام میشود. دادهها در واقع مجموعهای از حقایق هستند که بصورت اعداد، کلمات، مقدارها، مشاهدات یا توصیف چیزهای مختلف ثبت میشود. دادهها ممکن است به دو صورت کیفی یا کمی باشند.
دادههای کیفی شامل اطلاعات توصیفی هستند یعنی اطلاعاتی که چیزی را توصیف میکند. دادههای کمی در واقع اطلاعات عددی هستند. داده ممکن است به صورت سیگنالهای الکتریکی ذخیره شده و انتقال یابد و در رسانههای ضبط مغناطیسی، نوری یا مکانیکی، ضبط شود.
بیگ دیتا یا کلان داده چیست؟
بیگ دیتا یا کلان داده عبارتی است که یک حجم زیاد از دادههای ساختاریافته و ساختارنیافته را توصیف میکند که بطور روزانه در یک کسب و کار تولید و انباشته میشود. اما این مقدار داده نیست که حائز اهمیت است. آنچه مهم است، کاری است که سازمانها با دادهها انجام میدهند. میتوان بیگ دیتا را برای بدست آوردن دید و بینش بهتر که منجر به تصمیم گیری درستتر و حرکات راهبردی در کسبوکار می شوند، مورد تجزیه و تحلیل قرار داد.
به بیان دیگر، بیگ دیتا دادهای با اندازه بسیار زیاد است که دارای حجم عظیمی بوده و در عین حال با گذشت زمان به سرعت رشد میکند. به طور خلاصه، چنین دادههایی آنقدر بزرگ و پیچیده هستند که هیچ یک از ابزارهای سنتی مدیریت داده، قادر به ذخیره یا پردازش موثر آن نیستند.
تاریخچه بیگ دیتا
عبارت «بیگ دیتا» به دادههایی گفته میشود که آنقدر بزرگ، سریع یا پیچیده هستند و پردازش آن با استفاده از روشهای سنتی دشوار یا ناممکن است. بدست آوردن و ذخیره مقدار زیادی از اطلاعات برای آنالیز و تحلیل، مدت زیادی است که در میان شرکتها و کسبوکارها مطرح شده است. اما مفهوم بیگ دیتا در اوایل دهه 2000 میلادی آرام آرام شروع به رواج یافتن کرد، هنگامیکه تحلیلگر صنعت، داگ لانی، تعریفی از بیگ دیتا را به عنوان سه V بیان کرد. تعریفی که امروزه آن را به عنوان معنای اصلی بیگ دیتا مطرح میکنند:
حجم (Volume)
سازمانها معمولا دادهها را از منابع مختلف از جمله معاملات تجاری، دستگاههای هوشمند اینترنت اشیا، تجهیزات صنعتی، فیلمها، شبکههای اجتماعی و غیره جمع آوری میکنند. در گذشته ذخیره سازی این دادهها یک مشکل بزرگ بود اما ذخیره سازی ارزانتر در سیستم عاملهایی مانند دریاچههای داده و هادوپ (Hadoop)، میزان دشواری این کار را کاهش داده است.
سرعت (Velocity)
با رشد اینترنت اشیا (IoT) امروزه دادهها با سرعتی بی سابقه به کسب و کارهای مختلف انتقال مییابند و باید به موقع مدیریت شوند. برچسبهای RFID، حسگرها و کنتورهای هوشمند، این نیاز را ایجاد میکنند که این سیل دادهها تقریبا بصورت لحظهای مدیریت شوند.
تنوع (Variety)
دادهها همیشه به یک شکل نیستند و معمولا به شکلها و فرمتهای مختلفی وجود دارند مانند:
- دادههای عددی ساختاریافته در دیتابیسهای سنتی(پایگاه داده)
- اسناد متنی ساختارنیافته
- ایمیلها
- فایلهای تصویری
- فایلهای صوتی
- دادههای مربوط به سهامها و تراکنشهای مالی
به تازگی، در تعریف بیگ دیتا، دو جنبه دیگر را هم در نظر می گیرند:
تغییرپذیری (Variability)
علاوه بر افزایش سرعت و انواع دادهها، مشکل دیگری که به تازگی مشاهده شده این است که جریان دادهها قابل پیشبینی نیستند یعنی اغلب تغییر میکنند و با یکدیگر بسیار متفاوت هستند. این امر چالش برانگیز است، اما کسب و کارها باید خبردار باشند که هرچیزی چه زمانی در شبکههای اجتماعی در حال مُد شدن و دست به دست شدن است و بدانند که چگونه میتوان میزان اوج بار دادههای روزانه، ترافیک دادههای مناسبتی و یا ناگهانی را مدیریت کرد.
صحت و درستی (Veracity)
پارامتر صحت و درستی به کیفیت دادهها اشاره دارد. از آنجا که دادهها از منابع مختلفی بدست میآیند، پیوند دادن، همسانسازی، پاکسازی و تبدیل دادهها در بین سیستمها دشوار است. کسب و کارها باید ارتباط میان روابط، سلسله مراتب و پیوندهای دادهای متعدد را پیدا کرده و آنها را به هم پیوند دهند. در غیر این صورت ممکن است دادههای آنها خیلی سریع از کنترل خارج شوند.
چرا بیگ دیتا مهم است؟
اهمیت بیگ دیتا به میزان و حجم دادههای شما بستگی ندارد، بلکه آنچه با آنها انجام میدهید اهمیت دارد. میتوانید دادهها را از هر منبعی بگیرید و آنها را تجزیه و تحلیل کنید تا پاسخهایی را پیدا کنید که به شما اجازه دهد تا:
- هزینه را کاهش دهید.
- زمان انجام کارها را کوتاهتر کنید.
- محصولات جدیدی را تهیه و تولید کنید و آنچه را که عرضه میکنید، بهینه کنید.
- هوشمندانه تصمیمگیری کنید.
اگر از بیگ دیتا برخوردار باشید و در کنار آن بتوانید تحلیلهای قدرتمند و درستی از این دادهها داشته باشید، میتوانید بسیاری از کارهای مربوط به کسب و کار را انجام دهید. مانند:
- ریشهیابی و تعیین علل اصلی شکستها، ناکامیابیها، مشکلات و نقص ها بصورت تقریبا لحظهای و آنی.
- تولید کوپن موقع شروع حراج محصولات بر اساس عادت خرید مشتری.
- محاسبه مجدد کل اوراق بهادار ریسک ظرف مدت چند دقیقه.
- شناسایی و تشخیص رفتارهای متقلبانه پیش از تاثیرگذاری بر سازمان شما.
نمونه هایی از بیگ دیتا که باید بشناسید
در این بخش به چند نمونه از بیگ دیتا یا کلاندادهها اشاره میکنیم تا کمی بیشتر با شکلهای مختلف آن آشنا شوید:
-1 سهام و بازار سرمایه
بازار سهام و بازار سرمایه جایی است که در آن در هر ثانیه هزاران بایت اطلاعات جابجا میشود و همه چیز بصورت آنی و لحظهای تغییر میکند.بورس اوراق بهادار نیویورک روزانه حدود یک ترابایت داده تجاری و معاملاتی جدید تولید میکند.
۲- شبکههای مجازی
جهت ارائه یک نمونه دیگر در حوزه شبکههای مجازی، میتوان به این مسئله اشاره کرد که براساس آمار منتشر شده، هر روز تقریبا بیش از 500 ترابایت داده جدید در پایگاه دادههای سایت شبکه اجتماعی فیسبوک وارد میشود. بیشتر این دادهها از طریق بارگذاری عکس و فیلم، تبادل پیام و نوشتن دیدگاهها و نظرات زیر مطالب مختلف تولید میشوند.
۳- موتور هواپیما
موتور یک جت میتواند در مدت 30 دقیقه از زمان پرواز، بیش از 10 ترابایت داده تولید کند. با هزاران پروازی در هر روز انجام میشود، تولید داده روزانه به چندین پتابایت(معادل هزار ترابایت یا یک میلیون گیگابات) میرسد.
انواع بیگ دیتا
گفتیم که دادهها شکلهای مختلفی دارند اما بیگ دیتا یا کلان داده را میتوان به سه دسته تقسیمبندی کرد :
- ساختاریافته
- ساختارنیافته
- نیمه ساختاریافته
ساختاریافته
هر دادهای که میتواند به صورت یک قالب ثابت ذخیره شده، در دسترس قرار گیرد و پردازش شود، به عنوان یک داده «ساختاریافته» نامیده میشود. در درازای زمان، استعداد در علوم رایانه در توسعه روشهای کار با چنین دادههایی (که قالب آن از قبل کاملا شناخته شده است) و همچنین بهره بردن از آن، موفقیت زیادی کسب کرده است.
با این توصیف، امروزه، ما پیشاپیش در حال رصد و بررسی مشکلاتی هستیم که رشد بیاندازه این دادهها رخ خواهد داد؛ روزی که اندازههای معمول دادههای ورودی در حد چندین زتابایت باشد. دقت داشته باشید که هر زتابایت برابر با هزار میلیارد گیگابایت، یک میلیارد ترابایت یا یک میلیون پتابایت است.
با نگاهی به این ارقام میتوان به سادگی فهمید که چرا به این حجم از دادهها، بیگ دیتا یا کلان داده گفته میشود. فقط یک لحظه چالشهای موجود در ذخیرهسازی و پردازش این حجم از داده و اطلاعات را تصور کنید. دادههای ذخیره شده در یک سیستم مدیریت دیتابیس رابطهای (پایگاه داده)، یکی از نمونههای داده «ساختار یافته» است.
ساختارنیافته
هر دادهای با فرم یا ساختار ناشناخته به عنوان داده ساختارنیافته دستهبندی میشود. دادههای ساختارنیافته علاوه بر بزرگ بودن، از نظر پردازش برای استخراج و بدست آوردن مقادیر از آن، چالشهای گوناگونی ایجاد میکنند. یک نمونه معمول از دادههای ساختارنیافته، یک منبع داده ناهمگن است که شامل ترکیبی از فایلهای متنی ساده، تصاویر، فیلمها و غیره میباشد.
امروزه، سازمانها مقدار زیادی از دادهها را در دسترس خود دارند اما متاسفانه نمیدانند که چگونه اعداد و مقادیر آن را بدست آورند چرا که این دادهها به شکل خام یا فرمتهای ساختارنیافته هستند. نمونهای از یک دادهی ساختارنیافته، نتیجهایست که پس از یک جستجوی ساده توسط موتور جستجوی گوگل در اختیار ما قرار میگیرد.
نیمه ساختاریافته
دادههای نیمه ساختاریافته میتوانند حاوی هر دو شکل از دادهها باشند. ممکن است دادههای نیمه ساختاریافته را از لحاظ شکل و حالت کلی با دادههای ساختاریافته اشتباه بگیریم اما در واقع این دادهها با روشهایی مثل جدول رابطهای (مانند مثال داده ساختاریافته) تعریف نمیشوند. نمونهای از دادههای نیمهساختاریافته، دادهای است که در یک فایل XML ارائه میشود. مثلا دقت کنید که اطلاعات شخصی افراد چگونه در یک فایل XML ذخیره میشود.
بیگ دیتا چگونه عمل میکند؟
پیش از اینکه کسب و کارها بتوانند از بیگ دیتا برای دستیابی به اهداف خود بهره ببرند و از آن در راستای کار خود استفاده کنند، باید بررسی کنند و دریابند که بیگ دیتا چطور در میان تعداد زیادی از مکانها، منابع، سیستمها، مالکان و کاربران جریان پیدا میکند. پنج گام کلیدی برای بر عهده گرفتن مسئولیت این «ساختار داده» بزرگ وجود دارد؛ جنسی از دادهها که شامل دادههای سنتی و ساختاریافته و همچنین دادههای ساختارنیافته و نیمه ساختاریافته است:
- برای بیگ دیتا یک راهبرد تنظیم کنید.
- منابع بیگ دیتا را شناسایی کنید.
- به داده مورد نظر دسترسی پیدا کرده، آن را مدیریت کرده و ذخیره کنید.
- داده را تحلیل کنید.
- تصمیمات داده-محور اتخاذ کنید.
حالا بیایید با هم، موارد بالا را کمی دقیقتر و موشکافانهتر بررسی کنیم تا جزییات بیشتری را در مورد نحوه استفاده از بیگ دیتا یاد بگیریم:
برای بیگ دیتا یک راهبرد تنظیم کنید
در سطوح کلان، راهبرد بیگ دیتا نقشه و برنامهای است که طراحی شده تا به شما در نظارت و بهبود بخشیدن روش دریافت، ذخیره، مدیریت، به اشتراک گذاری و استفاده از دادهها در داخل و خارج از سازمانتان کمک کند. داشتن یک راهبرد برای بیگ دیتا زمینه موفقیت کسب و کار شما را در میان انبوه دادهها فراهم میکند. هنگام تهیه یک راهبرد این مهم است که اهداف و ابتکارات تجاری و فناوری امروز و آینده را در نظر بگیرید. برای این کار باید با بیگ دیتا مانند هر دارایی تجاری ارزشمند دیگر برخورد کنید نه فقط به عنوان یک محصول جانبی که توسط نرم افزارهای مختلف تولید میشود.
منابع بیگ دیتا را بشناسید
دادههای جاری از اینترنت اشیا(IoT) و سایر دستگاههای متصل به سیستم های IT از طریق دستگاههای پوشیدنی (مانند ساعتها و لباسهای هوشمند)، خودروهای هوشمند، تجهیزات پزشکی، تجهیزات صنعتی و سایر موارد، وارد میشود. میتوانید این بیگ دیتاها را هنگام ورودشان، تجزیه و تحلیل کنید و تصمیم بگیرید که کدام دادهها را نگه دارید یا نگه ندارید، و اینکه کدامیک از این دادهها به تجزیه و تحلیل بیشتری نیاز دارند.
دادههای شبکههای اجتماعی از تعاملات افراد در فیسبوک، یوتیوب، اینستاگرام و غیره سرچشمه میگیرد. ورودی از این شبکهها، شامل مقادیر زیادی بیگ دیتا به شکل تصاویر، فیلمها، صدا، متن و آهنگ است. تمام این ورودیها برای بازاریابی ، فروش و پشتیبانی بسیار سودمند و کاربردی هستند. این دادهها اغلب به صورت ساختارنیافته یا نیمهساختاریافته هستند، بنابراین استفاده و تجزیه و تحلیل این دادهها بخودی خود یک چالش منحصر به فرد است.
دادههای موجود در دسترس عموم از منابع گستردهای از منابع دادهای باز، مانند اطلاعات منتشر شده در وبسایت دولت ایالات متحده آمریکا، کتابخانه الکترونیک اسناد جهانی سی آی ای (CIA World Factbook) یا پورتال دادههای باز اتحادیه اروپا، بدست میآیند. سایر بیگ دیتاها ممکن است از دریاچه های داده، منابع داده ابری، تامین کنندگان و مشتریان حاصل شوند.
به داده مورد نظر دسترسی پیدا کرده، آن را مدیریت کرده و ذخیره کنید
سیستمهای محاسباتی مدرن، سرعت، قدرت و انعطافپذیری لازم برای دسترسی سریع به مقادیر عظیم و انواع بیگ دیتاها را فراهم میکنند. شرکتها علاوه بر نیاز به برخورداری از دسترسی قابل اعتماد، به روشهایی برای یکپارچهسازی دادهها، اطمینان از کیفیت دادهها، امکان مدیریت و ذخیرهسازی دادهها و تهیه دادهها برای تجزیه و تحلیل نیاز دارند. برخی از دادهها ممکن است در محل و در انبار داده سنتی ذخیره شوند اما گزینههای انعطافپذیر و کم هزینهای نیز برای ذخیره و مدیریت بیگ دیتا از طریق فضای ابری، دریاچه های داده و هادوپ (Hadoop) وجود دارد.
بیگ دیتا یا کلانداده را تجزیه و تحلیل کنید
با استفاده از فناوریهای با کارایی بالا مانند محاسبات شبکهای یا تحلیلهای درون حافظهای، سازمانها میتوانند از تمام بیگ دیتاهای خود برای تجزیه و تحلیل استفاده کنند. روش دیگر این است که پیش از هرگونه تجزیه و تحلیل مشخص کنید که کدام دادهها مرتبط با خواست و نیاز شما هستند و فقط از همان دادهها استفاده کنید.
در هر صورت، تجزیه و تحلیل کلان داده ها روشی است که به کمک آن شرکتها چشم انداز و بینش تجاری خود را بدست میآورند. پژوهشها و تحلیلهای پیشرفته امروزی مانند هوش مصنوعی بطور فزایندهای توسط بیگ دیتاها تغذیه میشوند و بیگ دیتا تمام آنچه که این تحقیقات و فعالیتهای تحلیلی نیاز دارند را برای آنها فراهم میکند.
تصمیمات داده محور اتخاذ کنید
دادههای قابل اعتماد و مدیریت شده به ما کمک میکنند تا تحلیلهای قابل اطمینان و تصمیم گیری های قابل اعتمادی داشته باشیم. کسبوکارها برای اینکه بتوانند در بازار رقابتی امروز در کورس مسابقه بمانند و به رقابت ادامه دهند، باید از مقادیر داخل بیگ دیتا بطور تمام و کمال بهره ببرند و به روشی داده محور عمل کنند.
یعنی مدیران هر کسب و کار به جای آنکه با اتکا به احساسات و غریزهها تصمیم گیری کنند، باید براساس شواهد ارائه شده توسط بیگ دیتا تصمیمات خود را اتخاذ نمایند. مزایای داده محور بودن روشن و آشکار است. سازمانهای داده محور عملکرد بهتری دارند، از نظر عملیاتی بیشتر قابل پیش بینی هستند و همچنین سودآوری بیشتری دارند. وین تامپسون مدیر تولید کمپانی SAS در مورد بیگ دیتا اینگونه میگوید:
یادگیری عمیق (دیپ لرنینگ (Deep learning- نیازمند بیگ دیتا است زیرا کلان داده ها برای یافتن الگوهای پنهان و گرفتن پاسخ بدون دستکاری زیاد دادهها، لازم هستند. با یادگیری عمیق، هرچه دادههای باکیفیت بیشتری داشته باشید، نتایج بهتری خواهید داشت.
مزایای پردازش بیگ دیتا
توانایی پردازش بیگ دیتا مزایای فراوانی دارد که در اینجا میخواهیم به چند مورد از آنها اشاره کنیم. این مزایا عبارتند از:
- کمک به تصمیمگیری کسبوکارها با استفاده از هوش بیرونی: هوش بیرونی در اینجا به معنای اطلاعات بدست آمده از تحلیل دادههاست و دسترسی به دادههای اجتماعی بدست آمده از موتورهای جستجو و سایت هایی مانند فیسبوک و توییتر، به سازمانها کمک میکند تا راهبردهای تجاری خود را به خوبی تنظیم کنند.
- خدمترسانی بهتر به مشتریان: سیستمهای سنتی دریافت بازخورد مشتری، جای خود را به سامانههای نوینی میدهند که با فناوریهای بیگ دیتا طراحی شدهاند. در این سامانهها، از بیگ دیتا و فناوریهای طبیعی پردازش زبان برای خواندن و ارزیابی بازخورد مشتریان استفاده میشود.
- شناسایی زودهنگام ریسکهای مربوط به محصول/خدمات، در صورت وجود: اگر در حوزه محصولات یا خدماتی که ارائه میدهید هرگونه اخلال یا مشکلی به وجود بیاید، میتوانید به کمک بیگ دیتا آن را شناسایی کنید.
- بهبود بخشیدن به کارایی عملیاتی: پیش از مشخص کردن دادههایی که باید به انبار داده منتقل شوند، میتوان از فناوریهای بیگ دیتا برای ایجاد یک منطقه مرحلهبندی یا منطقه فرود برای دادههای جدید استفاده کرد تا همه بتوانند دادههای ورودی را در دسته بندی مناسبی ذخیره کنند. افزون بر این، ترکیب فناوریهای مبتنی بر بیگ دیتا با انبار دادهها، به هر سازمانی کمک میکند تا دادههایی را که به ندرت به آنها دسترسی پیدا میکند، تخلیه (offload) کند.
طراحی اپلیکیشن اندروید | طراحی وب سایت | شرکت ایده پردازان پاراکس