مفهوم داده‌های کثیف و پاکسازی داده‌ها در طراحی داشبورد

پاکسازی داده‌ها یا تمیز کردن داده‌ها فرآیندی جهت تشخیص ،حذف و اصلاح  داده‌های نادرست از مجموعه‌ای از رکوردها،جداول یا بانک‌های اطلاعاتی می‌باشد و شناسایی قسمتهای ناقص و نادرست داده‌ها و سپس اصلاح و جایگزینی یا حذف داده‌های فاسد اشاره دارد. هدف از پاکسازی داده‌ها استخراج اطلاعات دقیق می‌باشد .پاکسازی داده ها

چرا که داده‌های نادرست یا ناسازگار می‌تواند منجر به نتیجه‌گیری غلط و شکست سرمایه‌گذاری بزرگ و کوچک شود.  به عنوان مثلا فرض کنید دولتی بخواهد با استفاده از آمار جمعیت کشور برای افزایش امکانات در مناطق مختلف تصمیم‌گیری نماید و برحسب نیاز هریک از آنها اولویت قائل شود و اگر داده‌ها نادرست و ناسازگار باشند مسلما گزارش بدست آمده نیز دقیق و قابل استناد نخواهد بود.

داده‌های نادرست:

پاکسازی داده ها

پاکسازی داده ها

در دنیای کسب و کار، داده‌های نادرست می‌توانند پرهزینه باشند .بسیاری از شرکت‌ها از پایگاه‌های اطلاعاتی مشتری استفاده می‌کنند و اطلاعاتی مانند اطلاعات تماس، آدرس‌ها و توضیحاتی در مورد علایق مشتری را ثبت می‌کنند. اما اگر آدرس مشتری‌ها نادرست باشد هزینه ارسال مجدد بسته‌های پستی به سازمان تحمیل می‌شود. ممکن است مشتریان از این موضوع آزرده خاطر شده و منجر به از دست دادن مشتری سازمان شود. به همین دلیل داده‌ها قبل از ورود به انباره داده توسط حسابرسان خبره مورد بازدید قرار می گیرد.

هوش تجاری کیسان

پاکسازی داده ها:

پاکسازی داده ها

پاکسازی داده ها

تمیز کردن داده‌ها ممکن است به صورت تعاملی با ابزارهای داده‌کاوی و یا به عنوان پردازش دسته ای از طریق اسکریپت‌ها انجام شود .پس از پاکسازی، مجموعه داده‌ها باید با سایر مجموعه داده‌های مشابه در سیستم سازگار باشد . در واقع داده‌های ناسازگار شناسایی شده یا حذف شده ممکن است در ابتدا ناشی از اشتباهات ورود داده‌ها از طرف کاربر ، تغییر داده‌ها در حین انتقال پرونده یا ذخیره‌سازی با تعاریف غیراستانداردی که بین سازمان‌های مختلف متفاوت می‌باشد صورت پذیرد. پاکسازی یا تمیز کردن داده‌ها با اعتبارسنجی داده‌ها متفاوت است .

اعتبارسنجی تقریبا همیشه به این معناست که داده‌ها هنگام ورود به سیستم با توجه با استانداردهای تعریف شده در هر یک از کسب وکارها و یا سازمان‌ها برسی شده و بعد از تصدیق اصالت آنها وارد سیستم می‌شود.روند پاکسازی داده‌ها ممکن است شامل حذف خطاهای چاپی یا اعتبارسنجی و اصلاح مقادیر باتوجه به یک لیست شناخته شده از استانداردها باشد.

اعتبار سنجی ممکن است دقیق باشد . مثل رد هر آدرسی که کدپستی معتبر ندارد یا رفع سوابق زائد که بخشی از موجودی پرونده می‌باشد. برخی از راه حل‌های پاکسازی داده‌ها را با بررسی متقابل با یک مجموعه داده معتبر پاک می‌کنند.

یک عمل پاکسازی داده معمولا اطلاعات را افزایش می‌دهد.

چراکه که داده‌ها با اضافه شدن مقادیر درست مربوطه کامل‌تر می‌شوند. به عنوان مثال، اضافه کردن آدرس با هر شماره تلفن مربوط به آن آدرس . پاکسازی داده‌ها همچنین ممکن است فعالیت‌هایی مانند هماهنگ‌سازی داده‌ها و استانداردسازی داده‌ها را شامل شود .  مثلا، هماهنگی کدهای کوتاه (st, rd, etc) با کلمات واقعی مثل (خیابان، جاده و غیره).پاکسازی داده ها

این فرایند منجر به بالا رفتن کیفیت داده‌ها، رویت چالش‌ها و مشکلات وطرح رویداد خطا، نقد ابزار و فرآیندهای موجود می‌شود و با توجه به رشد روزافزون منابع داده‌ها و تمرکز سازمان‌ها و کسب و کارها برای استفاده از این منبع جدید برای اتخاذ تصمیمات و مشخص کردن استراتژی کسب و کار و بازاریابی، نیاز به اطلاعات پاک در حال افزایش است.پاکسازی داده ها

پاکسازی داده ها

پاکسازی داده ها

5 نکته برای تمیز کردن داده‌های کثیف که در واقع ریشه اکثر اشکالات و اشتباهات در داده می‌باشند شامل:

  • شناسایی و حذف داده‌های تکراری
  • استاندارد سازی اعداد
  • استانداردسازی زمان‌ها و تاریخ‌ها
  • استانداردسازی نحوه نگارش کلماتی که چندین نوع نوشتاری دارند مانند مدارک تحصیلی لیسانس و کارشناسی یا نام کشورهایی مانند British-English-UK
  • سراسری کردن استاندارد موارد حساس و تایین کننده مانند نحوه ورود هزینه‌ها پاکسازی داده ها
نوشتهٔ پیشین
تجزیه و تحلیل داده‌ها با موبایل در Power BI mobile
نوشتهٔ بعدی
مایکروسافت پاور بی آی آینده اکسل است؟!
برای نوشتن دیدگاه باید وارد بشوید.

آخرین مطالب


گوگل با معرفی مدل جدید زبان بزرگ خود (LLM)، Gemini…
گوگل بارد Bard یک چت بات، انقلابی برای هوش مصنوعی…
چگونه یک متخصص BI تبدیل؟ این یک مسیر خطی نیست،…
برنامه Microsoft Power BI خود را به عنوان یک ابزار…
Api‌های POWER BI REST (رابط‎‌های برنامه نویسی برنامه) یک مجموعه…
فهرست