پاکسازی دادهها یا تمیز کردن دادهها فرآیندی جهت تشخیص ،حذف و اصلاح دادههای نادرست از مجموعهای از رکوردها،جداول یا بانکهای اطلاعاتی میباشد و شناسایی قسمتهای ناقص و نادرست دادهها و سپس اصلاح و جایگزینی یا حذف دادههای فاسد اشاره دارد. هدف از پاکسازی دادهها استخراج اطلاعات دقیق میباشد .پاکسازی داده ها
چرا که دادههای نادرست یا ناسازگار میتواند منجر به نتیجهگیری غلط و شکست سرمایهگذاری بزرگ و کوچک شود. به عنوان مثلا فرض کنید دولتی بخواهد با استفاده از آمار جمعیت کشور برای افزایش امکانات در مناطق مختلف تصمیمگیری نماید و برحسب نیاز هریک از آنها اولویت قائل شود و اگر دادهها نادرست و ناسازگار باشند مسلما گزارش بدست آمده نیز دقیق و قابل استناد نخواهد بود.
دادههای نادرست:
در دنیای کسب و کار، دادههای نادرست میتوانند پرهزینه باشند .بسیاری از شرکتها از پایگاههای اطلاعاتی مشتری استفاده میکنند و اطلاعاتی مانند اطلاعات تماس، آدرسها و توضیحاتی در مورد علایق مشتری را ثبت میکنند. اما اگر آدرس مشتریها نادرست باشد هزینه ارسال مجدد بستههای پستی به سازمان تحمیل میشود. ممکن است مشتریان از این موضوع آزرده خاطر شده و منجر به از دست دادن مشتری سازمان شود. به همین دلیل دادهها قبل از ورود به انباره داده توسط حسابرسان خبره مورد بازدید قرار می گیرد.
پاکسازی داده ها:
تمیز کردن دادهها ممکن است به صورت تعاملی با ابزارهای دادهکاوی و یا به عنوان پردازش دسته ای از طریق اسکریپتها انجام شود .پس از پاکسازی، مجموعه دادهها باید با سایر مجموعه دادههای مشابه در سیستم سازگار باشد . در واقع دادههای ناسازگار شناسایی شده یا حذف شده ممکن است در ابتدا ناشی از اشتباهات ورود دادهها از طرف کاربر ، تغییر دادهها در حین انتقال پرونده یا ذخیرهسازی با تعاریف غیراستانداردی که بین سازمانهای مختلف متفاوت میباشد صورت پذیرد. پاکسازی یا تمیز کردن دادهها با اعتبارسنجی دادهها متفاوت است .
اعتبارسنجی تقریبا همیشه به این معناست که دادهها هنگام ورود به سیستم با توجه با استانداردهای تعریف شده در هر یک از کسب وکارها و یا سازمانها برسی شده و بعد از تصدیق اصالت آنها وارد سیستم میشود.روند پاکسازی دادهها ممکن است شامل حذف خطاهای چاپی یا اعتبارسنجی و اصلاح مقادیر باتوجه به یک لیست شناخته شده از استانداردها باشد.
اعتبار سنجی ممکن است دقیق باشد . مثل رد هر آدرسی که کدپستی معتبر ندارد یا رفع سوابق زائد که بخشی از موجودی پرونده میباشد. برخی از راه حلهای پاکسازی دادهها را با بررسی متقابل با یک مجموعه داده معتبر پاک میکنند.
یک عمل پاکسازی داده معمولا اطلاعات را افزایش میدهد.
چراکه که دادهها با اضافه شدن مقادیر درست مربوطه کاملتر میشوند. به عنوان مثال، اضافه کردن آدرس با هر شماره تلفن مربوط به آن آدرس . پاکسازی دادهها همچنین ممکن است فعالیتهایی مانند هماهنگسازی دادهها و استانداردسازی دادهها را شامل شود . مثلا، هماهنگی کدهای کوتاه (st, rd, etc) با کلمات واقعی مثل (خیابان، جاده و غیره).پاکسازی داده ها
این فرایند منجر به بالا رفتن کیفیت دادهها، رویت چالشها و مشکلات وطرح رویداد خطا، نقد ابزار و فرآیندهای موجود میشود و با توجه به رشد روزافزون منابع دادهها و تمرکز سازمانها و کسب و کارها برای استفاده از این منبع جدید برای اتخاذ تصمیمات و مشخص کردن استراتژی کسب و کار و بازاریابی، نیاز به اطلاعات پاک در حال افزایش است.پاکسازی داده ها
5 نکته برای تمیز کردن دادههای کثیف که در واقع ریشه اکثر اشکالات و اشتباهات در داده میباشند شامل:
- شناسایی و حذف دادههای تکراری
- استاندارد سازی اعداد
- استانداردسازی زمانها و تاریخها
- استانداردسازی نحوه نگارش کلماتی که چندین نوع نوشتاری دارند مانند مدارک تحصیلی لیسانس و کارشناسی یا نام کشورهایی مانند British-English-UK
- سراسری کردن استاندارد موارد حساس و تایین کننده مانند نحوه ورود هزینهها پاکسازی داده ها
1 دیدگاه