Стандартизация на данни: дефиниране, тестване и трансформиране

Стандартизация на данните

Докато организациите се насочват към установяване на култура на данни в цялото предприятие, много от тях все още се борят да направят данните си правилни. Извличането на данни от различни източници и получаването на различни формати и представяния на това, което се предполага, че е една и съща информация – причинява сериозни препятствия в пътуването ви с данни.

Екипите изпитват забавяния и грешки, докато изпълняват рутинните си операции или извличат информация от набори от данни. Такива проблеми принуждават бизнеса да въведе механизъм за стандартизация на данните – който гарантира, че данните присъстват в последователен и единен изглед в цялата организация. 

Нека разгледаме по-задълбочено процеса на стандартизация на данните: какво означава, стъпките, които включва и как можете да постигнете стандартен изглед на данни във вашето предприятие.

Какво е стандартизация на данните?

Просто казано, стандартизацията на данните е процесът на трансформиране на стойностите на данните от неправилен формат в правилен. За да се даде възможност за стандартизиран, унифициран и последователен изглед на данни в цялата организация, стойностите на данните трябва да отговарят на необходимия стандарт – в контекста на полетата с данни, към които принадлежат.

Пример за грешки при стандартизация на данни

Например записът на един и същи клиент, пребиваващ на две различни места, не трябва да съдържа несъответствия в собственото и фамилното име, имейл адрес, телефонен номер и адрес на местоживеене:

Име Имейл Адрес Телефонен номер Дата на раждане Пол Адрес на местоживеене
Джон Онел john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W Olimpic BL # 200
Източник 1

Име Фамилия Имейл Адрес Телефонен номер Дата на раждане Пол Адрес на местоживеене
клозет О'нийл john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 Мъж 11400 W Olimpic 200
Източник 2

В примера по-горе можете да видите следните типове несъответствия:

  1. Структурни: Първият източник обхваща Името на клиента като едно поле, докато вторият го съхранява като две полета – Име и Фамилия.
  2. Модел: Първият източник има a валиден модел на имейл се прилага в полето за имейл адрес, докато във второто видимо липсва @ символ. 
  3. Тип данни: Първият източник позволява само цифри в полето за телефонен номер, докато вторият има поле за тип низ, което също съдържа символи и интервали.
  4. Формат: Първият източник има датата на раждане във формат ММ/ДД/ГГГГ, докато вторият я има във формат ДД/ММ/ГГГГ. 
  5. Стойност на домейна: Първият източник позволява стойността за пол да бъде съхранена като M или F, докато вторият източник съхранява пълната форма – Male или Female.

Такива несъответствия в данните ви карат да правите сериозни грешки, които могат да накарат вашия бизнес да загуби много време, разходи и усилия. Поради тази причина прилагането на механизъм от край до край за стандартизация на данните е от решаващо значение за поддържане на хигиената на вашите данни.

Как да стандартизираме данните?

Стандартизацията на данните е прост процес в четири стъпки. Но в зависимост от естеството на несъответствията във вашите данни и това, което се опитвате да постигнете, методите и техниките, използвани за стандартизация, могат да варират. Тук представяме общо правило, което всяка организация може да използва, за да преодолее своите грешки в стандартизацията. 

  1. Определете какво е стандартът

За да постигнете каквото и да е състояние, първо трябва да определите какво всъщност е състоянието. Първата стъпка на всеки процес на стандартизация на данни е да се определи какво е необходимо да се постигне. Най-добрият начин да разберете от какво се нуждаете е да разберете бизнес изискванията. Трябва да сканирате вашите бизнес процеси, за да видите какви данни са необходими и в какъв формат. Това ще ви помогне да зададете базова линия за вашите изисквания за данни.

Стандартна дефиниция на данни помага да се идентифицират:

  • Активите от данни, които са от решаващо значение за вашия бизнес процес, 
  • Необходимите полета с данни на тези активи,
  • Типът данни, форматът и шаблонът, на които техните стойности трябва да отговарят,
  • Диапазонът от приемливи стойности за тези полета и т.н.

  1. Тествайте наборите от данни спрямо определения стандарт

След като имате стандартна дефиниция, следващата стъпка е да тествате колко добре се представят вашите набори от данни спрямо тях. Един от начините да оцените това е да използвате профилиране на данни инструменти, които генерират изчерпателни отчети и намират информация като процента на стойностите, съответстващи на изискванията на полето за данни, като например:

  • Следват ли стойностите необходимия тип данни и формат?
  • Дали стойностите са извън допустимия диапазон?
  • Стойностите използват ли съкратени форми, като съкращения и псевдоними?
  • Има стандартизирани адреси според нуждите – като напр USPS стандартизация за адреси в САЩ?

  1. Трансформирайте несъответстващи стойности

Сега най-накрая е време да трансформирате стойности, които не отговарят на дефинирания стандарт. Нека да разгледаме често използваните техники за преобразуване на данни.

  • Разбор на данни – Някои полета с данни трябва първо да бъдат анализирани, за да се получат необходимите компоненти на данните. Например анализ на полето за име, за да се разделят първото, бащиното и фамилното име, както и всички префикси или суфикси, присъстващи в стойността.
  • Преобразуване на тип и формат на данни – Може да се наложи да премахнете несъответстващите знаци по време на преобразуването, например премахване на символи и азбуки от телефонен номер само с цифри.
  • Съвпадение на шаблони и валидиране – Преобразуването на шаблон се извършва чрез конфигуриране на регулярен израз за шаблона. За стойности на имейл адрес, които съответстват на регулярен израз, те трябва да бъдат анализирани и трансформирани в дефинирания шаблон. имейл адресът може да бъде потвърден с помощта на регулярния израз:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Разширяване на съкращението – Имената на компаниите, адресите и имената на лицата често съдържат съкратени форми, които могат да накарат вашия набор от данни да съдържа различни представяния на една и съща информация. Например може да се наложи да разширите щатите на държавата, като например да преобразувате Ню Йорк в Ню Йорк.
  • Премахване на шум и корекция на правописа – Някои думи всъщност не добавят никакво значение към дадена стойност и вместо това внасят много шум в набор от данни. Такива стойности могат да бъдат идентифицирани в набор от данни, като се сравнят с речник, който съдържа тези думи, като се маркират с флаг и се реши кои да бъдат премахнати за постоянно. Същият процес може да се изпълни за намиране на правописни грешки и грешки при въвеждане.

  1. Тествайте отново набора от данни спрямо определения стандарт

В последната стъпка трансформираният набор от данни се тества повторно спрямо дефинирания стандарт, за да се установи процентът на грешките в стандартизацията на данните, които са били коригирани. За грешките, които все още остават във вашия набор от данни, можете да настроите или преконфигурирате вашите методи и да прекарате данните през процеса отново. 

Обвийте

Количеството данни, което се генерира днес – и разнообразието от инструменти и технологии, използвани за улавяне на тези данни – кара компаниите да се изправят пред ужасната бъркотия с данни. Те имат всичко необходимо, но не са съвсем сигурни защо данните не присъстват в приемлива и използваема форма и форма. Приемането на инструменти за стандартизация на данни може да помогне за отстраняването на такива несъответствия и да даде възможност за така необходимата култура на данни във вашата организация.

Какво мислите?

Този сайт използва Akismet за намаляване на спама. Научете как се обработват данните за коментарите ви.