본문 바로가기
DB

데이터 표준화 필요성 및 개념

by 커져라불어라 2020. 7. 31.
반응형

서론

안녕하세요 투자하는 개발자 투개자입니다. 오늘은 데이터 표준화에 대해 이야기 해보려합니다.

전글에서 우리는 데이터와 데이터베이스에 대해 알아봤습니다. 개념적으로 데이터와 데이터베이스에 대해 이해했지만 실제로 데이터를 활용하다 보면 이 데이터가 어떻게 활용되고, 도대체 무엇을 위해 사용되는지 모를때가 많습니다. 특히 현업에서 데이터를 통해 새로운 인사이트나 의사결정을 해야하는 위치라면 더욱이 공감하실 것같습니다. 하여 데이터를 사용하는 모든 공유자들이 서로 해당 데이터가 무엇이고, 이햐하며 데이터의 품질을 향상하기 위해 약속 및 통합하는 과정을 데이터 표준화작업이라고 생각하시면 됩니다. 서론에선 간단하게 설명드렸지만 본론에서 자세하게 데이터 표준화의 필요성과 개념에 대해 설명드리겠습니다.


데이터와 데이터베이스

2020/07/30 - [데이터베이스] - 데이터베이스의 개념 및 용어 정리!



본론

데이터 표준화작업이 필요한 이유는 총 4가지를 들 수 있습니다. 데이터의 중복 및 시스템 별 데이터 불일치, 의미 파악에 대한 지연, 데이터 통합의 어려움, 마지막으로 유지보수의 어려움입니다.


1. 데이터의 중복 및 시스템 별 데이터 불일치

데이터 표준화작업을 해두지 않으면 동일한 의미의 데이터를 다른 명칭으로 중복관리하거나, 동일한 명칭의 데이터를 시스템간에 다른 로직으로 산출할 수 있기 때문에 같은 데이터로 보이지만 결과적으로 다른 의미로 화면에 출력될 수 있습니다.


2. 의미 파악 지연

표준화작업이 없기 때문에 해당데이터의 의미를 파악하는데 시간이 낭비되여 프로젝트, 업무 진행이 느려집니다.


3. 데이터 통합의 어려움

작은 시스템, 회사라면 무리없겠지만 큰 회사나 시스템이 대규모인 사이트의 경우 많은 데이터를 보유하고 있기 때문에 표준화 작업이 안되있다면 데이터 중복여부 파악, 의미 파악 등에 많은 어려움이 있습니다. 또한 최근 많은 기업에서 진행 중인 EDW라는 전사 데이터웨어하우스 구축을 진행할 때 표준화작업이 안되있다면 데이터만 파악하는데 오랜시간이 걸리게 됩니다.


4. 유지보수의 어려움

표준화 작업이 없다면 데이터 정책이 없다는 말이기 때문에 시스템의 변경이나 유지보수시 의미파악에 어려움을 주고 있습니다.




데이터 표준화의 정의

 - 데이터 표준화는 시스템별로 흩어져있는 데이터 정보요소에 대한 명칭, 의미, 규칙을 체계화여 이를 전사적으로 수립, 적용하는 것을 말합니다. 즉 모든 데이터의 세부의미를 달아주는 작업입니다.


1. 데이터 명칭 작업

데이터 명칭을 수립할 때는 유일성(통일성), 업무적 보편성, 의미 전달의 충분성으로 구체화해야합니다.


2. 데이터 형식 작업

데이터 형식은 데이터의 표현형태로 업무 규칙 및 사용 목적과 일관되도록 작성합니다. Numeric, Text(mssql은 곧 뺄예정), Date, Char, TimeStamp 등으로 작성합니다. 특수 타입은 가급적 쓰지 않는것이 좋습니다. 또한 고정데이터가 아니라면 충분한 가변길이를 잡는것이 좋습니다.


3. 데이터 규칙 작업

데이터 규칙은 트렉젝션이 이루어지기 전에 데이터 값을 정의함으로써 데이터 오류와 위험을 최소화하는 작업입니다. 기본 값, 허용 값, 허용 범위를 정해줍니다.


결론

오늘은 데이터 표준화의 필요성과 개념 그리고 표준화 작업 시 기억해야할 작업 내용에 대해 알아보았습니다. 결국 데이터 표준화를 한마디로 정의하자면 공유된 데이터를 누구든지 같은 의미로 파악할 수 있게 작업하는 것이 데이터 표준화라고 기억하시면 됩니다.



반응형

'DB' 카테고리의 다른 글

데이터베이스의 개념 및 용어 정리!  (0) 2020.07.30
데이터베이스 HA, RAC 정리  (0) 2020.07.15