안녕하세요 투자하는 개발자 투개자입니다.
오늘은 EDW(Enterprise DataWarehouse), DM(Data Mart)를 구축을 위한 배경 지식에 대해 이야기해보곘습니다.
DW는 왜 필요할까요? DW의 필요성을 설명하기 위해선 OLTP와 OLAP를 알아야합니다. OLTP, OLAP에 대한 설명은 제 블로그에 포스팅되어 있기 때문에 해당 글을 참조해주시면 될 것같습니다.
2020/07/15 - [Data WareHouse & Data Mart] - OLTP와 OLAP환경의 차이
서론
데이터 웨어하우스, 데이터 마트의 개념은 어떻게 등장하게 된 것일까요? DW, DM의 등장 이유는 BI로 데이터를 시각화 시키기 위함입니다. 그럼 왜 BI가 탄생하게 된것일까요? 이유는 의사결정자들을 위해 탄생하게 되었습니다. 예를 들어보죠 부품제조업체인 A기업이 있습니다. A기업은 최근 10억원을 들여 기업 내 ERP를 구축하게 되었습니다. 그래서 현재 제조하고 있는 제품에 대한 데이터들이 하나하나씩 쌓이게 되었고, 기업 자체 데이터를 확보하게 되었습니다. 이때, A기업 CEO가 ERP를 보며 이걸로 할 수 있는 것이 무엇인지 설명하라고 합니다. 그렇다면 담당자는 어떻게 말해야할까요? 데이터를 쌓을 수 있게 되었다고 말하면 CEO가 과연 좋아 할까요? 의사결정자들은 10억원이나 들인 이 ERP시스템이 도대체 본인들의 회사 미래에 어떤 영향을 줄 수 있을지에 궁금하고, 당장 실물로 보고싶어합니다. 그렇기에 해당 ERP = OLTP 데이터를 분석관점에서 풀어 의사결정자들에게 정보를 제공하는 데이터로 바꾸기 위해 OLAP가 탄생했고 DW, DM, BI개념이 등장하게 되었습니다.
OLTP 환경에서 이루어지는 트랙젝션 데이터는 분석계인 OLAP 환경의 데이터와 다르게 되어있습니다. OLTP 데이터들은 정규화가 기본으로 지켜집니다. 정규화가 지켜지지 않으면 무결성원칙에 위배되어 각각에 비즈니스에 맡게 적재되도록 설계된 데이터가 들어올 때 문제를 일으키기 때문입니다. 반면 OLAP 환경은 각 OLTP에 있는 데이터가 모여 정보를 만들어 내는 것이 중요하기 때문에 정규화가 중요하지 않고 속성(열)의 의미가 중요합니다. 그래서 OLAP 환경에 쌓이는 데이터의 로우가 가지는 의미가 가장 중요합니다. 다른말로 그레인이라고도 하죠. 그래서 DW의 개념은 분석를 원칙으로 하며 OLAP 환경으로 개발되어지는 이유입니다. 또한 OLTP에서 OLAP환경으로 데이터를 보내는 과정을 ETL기술로 처리하며 ETL 내에 데이터를 이동시키는 길을 데이터 파이프라인이라고 합니다. 이 ETL 기술은 OLTP에서 OLAP로 데이터를 흘릴때 개발되고, 바로 설명해드릴 DW, DM에서도 ETL이 등장하게 됩니다.
본론
그렇다면 OLAP에선 DW와 DM이 어떻게 구성되어 BI로 전달되어지는 알아보겠습니다. OLTP 데이터들을 ETL로 가져와 OLAP 환경이 구성되었습니다. DW가 만들어진것이죠 이 DW안에는 한 기업에서 사용하는 모든 시스템들의 데이터가 들어있습니다. 예를들면 생산데이터, 제조데이터, 인사데이터, 고객데이터 등의 OLTP에서는 각각 분할된 시스템 데이터가 OLAP의 DW에선 하나로 합쳐진것이죠. 이러한 기업의 데이터를 하나로 합친 개념이 EDW라는 개념입니다. 기업에 모든 데이터가 하나로 합쳐진 데이터 웨어하우스의 용량은 기업마다 다르겠지만 OLTP보단 훨씬 클것입니다. 그렇기에 DW에 BI솔루션을 도입해 데이터를 시각화 시킨다면 분명 퍼포먼스 문제가 발생하게 될것입니다. 즉, BI화면에 DW에 있는 데이터를 가져오는데 로딩시간이 길어지는 것을 의미합니다. 이런 문제를 해결하기 위한 방법이 데이터 마트로 구축하는 방법입니다. DW내 데이터를 주제영역별로 나누어 각 주제에 맞는 데이터를 따로 보관하여 생성한 두번째 DW를 데이터 마트라고 합니다. 그리고 주제별로 구성된 데이터 마트에 BI를 연결시켜 퍼포먼스를 향상했고 이러한 로직대로 OLAP환경이 구축되게 됩니다. 데이터 웨어하우스에 데이터 마트까지 ETL을 통해 주제영역별로 나누어 데이터를 보낸후 마트가 완성되면 BI는 해당 마트를 바라보아 데이터를 시각화 합니다. 단 마트를 구성하게 된다면 하나의 마트에는 하나의 BI화면이 보여져야하기 때문에 다른 데이터의 BI화면을 개발하고 싶다면 해당 주제에 맞는 데이터 마트를 구성해야합니다. 마지막으로 BI 개념인데요. BI는 정형 리포트와 비정형 리포트로 나누어지게 됩니다. 정형리포트는 말그래도 개발한 사람이 설계한 리포트대로만 보여지는 리포트를 말합니다. PowerBI, Tableau 등이 있죠 반면, 비정형 리포트는 보고싶은 관점에서 리포트를 보는 것인데 다차원으로 바라보는 리포트를 말합니다. 다차원으로 빠르게 데이터를 바라보기 위해선 DM의 속성(열)에 따른 값을 미리 계산하여 가지고 있다가 사용자가 원하는 속성별로 연결시켜 값을 보여주는 개념입니다. 이 다차원 개념은 조금 난이도가 있기에 나중에 포스팅하여 자세하게 설명드리겠습니다.
결론
결국 DW구성의 배경은 의사결정자들의 미래를 위한 정보를 제공해주기 위해 탄생했고, 그 과정은 OLTP - ETL - OLAP - DW - ETL - DM - BI 순으로 진행되게 됩니다!
오늘은 DW 구축 배경에 대해 설명드렸습니다. 감사합니다!
'Data WareHouse & Data Mart' 카테고리의 다른 글
SCD테이블 TYPE 1, TYPE 2, TYPE 3, TYPE 4 쿼리(MSSQL) (0) | 2020.09.28 |
---|---|
데이터웨어하우스(DW) 아키텍쳐 비교! (0) | 2020.08.04 |
[DW&BI] 데이터웨어하우스와 비즈니스인텔리젼스(BI) (킴벌데이터 웨어하우스) (0) | 2020.07.28 |
SCD(Slowly Changing Dimension) 개념 및 종류 (0) | 2020.07.16 |
OLTP와 OLAP환경의 차이 (0) | 2020.07.15 |