본문 바로가기

대외활동/태블로 신병훈련소 25기

[태블로 신병훈련소] 1일차 학습 : 기초 실습

 

tableau 소개

 We help people see and understand data

 사람들이 데이터를 보고 이해할 수 있도록 돕는다. 

 

태블로 목적 

  • 시각적 분석(Visual Anaytics)
    • 시각화 → 분석과정
    • 단순히 1회성이 아닌 패턴, 기간에 따라 지속적으로 어떻게 변하는지 다른 시각화와 조인하여 결과 도출 
    • 데이터를 보고 이해하기 + 데이터 기반의 의사결정 

 

Tableau 도입 형태

  • 개인 : save time 시간절약
  • 팀 : make decision faster 신속한 의사 결정
  • 회사 및 기관 : build data-driven enterprise 데이터 기반 기업 문화 정착 

 

태블로 플랫폼

  • tableau Prep : 데이터 준비 및 전처리
  • tableau Desktop : 데이터 분석 및 시각화, 공유

 

라이센스

  • creator
  • explorer
  • viewer

 


실습

tableau prep

데이터 준비

  • 가구, 사무기기, 사무용품을 판매하는 리테일 업체의 2017~2020까지의 영업 실적 데이터
  • 지역별 관리자 데이터
  • 반품 데이터 

 

 

 

Tableau Desktop

실습 : 분석 및 시각화

1. 분석 데이터 연결
2. 어떤 제품의 실적이 안 좋은가?
3. 수익성의 지역별 패턴을 확인할 수 있을까?
4. 언제부터 문제가 있었을까?
5. 모아서 보면 또 다른 것이 보일까?

 

첫번째 시각화

 

 

 

제품별지역별

 

 

 

지도

 

 

 

시계열

 

 

 

대시보드

 

 


1일차 과제 

  • 데이터 : 스타벅스 메뉴 데이터, 매장 정보 데이터  

 

1. 카테고리 별 평균 칼로리 & 평균 카페인 

바 차트를 통해 카테고리 별 평균 칼로리와 평균 카페인 비교 시각화  

바(막대) 차트
- 값의 크기를 비교하는데 유용한 시각화 
- 주로 수치 데이터 값들의 작은 양적 차이를 비교하는데 유용
- 특정 참조선(ex. 평균값, 중간값) 등을 표현하여 해당 막대가 참조선에 도달했는지 비교 가능 
- 비슷한 값들의 비교를 명확히 하기 위해 데이터 정렬 권장 

 

  • 평균 집계 : 하나의 카테고리 내 여러 개의 메뉴가 존재한다. 합계를 기준으로 집계 시 카테고리 내의 메뉴들의 칼로리와 카페인이 모두 더해져 카테고리 별 메뉴들의 총 합계 칼로리, 총 합계 카페인 값이 보여지게 된다. 따라서, 카테고리 별 평균 칼로리와 평균 카페인을 볼 수있도록 평균 집계로 변경한다. 

 

 

 

2. 메뉴명 별 칼로리 & 카페인 

트리맵 
- 계층 구조의 데이터를 표시하는데 적합한 시각화
- 전체 대비 부분의 비율이 얼마나 되는지 비교하는데 사용
- 사각형의 크기와 색상에 따라 데이터의 패턴 확인 가능

 

  • 합계 집계 : 메뉴명의 행은 가장 낮은 수준을 가진다. 즉, 메뉴명은 유일하게 구분되고 중복되지 않는 값이라는 의미이다. 하나의 메뉴명에는 하나의 칼로리와 하나의 카페인 값을 갖게된다. 메뉴명을 기준으로 칼로리, 카페인 값을 합계로 계산하나 평균으로 계산하나 결과는 동일하기 때문에 별도로 집계를 변경하지 않아도 된다. 

 

 

3. 카테고리와 메뉴명 한 번에 살펴보기 

  • 카테고리 별 평균 칼로리&카페인 시트에는 세가지 마크[전체, 평균(칼로리(Kcal)), 평균(카페인(mg))]이 존재한다.
  • 그 중 평균(칼로리(Kcal))의 도구 설명에 "크기가 클 수록 칼로리가 높으며, 붉은색일 수록 카페인이 높습니다." 라는 설명을 기재한다.
  • 그 후, 오른쪽 상단의 삽입에서 삽입할 시트인 "메뉴명 별 칼로리&카페인" 시트를 선택한다.
  • 넓이와 높이를 적당량 조절하고 확인을 누른다.
  • 아래의 사진과 같이 칼로리 그래프에 커서를 올려놓으면 해당 카테고리 내에 존재하는 메뉴의 칼로리와 카페인 트리맵을 확인할 수 있다. 

 

 

 

4. 당분 함유량과 칼로리의 상관관계 

 

스캐터 플롯 (산점도)
- 2개의 연속형 데이터에 대한 상관관계를 분석하는 가장 많이 사용되는 시각화
- 두개의 축으로 데이터의 분포 파악 가능
- 상수라인/ 평균라인/사분위수 및 중앙값/ 추세선 등의 참조 라인을 추가하여 값의 분포 비교 유용 

 

  • 당류가 높을 수록 칼로리가 높음을 확인할 수 있다.
  • 비슷한 당류가 들어가도 메뉴에 따라 칼로리가 달라진다. 

 

 

5. 시군구 별 매장 분포 현황

 

 

 

6. 대시보드 만들기 

1~3에서 만든 시트를 이용해 대시보드 만들기