[유데미 스타터스 취업 부트캠프 4기] 9주차 학습 일지(데이터분석/시각화(태블로))

[출처 : Udemy - STARTERS 블로그 학습일지 안내]

 

안녕하세요! 오늘은 유데미 스타터스 부트캠프 9주차 학습일지입니다! 🐸

 

이번주는 다양한 지난주 준비했던 미니 프로젝트 발표 진행 태블로 자격증 취득 준비를 진행하였습니다!

 

그럼 두가지 학습 과정에 대한 스타터스 부트캠프 9주차 학습일지 시작해보겠습니다 !💨

 


태블로 자격증 준비
💡 Domain 1 : Connecting to and Preparing Data   데이터 연결하고 준비하기

1.1 Create live connections and extracts  라이브와 추출 생성

  • 1.1.1 Create a live connection to a data source  데이터 소스에 라이브 연결 생성하기Live ConnectionExtracts
    정의 실시간으로 데이터가 업데이트 특정 시점마다 데이터가 업데이트
    설명 기초 데이터에 대한 직접 연결을 포함하며 실시간 데이터나 실시간에 가까운 데이터를 제공 추출은 성능을 향상시킬 때 혹은 원래 데이터에서 사용할 수 없거나 지원되지 않는 Tableau 기능을 활용하기 위해서 사용할 수 있는 데이터의 저장된 하위 집합
    모양 Single Cylinder Two Cylinder
    새로 고침 Real-Time Select a Data Source on Data Menu> Extract> Refresh태블로 서버에서 Extract Refresh 진행
  • 1.1.2 Explain the differences between using live connections vs extracts 라이브와 추출 차이Live ConnectionExtracts
    Analyzing real time !!! · Help improve performance· Fast to Create· To support additional functionality such as count distinct
    .tde files : a local copy of a subset or entire data set that you can use to share data with others when you need to work offline, and improve performance.
  • 1.1.3 Create an extract  추출 생성
    • Tableau Desktop, a live connection is the default. 태블로 데스크탑 버전에서는 라이브가 기본 값이다.
    • Beginning in version 10.5, when you create a new extract, it uses the hyper format instead of the .tde format. 버전 10.5부터는 새 추출을 생성할 때 .tde 형식 대신 hyper 형식을 사용한다.
    • 'Incremental refresh' only adds rows that are new since the previous refresh
  • 1.1.4 Save metadata properties in a .TDS  TDS 파일 타입으로 저장하기Save metadata properties in a .tds
    • contains only the information needed to connect to the data source and not the actual data itself
    • Data Source Type (데이터 소스 타입)
    • Connection information specified on the data source page : database server address, port, location of local files, tables (데이터 소스 페이지에 지정된 연결 정보 : 데이터 베이스 서버 주소, 포트, 로컬 파일 위치, 테이블)
    • Groups, Sets, Calculated Fields, Bins (그룹, 집합, 계산된 필드, 구간 차원 등)
    • Default Field Properties : number formats, aggregation, and sort order (기본 필드 속성 : 숫자 형식, 집계 및 정렬 순서 등)
    • 사용자 모두가 권한이 있거나 데이터가 있어야 함
    • tds, tdsx don't save any visualisations that you may have created
    • .tds는 시각화 저장이 안됨 !!
    사용 이점실제 데이터를 포함하지 않고 실제 데이터에 연결하는 데 필요한 정보와 기본 속성 변경, 계산된 필드 만들기 등 실제 데이터 위에서 수행한 수정 사항을 추가한다.
  • To not contain the actual data but tather the information necessary to connect to the actual data as well as any modifications you've made on top of the actual data such as changing default properties, creating calculated fields etc.
  • On Data pane, right-click the data source  >  Select Add to Saved Data Sources
  • 1.1.5 Create a data source that uses multiple connections 다수의 연결을 통해 데이터 소스 만들기

1.2 Create and manage the data model 데이터 모델 생성 및 관리

  • 1.2.1 Add relationships to a data source 데이터 소스에 관계 추가하기RelationshipsJoins
    논리적 계층 (Logical Layer) 물리적 계층 (Physical Layer)
    Noodle Venn diagram
    Relationships : 고유의 테이블로 각각 있지만, 필요할 때만 잠시 merge되는 것physical tables remain distinct (normalizes), not merged in the data source whereas logical tables are merged into a single, flat table -> FALSE !!!
  • dynamic, flexible, contract between two tables
  • 1.2.2 Add joins and unionsJoinUnion
    컬럼 증가 로우 증가
    max 32 필드 명이 동일해야 함
    When field names in the Union do not match, then Both field names are present in the Union, but contain several null values. 유니언에 있는 필드 명이 동일하지 않으면, 두 필드 명 모두 유니언에 있지만 여러 null 값을 포함한다.
  • 1.2.3 Explain when to use a join versus a relationship조인은 조인 조건이 충족될 때마다 행을 생성하여 결과적으로 중복 행을 만들 수 있습니다. 이것을 피하는 한가지 방법은 대신 관계를 사용하는 것입니다.
  • A LEFT JOIN and INNER JOIN creates a row each time the join criteria is satisfied, which can result in duplicate rows. One way to avoid this is to use relationships instead.
  • 1.2.4 Add a blend
    • When the data in the two data set is at different levels of granularity use blend. (두 데이터 셋이 다른 차원의 단위를 가지고 있 을 때 사용하라)
    • Blends can help combine data with different levels of granularity without duplication (블랜드는 단위의 레벨이 다른 데이터 결 합이 복제 없이 가능하다. / 반대로, 조인은 둘 조합에서 만족되는 모든 행을 가져온다.)
    • with a blend, a primary data source is linked to a secondary data source.
    • It is similar to a Left Join (왼쪽 조인과 비슷하다. Primary table를 기준으로 한다는 점에서)The data in the secondary data source will not be duplicated even if the linking criteria is satisfied multiple times
    • We can blend Two data sources in Tableau (태블로에서 두 개의 데이터 소스만 블렌드 가능하다.)
    • 일반 계산된 필드와 달리, 데이터 블렌딩 후 만들어진 계산된 필드는 먼저 무조건 집계된다.
    • blend publish 가능하다 (x)
    • Fields used in Blends must first be aggregated

1.3 Manage data properities

  • Manage data properities기능방법
    Rename a data field
    데이터 열 이름 바꾸기
    - 데이터 원본 페이지에서 데이터 반환 결과 창에서 필드 이름 더블 클릭- View -> Data pane -> field right click -> rename
    Assign an alias to data value
    별칭 정하기
    - ONLY for dimensions not measures !!- field right click -> aliases
    Assign a geographic role to a data filed
    지리적 역할주기
    - geographic field right click -> Geographic role** 위치 수정: Map ->edit location -> change country Airport, Area Code, CBSA/MSA, City, Congressional District, Country/Region, Country, Nuts Europe, Latitude, Longitude, State/Province, Zip Code/Postcode
    Change data type for a data filed (number, date, string, boolean, etc...)
    데이터 타입 바꾸기
    - field right click -> change data type -> select data type** 데이터 타입을 바꾸었을 때도 데이터에 이상이 없어야 한 다. 예를 들어, 숫자를 문자로 바꾼다든가, 문자로 설정된 숫자 를 실수나, 정수로 바꾼다든가Decimal number – 실수Whole number – 정수
    change default properties for a data field (number format, aggregation, color, date format, etx)디폴트 속성 바꾸기 - field right click -> Default properties -> select data typeDimension - Comment, color, sort, shapeMeasure – Comment, color, number format, Aggregation, Total Using

 

💡 Domain 2 : Exploring and Analyzing Data

2.1 Create basic charts  기본 차트 생성

  • 2.1.1 Create a line chart  라인 차트 생성
    • 날짜형 필드 : 1개
      • Date Part : Blue = Discrete
      • Date Value : Green = Continuous
    • 차원 : 0개 이상
    • 측정값 : 1개 이상
    • tableau displays measures over time as a line
    • date field’s default chart is a line chart
  • 2.1.2 Create a bar chart 막대 차트 생성
    • Horizontal bar / Vertical bar
    • Stacked bar
    • Side by side bar
    • 막대 서식 바꾸기 Right click Continuous Field in rows or column > Format > Scale > Numbers > Custom
    • Pareto chart : always bars sorted in descending order
  • 2.1.3 Create a scatterplot 분산형 차트 생성
    • 측정값 : 2개 ~ 4개
    • Analysis Tab Click > Aggregate Measures 해제
    • detail로 쪼개기 가능
    • trend line 추가 가능
  • 2.1.4 Bullet Graph 불렛 차트
    • 측정값 : 2개 이상
  • 2.1.5 Pie chart 파이 차트
    • 차원은 가능한 적어야 함 2~5개
  • 2.1.6 Heat Map 히트맵
  • 2.1.7 histogram 히스토그램
    • 측정값 : 1개 이상
  • 2.1.8 Create a map using geographic data 지질학 데이터를 이용해 맵 생성
    • Symbol map : mark size and color are very important
    • Menu > Map > Background map > 배경 선택 가능
    • Menu > Geocoding > import custom geocoding
  • 2.1.9 Create a dual axis chart
    • two independent axes / different mark type chart / combo chart
  • 2.1.10 Create a combined axis chart 이중축 차트 생성
  • right click on any axis > synchronize axis 축 동기화
  • 2.1.11 Create a density map
  • 2.1.12 Create a chart to show specific values
    • Crosstab : Text table
    • Highlight table : a crosstab with a color gradient for the measure
  • 구체적 값을 보여주는 차트 생성

2.2 Organize data and apply filters

  • 2.2.1 Create groups by using marks, headers, and the data pane
    • View에서 묶을 차원 선택 > right click > Group > 별칭 수정
    • Right click Field > create > Group > 묶을 차원 선택 > Group
    • Group이 만들어지면 하나의 Field로 만들어짐
  • A method for combining values of a dimension and a measure
  • 2.2.2 Create sets by using marks and the data pane
    • using only 1 dimension
    • 동적 집합(default) / 고정 집합
    • 집합 >> 필터 → 바꾸고 싶다면 context filter 설정
    • compare the members → combined sets
  • 일정한 조건에 맞는 집합을 만들 때 사용 (in/out으로 구분)
  • 2.2.3 Organize dimensions into a hierarchy
    • 계층은 차원 간의 관계를 설립한다.
    • Date는 자동으로 계층을 형성한다.
    • 계층이 map에 줄 수 있는 장점 : 이름이 겹쳐도 정확히 나옴
  • 2.2.4 Add a filter to a view
    • 데이터 소스에서 필터링 하기
    • filter 카드에서 직접 필터링 → General / Wildcard / Top / Condition
    • 필터는 default로 해당 시트에만 영향을 줌
    • 필터는 원래 independent but, 컨텍스트 필터가 추가되면 나머지는 dependent
    • 필터 위치 옮기는 방법 : clicking on the 2 lines on top and digging the filter
    • when huge dataset, strong reason to use a context filter
      • improve query performance
      • to include only the data of interest
  • 2.2.5 Add a date filter
  • For a relative date filter, the default anchor is Today’s date

2.3 Apply analytics to a worksheet

  • 2.3.1 Add a manual or a computed sort
    • manual Sorting : 드래그 앤 드롭으로 원하는 위치에 정렬
    • computed Sorting
      • Right click field > Sorting
      • Menu bar on the top > Select
      • Click header
    • Nested Sort 중첩 정렬
    • icon group : paper clip , set : intersection
  • 2.3.2 Add a reference line & trend line
    • reference line
      • Entire Table
      • Per pane
      • Per cell
      참조선은 불릿 그래프를 추가했을 때도 생김
    • Trend line
      • linear 선형
      • logarithmic 로그
      • exponential 지수
      • polynomial 다항식
      • power 거듭제곱
      추세선 타입 변경 → 평균, 합계, 최대, 최소
    • 양 축에 측정값 2개 or 양 축에 날짜형과 측정값 1개씩
  • 2.3.3 Use a quick table calculation
  • 2.3.4 Use bins and histograms
  • Bins → dimension !!
  • 2.3.5 Create a calculated field (e.g. string, date, simple arithmetic)
  • 2.3.7 Display totals on a worksheet
  • 2.3.6 Explain when to use a parameter

 

💡 Domain 3 : Exploring and Analyzing Data
  • 3.1 Format view for presentation
    • 양수 음수가 모두 포함된 필드가 있을 때, 기본으로 두 개의 색상 범위가 사용된다 : diverging palette *reversed : 색 반전
    • 색상 컨테이너 펜 : Toggle the highlighting on/off
    • Tooltip font 변경
      • Click on Worksheet in the Menu bar, select Tooltip, and then use the italics option
      • Click on Format in the Menu bar, choose Font, and then edit the Tooltip options to italicize the font
      • Click on Tooltip in the Marks card, select the text, and then use the italics option
      • Right click > format > default worksheet formatting > Tooltip
    • View에 기본으로 표현할 수 있는 데이터는 최대 10000개
    • 마크 레이블
      • Click on Analysis in the Menu bar and choose Show mark Labels
      • Click on the Show mark labels icon in the Toolbar
      • Drag the measure to the Text label in the Marks Card
    • 차원 마크 개수 * 반대 축 필드의 개수 = view에 나온 마크 개수
  • 3.2 Viz animations
    • 서식 > 애니메이션
    • workbook default
    • Separate sheet 따로 적용 가능
    • Unsupported browsers and features
    • 인터넷 익스플로어 빼고 나머지 모든 웹브라우저에서 작동함
    • map, polygon, and density marks in web browser !!
    • pie and text mark
    • axes and header
    • forecast, trends, and reference line
    • 애니메이션 기본 지속 시간 : 0.3초
  • 대시보드 레이아웃
    1. 모든 시트를 싱글 뷰로 보이기 위햄 만듦
    2. 타일드, 플롯팅
    3. 픽스드 사이즈, 레인지, 자동 배치
  • 대시보드 액션
    1. 허버, 메뉴, 셀렉트
    2. 고 투 유알엘동작 - URL - URL: 필드, 매개변수, 필터
    3. 하이퍼링크
  • 스토리 생성
    • 하나의 스토리에는 하나의 시트 올 대시보드만 가능
    • Each individual sheet in a story is called a story point
  • Floating items : 부동
  • Tiled items : 바둑판
  • padding : precisely space items 공간 할당
  • 대시보드 크기 설정 옵션 : 자동 , 고정된 크기 , 범위
  • 애니메이션
    • 동시 애니메이션 : 속도가 빠르며 단순한 값 변화 표현에 좋음
    • 순차적 애니메이션 : 더 오랜 시간 걸림, 복잡한 변화를 단계별로 명확하게 표현3.3 Create and modify a dashboard

💡 Domain 4 : Tableau Server
  • 태블로 온라인change the formatting at a workbook(통합문서) level :Tableau Reader : a static tool to open and interact with packaged workbooks with extracted data sources that have been created in Tableau Desktop 남이 만들어 둔 거 프로그램 실행 없이 볼 수 있음Data interpreter : clean / organize datamanage metadata : 데이터 원본태블로 데스크탑에서 가능한 데이터 원본 : SQL , SAP HANA, AMazon RedshiftDocuments > My Tableau Repository
  • all supporting files, data sources, icons, logs
  • 대시보드에서 가능한 이미지 파일 형식 : jpg, bmp, png
  • the options to export the data used to build the view / visualizations : MS Access Database, CSV file
  • Tableau Support case can be opened by using the support option on the Tableau website
  • Choose Format from the menu on top and then specify the formatting in the new Format workbook pane
  • Tableau Server enables us to create workbooks and views, dashboards, and data sources in Tableau Desktop, and then publish this content to our own server.

 💡 Domain 5 : Understanding Tableau Concepts
  • Dimensions and Measures태블로는 자동으로 1개의 차원, 4개의 측정값을 생성함
  • 별칭 생성 : 차원
  • Discrete and continuous fields
  • 태블로에서 없앨 수 없는 필드 : 측정값, 측정값 이름
  • Aggregationdata granuality → level of detail
  • By default, measures placed in a view are aggregated. The type of aggregation applied depends on the context of the view