반응형
데이터의 종류
마케팅 담당자가 다루는 데이터 두 가지
- 업무 데이터 = 업무에 필요한 데이터
- 로그 데이터 = 업무에 직접적으로 필요하지는 않지만 분석을 위해 추출해야하는 데이터
1. 업무 데이터
서비스와 시스템을 운용하기 위한 목적으로 구축된 데이터베이스에 존재하는 데이터
업무 데이터 대부분은 갱신형 데이터, 새로운 데이터를 삽입하는 대신 기존의 데이터를 갱신함
1) 트랜잭션 데이터
- 구매 데이터, 리뷰 데이터, 게임 플레이 데이터처럼 서비스와 시스템을 통해 사용자의 행동을 기록한 데이터
- 날짜, 시각, 마스터 데이터의 회원ID, 상품ID, 수량, 가격 등이 포함
2) 마스터 데이터
- 카테고리 마스터, 상품 마스터처럼 서비스와 시스템이 정의하고 있는 데이터를
<업무 데이터 특징>
- 데이터의 정밀도가 높다.
- 데이터 처리 도중 문제가 발생하면, 트랜잭션과 롤백이라는 기능을 사용하여 이런 문제를 제거할 수 있음
- 데이터의 정합성이 보증된다.
- 정확한 값이 요구되는 매출 관련 리포트
- 갱신형 데이터
- 매일 다양한 데이터 추가, 갱신, 제거 등이 실행됨
- 사용자가 탈퇴하는 경우, 데이터를 물리적으로 제거
- 주문을 취소하는 경우, 플래그를 통해 상태를 변경해서 논리적으로 제거
- 이사 등으로 주소가 변경된 경우, 사용자 정보를 갱신
- 매일 다양한 데이터 추가, 갱신, 제거 등이 실행됨
- 다뤄야하는 테이블의 수가 많다.
- RDB를 사용, 데이터의 확장성을 배제하고 데이터의 정합성을 쉽게 유지하며 데이터를 저장하기 위함 (정규화)
- ER다이어그램을 통해 데이터 구조를 파악해야함
<업무 데이터 축적 방법>
- 모든 데이터 변경하기
- 날짜 기반으로 데이터가 계속 누적되는 경우가 아니라면, 데이터 전체를 한꺼번에 바꾸어 최신 상태로 만듦 (우편번호 마스터, 상품 카테고리 마스터)
- 날짜 기반에서는 과거의 정보를 잃어버리게 되므로 주의
- 모든 레코드의 스냅샷을 날짜별로 저장하기
- 마스터 데이터라도 사용자 마스터 등의 데이터는 날짜 경과에 따라 상태가 변할 수 있음
- 출력 결과가 추출 시점에 따라 달라지면 신뢰성이 낮아지므로, 시점별 사용자 마스터를 저장함으로써 신뢰성을 어느정도 보장할 수 있음
- 어제와의 변경 사항만 누적하기
- 데이터 전송량과 처리 시간을 줄이기 위해 어제 데이터와의 차이만 누적 (delete+insert or update)
<업무 데이터 다루기>
- 매출액, 사용자 수처럼 정확한 값을 요구할 경우 활용하기
- 서비스의 방문 횟수, 페이지뷰, 사용자 유도 등의 데이터 분석에는 사용할 수 없음
- 데이터 변경이 발생할 수 있으므로 추출 시점에 따라 결과가 변화할 수 있음
- 때문에 리포트를 만들어 제출할 때는 “추출 시점의 정보를 기반으로 작성된 리포트”임을 명시해야 한다.
2. 로그 데이터
통계 또는 분석을 주 용도로 설계된 데이터, 특정 태그를 포함해서 전송된 데이터, 특정 행동을 서버 측에 출력한 데이터
출력 시점의 정보를 축적해두는 누적형 데이터
로그 출력 이후에 가격이 변경되거나 사용자 정보가 변경되더라도 기존의 데이터를 수정하지 않음
<로그 데이터 특징>
- 시간, 사용자 엔드 포인트, IP, URL, 레퍼러, Cookie 등의 정보 저장하기
- 업무 데이터는 서비스와 시스템을 구출할 때 필요한 데이터이지만, 로그 데이터는 서비스의 처리에 영향이 거의 없는 정보를 저장한 것이다.
- 로그 데이터는 추출 방법에 따라 데이터의 정밀도가 달라짐
- 계속 기록을 추가하는 것뿐이므로 과거의 데이터가 변경되지는 않음
<로그 데이터 축적 방법>
- 태그, SDK를 통해 사용자 장치에서 데이터를 전송하고 출력하기 (비컨 형태)
- 구글 애널리틱스처럼 HTML에 특정 태그를 집어넣고 데이터를 전송하는 형식
- 웹사이트를 개발할 때 활용하는 굉장히 일반적인 방법
- 서버에서 데이터를 추출하고 출력하기 (서버 형태)
- 클라이언트 쪽에서 별도의 처리를 하지 않고 서버에서 로그를 출력하는 방법
- 이러한 데이터를 사용해서 사용자의 행동을 집계/분석하면 잘못된 판단을 내릴 수 있습니다.(크롤러때문) 따라서 의도하지 않은 로그를 제거하는 과정을 반드시 거쳐야 합니다.
<로그 데이터 다루기>
- 사이트 방문 횟수, 페이지뷰, 사용자 유도 상황을 집계하고 분석할 때 주로 사용
- 최신 상태를 고려한 분석에는 적합하지 않음
- 계속 기록을 누적하는 형태이므로 추출 결과가 변할 가능성이 적음
- 로그 데이터는 변경/제거되지 않으므로, 기간을 지정해서 집계했을 때 쿼리 결과가 바뀌지 않음
- 데이터의 정확도는 업무 데이터에 비해 낮음
- 로그 추출 방법에 따라서 사용자가 누락될 수 있으며, 크롤러의 로그가 함께 포함되어 집계될 가능성이 있음
- 따라서 정확한 값이 필요한 경우에는 적합하지 않음
3. 두 데이터의 활용
- 업무 데이터
- 매출액의 추이, 인기 상품, 상품의 계절성, 많이 팔리는 시간대등의 과거의 성향 파악
- 이를 통해 다양한 이벤트를 만들어 상품을 더 많이 노출시켜 더 많은 구매를 유도할 수 있음
- 로그 데이터
- 대부분의 접근 분석 도구는 웹사이트에 비컨 형식으로 탑재되어 로그를 전송하며, 이러한 로그를 기반으로 리포트를 제공해줌 (GA처럼)
- 페이지뷰, 액션, 해당 데이터에 포함된 값(레퍼러, 사용자 에이전트, 사용자 정의 변수 등)을 집계하고 출력해줌
- 두 데이터를 사용했을 때 발생하는 새로운 가치
- 웹사이트에서의 행동이 오프라인의 행동에 어떠한 영향을 미치는지 등을 조사할 수 있음
- 웹사이트에서 오프라인으로 사용자를 유도하는 서비스라면, 두 가지 데이터를 함께 활용했을 때 분석 가능성이 훨씬 넓어짐
4. 활용사례
- 목표를 관리하고, 설계하고, 서비스/조직의 성장에 기여하기 (목표 관리)
- 매출, 접근 수, 사용자 수처럼 서비스가 지향하는 목표가 현재 어느 정도 진행되었는지 파악하고, 부족한 경우 이를 달성할 수 있게 시책을 검토/실시하면 서비스의 성장에 기여할 수 있음
- 사용자 행동을 기반으로 경향을 발견하고, 매출과 서비스 개선에 기여하기 (서비스 개선)
- 사용자 인터뷰는 비용적/시간적으로 좋지 않기 떄문에, 대량의 데이터를 기반으로 사용자 경향을 발견하고, 이를 활용해 매출 향상에 서비스 개선에 기여하는 것이 더 좋을 수 있음
- 과거의 경향을 기반으로 미래의 행동 예측하기 (미래 예측)
- 웹사이트에서 특정 행동을 취한 사용자가 서비스를 이른 시일 내에 탈퇴하는 경향이 있다면, 이를 미리 파악해서 사전에 대응할 수 있음 (전조 감지)
- 상품 추천 등의 추천 시스템
반응형
'Data Analysis > SQL Recipe for Data Analysis' 카테고리의 다른 글
[SQL 레시피] 시계열 기반으로 데이터 집계하기 (0) | 2023.11.14 |
---|---|
[SQL 레시피] 하나의 테이블에 대한 조작 (0) | 2023.11.13 |
[SQL 레시피] 여러 개의 값에 대한 조작 (0) | 2023.11.13 |
[SQL 레시피] 하나의 값 조작하기 (0) | 2023.11.13 |
[SQL 레시피] BigQuery 환경세팅 (0) | 2023.11.07 |
Uploaded by Notion2Tistory v1.1.0