인스타그램 팔로워 분석 3. 크롤링 데이터를 파워BI 데이터플로우 업로드 및 파워쿼리 작업
데이터플로우를 활용하여 수집한 인스타그램 팔로워 데이터를 전처리하는 방법을 소개합니다.
❓데이터플로우가 뭔가요?
🧑💻 데이터 플로우는 파워BI 클라우드에 저장하는 데이터 테이블입니다.
파워 쿼리를 통해 전처리한 데이터를 클라우드에 저장해두는 기능을 가지고 있습니다.
보통 데이터플로우는 간단한 수준에서 구성합니다.
1개의 데이터플로우에 1가지 성격의 데이터를 담아둡니다. (품번별 재고정보, 품번별 품절정보 등)
👇파워 BI 가이드에서 자세한 내용을 찾아볼 수 있습니다.
https://learn.microsoft.com/ko-kr/power-bi/transform-model/dataflows/dataflows-create
🤔데이터 플로우를 꼭 사용해야 하나요?
🧑💻 아니요. 파워 BI를 사용하기 위해 꼭 써야 하는 기능은 아닙니다.
하지만 데이터플로우를 사용하는 이점이 굉장히 커서 사용하지 않을 이유가 없다고 생각합니다.
🧑💻 (주관적인) 데이터플로우를 사용하는 이점
데이터를 사용할 때마다 재가공하지 않고,
가공된 형태의 데이터를 클라우드(파워bi) 에 저장해두었다가 원하는 시점에 원하는 데이터를 가져올 수 있어서 시간절약과 일관성있는 데이터를 추출하는데 굉장히 효율적입니다.
예를 들어, 엑셀로 모았던 인스타그램 팔로워 데이터를 파워 bi데스크탑을 이용하여 전처리하고 대시보드를 제작하였는데, 만약 동일한 엑셀 리소스를 사용하여 다른 sns분석 대시보드를 제작해야 한다면, 이전 작업을 또 반복해야 합니다.
이 경우 동일한 작업을 반복하는데 들어가는 시간도 길고, bi 데스크탑 쿼리 작업 단계가 길어지면 데이터 로드에도 부하가 걸립니다. 그리고 동일한 데이터를 가지고도 다른 결과물을 낼 수 있습니다.
이는 제가 실제로 겪었던 사례입니다. 이 부분을 해결할 방법을 찾다가 데이터플로우라는 개념을 찾았고 덕분에 더 많은 작업을 혼자서 해낼 수 있게 되었습니다.
✨데이터 플로우를 사용하기 위한 조건
데이터플로우를 사용하기 위해서는 다음 조건을 충족해야 합니다.
1.파워bi 라이센스 ppu (premium per user) or ppm or 패브릭 평가판이 필요합니다.
패브릭 평가판은 일정 기간 이후에 종료가 되는데, 제 경우에는 여러번, 오랫동안 기간을 연장해주었습니다. 연장 여부는 제가 선택할 수 없고, ms에서 임의로 해주는 것 같습니다. 평가판으로 테스트해보고 결정하는 것도 나쁘지 않습니다.
2.오피스365에 포함된 원드라이브 또는 쉐어포인트
이 부분은 단순히 엑셀자료를 파워bi클라우드로 불러오는 역할을 담당하기 때문에, 만약 엑셀 자료를 서버나 다른 곳에 별도로 저장하여 불러올 수 있다면 꼭 필요한 라이센스는 아닐 수 있습니다.
하지만 엑셀 등의 office 파일을 bi 클라우드로 바로 연결해주는 커넥터를 사용할 수 있습니다.
💻데이터 플로우 작업
❗데이터플로우를 사용할 수 없는 조건이라면, 다음 1번을 건너뛰고 2번을 파워bi 데스크탑에서 수행하시면 됩니다. 파워쿼리 작업은 클라우드나 데스크탑이나 거의 동일합니다.
1. 작업영역생성
작업영역은 사용자 마음대로 지정하면 됩니다.
내 작업영역을 사용해도 되고, 데이터의 성격에 따라 구분해도 되며, 데이터 플로우만 따로 모아둘 작업영역을 별도로 생성해도 됩니다.
단, 내 작업영역에 생성하면 다른 사람에게 공유할 수 없습니다.
2. 데이터 플로우 생성
데이터플로우를 생성합니다.
작업 영역 안에서 새로 만들기를 클릭합니다.
데이터 불러오기를 통해 폴더 안에 있는 데이터를 전부 불러와보겠습니다.
데이터를 폴더 -> 개별 파일 단위로 확장합니다.
contents 옆의 화살표를 클릭합니다.
이 작업은 1개의 대표 파일을 먼저 불러와서 열 이름을 맞추고, 전체 데이터를 확장하는 작업입니다.
이 데이터는 열 제목이 항목, 공란, 공란이었습니다.
공란의 제목은 파워쿼리가 알아서 Column으로 잡아줍니다.
또한 각 열의 데이터 형식도 알아서 잡아주었습니다.
수집했던 엑셀 B5 셀이 공란이고, C5 셀에 데이터가 있었기에 열은 총 3개로 잡힙니다.
확인을 누르면 미리보기 화면의 형식대로 데이터 쿼리가 만들어집니다.
3. 데이터 전처리 작업
이제 데이터 전처리를 진행해줘야 합니다.
공란을 없에거나 이상치를 제거하거나 형식을 맞추는 등 데이터를 적절하게 가공하는 단계입니다.
사용자 지정 항목은 위 이미지와 같이 진행합니다.
2번 열이 비어있으면 3번 열을 넣고, 그 외에는 2번 열을 넣어서 '값' 이라는 새로운 열을 만듭니다.
여기서 사용한 함수는 M함수라고 합니다.
파워쿼리에서 사용하는 함수이며 자세한 내용은 마이크로소프트 Learn에서 확인해보세요
❗if 구문은 엑셀에서 작업하던 것과 유사합니다.
if 조건1 then 값1
else if 조건2 then 값2
else if 조건3 then 값3
else 값4
값을 남기고 Column2와 Column3을 지워줍니다.
항목 열에 데이터 항목들이 들어가 있고, 값들이 값열에 분포되어 있는 구조입니다.
이대로는 데이터를 활용하기가 애매합니다.
열 피벗 기능을 사용하여 항목을 열 제목으로 변경해보겠습니다.
변환에서 피벗 열을 클릭하고 값을 지정한 후 확인을 눌러줍니다.
항목 열이 없어지고, 세부 데이터들이 각각 새로운 열의 제목이 되었습니다.
이제 파일 이름에서 계정 이름과 수집일자를 분리해줘야 합니다.
언더바를 값바꾸기로 지우고, 형식을 날짜와 텍스트로 적절히 분리 및 열 제목을 변경해줍니다.
인스타그램 계정을 얻었으니 사이트에 접근하기 편하도록 인스타그램 URL을 만들어봅시다.
사용자 지정 열을 추가하여 URL열을 생성합니다.
URL 열은 이런 형태로 구성됩니다.
URL은 파워 BI에서 작업하면서 하이퍼링크 형태로 변환할 수 있습니다.
보고서 화면에서 각 소스의 웹 페이지로 바로 이동할 수 있게 됩니다.
4. 저장 및 데이터 플로우의 이름 생성
여기까지 파워 쿼리 작업은 완료입니다.
수정이 완료되면 데이터 플로우의 제목을 넣고 저장을 합니다.
5. 새로고침 일정 생성
데이터 플로우는 저장 후, 새로고침을 1회 진행해주셔야 데이터가 반영됩니다.
작업영역 화면으로 되돌아가서 새로고침 일정을 설정해줘야 합니다.
일정이 세팅되면 설정된 일정에 맞춰 엑셀 파일에서 데이터를 새로 불러와 저장합니다.
✨여기까지 5단계 중 3단계가 끝났습니다.
0. 인스타그램 팔로워 분석. INTRO1. RPA를 통한 데이터 수집 자동화2. RPA 작업스케쥴러 세팅(정해진 시간에 작업 시작)3. 저장한 데이터 BI 데이터플로우로 업로드
4. 파워 BI데스크탑에서 BI작업하기
5. 게시 및 업데이트 설정하기
이전 단계에서 RPA를 만들었고, RPA를 매일 지정한 시간에 자동으로 수집하게 설정했었습니다.
이번에는 수집한 데이터를 클라우드로 업로드하여 전처리하는 과정을 매일 일정한 시간에 동작하도록 설정했습니다.
이 다음에 할 작업은 데이터플로우에 저장한 데이터를 파워bi 데스크탑으로 불러와서 보고서를 제작합니다.
✨인스타그램 팔로워 분석에 대한 전체 개요는 다음 링크에서 확인해보세요
2024.07.22 - [이커머스 데이터 분석] - 인스타그램 팔로워 분석 0. INTRO
2024.07.23 - [RPA-Power Automate] - 인스타그램 팔로워 분석 1. RPA를 통한 데이터 수집 자동화
2024.07.23 - [RPA-Power Automate] - 인스타그램 팔로워 분석 2. 작업스케쥴러를 사용하여 RPA 실행 자동화