본문 바로가기

Data & MarTech

[BigQuery] 파이썬 라이브러리를 활용한 빅쿼리 연동 - 1. 개발환경설정

반응형

빅쿼리 파이썬 라이브러리 활용

GCP 빅쿼리(이하 빅쿼리)를 사용하는데는 다양한 방법이 있습니다. 빅쿼리 콘솔은 빅쿼리 데이터베이스를 관리하는 도구로, 데이터베이스 생성, 테이블 생성 수정, 쿼리 실행 등을 할 수 있습니다. 또한, BigQuery API를 통해 프로그래밍 언어를 통해 빅쿼리 데이터베이스를 다룰 수 있습니다. 그외에 빅쿼리를 자동으로 제어하는 App Script를 이용하여 Google 시트와 데이터베이스를 연동하여 데이터를 조회하는 등의 방법으로 빅쿼리 데이터를 다룰 수 있습니다.

 

빅쿼리의 가격은 데이터 용량에 따라 정해지며 초당 쿼리 요금, 스토리지 비용 등으로 이루어져 있습니다. 빅쿼리는 초당 처리량이 1TB를 초과하지 않는 한 무료로 사용할 수 있습니다. 그러나 초과하는 경우 기본 요금이 적용되기 때문에 초당 처리량에 따라 사용 가능한 비용을 선정하는 것이 중요합니다. 개인적으로 MD팀 지원용으로 크롤링 어플리케이션에 빅쿼리를 데이터웨어하우스로 사용한 프로젝트가 있었는데 네이버쇼핑크롤링 정보를 빅쿼리 Python 라이브러리를 이용하여 데이터 적재 및 조회기능을 구현하였고, 이후 운영비용도 월 5달러 이내로 크진 않았습니다.  (본 아티클의 경우 Marketing Tech 관련유저를 위한 내용이라, 아키텍쳐 및 기타 연계관련된 내용은 생략합니다.)


Getting Started

GCP 설정하기

빅쿼리 API 활성화

우선 BigQuery Library를 사용하도록 API를 활성화합니다.

  • 좌측 네비게이션 > API 및 서비스 > 라이브러리 선택
  • BigQuery 검색 후 'BigQuery API'를 선택  

사용자 인증 정보 만들기

서버 단에서 데이터 연동기능을 구현하기 위해 '서비스 계정(service account)'를 생성한 다음 JSON파일을 다운로드합니다.

사용자 인증 정보 > 서비스 계정 생성

서비스 계정을 새로 만들거나, 기존에 있는 서비스 계정에서 JSON파일을 다운로드 받으면 됩니다. 

서비스 계정 > 키 선택

JSON 파일을 다운로드하여, 로컬 개발 환경(또는 실제 운영서버)에 받아 Export처리합니다.

비공개 키 JSON 파일 만들기

JSON파일을 적절한 위치(주로 Project 폴더 내)에 다운로드합니다. (상식이지만) 참고로 해당키는 Github같은 소스 리포지토리에 함께 올리면 안됩니다!!


로컬 개발환경 설정하기

가상환경 생성

$ virtualenv <your-env-name>

가상환경 실행

$ source myenv/bin/activate

빅쿼리 라이브러리 설치하기

$ pip install --upgrade google-cloud-bigquery

 

빅쿼리 파이썬 라이브러리 설치

 

virtualenv 환경에서 빅쿼리 파이썬 라이브러리가 추가되었는지 확인합니다.

 

위 설정 절차가 완료된 경우, 개발을 진행할 수 있습니다. 해당 내용에 대해서는 다음 포스트에서 설명하도록 하겠습니다.

 

다음장에 참고할 구글 레퍼런스

 

서비스 계정 키 파일로 인증  |  BigQuery  |  Google Cloud

의견 보내기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. 서비스 계정 키 파일로 인증 온프레미스 또는 다른 퍼블릭 클라우드에 애플리케이션을 배포할

cloud.google.com

 

반응형