본문 바로가기

Data & MarTech/SE Tips

CLI 커맨드를 활용한 CSV 데이터 추출

반응형


cli command를 활용한 CSV 데이터 추출


SaaS 솔루션은 대부분 CSV 파일 다운로드 기능을 제공하는데, 데이터를 다운받은 다음 엑셀 또는 맥 Numbers에서 파일을 열어보려고 해도 사이즈가 커서 프로그램 자체가 멈춰버리는 경우가 있습니다. 전체데이터를 모두 올려서 분석해야 하는 경우라면, 구글 빅쿼리 등에 직접 Import를 하거나, Pandas DataFrame을 활용하여도 되지만 데이터를 잘 다루는 파워유저(데이터 분석가, 데이터 엔지니어)가 아니라면 쉽지 않은 방법일 수 있습니다. 데이터를 샘플링해서 보기만 해도 된다면 head 명령어로 새로 파일을 만들어보는 방법을 활용해 보세요.


커맨드를 활용한 CSV 데이터 추출

header(컬럼명) row 포함한 데이터 추출
head -n 1000 origin_data.csv | tail -n 1000 > extracted_data.csv
상세설명
  • head -n 1001 origin_data.csv: 1000개 행을 읽어온다.
  • tail -n 1000 앞 커맨드로 읽어온 1000개의 데이터에서 마지막 1000개 데이터를 읽어온다. 앞 커맨드에서 읽어온 데이터가 100건이므로, tail시에도 헤더 로우를 포함한 데이터를 읽어오게 된다.
  • > extracted_data.csv 읽어온 데이터를 포함한 새로운 파일을 생성한다.

header(컬럼명) row 제외한 데이터 추출
head -n 1001 origin_data.csv | tail -n 1000 > extracted_data.csv
상세설명
  • head -n 1001 origin_data.csv 1001개 행을 읽어온다.
  • tail -n 1000 앞 커맨드로 읽어온 1001개의 데이터에서 마지막 1000개 데이터를 읽어온다.
  • > extracted_data.csv 읽어온 데이터를 포함한 새로운 파일을 생성한다.

마치며

Solutions Engineer가 하는 업무 중 데이터 조회 및 검증작업이 중요한 부분이므로 관련 커맨드를 알고 있는 것 또한 중요한 역량 중 하나입니다. 케이스별로 데이터를 처리하는 방법에 대해 테스트 등을 통해 익히는 것을 권장합니다.

반응형