CSV 3

jq 명령어 설치 및 사용방법 (feat. select, filter, json 필드 추가/삭제)

jq 란? 위 사진은 jq 홈페이지에서 캡처한 화면인데, 간단히 말해서 json 을 다루는 Tool 이다. Linux shell 에서 텍스트나 csv 파일을 다룰때, sed, awk 등을 사용하는데, 이처럼 json 포맷의 데이터를 다루기 편한 기능들을 모아놓은 utility 라고 생각하면 된다. Kubernetes나 AWS 등은 resource의 상태조회시 json 포맷으로 결과가 return 된다. 이러한 결과값 중에서 원하는 attrbute만 추출하거나, 필터링하거나, csv 포맷으로 변경하는 등의 작업을 jq 로 할 수 있다. jq 설치 (install) download 페이지를 참고한다. 기본 명령어 (apt-get install, brew install 등) 을 사용해서 설치한다. Window..

IT/Programming 2022.11.10

S3의 CSV 파일을 Aurora MySQL 클러스터에 insert 하기

Aurora에 S3의 csv 파일을 업로드 하는 과정이 생각보다 복잡해서 관련 내용을 정리했다. Aurora MySQL은 DB Cluster 만 가능하다 Aurora 생성시 Engine Option으로 MySQL, PostgreSQL, MariaDB 등을 선택할 수 있다. 인프라로 Serverless 또는 DB Cluster 타입을 선택할 수 있다 (version에 따라서 자동선택됨) MySQL의 경우 Serverless는 S3에서 데이터 Load가 불가 DB Cluster만 S3에서 데이터를 직접 Load 가능 (링크) 참고로 PostreSQL은 Serverless 및 DB Cluster 둘다 가능 하다고함 Aurora MySQL 에 S3 접근 IAM Role 추가 Aurora에서 DB 선택 -> Co..

IT/Public Cloud 2022.05.12

AWS Athena로 S3에 있는 CSV파일 데이터 쿼리하기 (feat. partitioning)

AWS Athena란? S3 에 저장되어 있는 데이터를 DB처럼 쿼리할 수 있는 서비스이다. s3에 csv, tsv, json 등의 형식으로 저장한 파일의 내용을 SQL 쿼리를 통해 select, insert 할 수 있다. update, delete는 기본적으로는 안되는데, 일부 되는것처럼 소개하는 글도 있다. S3는 파일 수정이 불가하기 때문에 되더라도 비효율적인 방식일꺼라 예상한다. (실제 가능여부는 좀더 살펴보고 업데이트 예정) 언제 사용할까? Log와 같은 비정형 데이타 혹은 DB에 저장되지 않은 정형 데이터 등을 SQL을 통해 분석이 필요한 경우 분석 빈도가 많지 않아 데이터 분석을 위한 별도의 인프라 구성이 부담스러운 경우 요금 정책 요금정책은 아주 심플하다. 쿼리 실행시 스캔한 데이터의 사이..

IT/Public Cloud 2022.04.28
반응형