-
[Coursera]BigQuery에 데이터세트 수집 및 저장MLOps/BigQuery 2022. 3. 2. 11:47
빅쿼리는 다양한 형식의 데이터세트 수집 가능. 기본 저장소에 들어가면 빅쿼리에서 데이터 관리 가능하고, 최근에 삭제된 테이블도 복구 가능.
지속적으로 업데이트되는 외부 데이터를 쿼리할 수도 있지만, 이렇게 하지 않는것을 추천: 일단 업데이트를 실제로 빅쿼리에서 바꿨는지가 보장이 안됨. 이게 걱정된다면, Cloud DataFlow를 사용하여 빅쿼리에 스트리밍 데이터 파이프라인 구축을 고려할 수 있음 (<- 다음 모듈에서 다룰 주제!)
빅쿼리에 스트리밍 레코드를 API를 통해 넣을수도 있음
알아야 할 할당량 제한이 있는데, 스트리밍 insert의 최대 로우 사이즈는 1 megabyte, 최대 처리량은 프로젝트당 초당 100,000개의 레코드. 초당 수백만 개의 레코드와 같이 더 높은 처리량이 필요한 경우 application logging(뭔데이거), real time events tracking 등을 사용.