분류 전체보기
-
[Sagemaker] IntroductionMLOps/AWS 2024. 5. 19. 21:26
https://www.udemy.com/course/aws-sagemaker-complete-course-pytorch-tensorflow/?couponCode=LEADERSALE24B 업무상 AWS Sagemaker를 쓸 일이 있어서, Udemy에서 강의를 구매했다.간단하게 공부하며 정리할 예정이다. 내 리스닝 실력 부족 + 선생님의 인도계 억양 콤보로 챗지피티와 함께 학습을 진행하였다,,,😂배울것: - 세이지메이커의 ML 사이클- DS와 엔지니어에게 필요한, ML를 더 쉽게 적용할 수 있는 방법- 학습 테크닉(중요): 1. own docker container를 온프레미스에서 세이지메이커로 가져오기 2. 내가 만든 알고리즘을 로컬에서 세이지메이커로 가져오기3. pre-built된 알고리즘 - Sag..
-
[LLM 실험논문작성 1주] 인과추론 개요 및 논문작성 방법LLM study 2024. 3. 18. 15:50
Survivorship Bias: 생존자 편향의 오류 살아남은 데이터만 가지고 분석했기 때문에 생기는 오류 cf. 바닥 신호등이 줄어들 예정: 도입하고 나니까,,, 아이들이 신호등 안보고 양옆을 안 봐서 더 사고율이 올라감 📌데이터 분석은 패턴을 찾아줄 수 있으나, 이를 인과관계로 해석하는 건 사람의 몫 상관성이 인과성으로 인정받으려면 다음의 세 가지 조건을 따라야 한다. 1. 연속성을 의미하는 '원인'과 '결과'의 공동변화 2. 시간적 선후관계 3. 불면성을 보장하기 위한 외생변수의 제거(가장 어렵다) 이유: 모든 변수를 통제하기 어려움 사교육->공부를 잘한다? 실제로 성적이 올랐는데 실제로 학원에 가서 연애를 한 거임,,, but 상관성을 인과성에 준하여 취급하며 의사결정을 내리는 것 또한 유의미함 ..
-
[ LLM실험논문작성 2주] 행동 데이터 분석&논문 작성법LLM study 2024. 3. 14. 22:47
* Behavioral Data Analysis with R and Python" Source Code https://github.com/BuissonFlorent/BehavioralDataAnalysis/tree/master GitHub - BuissonFlorent/BehavioralDataAnalysis: Support files for the O'Reilly book "Behavioral Data Analysis with R and Python" Support files for the O'Reilly book "Behavioral Data Analysis with R and Python" by Florent Buisson - BuissonFlorent/BehavioralDataAnalysis gi..
-
SageMaker 사이클 및 SDK 2.x 사용법MLOps/AWS 2024. 2. 29. 17:33
해당 영상을 참조함 SageMaker 데이터: S3 알고리즘: ECR에 이미지(컨테이너?) 로 패키징 되어있음 🟡Training Request Sagemaker 관리 영역으로 데이터, 트레이닝 알고리즘 가져옴 → 파라미터 세팅 → 모델 아티팩트 생성 모델 아티팩트는 외부 스토리지로 export 🟡Inference 모델 아티팩트, 추론을 위한 라이브러리와 실행 환경이 담긴 컨테이너 필요 (EX) 24시간 API 요청을 처리하는 프로세싱을 처리한다면 → EndPoint 형태로 실행 (EX) 배치 작업으로 추론 후 배치 작업 결과를 파일로 쓴다면 → 추론 작업 후 리소스를 반납하는 형태로 구성 📌위의 구조를 코딩으로 해결한다면? SDK boto 3 sdk와 Sagemaker sdk가 있음 📌 Sagemaker..
-
SageMaker를 활용한 빅데이터 처리 및 훈련, 배포, 추론 수행MLOps/AWS 2024. 2. 27. 17:08
데이터 전처리 by 스파크 EMR 기본적으로 Data Mart 에서 가져와서 전처리 하는 경우 시간 및 유효성, 정합성에 문제가 없다면 고려X IF 데이터셋이 크다면? OOM 문제 발생… Spark EMR 클러스터를 사용해 처리 가능 단계 EMR Notebook에서 대용량 파일 가져오기 EC2 인스턴스에서 데이터 전처리: 데이터가 EMR 노트북에 의해 로드된 후, Amazon EC2(Elastic Compute Cloud) 인스턴스에서 데이터 전처리 작업 S3에 Parquet 형식으로 데이터 저장: 전처리된 데이터는 최종적으로 Amazon S3(Simple Storage Service) 버킷에 Parquet 형식으로 저장 장점 다양한 데이터 소스 지원: S3, DynamoDB, RDS 등 AWS의 다양한..
-
ECRMLOps/AWS 2024. 2. 27. 16:54
Amazon Elastic Container Registry Docker 컨테이너 이미지를 저장하고 관리하는 서비스 Amazon ECR 시작 방법 Amazon ECR을 사용하여 설정 - Amazon ECR 이 페이지에 작업이 필요하다는 점을 알려 주셔서 감사합니다. 실망시켜 드려 죄송합니다. 잠깐 시간을 내어 설명서를 향상시킬 수 있는 방법에 대해 말씀해 주십시오. docs.aws.amazon.com AWS CLI에서 Amazon ECR 사용 - Amazon ECR 경우에 따라서는 ec2-user가 Docker 데몬에 액세스할 수 있는 권한을 제공하기 위해 인스턴스를 재부팅해야 할 수도 있습니다. 다음 오류가 표시될 경우 인스턴스를 재부팅합니다. Cannot connect to the D docs.aws..
-
AWS CLI 사용 & 파이썬 SDK boto 설치MLOps/AWS 2024. 2. 27. 16:41
개요 클라우드 컴퓨팅 플랫폼 컴퓨팅, 스토리지, 데이터베이스, 네트워킹, 분석 등 다양한 on-demand 클라우드 서비스를 제공 AWS AI 서비스 Comprehend : NLP 서비스 Lex : 자동 음성 인식 및 자연어 이해 Polly : 텍스트를 이용한 음성 합성 Rekognition: 사물 검출, 안면 인식 및 분석 Transcribe: 음성-텍스트 변환 Translate : 번역 서비스 AWS ML 서비스 SageMaker : 전체 ML 작업 흐름을 모두 지원하는 완전 관리형 서비스 AWS CLI 사용 $ aws configure AWS Access Key ID [****************ILVQ]: AWS Secret Access Key [****************BzKu]: Defa..
-
추천 평가 방법(정확도 지표) 정리추천시스템 2024. 2. 27. 16:33
📌평점, 체류시간, 장바구니 여부,구매 여부, 사전 평가…, 등의 user ↔︎ item interaction score가 있을 때 사용 가능 → 해당 interaction이 없다면? 속성 유사도 기반 추천 기존 메트릭 Precision @ k , precision, recall 정답/ 오답이 있고, 예측값이 정답과 어느 정도의 비율로 일치하는 지를 계산 binary 분류 문제 MSE, MAE… 평점, 체류시간,… 등 binary 하지 않은 연속된 값을 예측할 때 사용 기존 메트릭의 한계 기존 정확도 지표는 정답과 예측값의 비율을 측정하므로, 순서 정보에 대한 가중치가 반영되지 않음 추천시스템에서는 얼마나 잘 맞추었는지가 중요함 (상대적 순서 중요) 추천 평가 메트릭 MRR (Mean Reciprocal..