Archive
-
트렌드만을 고려한: 시계열 회귀분석 (1)Archive/통계&코딩이것저것 2022. 5. 31. 12:11
https://www.youtube.com/watch?v=pxG4ZlHJ570&list=PLpIPLT0Pf7IqSuMx237SHRdLd5ZA4AQwd&index=6 김성범 교수님의 강의를 참고&요약 하였다! 시간에 따른 y는 다음과 같이 나타낼 수 있다. $$y_t=TR_t +\epsilon_t$$ $TR_t$ : t시점의 트렌드, 트렌드는 상수(no trend), linear, quadratic 등으로 나타낼 수 있음! $\epsilon_t$: t시점에서 트렌드로 나타낼수 없는 오차 자세한 수식은 생략하고... 간단하다. Linear Trend Model의 경우 시간(t) 하나를 X로 쓰는 것. Qudratic은 t, t의 제곱까지 X로 해서 다중회귀를 푸는 것! 그러나 (다들 알겠지만??) 시계열 데..
-
대리 분석-LIMEArchive/통계&코딩이것저것 2021. 12. 16. 14:22
https://book.naver.com/bookdb/book_detail.nhn?bid=16299590 전체적인 프로세스는 다음의 책을 참고했다. XAI 설명 가능한 인공지능, 인공지능을 해부하다 XAI(EXPLAINABLE ARTIFICIAL INTELLIGENCE)는 인공지능의 판단 이유를 설명하는 연구 분야로, 인공지능 기술이 확대되면서 그 필요성이 함께 증가하고 있습니다. 이것은 알고리즘의 설계자조차 인공지능의 book.naver.com 전처리는 아래의 글을 참조했다. https://wikidocs.net/44249 6) 네이버 영화 리뷰 감성 분류하기(Naver Movie Review Sentiment Analysis) 이번 챕터에서는 영어 데이터가 아닌 한국어/한글 데이터에 대해서 텍스트 분..
-
[Back to the Basic]엔트로피Archive/통계&코딩이것저것 2021. 11. 26. 17:38
엔트로피: 확률분포가 가지는 정보의 확신도 혹은 정보량을 수치로 표현한 것 확률분포에서 특정한 값이 나올 확률이 높아지고 나머지 값의 확률은 낮아진다면 엔트로피가 작아짐. 반대로 여러가지 값이 나올 확률이 대부분 비슷한 경우에는 엔트로피가 높아짐. 엔트로피는 확률분포의 모양이 어떤지를 나타내는 특성값 중 하나로 볼 수도 있음. 확률 또는 확률밀도가 특정값에 몰려있으면 엔트로피가 작다고 하고, 반대로 여러가지 값에 골고루 퍼져있다면 엔트로피가 크다고 함. 확률변수 Y가 카테고리분포와 같은 이산확률변수이면 다음처럼 정의. $$H[Y]=-\sum_{k=1}^K p(y_k)log_{2}p(y_k)$$ 여기서 K는 X가 가질 수 있는 클래스의 수, $p(y)$는 확률질량함수. 확률의 로그값이 항상 음수이므로 음수..
-
[Back to the Basic] 검정Archive/통계&코딩이것저것 2021. 11. 25. 17:05
검정: 데이터 뒤에 숨어있는 변수의 분포에 대한 가설이 맞는지, 틀리는지 정량적으로 증명하는 과정 동전 15번중에 12번이 앞면이 나왔는데, 이걸 공정한 동전이라고 할 수 있을까? 따져봐야 하지 않을까? 어떤 회사의 일주일 수익률은 다음과 같다. -2.5,-5%, 4.3%, -3.7%, -5.6% . 모수가 양수인 주식일까? 귀무가설(Null Hypothesis) 가정을 하고 시작하는, 기준이 되는 가설 데이터가 어떤 확률변수의 표본이라고 가정한다 데이터를 만드는 확률변수가 따르는 확률분포의 모수 $\theta$의 값이 어떤 특정한 실수값 $\theta_0$ 로 고정되어 있다고 가정한다. 대립가설(Alternative hypothesis) 내가 주장하려는 가설, 증명하고 싶어하는 가설 $$H_a : \t..
-
네거티브 샘플링을 이용한 Word2Vec 구현(w. TensorFlow)Archive/통계&코딩이것저것 2021. 11. 16. 17:14
Word2Vec 모형은 상대적으로 간단한 모형이지만, skipgram으로 모든 임베딩 벡터를 업데이트 할 시에 너무 무거운 모델이 되는 단점이 있다. 이에 몇 단어들만 샘플링해서 더 가볍게(!) 구현한 것이 '네거티브 샘플링을 이용한 Word2Vec' 이다. 미리 다음 페이지들을 참조했음을 말해둔다. 코드는 텐서플로우 공식 홈페이지, 한글 전처리는 anseunghwan님의 깃허브를 참고했다. https://www.tensorflow.org/tutorials/text/word2vec?hl=en Word2Vec | TensorFlow Core ML 커뮤니티 데이를 놓쳤습니까? 수요에 대한 모든 세션 시계 보기 세션을 이 페이지는 Cloud Translation API를 통해 번역되었습니다. Switch to..
-
Ordinal RegressionArchive/통계&코딩이것저것 2021. 10. 13. 10:51
출처: 위키피디아 ordinal regression (also called "ordinal classification") 은 회귀와 분류의 중간에 위치. ordinal variable (값 자체가 아니라 값들 사이의 순서만이 중요한 변수) 을 예측하는데 쓰인다. ordinal logit 과 ordinal probit이 ordinal reg. 의 한 예이다. 사회과학의 n점 척도(1: very poor, 5: excellent) 를 모델링하는 문제에서 많이 쓰인다. 머신러닝에서는, ranking learning이라고도 한다. Linear models for ordinal regression Ordinal regression은 계수벡터와 threshold(실수들을 k개의 단절된 세그먼트(척도)로 나누게 하는..
-
Neural Collaborative Filtering 논문 리뷰Archive/통계&코딩이것저것 2021. 9. 14. 11:24
Neural Collaborative Filtering(2017) : 논문 제목 협업 필터링 테크닉 중 하나가 MF인데, 여기서 interaction 을 추정할 때 inner product를 사용하는 건 모델을 약하게 할 수 있음. 그래서 이 논문의 아이디어: 추정에 DNN을 써보자! 워밍업 지식! Implcit feedback: 증거는 없고, 정량적으로 측정할 수는 없지만 관심이 있다고 믿어 볼 수 있는것 ( 클릭을 했다거나, 검색을 해봤다거나, 장바구니에 담았다거나...등등) 좋아한다는 확실한 증거는 아님! "관심이 있다" 관심이 있으면 1, 아니면 0으로 표현 한 것: Y matrix 모델링 과정에서 모수를 추정하기 위해서는 두가지 방법이 있는데, pairwise와 pointwise loss가 있다..
-
기업명 표준화(클리닝)Archive/통계&코딩이것저것 2021. 9. 6. 15:32
https://www.analyticsinsight.net/company-names-standardization-using-a-fuzzy-nlp-approach/ Company Name Standardization using a Fuzzy NLP Approach | In this study, we showcase a two-tier automated methodology for Company Name Standardization achieved by using NLP and Fuzzy Logic-based techniques. This reduces the effort required to less than 15% of that when done entirely manually. www.analytics..