전체 글
-
대리 분석-LIMEArchive/통계&코딩이것저것 2021. 12. 16. 14:22
https://book.naver.com/bookdb/book_detail.nhn?bid=16299590 전체적인 프로세스는 다음의 책을 참고했다. XAI 설명 가능한 인공지능, 인공지능을 해부하다 XAI(EXPLAINABLE ARTIFICIAL INTELLIGENCE)는 인공지능의 판단 이유를 설명하는 연구 분야로, 인공지능 기술이 확대되면서 그 필요성이 함께 증가하고 있습니다. 이것은 알고리즘의 설계자조차 인공지능의 book.naver.com 전처리는 아래의 글을 참조했다. https://wikidocs.net/44249 6) 네이버 영화 리뷰 감성 분류하기(Naver Movie Review Sentiment Analysis) 이번 챕터에서는 영어 데이터가 아닌 한국어/한글 데이터에 대해서 텍스트 분..
-
[Back to the Basic]엔트로피Archive/통계&코딩이것저것 2021. 11. 26. 17:38
엔트로피: 확률분포가 가지는 정보의 확신도 혹은 정보량을 수치로 표현한 것 확률분포에서 특정한 값이 나올 확률이 높아지고 나머지 값의 확률은 낮아진다면 엔트로피가 작아짐. 반대로 여러가지 값이 나올 확률이 대부분 비슷한 경우에는 엔트로피가 높아짐. 엔트로피는 확률분포의 모양이 어떤지를 나타내는 특성값 중 하나로 볼 수도 있음. 확률 또는 확률밀도가 특정값에 몰려있으면 엔트로피가 작다고 하고, 반대로 여러가지 값에 골고루 퍼져있다면 엔트로피가 크다고 함. 확률변수 Y가 카테고리분포와 같은 이산확률변수이면 다음처럼 정의. $$H[Y]=-\sum_{k=1}^K p(y_k)log_{2}p(y_k)$$ 여기서 K는 X가 가질 수 있는 클래스의 수, $p(y)$는 확률질량함수. 확률의 로그값이 항상 음수이므로 음수..
-
[Back to the Basic] 검정Archive/통계&코딩이것저것 2021. 11. 25. 17:05
검정: 데이터 뒤에 숨어있는 변수의 분포에 대한 가설이 맞는지, 틀리는지 정량적으로 증명하는 과정 동전 15번중에 12번이 앞면이 나왔는데, 이걸 공정한 동전이라고 할 수 있을까? 따져봐야 하지 않을까? 어떤 회사의 일주일 수익률은 다음과 같다. -2.5,-5%, 4.3%, -3.7%, -5.6% . 모수가 양수인 주식일까? 귀무가설(Null Hypothesis) 가정을 하고 시작하는, 기준이 되는 가설 데이터가 어떤 확률변수의 표본이라고 가정한다 데이터를 만드는 확률변수가 따르는 확률분포의 모수 $\theta$의 값이 어떤 특정한 실수값 $\theta_0$ 로 고정되어 있다고 가정한다. 대립가설(Alternative hypothesis) 내가 주장하려는 가설, 증명하고 싶어하는 가설 $$H_a : \t..
-
네거티브 샘플링을 이용한 Word2Vec 구현(w. TensorFlow)Archive/통계&코딩이것저것 2021. 11. 16. 17:14
Word2Vec 모형은 상대적으로 간단한 모형이지만, skipgram으로 모든 임베딩 벡터를 업데이트 할 시에 너무 무거운 모델이 되는 단점이 있다. 이에 몇 단어들만 샘플링해서 더 가볍게(!) 구현한 것이 '네거티브 샘플링을 이용한 Word2Vec' 이다. 미리 다음 페이지들을 참조했음을 말해둔다. 코드는 텐서플로우 공식 홈페이지, 한글 전처리는 anseunghwan님의 깃허브를 참고했다. https://www.tensorflow.org/tutorials/text/word2vec?hl=en Word2Vec | TensorFlow Core ML 커뮤니티 데이를 놓쳤습니까? 수요에 대한 모든 세션 시계 보기 세션을 이 페이지는 Cloud Translation API를 통해 번역되었습니다. Switch to..
-
Ordinal RegressionArchive/통계&코딩이것저것 2021. 10. 13. 10:51
출처: 위키피디아 ordinal regression (also called "ordinal classification") 은 회귀와 분류의 중간에 위치. ordinal variable (값 자체가 아니라 값들 사이의 순서만이 중요한 변수) 을 예측하는데 쓰인다. ordinal logit 과 ordinal probit이 ordinal reg. 의 한 예이다. 사회과학의 n점 척도(1: very poor, 5: excellent) 를 모델링하는 문제에서 많이 쓰인다. 머신러닝에서는, ranking learning이라고도 한다. Linear models for ordinal regression Ordinal regression은 계수벡터와 threshold(실수들을 k개의 단절된 세그먼트(척도)로 나누게 하는..
-
Neural Collaborative Filtering 논문 리뷰Archive/통계&코딩이것저것 2021. 9. 14. 11:24
Neural Collaborative Filtering(2017) : 논문 제목 협업 필터링 테크닉 중 하나가 MF인데, 여기서 interaction 을 추정할 때 inner product를 사용하는 건 모델을 약하게 할 수 있음. 그래서 이 논문의 아이디어: 추정에 DNN을 써보자! 워밍업 지식! Implcit feedback: 증거는 없고, 정량적으로 측정할 수는 없지만 관심이 있다고 믿어 볼 수 있는것 ( 클릭을 했다거나, 검색을 해봤다거나, 장바구니에 담았다거나...등등) 좋아한다는 확실한 증거는 아님! "관심이 있다" 관심이 있으면 1, 아니면 0으로 표현 한 것: Y matrix 모델링 과정에서 모수를 추정하기 위해서는 두가지 방법이 있는데, pairwise와 pointwise loss가 있다..
-
기업명 표준화(클리닝)Archive/통계&코딩이것저것 2021. 9. 6. 15:32
https://www.analyticsinsight.net/company-names-standardization-using-a-fuzzy-nlp-approach/ Company Name Standardization using a Fuzzy NLP Approach | In this study, we showcase a two-tier automated methodology for Company Name Standardization achieved by using NLP and Fuzzy Logic-based techniques. This reduces the effort required to less than 15% of that when done entirely manually. www.analytics..
-
n-gram을 이용해서 철자를 교정해보자Archive/통계&코딩이것저것 2021. 9. 2. 15:17
NER을 이용해서 회사명을 추출한 데이터를 사용해서, 정답명과 살짝 틀린 단어(예:Epple)이 들어갔을 때 Apple로 나오게끔 철자를 교정해주는 간단한 코드이다. df_answer_name['회사명'] : 정상적인 회사명 컬럼이 들어간다. 이 알고리즘의 장점은 간단하다는 것인데, 단점은 df_answer_name['회사명']에 없는 회사는 뱉어내지 못한다는 것. import collections ngram_size=3 words=set([w.lower() for w in list(df_answer_name['회사명'])]) #소문자 변환 def ngrams(word):#ngram set을 생성한다. all_ngrams=set() for i in range(0,len(word)-ngram_size+1)..