Archive/통계&코딩이것저것
-
기업명 표준화(클리닝)Archive/통계&코딩이것저것 2021. 9. 6. 15:32
https://www.analyticsinsight.net/company-names-standardization-using-a-fuzzy-nlp-approach/ Company Name Standardization using a Fuzzy NLP Approach | In this study, we showcase a two-tier automated methodology for Company Name Standardization achieved by using NLP and Fuzzy Logic-based techniques. This reduces the effort required to less than 15% of that when done entirely manually. www.analytics..
-
n-gram을 이용해서 철자를 교정해보자Archive/통계&코딩이것저것 2021. 9. 2. 15:17
NER을 이용해서 회사명을 추출한 데이터를 사용해서, 정답명과 살짝 틀린 단어(예:Epple)이 들어갔을 때 Apple로 나오게끔 철자를 교정해주는 간단한 코드이다. df_answer_name['회사명'] : 정상적인 회사명 컬럼이 들어간다. 이 알고리즘의 장점은 간단하다는 것인데, 단점은 df_answer_name['회사명']에 없는 회사는 뱉어내지 못한다는 것. import collections ngram_size=3 words=set([w.lower() for w in list(df_answer_name['회사명'])]) #소문자 변환 def ngrams(word):#ngram set을 생성한다. all_ngrams=set() for i in range(0,len(word)-ngram_size+1)..
-
잠재요인 협업필터링 추천시스템 구축Archive/통계&코딩이것저것 2021. 8. 23. 15:22
목적: 사용자가 등록한 채널에 따른 맞춤 SNS 추천 Input: data = pd.read_sql_query(query, con=conn) data['gudok']=1#등록 여부 df_user_channel=data.pivot_table('gudok',index='user_id',columns='channel_name').fillna(0) #pivot table을 만든다(중요) 잠재 요인 협업 필터링 사용자 - 아이템 평점 행렬 데이터만을 이용해 말 그대로 '잠재요인'을 끄집어 내는 것. '잠재요인'을 기반으로 사용자-아이템 행렬 데이터를 사용자 - 잠재요인 행렬과 아이템-잠재요인 행렬의 전치로 분해할 수 있으며, 이렇게 분해된 두 행렬의 내적을 통해 새로운 예측 사용자-아이템 평점 행렬 을 만들어서,..