본문 바로가기
일기장 Today's learning

2023-04-28 캐글api랑 word vector

by 예쁜기억저장소 2023. 4. 29.

자연어처리 단어 예측 
단어학습의 최소는 3만개


Word2vec
cbow - 라벨이 중간게 1이면 w입력층이 그앞에거 그뒤에거 가 1이된다. 라벨을 하나씩 증가시켜
skip-gram - 이게 더좋은데 hidden layer 는 있기만하고  
cbow방식과는 반대로 출력층을 두개를 나오게만든다.

임베딩레이어이고 컴퓨터가 계산을했더니 swimming swam walking-walked 거리가 같다. 

glove는 지구상에있는 모든 문서를 구글이 학습시켜서 메일 스팸을 분류한다. text classification

텍스트 유사도 
를 하기위해서 검색을할떄 쓴다.

자연어 생성 생성형 AI
==========================

=====

캐글 api 를 하려면 
https://www.kaggle.com/competitions/word2vec-nlp-tutorial/rules rule을 access 를 해줘야한다.
사용자 hunmi에 .kaggle 이라 폴더를 만들어서 
https://www.kaggle.com/settings create new token 
kaggle.json 를 폴더안에 넣어주고 아래 명령어를 실행시킨다.
import kaggle
! kaggle competitions list
! kaggle competitions download -c word2vec-nlp-tutorial

집폴더를 압축해제해준다. 


conda install -c conda-forge kaggle
pip install -q kaggle


'일기장 Today's learning' 카테고리의 다른 글

리눅스 명령어  (0) 2023.05.27
2023-05-04 리눅스 배우자  (0) 2023.05.06
2023-04-26 NLP 불용어 처리  (0) 2023.04.26
2023-04-22 자연어처리  (0) 2023.04.25
2023-04-18 VGG16,yolo  (0) 2023.04.18