본문 바로가기

개발/NLP

(19)
NLP Load : 맨땅에 헤딩하는 NLP 공부일지 (3) 주어진 텍스트에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위는 상황에 따라 달라질 수 있지만, 보통 의미있는 단위로 토큰을 정의합니다! 일반적으로 토큰의 단위는 크게는 '문장', 작게는 '단어'라고 보면 됩니다. Word Tokenization 1. English : Word Tokenization import nltk nltk.download('punkt') from nltk.tokenize import word_tokenize, WordPunctTokenizer, TreebankWordTokenizer sentence = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage..
NLP Load : 맨땅에 헤딩하는 NLP 공부일지 (2) Tokenization : 토큰화 토큰화는 기계에게 어느 구간까지가 문장이고, 단어인지 알려주는 작업을 말합니다. 꼭 문장, 단어만 알려줘야하는것은 아닙니다. 그렇기에 문장 토큰화, 단어 토큰화 등등 다양한 형태의 토큰화가 존재합니다. 우리가 파이썬을 사용하면서 .split() 을 통해 띄어쓰기를 기준으로 구분하는 것도 일종의 토큰화라고 할 수 있습니다. 단어 토큰화(Word Tokenization)에 대한 고민 문장 내에서 단어를 어떻게 구분할까요? 다음 문장들을 어떻게 단어로 구분하는지 한번 알아봅시다. We're Guardian's of Galaxy!! We are Guardian's of Galaxy!! We are Guardian's of Galaxy 무엇이 다른지 잘 모르겠죠. 서로 같은 의미..
NLP Load : 맨땅에 헤딩하는 NLP 공부일지 (1) 이상적인 자연어 처리의 학습 순서는 어떻게 될까? 1. 자연어 처리의 개념 2. 통계적 방식의 NLP 3. 초기 딥러닝의 자연어 처리 방식 4. 현재 딥러닝의 자연어 처리 방식 위와 같이 구성된다고 한다. 이를 해당 분야를 공부하는 사람들이 알기 쉽게 풀어서 적어본다면 아래와 같이 나타낼 수 있다. 1. Stemming & Tokeninzing 2. BoW / TF-IDF 3. Basic Models 4. World Embeddings 5. LSTM / GRU / Attention Models 6. Transformers 7. Deploying BERT on Cloud 8. Go to High Level!!! 현대의 NLP?! 그렇다면 현재 가장 중요한 NLP개념은 무엇일까? PLM(Pre-trained..
NLP Load : 맨땅에 헤딩하는 NLP 공부일지 (0) 음.. 안녕하세요! 여전히 꾸준하지 못한 블로그를 운영하는 Ash입니다.. 최근들어 제가 취업할 시기가 다가오면서 이것저것 공부량이 부쩍많아지고 블로그에 많이 신경을 못썼는데요,, 주변에 저와 같은 분야를 하는 사람도 없고, 혼자서 모든것을 맨땅에 헤딩해가면서 해야하다보니 더 불안감이 커서 이쪽으로 신경쓰지 못했던거 같습니다..ㅜㅠ 근데 가만 생각해보니 화가나더라구요...? 아니, 남들은 이렇게 핫한 AI분야 어떻게든 한번씩 해보겠다고 시도하는데 왜 제 주변에는 이상하리만큼 아무도 없는거죠..? 이거 억까야ㅡㅡ🤬🤬!! 그래서 이 울분가득한 마음을 담아 저와 같은 사람이 생기지 않도록 제가 걸어온 NLP 공부과정을 포스팅으로 남기려고 합니다! (누군가는 보고 도움이 되겠죠 뭐,,,) 아 물론, 이전부터 해..