본문 바로가기

개발/NLP

NLP Load : 맨땅에 헤딩하는 NLP 공부일지 (1)

바로 Transformers로 가지말고 밑 단계부터 올라가자!

이상적인 자연어 처리의 학습 순서는 어떻게 될까?

1. 자연어 처리의 개념
2. 통계적 방식의 NLP
3. 초기 딥러닝의 자연어 처리 방식
4. 현재 딥러닝의 자연어 처리 방식

위와 같이 구성된다고 한다. 이를 해당 분야를 공부하는 사람들이 알기 쉽게 풀어서 적어본다면 아래와 같이 나타낼 수 있다.

1. Stemming & Tokeninzing
2. BoW / TF-IDF
3. Basic Models
4. World Embeddings
5. LSTM / GRU / Attention Models
6. Transformers
7. Deploying BERT on Cloud
8. Go to High Level!!!

현대의 NLP?!

그렇다면 현재 가장 중요한 NLP개념은 무엇일까?
PLM(Pre-trained Language Model)을 이해하는것일 것이다. 어후.. 이거 어렵다. 필자도 아직까지 익숙하지않다.
앞으로의 포스팅의 주 목적은 이전에 공부했던 내용을 전부 집약하여 PLM을 잘 활용할 수 있는 수준까지 도달하고자 함에 있다. (사실 그와 동시에 맨땅에 헤딩하는 내 노력을 남기고자 한다. 마치 원시부족민이 그날 있었던 일을 벽화로 남기듯..ㅋㅎ)

한국어 자연어처리의 자료부족

조금만 해당 분야를 들여다봤음 알겠지만 한국어의 NLP는 영어보다 자료가 현저히 적다. 왜 그럴까..?
이를 이해하려면 영어와는 다른 특징을 가지는 한국어만의 특징을 잘 이해해야한다.

  • 한국어는 교착어이다.
  • 한국어는 띄어쓰기가 그렇게 잘 되지 않는다.
  • 한국어는 어순이 중요하지 않다.
  • 한국어는 주어가 생략되도 의미가 유지된다.
  • 한국어는 단 하나의 음절도 전혀 다른 의미를 가질 수 있다.
  • 한국어에 특화된 데이터가 영어에 비해 부족하다.. ( 현실적인 이유군요,.. )

위와 같은 다양한 이유로 한국어는 영어보다 자연어처리가 어렵다. 어렵다는것은 불가능하다는게 아니다!
필자도 그렇고 이 포스팅을 찾는 독자분들도 모두 알고있겠지만 과정이 빡세도 할 수 있다.
힘내보자!!