본문 바로가기

개발/논문

Upstage - Survey on Large Language Models

https://www.aitimes.kr/news/articleView.html?idxno=29669&fbclid=IwAR0BRWXCv9hxdMpm6CJA_8_5B-6fgrzh_TowG0p1BUWjJR3OzFYY1xNkZBE

 

[AI 이슈] 업스테이지 연구진, '초거대 언어모델 연구 동향' 한국어 LLM 서베이 논문 공개 - 인공지

챗GPT, 바드, 재미나이 등 대화형 생성 AI의 근간이 되는 \'대형언어모델(LLM)\'에 대해서 누구나 쉽게 입문 할 수 있도록 쉽고 넓게 중점을 둔 업스테이지 연구진이 \'초거대 언어모델 연구 동향\'

www.aitimes.kr

어느날 위의 기사를 확인하게되어 연말인 지금 현재 LLM의 산업트렌드와 동향파악을 위해 한번 읽어보고 본 리뷰를 남긴다.
본 논문은 2023년 11월에 한국정보과학회 정보과학회지 제 41권 제 11호(통칭 제414호)에 수록된 논문으로 DBPia 사이트에서 확인할 수 있다.

해당 논문은 전체적으로 '초거대 언어모델의 동향'에 대해 자세히 기술한다. 목차는 아래와 같다.

1. 서론
2. 언어모델부터 초거대언어모델까지
3. 한국어 초거대 언어모델의 동향
4. 최신 초거대 언어모델 연구 동향
5. 초거대 언어모델 평가 동향
6. 초거대 언어모델 윤리 원칙 동향
7. 결론
8. 참고문헌

본 포스팅은 논문을 읽고 중요하다고 생각되는 시사점이나 내용을 정리한 포스팅이다. 본격적으로 살펴보도록 하자.

현재 산업에 활용되는 다양한 언어모델에 대한 설명과 시대의 흐름을 반영하는 초거대 언어모델(이하 LLM)의 등장으로 자연어처리 분야에 상당히 큰 변화를 가져오고 있다. 실질적으론 ChatGPT와 같은 LLM을 활용한 서비스의 등장으로 LLM이 화두에 올랐고 기존의 자연어 처리 연구가 하나의 모델로써 해결하고자 하는 테스크 수렴현상(Converge)이 발생한다고 말한다. 이러한 LLM을 기반으로 한 연구들은 굉장히 빠르게 진행되고 있는데 몇가지 주요한 요인들이 많은 영향을 주고 이것들은 현대 자연어처리분야에 핵심적인 추세로 간주된다고 한다. 그것들은 다음과 같다.

  • 데이터 양적확대 : 대규모 코퍼스의 활용은 LLM의 일반화 능력을 향상시키고 다양한 맥락과 주제에 대한 깊은 학습을 가능케 한다.
  • 컴퓨팅 기술의 진보 : Graphics Processing Unit (GPU) 및 Tensor Processing Unit (TPU)와 같은 고성능 병렬 처리 하드웨어는 학습에 있어 굉장히 중요한 자원중 하나이다. 이의 발전은 모델 학습의 병목현상을 크게 완화시키고 더 복잡하고 깊은 신경망 구조를 탐구할 수 있게 만들었다.
  • 알고리즘 및 기술의 발전 : LLM의 성능 향상을 주도하고 Attention 및 Transformer Architecture의 도입은 더 정교한 모델설계를 가능하게 하였다.

본 논문에서는 모든 변화의 중심에는 Scaling Law라는 학문적 통찰이 있다고 하고 모델의 크기와 그 성능은 긍정적인 상관관계를 보인다고 말한다. 이를 통해 연구자들은 모델의 파라미터 수를 증가시키면서 이에 따른 성능 향상을 기술적 진보의 상호작용에서 나온 결과이며 앞으로의 NLP연구의 주요 동력이 될 것이라 암시한다.

한편, LLM은 산업계에도 많은 발전으로 이루고 있는데 이는 광범위한 활용 가능성을 제시한다. 다만, 그 한계점과 위험성도 굉장히 명확하다. 학습 데이터의 편향성을 그대로 반영할 수 있어 편향된 결과나 추천을 할 가능성이 있고 이것은 특수한 경우에 굉장히 큰 문제를 초래할 수 있다. 또한 LLM을 악의적인 목적으로 사용하는 경우, 동작 원리나 설명력 부족, 최신 정보의 반영한계 등 다양한 문제점들이 아직 존재하고 다가오는 연구의 중요한 도전과제라 볼 수 있겠다.

즉, 편향성, 안전성, 설명 가능성, 최신성등의 문제점을 보유하고 있으며 장기적으로 해결해나가야할 것이다.
본 논문의 저자인 업스테이지 일원들은 초거대 언어모델에 관한 전반적인 동향과 중요한 주제들에 대한 체계적인 이해를 제공하고, 이 분야의 연구자 및 관련 전문가들에게 유용한 통찰과 지침을 제시하고자 한다는 의지를 표명하였다.

과거의 전통적인 언어모델 연구에서는 단어집합(Vocabulary)를 생성하고, 단어 집합을 이용하여 자연언어를 컴퓨터가 이해할 수 있는 형태로 변환하였다. 대표적인 방법이 원-핫 인코딩 (one-hot encoding)이다. 이 방식을 활용하면 모든 단어를 집합의 크기를 가지는 벡터로 표현할 수 있고 이를 희소벡터 (sparse vector)라고 한다. 다만, 단어간 의미의 연관성을 고려할 수 없다는 치명적인 한계를 가졌고 이를 해결하기 위해 의미기반 언어보델은 단어의 의미가 반영되도록 단어를 밀집벡터 (dense vector) 공간에 표현하는 데 초점을 맞춰 발전하게 되었다. 가장 대표적인 것이 Word2Vec이다. 비슷한 패러다임으로 GloVe와 FastText와 같은 연구가 이루어졌다. 그럼에도 문맥 정보를 이해하진 못했다. 즉, 같은 문자임에도 사용되는 문맥에 따라 다른 의미로 쓰일경우 그 정보를 인지하지 못한다는 이야기이다. 이를 해결하기 위한 연구로써 우리에게 익숙한 RNN(Recurrent Neural Network)가 등장한다. 다만, RNN에도 장기 의존성 문제(Long-Term Dependency)가 존재했고 이를 극복하기 위한 LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit)가 등장한 것이다. 이 모델들의 공통점은 텍스트에 존재하는 단방향 문맥 정보만 활용한다는 것이다. 양방향 문맥 정보를 활용하기 위해 ELMo가 제시되었다. ELMo는 주어진 텍스트에 존재하는 순방향 문맥 정보와 역방향 문맥 정보를 함께 활용하는 방식을 제안한다. 다만 그 구조가 LSTM을 기반으로 하기에 그 한계점을 그대로 이어받았고 이는 Gradient Vanishing과 BottleNeck 문제로 볼 수 있겠다. 이러한 한계를 부수기 위해 나온것이 Attention Mechanism과 Transformer Architecture이다.

현재 언어모델의 근간이 되는 Attention Mechanism과 Transformer를 바탕으로 파생된것이 BERT(Bidirectional Encoder Representations from Transformers)와 GPT(Generative Pretrained Transformer)이다. BERT는 MLM(Masked Language Modeling)방식으로 학습되었고 전체 입력 텍스트의 약 15%를 마스킹한다. GPT는 이전 텍스트를 기반으로 다음에 나올 토큰이 무엇인지 예측하는 NTP(Next Token Prediction) 방식으로 학습되고 양쪽다 별도의 레이블링 없이 텍스트 데이터만 있으면 학습할 수 있다는 장점을 가진다. 이러한 문맥기반 언어모델들은 대용량의 코퍼스를 바탕으로 사전학습(Pretraining)하고 이후 특정 테스크로 미세조정(Fine-Tuning)하는 이른바 Pretrain-Finetune 패러다임을 중심으로 발전한다.

앞서 미리 언급했던 Scaling Law가 밝혀지면서 점점 더 많은 양의 데이터와 큰 파라미터 수의 모델이 사용되기 시작하였고 초거대 언어모델(Large Language Model)이 등장하기 시작했다. LLM은 기존 언어모델과 다르게, 모델의 가중치 업데이트 없이도 새로운 테스크를 수행할 수 있는 In-Context Learning (Zero-shot Learning과 Few-Shot Learning)능력을 가진다. 모델의 크기가 커져서 작은 크기에서 발현되지 않던 LLM의 능력을 창발 능력(Emergent Ability)라고 한다. LLM의 창발 능력을 이끌어내기 위한 분야가 프롬프트 엔지니어링이다. LLM이 모델 가중치 업데이트 없이 특정 테스크를 더욱 잘 해결하게 하기 위해, 입력으로 주는 프롬프트를 어떻게 잘 설계할 것인지에 대한 연구분야인 것이다. 대표적으로는 Chain-of-Thought (CoT)가 있다. 한편, LLM의 조종성(Steerability)을 높이기 위해 Instruction Tuning과 Reinforcement Learning from Human Feedback(=RLHF)과 같은 학습기법이 등장하기도 하였다. Instruction Tuning은 다양한 테스크를 (지시, 입력, 출력) 형태의 데이터로 구성하여 해당 데이터를 통해 LLM을 미세조정하는 학습기법을 말한다. RLHF는 LLM이 생성할 수 있는 다양한 답변들 중 사용자가 선호할만한 답변을 출력하도록 LLM을 학습하는 기법을 말한다.

GPT, PALM과 같은 대규모 LLM뿐만 아니라, Falcon, Llama, Claude, Qwen과 같은 비교적 작은 크기의 오픈소스 LLM이 전 세계적으로 공개되고 활발히 연구되고 있다. 하지만 이러한 LLM들은 일반적으로 한국어를 비효율적으로 토큰화하고 학습한 한국어 토큰 수가 매우 부족하다는 한계를 가진다. 즉, 한국어 사용자를 위한 한국어 LLM의 필요성이 대두되고 있다. 많은 국내기업이 한국어 LLM을 자체적으로 학습하기 시작했다. 대표적으로 Naver Clova의 HyperClova를 시작으로 Kakao Brain의 KoGPT, KT Enterprise의 믿음, LG AI Research의 Exaone, NCSOFT의 VARCO, SALTLUX의 Luxia 등 다양한 한국어 LLM이 공개되고 있다. 이들은 자체적으로 보유한 한국어 데이터와 공개되어있는 한국어 데이터, 크롤링 데이터를 적극적으로 활용하여 한국어 토큰 비율을 높여 학습하고 있다는 것이다.
또한 오픈소스로 공개되어있기도 한데, 그것이 Polyglot-Ko이다. 

이러한 LLM들을 가지고 우린 다양하게 활용해볼 수 있는데 대표적으로 사전학습(Pretrain), 미세조정(FineTuning), 활용 및 증강(Utilization & Augmentation)이다.

사전학습(Pretrain)은 언어 생성 및 문맥 이해 능력 등을 모델에 학습시킴으써 LLM의 근간을 형성하는 과정이다.
이 단계에서는 대량의 코퍼스와 컴퓨팅 자원을 활용하게 되고 LLM으로 하여금 세상에 대한 기본지식(World Knowledge)을 습득할 수 있게 해준다.

미세조정(Fine Tuning)은 사전학습이 완료된 LLM을 가지고 다양한 하위 테스크를 해결하기 위한 과정이다. 대표적인 전략으로 Instruction Tuning과 Alignment Tuning이 있다. Instruction Tuning은 기존에 본 적 없는 테스크에 대한 일반화 능력(unseen task generalization ability)을 향상시키는 방법론이며, 후자는 LLM의 출력을 인간의 가치와 기준에 부합하도록 조정하는 접근법이다.

또 다른 범주의 미세조정방법으론 자원 효율적(Resource-Efficient)측면에서의 방법론도 존재한다. 가능한 한 좋은 성능을 유지하면서 학습가능한 파라미터의 수를 줄이는 Parameter-Efficient Fine-Tuning(PEFT)라고 한다. 자세한 내용은 해당논문을 참조하셔라.

활용 및 증강(Utilization & Augmentation) 역시 다양한 내용이 수록되어 있으나 너무 방대한 내용이 포함되어있기에 본 포스트에서는 말을 줄이도록 하겠다. DBpia에 무료로 열람할 수 있으니 참고바란다.


필자는 자연어처리(NLP)를 이용한 HCI(Human Computer Interaction)에 굉장히 관심이 많다. 특히나 한국어에 관심이 많은데, ChatGPT와 같은 LLM Application의 수요와 개발은 앞으로도 기하급수적으로 많아질 것이라고 본다. 취업을 앞두고 본격적인 준비를 해야하는 모든 AI Engineer(특히 NLP분야) 지망생들은 앞으로의 동향과 현재 산업에서 가장 많이 수요가 일어나는 기술수준을 파악하고 이를 잘 준비해야 한다고 새각한다. 본 Upstage의 동향논문은 현 시점의 NLP 생태계와 앞으로의 전략수정에 괜찮은 가이드라인이 될 수 있다고 생각한다. 포스팅에 기술된 내용은 극히 일부이기 때문에 만약 본인이 자연어처리에 관심이 있다면 부담없이 읽어봐도 좋을 것이다.