본문 바로가기

개발

(58)
NLP Load : 맨땅에 헤딩하는 NLP 공부일지 (18) Ⅰ.Transfer Learning 트랜스퍼 러닝(transfer learning)이란 특정 테스크를 학습한 모델을 다른 테스크 수행에 재사용하는 기법을 가리킨다. 즉, 사람이 새로운 지식을 배울 때 그 사람이 평생 쌓아왔던 지식을 요긴하게 써먹는 것과 같다고 볼 수 있다. 트랜스퍼 러닝을 적용하면 기존보다 모델의 학습 속도가 빨라지고 새로운 테스크를 더 잘 수행하는 경향이 있다. 이때문에 최근 널리 사용되는 작업이며, BERT, GPT등이 바로 해당 기법을 사용한다. 위의 Task1 은 업스트림(UpStream) 테스크라고 부르고 이와 대비된 개념을 다운스트림(DownStream) 테스크라고 한다. Task1은 다음 단어 맞추기, 빈칸 채우기 등 대규모 말뭉치의 문맥을 이해하는 과제이고, Task2는 ..
Upstage - Survey on Large Language Models https://www.aitimes.kr/news/articleView.html?idxno=29669&fbclid=IwAR0BRWXCv9hxdMpm6CJA_8_5B-6fgrzh_TowG0p1BUWjJR3OzFYY1xNkZBE [AI 이슈] 업스테이지 연구진, '초거대 언어모델 연구 동향' 한국어 LLM 서베이 논문 공개 - 인공지 챗GPT, 바드, 재미나이 등 대화형 생성 AI의 근간이 되는 \'대형언어모델(LLM)\'에 대해서 누구나 쉽게 입문 할 수 있도록 쉽고 넓게 중점을 둔 업스테이지 연구진이 \'초거대 언어모델 연구 동향\' www.aitimes.kr 어느날 위의 기사를 확인하게되어 연말인 지금 현재 LLM의 산업트렌드와 동향파악을 위해 한번 읽어보고 본 리뷰를 남긴다. 본 논문은 2023년 1..
Transformer - Attention is All You Needs 트랜스포머(Transformer) 는 2017년 구글이 발표하여 NIPS에 등재된 논문인 “Attention is all you need” 에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 타이틀처럼 어텐션(Attention)만으로 구현한 모델이다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서 RNN보다 우수한 성능을 보여주었다. 🪧 Road Map —————————————————————————— 1. Overview 2. Positional Encoding 3. Self-Attention (+ Multi-Head Attention) 4. Residual Learning 5. Add + Norm 6. Attention in Enc..
NLP Load : 맨땅에 헤딩하는 NLP 공부일지 (17) Ⅰ. SOTA SOTA는 State of the art의 약자로 현재 최고 수준의 결과를 의미한다. 캐글과 같은 데이터 대회에서 모델 구축을 위해서는 사전학습된 신경망들을 많이 사용하는데, SOTA는 사전학습된 신경망들 중 현재 최고 수준의 신경망이라는 뜻이다. 예를들어, SOTA EfficientDet은 현재 가장 수준이 높은 신경망을 사용한다는 의미이다. Ⅱ. 언어모델에 대한 평가 체계 ⅰ. 언어 모델의 평가 모델을 설계할 때 가장 중요한 것 중 하나는 “모델을 어떻게 평가할 것인가”이다. 이에 맞게 테스트셋을 구축하고 테스트셋에 대한 평가 지표를 체계적으로 설계함으로써 원하는 테스크에 대한 모델의 성능을 적절하게 평가할 수 있다. NLP는 CV와 다르게 비교적 평가방법이 표준화되어 있지 않다. 20..
NLP, LLM, Agent, Trends, etc... 논문 리스트 NLP 엔지니어의 취업을 위해 끊임없는 학습을 위한 논문리뷰를 진행하고자 합니다. 가장 기본이 되는 논문부터 천천히 스스로의 언어로 재정의하며 논문 리뷰를 할 예정이니 추후 올라오는 포스팅에 대한 따끔한 지적과 충고 및 조언은 환영입니다 😊 논문등재 연도에 따라 아래와 같이 리스트를 구성하였으며 포스팅 시기는 공부가 완전히 끝나는대로 올라올 예정입니다. 즉, 정해진 날짜에 올리는 것이 아니기에 자주 올라올수도, 아닐수도 있음을 공지합니다. ※ 임베딩은 파란색, 모델은 빨간색, 알고리즘/기법은 보라색, Survey는 초록색으로 표기하였습니다. 필수내용은 *로 표시하였으니 참고하세요. RNN* : Recurrent neural network based language model (2010) (처음 등장은 1..