본문 바로가기

개발/NLP Trends

(11)
[후기] 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #2 본격적인 이준범님의 프로젝트 소개 가보자궈~~!~!~! 1. 회사 및 프로그램 소개 2. 강연 a. 한국어 오픈액세스 LM 동향 b. Llama-2-Ko/Yi-Ko/Solar-Ko 등 프로젝트 소개 c. 학습 데이터 수집, 전처리 과정, 토크나이저 제작 과정 및 시행착오 d. 오픈모델의 사용성과 라이센스 3. Q&A 그쵸.. 항상 데이터가 중요하죠. 공개되어있는 한국어 데이터의 경우 Ai Hub, 모두의 말뭉치, 위키피디아 등등 많지만 은근 AI Hub가 짱짱하다고 하는데요! 혹시 프로젝트 하시는 분들은 참고하시면 좋겠네요ㅎㅎ 직접 from scratch 식으로 만들었다고 하시는데, 와우... 대단하군요..! 특히 데보션에 이와 관한 내용이 잘 정리가 되어있다고 하니 함 봐야겠어요! 좌표는 아시죠? 밑에..
[후기] 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #1 사실,, 요 행사를 진행한지 좀 되었는데요.. 열심히 필기하면서 재밌게 보다가 놓친부분이 있어서 영상이 재업로드될 때까지 기다렸습니다ㅎ 시작을 해볼게요!! 강연 순서는 다음과 같습니다. 1. 회사 및 프로그램 소개 2. 강연 a. 한국어 오픈액세스 LM 동향 b. Llama-2-Ko/Yi-Ko/Solar-Ko 등 프로젝트 소개 c. 학습 데이터 수집, 전처리 과정, 토크나이저 제작 과정 및 시행착오 d. 오픈모델의 사용성과 라이센스 3. Q&A 강연을 리뷰하기에 앞서 저는 한국어 언어모델 연구과 특정 Domain에 언어모델이 적용될 때 어떻게 하면 높은 성능을 취할 수 있을까? 에 굉장히 관심이 많습니다. 특이하게도 어느 한 Domain을 정해놓기보단 통용되는 성능에 더 관심이 많구요. 궁극적으로는 산업..
Weekly NLP #08 Review : 스팸 이메일 분류기 만들기 ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. 여러분의 이메일 받은 편지함은 얼마나 빨리 쌓이시나요? 저는 이것저것 가입하다 보니깐 하루에도 홍보성 이메일이 수십 개가 오고는 합니다. 저는 앱 아이콘에 숫자가 그려져 있는 것을 견디지 못해서 전부 지우거나 몇 개는 그러다 가끔 읽어보기도 합니다. 중요한 이메일을 놓칠까 봐 조마조마하면서 읽다 보면 시간도 생각보다 많이 낭비되고요. 오늘은 NLP 기술로 여러분의 편지함에서 스팸을 걸러낼 수 있는 감지 모델 (spam detection)을 만들어보려고 합니다. 이미 Gmail 같은 서비스에는 이러한 기술들이 널리 쓰이고 있습니다. 이 글..
Weekly NLP #07 Review : 머신러닝과 NLP는 왜 함께 갈까 ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. 인간은 태어난 순간부터 언어를 접합니다. 아기가 세상에 나온 순간 부모로부터 불리는 이름은 처음에는 그저 여러 소리중 하나로 들리겠지요. 하지만 점점 커가면서 부모가 아기에게 내는 소리는 장난감에서 나는 방울소리나 음악 소리와는 다르게 어떠한 의미가 있다는 것을 서서히 깨우쳐 나갈 것 입니다. 어떠한 형태의 소리는 자기를 부르는 것을 의미하고, 다른 형태는 밥 먹을 시간이 되었다는 것을 알려준다는 걸 아기는 놀라운 속도로 배워갑니다. 언어를 이해한다는 것은 무슨 의미일까요? NLP에서 가장 큰 화두는 언어 이해 (natural langu..
Weekly NLP #06 Review : 박대리, 얘네 문서들 주제별로 분류해오게 ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. 엄청나게 많이 쌓여있는 문서들, 그리고 그 안의 핵심 문장들을 뽑아 써놓는 수백개의 포스트잇 메모. 제가 인턴으로 출근한 첫 직장은 알록달록한 포스트잇들과의 사투였습니다. 프로젝트의 데드라인이 있는 날에는 제 몸에 하나가 붙어있어도 이상하지 않을 정도록 여러 번 포스트잇을 붙였다 떼었다 했어야 했습니다. 저의 주요 업무는 문서 정리 및 분류였기 때문이죠. 나중에는 정말 문서가 나인지, 내가 문서인지 모를 정도로 지칠 때까지 읽고 또 읽어야만 했습니다. 그때의 추억 때문인지 6년 후 제가 쓴 석사 논문의 큰 주제 중 하나는 어떻게 하면 문..