본문 바로가기

개발

(58)
Weekly NLP #08 Review : 스팸 이메일 분류기 만들기 ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. 여러분의 이메일 받은 편지함은 얼마나 빨리 쌓이시나요? 저는 이것저것 가입하다 보니깐 하루에도 홍보성 이메일이 수십 개가 오고는 합니다. 저는 앱 아이콘에 숫자가 그려져 있는 것을 견디지 못해서 전부 지우거나 몇 개는 그러다 가끔 읽어보기도 합니다. 중요한 이메일을 놓칠까 봐 조마조마하면서 읽다 보면 시간도 생각보다 많이 낭비되고요. 오늘은 NLP 기술로 여러분의 편지함에서 스팸을 걸러낼 수 있는 감지 모델 (spam detection)을 만들어보려고 합니다. 이미 Gmail 같은 서비스에는 이러한 기술들이 널리 쓰이고 있습니다. 이 글..
Weekly NLP #07 Review : 머신러닝과 NLP는 왜 함께 갈까 ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. 인간은 태어난 순간부터 언어를 접합니다. 아기가 세상에 나온 순간 부모로부터 불리는 이름은 처음에는 그저 여러 소리중 하나로 들리겠지요. 하지만 점점 커가면서 부모가 아기에게 내는 소리는 장난감에서 나는 방울소리나 음악 소리와는 다르게 어떠한 의미가 있다는 것을 서서히 깨우쳐 나갈 것 입니다. 어떠한 형태의 소리는 자기를 부르는 것을 의미하고, 다른 형태는 밥 먹을 시간이 되었다는 것을 알려준다는 걸 아기는 놀라운 속도로 배워갑니다. 언어를 이해한다는 것은 무슨 의미일까요? NLP에서 가장 큰 화두는 언어 이해 (natural langu..
Weekly NLP #06 Review : 박대리, 얘네 문서들 주제별로 분류해오게 ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. 엄청나게 많이 쌓여있는 문서들, 그리고 그 안의 핵심 문장들을 뽑아 써놓는 수백개의 포스트잇 메모. 제가 인턴으로 출근한 첫 직장은 알록달록한 포스트잇들과의 사투였습니다. 프로젝트의 데드라인이 있는 날에는 제 몸에 하나가 붙어있어도 이상하지 않을 정도록 여러 번 포스트잇을 붙였다 떼었다 했어야 했습니다. 저의 주요 업무는 문서 정리 및 분류였기 때문이죠. 나중에는 정말 문서가 나인지, 내가 문서인지 모를 정도로 지칠 때까지 읽고 또 읽어야만 했습니다. 그때의 추억 때문인지 6년 후 제가 쓴 석사 논문의 큰 주제 중 하나는 어떻게 하면 문..
Weekly NLP #05 Review : 얘랑 나랑 얼마나 비슷해? ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. 여러분은 어떤 사람과 얼마나 비슷한지 숫자로 표현할 수 있으신가요? "친구 A보다 B가 나와 좀 더 비슷한 거 같아.." 라는 어찌어찌 할 수 있을거 같은데, 아무래도 절대적인 숫자를 생각해내기는 것은 조금 애매한 것 같죠? 하지만 지난 2주 동안 배운 vector는 다릅니다! 명확하게 2개의 vector 간의 거리를 계산하는 방법을 배워봅시다. 그리고 지난 주 배운 Word Embedding을 예시로 왜 거리가 중요한 지 알아보겠습니다. NLP에서 Vector의 역할은? 이전에 소개한 Bag-of-Word (BoW) vector 또는 ..
Weekly NLP #04 Review : <왕> minus <남자> plus <여자> = ? ※ 본 블로그 포스트는 박지호님의 "Weekly NLP" 내용을 채용하여 개인공부를 기록한 포스트입니다. 원작자의 허가를 맡았으며 불법적인 공유가 아님을 미리 알립니다. - + = ?‌‌ - + = ? 다음 두 문제의 답은 무엇일까요? "엥, 단어가 무슨 숫자? 어떻게 더하고 빼니?", "이거 무슨 IQ 테스트에 나오는 문제인가요?" 싶으신 분들이 많으실 겁니다. 하지만 우리의 언어 상식을 이용하면 충분히 답을 유추해낼 수 있지요. 우리는 각 단어 간의 관계를 여태까지 읽어온 수많은 글을 통해 이미 머리 속에 구축해왔으니깐요. 하지만 위클리 NLP의 Week 1을 읽으신 분들은 단어는 숫자로, 아니 Week 3에서 배웠다면 정확히 vector로 표현될 수 있다는 것을 알고 계시겠지요. 다만 우리가 배운 ..