참가자 : 김민석, 맹혜련, 민기홍, 이강희, 이제준

공덕 서울창업허브 9층
1. 자연어처리 전처리과정 기초 세미나 (이강희 발표)
https://wikidocs.net/21698 페이지에서 자연어처리 응용 연구에 기초로 사용되는 기법들에 대해 종합적으로 살펴보았습니다. Pandas, numpy, Matplotlib 등 자주 사용되는 라이브러리에 대해 간단한 기능을 살펴보았습니다. 머신러닝의 기본적인 워크플로우에 대해 이해한 후 Tokenization을 하는 이유 및 기법들과 Konlpy란? 부터 Konlpy에 있는 다양한 형태소 분석기에 대해 설명을 진행하였습니다.
토큰화 이후 자연어 데이터를 학습시키기 위해 수치화하는 과정들에 대해 살펴보았습니다. 첫번째로 One-hot-encoding과 TF-IDF에 대해 간략히 학습하고 기존 One-hot-encoding의 문제점에 대해 설명한 후 Word2Vec를 간단하게 살펴보았습니다.
종합적인 자연어처리 컨셉을 학습하였으니 어떻게 구현하여 응원할 수 있는지 나이브베이즈 분류기를 이용한 영화 평점 분류 코드를 분석하여 전반적인 자연어처리 원리에 대해 이해할 수 있었습니다.
2. 향 후 계획 확립
딥챗 A to Z 팀은 딥러닝 이해자 및 딥러닝 초심자로 2가지 부류로 나눴습니다. 따라서 격주로 진행되는 정기 세미나는 모든 팀원이 참가하고 그 외의 주에는 초심자와 함께 기초 스터디를 진행하기로 하였습니다.
대략적인 향 후 일정으로는
6월
15 - RNN 스터디
22 - word2vec 구현해오기 발표하기
29 - 미정
7월
6 - RNN 문장분류 구현
13 - seq2seq
20 - 어텐션 메커니즘
8월
3 - seq2seq 챗봇 구현 완성
17 - 유지보수 수정 등등
위와 같이 설정하였고 일정을 진행하며 상황에 따라 변동하기로 정하였습니다.