지난주 금요일, 서울대학교에서 열리는 AI workshop을 다녀왔습니다.
NLP에 관심이 많아서 참가 신청을 하게 되었고 좋은 기회를 얻어 참석할 수 있게 되었습니다:)
김건희 교수님께서 흥미로운 논문 발표를 해주셔서 이에 대해 정리하고자 합니다.
총 2편의 논문에 대해 설명해 주셨고 곧 논문이 출간될 예정이라고 하셨으니, 자세한 내용은 논문을 참조하시면 될 것 같습니다. 논문에 대한 가벼운 리뷰는 1개만 하도록 하겠습니다.
1. Text summarization of Reddit Posts
기존에 요약 생성 모델과 데이터셋에는 큰 결함이 있습니다.
우선, 데이터셋부터 보면, CNN과 타임즈 등 뉴스 데이터는 굉장 formal한 데이터라는 점인데요.
즉 형식이 정해져 있는 데이터입니다. 이런 데이터의 경우 자연스럽게 bias가 생길 수 있습니다.
글의 핵심이 대부분 첫문장에 주어져있고 오타도 없으며, 글에 일정한 형식이 정해져 있기 때문입니다.
또한 글에 일정한 형식이 주어지다 보니, 원문 안에 golden standard 즉 정답이 존재합니다.
요약 글에 대한 정답이 원문 어딘가에 있다는 뜻이죠.
글의 핵심이 첫문장에 주어진 점과, 요약의 정답이 원문 안에 존재하므로 bias가 생깁니다.
따라서, 진정한 요약을 하기 위해서는 data를 바꿀 필요가 있습니다.
이에, 교수님께서는 causal한 reddit이라는 사이트의 글을 새로운 데이터 셋으로 만들었습니다.
reddit은 우리의 일상을 기록하는 블로그와 같은 미국의 사이트입니다.
reddit의 장점은 글을 쓰기 위해서는 규칙이 존재한다는 것입니다.
1. 핵심을 짧게 제목으로 입력해야 하며
2. TIFU라고 불리는 태그를 작성해야 합니다. 이 태그는 본문을 요약한 내용 입니다.
이런 규칙이 있어 reddit을 크롤링해 데이터를 구성하였고
formal한 글과 비교했을 때, golden standard가 어디에 존재하는지 알아보기 위해 그래프를 그려봤더니
formal한 글은 대부분 앞쪽에 golden standard가 존재해, location bias가 있는 것을 확인했지만
reddit은 균등하게 분포되어 있었다고 합니다.
데이터가 확보가 되었으니, 이제 모델을 정해야겠죠?
교수님께서는 자체 개발한 메모리 network를 사용했다고 합니다.
보통 text RNN이 성능이 제일 좋다고 알려져 있는데, 이를 안 쓴 이유는 다음과 같습니다.
1. 긴 TEXT의 경우, RNN을 쓰면 Vanishing gradiant 문제가 발생
2. sequence가 중요하기 때문.
그래서 웨이브 넷과 멀티 레벨 메모리를 활용해 요약 생성 모델을 만들어냈습니다.
아마존에 모델 평가를 의뢰해 본 결과, 성능이 제일 좋았다고 하네요.
이상 논문 리뷰를 마치도독 하겠습니다.
우리나라의 ai 기술에 대해 다시금 감탄하는 시간을 보낼수 있었고
기술의 형황과 트렌드에 대해 알 수있는 유익한 시간이었습니다.