자연어 처리 작업(NLP Task)을 소개 -2- SQuAD

nlp
squad
machinelearning

#1

SQuAD 란?

SQuAD 란 **The Stanford Question Answering Datase **의 약자입니다. 질문 응답 기술을 연구하기 위한 자연어 처리 작업입니다.

최근 NLP 분야에서 주목받는 BERT도 이 작업을 해서 에 2018 년 11 월에서 SOTA (State of The Art)의 지위 (즉 가장 정밀도가 좋다는 의미)에 올랐습니다.

이 작업의 특징은?

이 작업은 질문 응답 중에서도 독해를 특히 중요하게 보는 작업입니다. 단지 텍스트를 읽고 이것 저것 하는 것도 있지만 질문 응답에서 중요한 것은 "이것은 이러이러하니까 이렇게 "라고 보편적인 문해(문장 이해)하는 것에 목적이 있습니다. 문해는 기계 학습의 서투른 분야 중 하나입니다.

구체적인 데이터는?

데이터는 주로 텍스트질문 그리고 정답 으로 세 종류입니다.

텍스트

텍스트 라고 하지만 이것은 Wikipedia에서 있는 글입니다.

질문

질문은 텍스트에 대한 질문이 해당합니다. 질문에 대한 해답은 텍스트 안에 있어 이를 추론하는 것이 주요 목표입니다.

정답

정답 몇가지 패턴을 생각할 수 있지만, 취지를 문장 안에 있는 것이 아닌 밖에 있는 것으로 분리해야 답해야 한다는 것입니다. 또한 SQuAD ver2.0에서 추가된 작업으로 답변 할 수 없는 질문에는 답변할 수 없음을 보여 주어야 합니다.

예를 들어 여러분에게 친숙한 예로 초등학교 시절에 나온 다음과 같은 언어의 문제를들 수 있습니다.

영희는 키 125 센티미터에 체중 22 킬로 소녀입니다.
최근에는 슬라임이라는 놀이를 좋아합니다. 
좋아하는 사람은 옆 자리의 미미입니다.
좋아하는 음식은 피자입니다.
최근 놀이 공원에 다녀왔습니다. 
영희가 좋아하는 놀이는 무엇입니까?
슬라임

SQuAD 예시

실제 SQuAD에 포함된 예시를 살펴 보겠습니다. 텍스트와 질문을 살펴 보도록합시다.

In meteorology,
precipitation is any product of
the condensation of atmospheric water
vapor that falls under gravity.
(기상청에서는 강수량은 중력에 의해 대기 중의 수증기가 응축하여 내린 것입니다.)
What causes precipitation to fall?
(강수의 원인은 무엇입니까?)
gravity
(중력)

어떻게 활용할 수 있을까?

예를 들어 프로그램의 설명서를 저장 해놓고, 고객 센터에 어떻게 연락이 왔을 때 그 해답을 도출 할 수 있습니다.

참고 문헌