자연어 처리 작업(NLP Task)을 소개 -4- CoLA

nlp
machinelearning
bert

#1

CoLA 란?

CoLAThe Corpus of Linguistic Acceptability 언어적 수용 가능성에 대한 말뭉치을 말합니다. 다시 말해서 문맥이 자연스러운가를 평가하고 모아둔 것입니다.

최근 자연어 처리에서 화제가 된 BERT도 이 NLP 태스크를 이용해서 2018 년 11 월에서 SOTA에 그 결과를 공유했습니다.

CoLA 의 특징은 ?

이 NLP 태스크는 얼마나 문장이 **자연스러운가?**을 평가하는 것으로 기계 학습으로 만들어진 문장이 얼마나 사람이 말한 것처럼 자연스러운 것가를 평가해서 자연어 처리 기계 학습 결과를 향상 시키는 데 그 목적이 있습니다.

CoLA에서 학습 데이터와 레이블은 어떻게 구성되나요?

CoLA의 데이터 셋은 0과 1의 값, 즉 2진수 값으로 레이블을 붙입니다. 좀 더 정확하게는 인용 또는 레이블 부착 방법 등의 정보가 포함되어 있습니다.

  • 0은 자연스러운 문장이 없다고 나타냅니다.
  • 1은 자연스러운 문장이 있다고 나타냅니다.

예를 들어보겠습니다.

1 저는 학생입니다.  앞으로 잘 부탁드리겠습니다.
0 부탁이요. 잘 학생입니다. 
1 미세먼지냐 찬 바람이냐 그것이 문제로다. 
1 눈이 내려요.

실제적으로 CoLA에 포함되는 텍스트를 소개합니다.

gj04 1 The professor talked us into a stupor. (교수는 우리에게 무감각하게 이야기했다. )
gj04 0 The professor talked us. (교수님이 말씀하셨던 우리) 
gj04 1 We yelled ourselves hoarse. (우리는 자신을 쉰 목소리로 외쳤다. 

어떻게 활용할 수 있습니까?

예를 들면 Transformer(Attention is All You Need) 또는 Seq2Seq로부터 출력되는 문장이 자연스러운 문단일지 어떨지를 평가 할 때 사용할 수 있습니다. 그 자연스러운 문장이라면 그대로 학습을 진행하고, 부 자연스러운 문장이라면 수정해서 자연스럽게 될 때까지 문장을 만들도록 할 수 있습니다.

참조자료