자연어 처리 작업(NLP Task)을 소개 -3- mrpc

nlp
machinelearning
bert
mrpc

#1

MRPC 란 ?

MRPCMicrosoft Research Paraphrase Corpus의 약자입니다. 다시 말해서 문장의 등가를 평가하기 위한 말뭉치입니다.

최근 화제가 된 구글의 BERT도 이런 NLP 태스크로 처리해서 평가한 결과를 2018년 11월 SOTA에 공개했습니다.

MRPC 특징은 무엇입니까?

[QQP] (The Quora Question Pairs)와 비슷할 수 있자만 주로 웹에 뉴스를 사용합니다. 그리고 [STS]( Semantic Textual Similarity) 이 [0,5]로 레이블을 붙였다면 MRPC는 레이블을 0과 1로 붙였습니다.

데이터 셋은 어떻게 구성도나요?

데이터는 문장1문장2가 비슷한 문장인지 아닌지를 나타냅니다.

예를 들면

  • 문장 1
철이는 어제 국제 회의에서 발표를 했습니다.
  • 문장 2
어제 국제 회의에서 스피치를 한 것은 철이입니다. 
  • 레이블
1 (일치함) 

실제의 MRPC에 포함되는 데이터를 소개합니다.

  • 문장 1
The spokeswoman said four soldiers were wounded in the attack, which took place just before noon around %%NUMBER%% km ( %%NUMBER%% miles ) north of the capital Baghdad.
이 대변인은 이번 공격으로 4 명의 병사가 부상했다고 밝혔으며,
정오 이전에 바그다드 주변 %% NUMBER %% km ((%% NUMBER %% 마일)에서 일어났습니다.
  • 문장 2
Two US soldiers were killed in a mortar attack 
near the Iraqi town of Samarra yesterday, 
a US military spokeswoman said.
미국 대변인은 어제 이라크 사마라 주변에서 박격포에 의한 공격으로 2 명의 군인이 사망했다라고 말했습니다. 
  • 레이블
0 (의미적으로 같은 문장이 아니다. )

어떻게 활용할 수 있습니까?

BERT로 번역한 문장과 기존 기계 번역, 사람이 번역한 문장이 얼마나 잘 되었는지 평가할 수 있습니다. 또는 문장 요약이 얼마나 잘 되었는지도 평가할 수 있겠지요.

참조

MRPC, Microsoft Research Paraphrase Corpus