신경 기계 번역을 위한 심층 아키텍처: BiDeep RNN

nlp
machinelearning

#1

BiDeep RNN : 신경 기계 번역을 위한 심층 아키텍처

  • 모델 Depth를 증가 시키면 신경 기계 번역 품질이 향상

  • 모델 Depth를 증가시키는 다양한 아키텍처 변형이 제안되었지만 지금까지 철저한 비교 연구가 없었음.

  • 이 연구는 신경 기계 번역에서 Depth를 도입하기 위한 몇가지 기존의 접근법을 설명하고 평가합니다.

    • Deep Transition RNN을 포함한 새로운 아키텍처 변형을 탐구하고,
    • Deep Decoder에서 attention이 어떻게 다양하게 사용되는지를 확인합니다.
    • Deep Transition RNN과 stacked RNN을 결합한 새로운 “BiDeep” RNN 아키텍처를 소개합니다.

  • 평가는 훈련과 추론을 위해 단일 GPU 기계를 사용하여 영어에서 독일어 WMT 뉴스 번역 데이터 세트를 사용했습니다.

  • 제안된 아키텍처 중 몇가지가 기존의 접근 방식을 속도와 번역 품질 측면에서 개선한다는 것을 발견했습니다.

  • Depth 8의 BiDeep RNN을 사용하여 최상의 개선 효과를 얻었습니다.

참조

논문

Deep NMT 깃허브

NLP 깃허브