한국어 형태소 분석기

nlp

#1

한국어 형태소 분석기

  • 한국어 형태소 분석기는 자연어처리 및 응용 분야에서 가장 먼저 실행하는 전치리 도구
  • 대학에 자연어처리 연구실, 자연어처리를 하는 회사들은 많음
  • 형태소 분석기를 유료 판매하기 때문에 대부분 형태소 분석기는 라이브러리 형태로 판매

미국의 형태소 분석기

  • 미국은 Penn TreeBank 코퍼스의 태그셋으로 거의 표준화
  • Eric Brill의 태거,
  • Tree Tagger 등 소스가 공개된 품사 태거를 어렵지 않게 구할 수 있음

일본의 형태소 분석기

  • 일본은 UniDic, IPAdic과 같이 널리 사용되는 태그셋
  • Chasen, MeCab과 같은 공개된 형태소 분석기가 오픈소스로 공개

한국의 형태소 분석기

  • 한국의은 대학 혹은 회사 마다 태그셋이 제 각각이고,
  • 코퍼스 기반으로 형태소 분석기를 작성한 경우 그 코퍼스는 더더욱 구하기 힘듬
  • 1999년에 최초이자 마지막으로 개최된 MATEC 대회를 끝으로 한
  • 2000년대 초는 기계번역 및 감성분석이 자연어처리 연구의 주류
  • 2010년 세종계획 프로젝트가 10년 간의 성과물을 공개
  • 학계에서도 이 세종 코퍼스를 이용하여 형태소 분석기를 실험하여 논문을 발표
  • 세종 코퍼스는 구어체의 경우 약 80만 어절, 문어체의 경우 약 1,000만 어절
  • KAIST에서도 약 100만 어절의 코퍼스를 공개했지만 세종 코퍼스에 비하면 상대적으로 작음

오픈소스 우리말 형태소 분석기


mecab-ko


한날


한나눔


KTS


꼬꼬마


루씬 한글분석기 (아리랑)


고려대 이도길 박사님


  • 세종 코퍼스
  • “한국어 형태소 분석과 품사 부착을 위한 확률 모형”, 박사학위논문, 2006
  • “Probabilistic Modeling of Korean Morphology”, Audio, Speech, and Language Processing, 2009

ETRI 나승훈 박사님


  • ETRI 코퍼스, 세종 코퍼스
  • 제25회 한글 및 한국어 정보처리 학술대회, 2013
    • 래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅
    • Semi-CRF or Linear-Chain CRF? 한국어 형태소 분할 및 품사 태깅을 위한 결합 모델 비교
    • CRF기반 한국어 형태소 분할 및 품사 태깅에서 두 단계 복합형태소 분해 방법

강원대 이창기 교수님


  • 세종 코퍼스
  • “Structural SVM을 이용한 한국어 띄어쓰기 및 품사 태깅 결합 모델”, 정보과학회논문지, 2013

성신여대 심광섭 교수님


  • 코난 코퍼스
  • “품사 태깅 말뭉치에서 추출한 n-gram을 이용한 음절 단위의 한국어 형태소 분석”, 정보과학회논문지, 2013
  • “음절 단위의 한국어 품사 태깅에서 원형 복원”, 정보과학회논문지, 2013

울산대 옥철영 교수님 연구실


  • 세종 코퍼스
  • 신준철, “기분석 부분 어절 사전을 활용한 한국어 형태소 분석기”, 정보과학회논문지, 2012