본문 바로가기
  • Home

The facts and problem of corpus build-up

  • The Japanese Language Association of Korea
  • Abbr : JLAK
  • 2003, (7), pp.109-124
  • Publisher : The Japanese Language Association Of Korea
  • Research Area : Humanities > Japanese Language and Literature

유민아 1

1고려대학교

Candidate

ABSTRACT

본고는 한일 병렬 코퍼스의 구축 방법, 문제점에 대하여 소개하는 것이다. 한국어와 일본어의 대역문장을 병렬적으로 대응시킴으로서 만들어진 한일 병렬 코퍼스는 기계 번역이나 언어 교육 등 여러 분야에서 활용 가능한 것으로 기대되고 있다. 따라서 본고에서는 필자가 실제로 작업에 참여하고 있는, ‘21세기 세종계획’ 내의 ‘한일 병렬 말뭉치 개발‘에서 사용한 구축의 실제와 문제점을 소개하고자 한다. 먼저 구축 방법은 다음과 같다. 우선 자료를 선정하고 입수하여 입력시킨다. 이 때 입력은 일정한 코드와 지정된 파일명에 따라 이루어지며, 그 후 마크업이라는 작업이 이루어진다. 마크업은 원문과 대역문에서 동시에 이루어지며, 이것을 기초로 하여 정렬 문서가 만들어진다. 각각의 모든 단계에서는 완벽한 작업을 기하기 위한 작성 문서의 검수 단계가 꼭 필요하다. 그리고 이러한 구축 과정 상 나타난 문제점으로는 1)입력 자료 선정의 문제 2)기술상의 문제 3)기본 테그 셋(tag set)개발의 어려움 4)문장 분할 원칙의 문제 5)인력난의 문제 등이 있다.

Citation status

* References for papers published after 2023 are currently being built.