본문 바로가기
  • Home

일본어 연구를 위한「青空文庫(아오조라문고)」데이터베이스의 구축과 활용 -전자 텍스트 처리 프로그램 "AJ-Aozora Tool"을 활용한 데이터베이스 구축 모델 개발-

  • The Japanese Language Association of Korea
  • Abbr : JLAK
  • 2012, (35), pp.35-53
  • Publisher : The Japanese Language Association Of Korea
  • Research Area : Humanities > Japanese Language and Literature

Yu Young, Kim 1

1고려대학교

Accredited

ABSTRACT

「青空文庫」는 웹을 통해, 대량의 일본어 전자 텍스트뿐만 아니라, 개개의 텍스트에 관한 서지정보를 포함한 부가정보를 함께 공개하고 있는 인터넷 전자 텍스트 아카이브즈로, 다양한 시대의 수많은 저자의 텍스트가 대규모로 수록되어 있는 일본어 전자 텍스트의 보고이다. 본고에서는 이와 같은「青空文庫」를 일본어 연구에 보다 폭 넓게 그리고 효과적으로 활용 할 필요가 있다는 판단 하에,「青空文庫」를 일본어학의 연구 자료로서 보다 유용하게 이용할 수 있는 수단으로서, 체계적인 데이터베이스화와 함께 이를 관리 및 검색하는 툴의 개발이라고 하는 구체적인 모델을 제시했다. 그리고 그와 같은 모델에 따라 실제적인「青空文庫」의 데이터베이스를 구축하고, 데이터베이스 및 텍스트 처리 툴을 일반에 공개했다. 본고를 통한 데이터베이스 구축의 대략의 공정은 다음과 같다. 1)「青空文庫」의 전자 텍스트 데이터를 일괄 다운로드:「AJ-Aozora-Tool ver1.02」이용2) 전자 텍스트 변환 및 처리:「AJ-Aozora-Tool ver1.02」이용2-1) 전 XHTML 태그 텍스트 데이터를 플레인 텍스트로 일괄 변환2-2) 전 플레인 텍스트를 일괄 형태소 분석3) 데이터베이스 입력 :「AJ-Aozora-Tool ver1.02」이용3-1) 플레인 텍스트의 데이터베이스화 :「MS-Access」및「MS-SQL」3-2) 형태소 분석 결과의 데이터베이스화 :「MS-Access」및「MS-SQL」4) 데이터베이스 관리 :「MS-Access」파일 혹은「MS-SQL」서버 내 데이터베이스와 웹5) 데이터베이스 검색 :「MS-Access」파일 혹은 웹 검색「青空文庫」テキスト検索:http://www.japanese.or.kr/japaneseutill/Corpus-Aozora/Corpus_TxtDB.aspx

Citation status

* References for papers published after 2023 are currently being built.