Journal of Korean Library and Information Science Society 2023 KCI Impact Factor : 1.02
-
pISSN : 2466-2542
- https://journal.kci.go.kr/liss
pISSN : 2466-2542
A Study on Constructing figures in science Linked Open Data
Ji-Young Kim 1, Sun-A Park 1, 이선희 1
1한국과학기술정보연구원
현대 과학은 질병의 해결, 교통통신의 발달, 빈곤의 해결, 일상생활의 편리성 제공 등을 통하여 인류의 발전에 지대한 영향을 미치고 있다. 이러한 과학의 발전은 새로운 발명과 발견을 시도한 뛰어난 과학자들에 의하여 진행되어왔다. 따라서 과학인물 정보는 학생과 일반인들에게 과학에 대한 관심과 흥미를 높일 수 있는 정보이며 과학 연구를 수행하고 있는 연구자들에 게도 중요한 정보가 된다. 본 연구에서 과학인물 정보라 함은 과거 또는 현재의 과학사에 위대한 업적을 남긴 과학자에 관한 정보를 말한다. 현재 인터넷에서 제공되고 있는 다양한 과학 인물 정보가 서로 연계되면 더욱 풍부한 서비스가 가능하다. 웹상에서 이미 구축되어 있는 신뢰할만한 정보와 연결할 수 있는 효율적인 방법이 있다면 데이터를 중복 구축하지 않고도 이용자를 만족시킬 수 있는 서비스 제공이 가능할 것이다.
또한 과학인물 정보는 과학자가 이룬 업적 또는 사건 정보와 연계할 수 있고, 과학자가 기록하거나 발간한 연구결과물인 그림, 사진, 단행본 및 논문, 보고서, 특허 정보와도 깊은 관련이 있다는 측면에서 다양한 분야 간 정보연계 및 확장이 가능하다. 이렇게 다양한 과학 관련 정보가 효과적으로 공유되어 지식화되려면 서비스를 제공할 수 있는 방법이 필요할 뿐만 아니라 분야 간 데이터 표준화를 통한 상호 운용성이 확보되어야 한다.
최근 들어 전 세계적으로 정부가 보유하고 있는 공공부문의 데이터 개방과 활용에 대한 중요성이 부각되면서 링크드 오픈 데이터(Linked Open Data, 이하 LOD)가 각광을 받고 있다. LOD는 웹에 있는 다양한 정보가 서로 연계되어 보다 풍부한 정보를 제공할 수 있을 뿐 아니라 데이터 중복 구축에 대한 손실을 줄여줄 수 있는 효율적인 정보 제공 및 공유 방법이다. 이러한 이유로 공공부문 뿐 아니라 민간부문에서도 LOD 구축사례가 증가하고 있다.
본 연구에서는 국내외 LOD 구축 사례를 분석하고 그 결과를 반영한 과학인물 정보의 온톨로지 설계 방법과 LOD 구축 방법을 제시하고자 한다. 뿐만 아니라 다양한 외부 자원과의 정보 연계 방법과 LOD 정보 활용 촉진 방안을 제시하고자 한다.
지식정보사회에서 기하급수적으로 범람하는 디지털 콘텐츠에 대해 상호운용성을 높이기 위한 효율적인 방법에 관한 연구는 다양하게 진행되어왔다.
인물정보의 검색 서비스에 있어서는 과거와 같이 정해진 항목 내에서 특정 시대, 특정 기관의 인물만을 찾아주는 서비스에는 한계가 있기 때문에 인물에 대한 다양한 정보의 지능적인 검색을 위한 연구가 진행되어 왔다. 특히 최근에는 시맨틱 웹에 대한 연구가 활발해지면서 온톨로지 기반의 인물 정보 검색 방법이 연구되었다.
최근 정보의 공개 및 공유가 중요한 이슈가 되면서 데이터를 의미있게 연결하고 공개하여 데이터의 활용성을 높이는 링크드 데이터 연구가 활발해지고 있다. LOD는 팀 버너스 리 (Tim Berners-Lee)의 월드 와이드 웹 컨소시엄(W3C)을 중심으로 발전하고 있는 링크 기능이 강조된 시맨틱 웹 모형이다. 우리나라에서도 공공부문을 중심으로 LOD 구축 사례가 생겨나고 있다. LOD의 장점은 자유로운 접근 및 이용이 가능하다는 점이다. 따라서 데이터를 직접 생산하지 않더라도 LOD로 연결되어 있는 데이터를 지식베이스처럼 사용할 수 있다. 또한 시맨틱 웹 표준인 RDF(Resource Description Framework) 형태로 데이터를 발행하므로 상호운용성을 높일 수 있으며 불필요한 데이터 중복 문제를 해결할 수 있다.
LOD는 URI(Uniform Resource Identifier)를 통해 웹 데이터를 공개, 연결, 공유하는 방법이다. URI 중에서도 사람 뿐 아니라 기계가 역참조할 수 있는(dereferenceable) HTTP 프로토콜을 통해 접근할 수 있는 URI를 제안하고 있다. 즉, 웹을 통해 사람과 기계가 읽고 처리할 수 있는 형태로 데이터에 대한 정보를 기술하는 것이다. 이미 거대한 정보생태계를 갖추고 웹에 공통된 데이터 이해와 교환방식을 준수하는 개방형 데이터를 구축하는 것으로 다양한 창조적 아이디어 구현과 데이터를 기반으로 하는 새로운 서비스 실현이 가능한 가장 적극적 형태의 개방형 데이터이다
따라서 본 연구에서는 LOD 형식으로 과학인물 정보를 구축하므로써 정보의 공유와 재사 용을 촉진시키고 다양한 외부 자원과 연계되도록 하였다.
과학인물 LOD 정보를 구축하는데 있어 가장 중요한 과정은 효율적인 온톨로지 설계 부분이라고 볼 수 있다. 여기서 말하는 온톨로지란 사물 또는 개념을 포함하는 개체 및 개체들 간의 관계성을 표현한 모델로 시맨틱 웹을 구현할 수 있는 도구이다. 온톨로지는 자연어의 기계번역, 인공지능 등의 분야에서 활용되어 왔으나 최근 웹자원을 효과적으로 관리하고 정교한 검색이 가능하다는 측면에서 각광을 받고 있다. 온톨로지 구성은 클래스(class), 인스턴스(instance), 관계 (relation), 속성(property)으로 이루어진다. 클래스는 일반적으로 사물이나 개념에 붙이는 이름을 말한다. 인스턴스는 사물이나 개념의 구체물이나 사건 등의 실질적인 형태로 나타난 그 자체를 의미한다. 속성은 클래스나 인스턴스의 특정한 성질, 성향 등을 나타내기 위하여 클래스나 인스턴스를 특정한 값과 연결시킨 것이다. 관계는 클래스, 인스턴스 간에 존재하는 관계를 말한다.
온톨로지에서 주로 사용하는 언어는 RDF, OWL, SWRL 등이 있다. RDF는 XML에서 발전된 형태로 주어(subject), 술어(predicate), 목적어(object)로 이루어진다. 일반적으로 복잡한 제약조건이 필요 없는 경우에 RDF를 많이 사용한다. OWL은 관계들 간의 계층(hierarchy), 관계 인스턴스 내에서의 논리적 제약조건 등을 포함한 언어로 정밀하고 논리적인 추론을 필요로 하는 경우에 사용한다. SWRL은 추론을 위한 규칙을 정의하기 위해 사용한다.
본 연구에서는 LOD 구축 시 많이 사용되는 RDF 언어를 사용하였다.
본 연구에서는 과학인물 정보의 공유 및 활용을 통해 보다 풍부한 서비스를 제공하고자 과학인물 LOD를 구축하고자 한다. 이를 위하여 국내외 인물정보 관련 LOD 구축사례를 분석하고 이를 통하여 효율적인 과학인물 온톨로지 설계 방법 및 LOD 구축 방법을 제시하고자 한다. 특히 각 사례에서 사용중인 온톨로지에 대해 클래스와 속성의 항목과 명칭을 중심으로 분석하였다. 또한 각 사례의 장단점을 반영한 과학인물 온톨로지 설계 방법을 제안하고 LOD 구축에 있어 정보의 활용도를 높이기 위해 고려해야 할 사항에 대해 제시하며 향후 더 많은 외부자원과의 공유와 연계가 가능할 수 있는 방향을 제안하고자 한다. 이를 통해 콘텐츠의 고부가가치를 높이고 이용자에게 보다 유익하고 풍부한 과학인물 정보를 서비스 하는 방안을 제시하고자 한다.
과학인물 정보는 일반인 뿐 아니라 과학연구를 수행하는 연구자들에게도 관심의 대상이 되며 교육적 측면에서도 매우 중요한 정보이다. 과학인물 정보의 범위에는 현재 생존하지 않는 과학사에 위대한 업적을 남긴 과학위인이거나 더 나아가 현재 생존하는 연구자 누구라도 포함될 수 있다.
본 연구에서는 LOD 구축을 위한 과학인물 정보로서 한국과학기술정보연구원(KISTI)에서 서비스 중인 ‘KISTI의 과학향기’ 콘텐츠를 연구대상으로 선정하였다. ‘KISTI의 과학향기’ 콘텐츠는 과학기술 대중화를 위해 2003년부터 서비스 해 오고 있으며 누구나 쉽게 접할 수 있는 스토리텔링 형식의 칼럼이다. 인물기사, 실험기사, 만화기사 등 다양한 방식으로 서비스를 제공하고 있는데 이 중 인물기사 65건을 재조직화하여 과학인물 및 사건 LOD를 구축하였다.
과학인물 정보는 과학자가 이룬 업적 또는 사건 정보와 연계할 수 있고, 과학자가 기록하거나 발간한 연구결과물인 그림, 사진, 단행본 및 논문, 보고서, 특허 정보와도 관련이 있다는 측면에서 다양한 정보로의 확장 및 연계가 가능하다.
본 연구에서는 우선 연구대상이 되는 과학인물 정보와 관련성이 높은 과학사건 정보로의 연계만을 고려하였으며 추후 다양한 연구결과물 정보와의 연계에 대한 연구도 진행되어야 할것이다.
다양한 국내외 LOD 구축 사례 중 본 연구의 대상이 되는 인물정보 및 사건정보와 관련된 사례만을 선별하여 분석하였다. 또한 인물정보에서 다룰 수 있는 다양한 속성을 7가지 유형인 식별코드, 성별, 이름, 출생/사망, 교육/업적, 관련정보, 관계로 나누어 각 사례에서 정의한 속성을 분석하였다.
최근 국내에서 수행된 다양한 LOD 구축 사례는 공공부문에서는 경기도에서 구축한 경기도 문화재 LOD, 서울시에서 구축한 서울시 행정 데이터 LOD, 국립수목원과 국립중앙과학관에서 구축한 생물정보 데이터 LOD, 국사편찬위원회에서 구축한 한국사 LOD, 한국교육학술정보원에서 구축한 학술정보 LOD, 국립중앙도서관에서 구축한 서지데이터 LOD, 한국한의학연구원에서 구축한 한의학 정보 LOD, 제주도에서 구축한 제주도 인문지리정보 LOD, 국토지리정보원에서 구축한 인문지리정보 LOD, 한국과학기술정보연구원에서 구축한 과학기술정보 LOD가 있다.
민간부문에서는 서울대학교 링크드 데이터 연구센터에서 구축한 성경 LOD, OKFN Korea 에서 구축한 데이터허브 LOD, 주식회사 리스트에서 구축한 주소데이터 LOD가 있다.
이 중 본 연구의 관심 대상인 인물정보에 해당하는 한국사 LOD와 성경 LOD를 중점적으로 분석하였다.
국사편찬위원회는 한국사 LOD를 통해 한국사와 관련하여 각 유관 기관에서 보유하고 있는 데이터를 일반인에게 개방하여 누구나 우리 역사를 쉽게 접근하고 재미있게 배울 수 있도록 지원하고, 활용 가능하도록 데이터를 연계하고 개방하고 있다.
한국사 LOD는 한국사와 관련하여 국사편찬위원회의 인물 온톨로지와 시소러스, 문화재청 유물/유적 데이터, 한국학중앙연구원의 민족문화대백과사전, 한국콘텐츠진흥원에서 보유하고 있는 데이터를 연계하여 다양한 서비스나 어플리케이션 개발에 활용 가능하도록 LOD 형태로 제공하고 있는 서비스이다.
주제별 핵심적 원문 사료를 인용한 전문가의 해설과 함께 기존의 기본정보 및 각종 연관 정보를 연계하여 정확성과 신뢰도가 보장된 한국사 통합 DB서비스를 제공하고 있으며 인물 LOD 1,408건, 사건 LOD 107건 등을 직접 활용 할 수 있도록 제공하고 있다.
한국사 LOD 온톨로지는 클래스의 깊이를 3단계로 구체화하여 정의하였으며 최상위 클래스는 인물, 인적정보, 조직, 교육기관, 정부기관, 사건, 활동, 저작, 사상 등 9개로 제시하였다. 이 중본 연구의 관심대상인 인물 클래스의 주요 속성 항목을 본 연구에서 정의한 범주에 따라 아래
그리고 본 연구와 관련 있는 사건 클래스를 살펴보면 육하원칙에 따라 기술되어 있음을 알 수 있었다.
한국사 LOD 온톨로지의 특징은 인물과 관련된 사건, 자료 항목이 다양하게 구성되어 있다는 점과 한국 역사 인물의 특성이 별명, 묘호, 부명, 한자이름 등의 다양한 이름 항목으로 구성되어 있다는 점이다.
한국사 LOD 응용 서비스인 한국사 콘텐츠 서비스는
과학인물 LOD 중 한국의 과학자에 대한 정보가 한국사 LOD와 연계되면 보다 다양한 정보를 제공할 수 있기 때문에 과학인물 LOD 구축 시 인터링킹 될 수 있도록 고려해야 할 것이다.
성경 LOD는 서울대학교 차세대융합기술연구원 링크드 데이터 연구센터에서 구축하였으며 국내 최초로 LOD 클라우드에 등재된 링크드 데이터이다. 성경에 나오는 역사적 인물과 사건, 지명 등에 대해 온톨로지 모델을 설계하고 성경의 내용을 다양하게 분해한 다음 RDF를 식별 하는 URI를 연결시켰다. 기존의 텍스트 기반의 시스템과는 달리 성경에 대한 검색뿐만 아니라 '발견'까지 가능케 한 시스템으로 성경 학습자에게 성경을 새롭고 흥미로운 방법으로 학습할 수 있도록 서비스 하고 있다(
2012년 현재 10,618개의 트리플과 371건 디비피디아(DBpedia) 등 외부 데이터 셋을 연계하고 있으며 미국 Eastern University 신학과 및 도서관에서 활용하고 있다. 낮은 수준의 on-the-fly thesaurus 및 표현력을 올린 도메인 온톨로지를 함께 가지고 있기 때문에, 문헌 정보학 정보검색 교육의 새로운 방향을 제시할 수도 있다
성경 LOD 온톨로지는 위의
영국의 BBC는 공영방송 분야 중 링크드 데이터를 가장 활발하게 활용하고 있다. BBC는 다양한 국가와 지역의 라디오 방송, TV 방송을 운영하고 있는데 각 지사와 방송 채널을 개별 적인 사이트로 관리하다 보니 데이터 중복과 운영비용 과다 지출이라는 문제점이 생기게 되었다. BBC는 데이터 분야와 서비스 분야를 분리하고 링크드 데이터를 통해 데이터를 생성, 연계, 활용하게 되면서 이러한 문제점이 해결되었다. 링크드 데이터를 이용한 콘텐츠 생성 범위는 음악, 스포츠, 뉴스, 교육 등 적용분야가 점점 확대되고 있다. 링크드 데이터 적용을 통해 크게 2가지 혜택을 얻게 되었는데 그 하나는 데이터 재활용성이 증진되었다는 점이고 또 다른 하나는 사용자의 참여가 가능하게 되었다는 것이다.
BBC 프로그램 온톨로지와 Music 온톨로지 등을 이용하여 외부 데이터를 융복합 할 수 있게 하였으며 디비피디아를 통해 위키피디아의 모든 데이터에 대한 링크드 데이터 어플리케이션도 공급하므로써 콘텐츠의 부가가치를 높이고 있다.
BBC에서 사용하고 있는 온톨로지는 현재 13개의 온톨로지가 사용되고 있으며 이 중 가장 대표적인 Programmes 온톨로지는 Music 온톨로지와 FOAF(Friend of A Friend) 어휘를 기반으로 디자인되었다. 총 38개의 클래스와 47개의 속성으로 구성되어 있으며 프로그램 모델은 아래
프로그램 모델은 BBC에서 사용했던 PIPS(Programme Information Pages) 데이터베이스 스키마를 반영하였으며 Brand, Series, Episode, Version, Broadcast가 어떻게 서로 상호작용을 하는지를 보여준다
Programmes 온톨로지의 하나인 Programme 클래스에 대해 구체적으로 살펴보았다. Programme 클래스의 속성은 actor, anchor, author, category, commentator, credit, director, executive_producer, format, genre, masterbrand, microsite, news_reader, participant, performer, person, place, producer, service, subject, synopsis이고, 하위 클래스는 Brand, Clip, Episode, ProgrammeItem, Series이다.
BBC 온톨로지의 특징은 다양한 온톨로지를 구성하였다는 점이다. 방송콘텐츠의 특성상 다양한 관점에서의 정보구조화가 필요하기 때문이다. 하나의 프로그램에 관련된 인물의 종류도 매우 다양한데 예를 들면 actor, anchor, author, director, executive_producer 등이다.
과학인물 온톨로지 구축에 있어서도 관련 칼럼 및 관련 자료에 대해 BBC 온톨로지와 같이 각각의 온톨로지를 구축하여 연계하는 방안을 고려해야 할 것이다.
디비피디아는 위키피디아의 링크드 데이터 서비스이다. 현재 링크드 데이터 클라우드에서 가장 많이 연계된 데이터 셋이며 다양한 도메인에 대한 정보를 제공하고 있다. 디비피디아는 다양한 도메인을 수용하는 지식베이스라는 점에서 그 중요성이 크다고 할 수 있다. 기존에 구축된 지식베이스는 특정 도메인에 국한되어 있고 해당 도메인만의 용어를 사용하기 때문에 다른 도메인과 융합되기 어려운 문제점이 있었다. 그러나 디비피디아는 참여형 백과사전인 위키 피디아 데이터를 기반으로 구축되었고 보다 정교하게 구조적인 데이터로 활용 가능한 링크드 데이터 기술이 적용되었으므로 데이터 간 연계, 협업에 있어서 매우 중요한 역할을 하고 있다.
디비피디아 온톨로지로 구축된 인스턴스는 현재 4백만 건 이상이다. 이 중 영어로 구축된 디비피디아 지식의 클래스별 인스턴스의 수는
디비피디아의 Person은 Ambassador, Archeologist, Architect, Aristocrat, Artist, Scientist 등 52개의 유형으로 분류되어 있다. 이 중 Scientist 클래스의 속성은 268개의 항목이었다. 아주 방대한 항목으로 구성되어 있어 본 논문에서는 이 중 주요 속성을 식별코드, 이름, 출생/사망, 국적, 관계, 교육/업적의 유형으로 분석하여
디비피디아 온톨로지의 특징은 교육/업적 유형에 해당하는 항목이 다양하게 구성되어 있다는 점이다. 그리고 관계에 대해서도 가족관계, 친구관계, 업적과 관련된 동료관계와 같이 다양한 측면의 항목이 구성되어 있다.
디비피디아의 인물정보는 과거의 위인을 포함하여 현존하는 과학인물 정보가 망라적으로 제공되고 있다. 따라서 과학인물 LOD 항목 중 인물에 대한 기본적인 항목인 출생/사망, 국적 등과 같은 항목은 중복 구축하지 않고 디비피디아 LOD와 연계되도록 하는 것이 효율적일 것이다.
FOAF(Friend of A Friend)는 사람과 그들의 관심, 관계, 활동 등에 대한 메타데이터를 표현하고자 생긴 RDF 어휘이다. FOAF 프로젝트는 2000년부터 시작되었으며 온톹로지는 아래
클래스 가운데 가장 핵심인 Person 클래스에 대해 좀 더 구체적으로 살펴보면 다음과 같다. Person 클래스는 Agent의 하위 클래스이고 knows와 함께 사용된다. 16개의 속성을 가지고 있으며 각 유형별 상태별 속성을 아래
FOAF 온톨로지의 특징은 간략한 최소한의 항목으로 구성되어 있다는 점이다. 그리고 웹상에서 개인 식별이 가능한 정보 항목이 많이 존재한다는 점이다.
또한 FOAF의 knows 항목을 통해 사람과 사람의 관계가 쉽게 정의될 수 있기 때문에 다양한 분야에서 FOAF 온톨로지와 연계하고 있으며 이를 통해 사회 네트워크 분석도 가능하다
FOAF와 다른 온톨로지와의 관계를 아래
이처럼 수많은 어휘에서 FOAF를 참조하고 있으므로 인물의 사회적인 관계에 대한 정보뿐 아니라 이를 통한 네트워크 영역의 다양한 지식으로 확장이 가능할 수 있다. 따라서 과학 인물 LOD가 FOAF LOD와 연계되도록 하여 보다 폭넓은 정보를 제공하고자 한다.
EVENT는 사건에 대한 온톨로지로 2004년에 Queen Mary University of London의 디지털 뮤직 센터에서 개발되어 임의의 시간과 공간 영역에서 특정 행위자에 의해 일어난 사건을 대상으로 하는 온톨로지이다. 이 온톨로지는 단순함과 유용성으로 인해 컨퍼런스, 콘서트, 페스티벌 등을 표현할 때 광범위하게 사용될 수 있음이 검증되었다. Music 온톨로지와 FOAF 어휘를 기반으로 디자인되었다.
Event 모델은 아래의
Event 클래스의 속성은 agent, agent_in, factor, factor_of, hasAgent, hasFactor, hasLiteralFactor, hasProduct, hasSubEvent, isAgentIn, isFactorOf, literal_factor, place, producedIn, produced_in, product, sub_event, time이 있다.
본 논문에서는 과학인물과 관련된 과학사건 정보로의 연계를 위하여 Event 온톨로지의 장소, 생산물, 행위자에 대한 항목을 도입하고자 한다.
본 연구 대상인 인물의 속성을 앞에서 살펴 본 국내 및 해외의 LOD 구축 사례인 한국사, 성경, 디비피디아 및 FOAF의 온톨로지에 의거하여 식별코드, 성별 등 7개의 유형으로 구분하여 비교분석하였다. 사례별 분석결과를 정리한 내용은 아래
본 연구는 아래의
그 다음으로 원시 데이터를 활용하여 구축할 수 있는 인스턴스 변환 규칙을 작성하고 변환 도구를 활용하여 원시 데이터를 변환하여 과학인물 인스턴스를 생성하였다. 이 과정에서 외부 LOD와 연계할 수 있는지 검토하여 인터링킹하였다.
마지막으로 웹상에서 접근 가능하도록 LOD를 발행하고 SPARQL을 통해서 과학인물 LOD를 검색할 수 있는 인터페이스를 개발하였다. 또한 구축한 LOD를 활용한 웹 사이트 구축 및 응용서비스 개발 방안을 제시하였다.
과학인물 정보를 LOD로 구축하기 위해 온톨로지 스키마를 설계하였다. 앞에서 살펴보았던 LOD 구축 사례 분석을 통한 각 온톨로지별 분석결과를 반영하여 다음의 네 가지 측면을 고려하여 온톨로지를 설계하였다.
첫 번째 측면은 효율적인 온톨로지 설계이다. 데이터의 생태와 구조에 따라 효율적인 트리 플이 생성되도록 스키마를 설계하였는데 그 이유는 이 데이터를 사용하려는 다른 도메인에서 추가적인 필터링 없이 사용이 가능하도록 제공하기 위함이다. 예를 들어 장영실의 생몰년이 1390-1450일 경우 하나의 속성을 사용하여 표현하기 보다는 탄생일, 사망일과 같이 2개의 항목으로 구분하여 생성하는 것이 추후 쿼리하는데 있어서도 더욱 효율적이므로 각각의 항목을 구분하여 설계하였다.
두 번째 측면은 인물정보 온톨로지의 클래스 및 속성을 최소 수준의 요소로 구성하는 것이다. 왜냐하면 LOD의 장점을 부각시키기 위해 외부 LOD에서 구축되어 있는 요소의 중복구축을 최소 화하기 위함이다.
본 연구에서 다루는 과학인물의 대부분인 현재 생존하지 않는 과학사에 위대한 업적을 남긴 과학위인인 경우에는 디비피디아 LOD의 다양한 요소로 기술되어 있는 정보를 연계하여 제공할 수 있으며 현재 생존하는 연구자 중 연구업적이 뛰어난 과학인물의 경우에는 FOAF LOD를 연계하여 제공할 수 있기 때문이다.
세 번째 측면은 과학인물과 직접적인 관련이 있는 과학사건 정보와의 연계를 위해 과학사건 온톨로지 설계도 포함하였다. 이 과정에서 Event 온톨로지 어휘를 사용하였다.
네 번째 측면은 초기부터 외부자원과의 인터링킹을 고려하는 것이다. RDF 링크의 유형은 3가지가 있다. 다른 데이터 셋으로 관련된 정보를 연결하는 관련 링크(Relationship Links), 동일한 객체나 추상적인 개념들을 식별하기 위해 다른 데이터 정보원에 존재하는 URI 에일 리어스(aliase)에 연결하는 동질 링크(Identity Links), 데이터를 표현하기 위해 사용되는 용어 정의에 연결하는 어휘 링크(Vocabulary Links) 이다. 본 연구에서는 이러한 링크를 가능한 최대한 사용하고자 하였다.
이러한 네 가지 측면을 고려하여 다음과 같은 온톨로지를 설계하였다. Scientist, Scent, Author, Subject, Event, City의 6개 클래스로 구성하였다. Scientist는 과학인물을, Scent는 과학향기 칼럼을, Author는 과학향기 칼럼의 저자를, Subject는 과학향기 칼럼의 주제분야를, Event는 과학사건을, City는 과학인물 및 과학사건에 관련된 지명을 기술하도록 하였다. 그리고 과학인물 LOD에서 과학향기 칼럼으로 연결될 수 있도록 인물 클래스에는 출연기사 속성을 구성하였고 사건 클래스에는 연관기사 속성을 구성하였다.
아래
그리고 디비피디아 인물정보, 한국사 인물정보와 owl:sameAs 항목을 통해 링크되도록 하였다. 예를들어 아래의
아래의
클래스 간의 관계 중 하나를 예를들어 보면 Scientist-Scent의 관계가 ndsl:appearedIn 과 ndsl:introduce 이렇게 양방향으로 정의되어 있음을 알 수 있다. 이는 추후 트리플을 생성할 때 ‘장영실이 등장하는 과학향기 기사는 기사 899번이다’와 ‘과학향기 기사 899번은 장영실을 소개한다’라는 2가지 트리플을 만들게 되며 이를 통해 정보의 연결 및 검색이 보다 쉽고 간편해지게 된다. 만약 한 인물이 여러 기사(기사 1, 2, 3번)에 등장하는 경우에 ‘장영실이 등장하는 과학향기 기사는 기사 1번이다’와 ‘장영실이 등장하는 과학향기 기사는 기사 2번 이다’, 그리고 ‘장영실이 등장하는 과학향기 기사는 기사 3번이다’와 같은 트리플이 각각 생성되어 있으면 이용자서비스 구현 시 ‘장영실이 등장하는 모든 과학향기 기사는?’ 이라는 명령어를 통해 장영실과 관련된 모든 과학향기 기사 정보를 제공할 수 있다. 단, 이 세 개의 트리플에서 모두 정확하게 장영실 URI를 입력해야만 한다.
과학인물 LOD 구축에 사용된 모델링 도구는 TopBraid Composer를 사용하였고 데이터 정제 및 변환은 OntoTrans2.0를 데이터 저장은 OntoBase2.0을 사용하였다(
과학인물 LOD를 웹에서 검색할 수 있는 프로토타입 형태의 웹사이트를 구축하였다. 웹에서 정보를 활용하고자 하는 이용자의 환경에 상관없이 서비스를 제공하기 위해 HTML5를 적용한 표준화된 인터페이스로 구현해서 사용자에게 최적화된 서비스를 지원하고자 하였다.
과학인물 LOD에서 제공하는 내용 뿐 아니라
하루에 증가하는 인터넷의 정보량이 2000년까지 인터넷에 축척된 정보량과 동일한 2엑사 바이트라고 한다. 이렇게 대규모의 데이터가 수집, 생산, 개방되고 있으나 고립된 형태로 존재하면 자원으로서 활용이 어렵고, 데이터 간의 새로운 가치창출 효과도 미미하다. 필요한 정보에 접근하기 위하여 전개되어 온 메타데이터에 의한 정보 검색은 폭발적으로 증가하는 인터넷의 정보 중에서 이용자의 요구에 부응하여 최적의 정보를 제공하는데 한계를 보이고 있다. 따라서 공공데이터를 제공, 공유 재활용하는 오픈 데이터 방식 중 하나인 LOD를 구축한 다면 데이터 중복 구축에 따른 시간과 비용을 절감할 수 있고 여러 분야의 다양한 정보가 연계되어 이용자를 만족시킬 수 있는 고부가가치 서비스를 제공할 수 있다. 뿐만 아니라 LOD는 정보의 공유 및 재사용이 가능하여 데이터 표준화를 통한 상호 운용성이 극대화되므로 잠재적인 지식의 발견 및 지식의 확장에 기여할 수 있다.
본 연구에서는 다양한 과학정보를 효과적으로 공유하고 지식화된 서비스를 제공할 수 있는 방법 중 하나로 과학인물 LOD를 시범적으로 구축하였다. 최근 국내외에서 구축된 LOD 사례를 분석한 결과를 토대로 효율적인 온톨로지를 설계하였고, LOD로 발행된 데이터들이 서로 연결되어 보다 유용한 데이터 활용환경이 구축되도록 다른 분야와의 연계성을 고려하였다. 인터링킹 자체가 매쉬업 도구이므로 디비피디아, FOAF 및 관련 정보 제공 사이트인 한국사 LOD와의 연계를 통해 폭넓은 정보제공이 가능하도록 하였다.
본 연구는 효율적으로 LOD를 구축하고 활용하는 방법을 제시하여 특정 데이터를 대상으로 LOD를 구축하기 원하거나 외부 LOD 정보를 활용하려는 연구자, 공공기관 또는 도서관 관계자에게 도움이 되고자 하였다. 또한 본 연구를 통해 구축된 LOD를 활용함으로써 과학 연구자 등 소수 전문가 그룹뿐만이 아니라 과학인물과 연관된 정보를 학생 및 일반인에게도 제공하여 교육적 효과를 높일 수 있고 과학기술 대중화에도 기여할 수 있다. 또한 기업 및 개인이 정보 공유 및 활용을 목적으로 구축된 과학 인물 LOD를 활용하여 새로운 서비스나 비즈니스를 창출할 수 있으며 연구개발도 수행할 수 있어 국가 경쟁력 향상에도 기여할 수 있을 것이다.
향후에는 과학사별 과학인물 정보서비스, 과학인물과 관련된 단행본, 논문, 보고서, 특허, 그림 등의 연구결과물과의 다각적인 연계 서비스를 시도할 수 있으며 지리정보 LOD인 GeoNames와의 연계를 통해 국가별, 지역별 과학인물 서비스로의 확대하는 것이 바람직하다.
1.
[journal]
노, 영희.
2012
2.
[journal]
나, 방현, 권, 창희.
2010
3.
[web]
4.
[journal]
박, 지영.
2012
5. [web] http://bibleontology.com/
6. [web] http://ko.wikipedia.org/wiki/%EC%98%A8%ED%86%A8%E B%A1%9C%EC%A7%80
7.
[journal]
윤, 소영.
2013
8.
[journal]
윤, 소영.
2013
9.
[journal]
이, 만재.
2011
10.
[journal]
이, 윤용, 이, 윤용.
2014
11.
[other]
이, 현정, 남, 영준.
12.
[journal]
이, 혜원, 윤, 소영.
2010
13.
[journal]
정, 도헌, 정, 도헌.
2012
14.
[journal]
조, 윤희.
2003
15.
[journal]
조, 윤희.
2004
16. [web] http://contents.koreanhistory.or.kr/
17. [web] http://lod.koreanhistory.or.kr/
18.
[book]
2014
19.
[journal]
한, 용진.
2008
20.
[book]
현, 미환, 현, 미환.
2014
21.
[book]
현, 미환, 현, 미환.
2014
22.
[journal]
홍, 일영.
2012
23. [web] Ontologies. http://www.bbc.co.uk/ontologies
24. [web] Programmes ontology. http://www.bbc.co.uk/ontologies/po
25. [web] The DBpedia Ontology(2014). http://wiki.dbpedia.org/Ontology
26. [web] DBpedia 2014 Data Set Statistics. http://wiki.dbpedia.org/Data sets2014/DatasetStatistics
27. [web] FOAF Vocabulary Specification 0.99.. http://xmlns.com/foaf/spec
28. [book] Gilliland-Swetland, Anne. J.. 2000 『Introduction to Metadata』. Getty Publi Cations
29. [web] An Introduction to FOAF. http://www.xml.com/lpt/a/1361
30. [other] Li, Ding, Li, Ding. “How the Semantic Web is Being Used: An Analysis of FOAF Docu ments.” Proceedings of the 38th International Conference on System Sciences, volume 9, 113c
31. [web] FOAF-Friend of a Friend vocabulary. http://lov.okfn.org/dataset/lov/ details/vocabulary_foaf.html
32. [web] Designing a URL structure for BBC programes. http://smethur.st/posts/176135860
33. [web] The Event Ontology. http://motools.sourceforge.net/ event/event.html
34. [web] Linked Data on the BBC. http://www.slideshare.net/moustaki/linked-data-on-the-bbc-2638734
35. [web] http://bibleontology.com/
36.
[journal]
Cho, Yoon-Hee.
2003
“A Comparative Study on Metadata Formats of Digital Contents.”
37.
[journal]
Cho, Yoon-Hee.
2004
“A Study on Metadata Formats for Integration of Cultural Contents : Focus on case to Library, Museum and Art Museum.”
38.
[journal]
Han, Young-Jin.
2008
“Semantic Search based on Event Ontology.”
39.
[journal]
Hong, Ilyoung.
2012
“A Study on Developing Linked Data Application for Geograhic Information.”
40.
[book]
Hyun, Mi-Hwan, Hyun, Mi-Hwan.
2014
41.
[book]
Hyun, Mi-Hwan, Hyun, Mi-Hwan.
2014
42.
[journal]
Jeong, Do-Heon, Jeong, Do-Heon.
2012
“Ontology and Text Mining-based Advanced Historical People Finding Service.”
43. [web] http://contents.koreanhistory.or.kr/
44. [web] http://lod.koreanhistory.or.kr/
45.
[journal]
Lee, Hyewon, Yoon, So-Young.
2011
“A Study on the Model of History Ontology: A Focus on Korean Modern Historical Person.”
46.
[journal]
Lee, Manjai.
2011
“Big Data and the Utilization of Public Data.”
47.
[journal]
Lee, Youn-Yong, Lee, Youn-Yong.
2014
“A Study on Development of the Metadata Schema for Traditional Architecture Based on FRBR.”
48. [web] OntoBase 2.0. http://li-st.com/products/ontobase.jsp
49.
[journal]
Nah, Bang-Hyun, Kwon, Chang-Hee.
2010
“A Design of Ontology-driven Historical Information Services.”
50. [book] 2014 The Casebook of Linked Open Data Implementation in Korea, 2014. National Information Society Agency
51.
[journal]
Noh, Young-Hee.
2012
“A Study on Configuring Collection as the Linked Data.”
52.
[journal]
Park, Ziyoung.
2012
“Extending Bibliographic Information Using Linked Data.”
53. [other] Yi, Hyun-Jung, Nam, Young-Joon. “A Study on Designing Guidelines for Linked Open Data Organization of National Databases.” Proceedings of the 19th Conference of Korean Society for Information Management 63 - 68
54.
[journal]
Yoon, So-Young.
2013
“A Study on the Implementation of Korean History Contents Service based on Linked Open Data.”
55.
[journal]
Yoon, So-Young.
2013
“A Study on National Linking System Implementation Based on Linked Data for Public Data.”
56. [web] http://ko.wikipedia.org/wiki/%EC%98%A8%ED%86%A8%E B%A1%9C%EC%A7%80