Journal of Korean Library and Information Science Society 2023 KCI Impact Factor : 1.02
-
pISSN : 2466-2542
- https://journal.kci.go.kr/liss
pISSN : 2466-2542
An Analysis of the Contents of OASIS, the National Web Archive in Korea
1청주대학교
지난 1990년대 중반부터 웹상에서 생산되고 유통되는 정보자원의 규모는 기하급수적으로 커졌다. 그동안 여러 나라에서 급격히 증대하는 웹 정보자원 가운데 가치 있는 자국 관련 인터넷 자료를 다양한 기준과 관점에 의거하여 수집, 보존하고 이용자에게 제공하려는 목적으로 국가 웹 아카이브를 구축하기 시작하였고, 지난 십여 년 사이 그러한 노력의 성과 또한 웹상에서 공개되고 있다. 호주는 일찍이 1996년부터
국가 웹 아카이브 구축의 목적은 UK Web Archive(2014)가 “잠재적인 ‘디지털 블랙 홀’ 이라는 도전에 대응”하고, 가능한 한 많은 웹사이트들을 보존하고 “미래 세대를 위해 핵심적인 UK 웹사이트에 대한 영구적인 온라인 접근을 제공”한다고 한 데서 잘 요약되고 있다. 국가 웹 아카이브를 위해 단명하고, 급격히 소멸하는 웹상의 자료들 가운데 보존할 만한 가치를 가진 자원을 가려내는 것
우리나라는 2004년 국립중앙도서관이 OASIS(Online Archiving & Searching Internet Sources)라는 명칭의 국가 웹 아카이브를 구축하고 “가치 있는 인터넷 자료를 국가적인 차 원에서 수집•축적하여 미래 세대에 연구 자료로 제공”하겠다는 목표를 선언하였다
그동안 OASIS의 현황과 발전에 주목해온 일련의 연구들
이 연구에서는 국가 웹 아카이브 관련 국내외 문헌 및 웹사이트 등을 검토하고, 2013년 12월 26일부터 2014년 11월 10일 사이 수시로 OASIS 홈페이지에 공개된 웹 자원의 현황을 분석하였다. 우선 2009년, 2013년 및 2014년 OASIS 수집 웹 자원 통계를 중심으로 주제별 수량적 성장의 추이를 분석하고, 2014년 11월 시점의 ‘최신 수집자료’ 웹사이트와 ‘주제 브라우징’ 및 ‘테마 브라우징’ 리스트에서 개별 웹사이트와 아카이빙 버전을 검토하였다.
웹 아카이빙 자체에 대한 연구는 일찍부터 많이 이루어졌으나, 실제 국가 웹 아카이브를 구축하고 운영한 경험으로서 호주 National Library of Australia의 Web Archiving & Digital Preservation Branch의 Crook의 연구(2008)가 특히 주목할 만하다. Crook은 출범 10여 년이 지난 PANDORA의 온라인 자료의 수집 범위와 방법의 변화, 새로운 아카이빙 기술의 발전 및 도서관의 적응성 등을 분석하였다. 초기에 아카이빙은 인터넷 상 자료들 중 선별적이며 아주 작은 부분만 수집할 수 있었으나, 오늘날 급격한 기술 발전과 정책 변화로 웹상에서 이용할 수 있는 것과 아카이빙 할 수 있는 것 사이 격차가 줄어들고 있음을 강조하며, PANDORA 운영 기간 동안 자체의 디지털 아카이빙 시스템인 PANDAS가 3차례나 전면적 변화를 겪었음을 보고하였다. 이 연구는 초기에 꼼꼼한 정책적 및 기술적 검토와 준비로 시작 된 국가 웹 아카이브의 모델이라고도 할 수 있는 PANDORA도 실제 운영과 실행의 과정에서 시행착오와 궤도 수정을 경험해야 한다는 것을 증명하였다. 한편 앞에서 언급했던 호주의 PADI 이니셔티브는 주요한 웹 아카이브 관련 연구 및 실행 사례들을 분석하여 자료를 제공 하고 있다. 우리나라 OASIS 같이 비교적 후발 주자인 국가 웹 아카이브들은 이러한 선행 모범사례 및 실패담을 동시에 참조하여 시작할 수 있다는 점에서 오히려 유리한 입장에 선다고도 할 수 있다. 한편 Toyoda와 Kitsuregawa(2012)는 주로 주로 기술적 발전에 주목하며, International Internet Preserving Consortium (IIPC)이 2008년 Internet Archive가 이전에 사용하였던 ARC 파일 포맷에 기반한 Web ARChive(WARC) 파일 포맷을 확정하였고, 그밖에도 데이터 수집, 컬렉션 저장소 및 관리를 위한 다양한 툴 키트를 제공하고 있다는 점등을 강조하고 있다
포르투갈의 Foundation for National Scientific Computing(FCCN)의 Gomes, Miranda 와 Costa의 연구(2011)에 따르면 2011년 현재 세계 26개국에 42개 웹 아카이빙 이니셔티브가 있다. 연구자들은 OECD 34개국 중 21개국(62%)이 적어도 1개의 웹 아카이빙 이니셔티브를 주관하는 것은 선진국들이 웹 아카이빙을 중요시한다는 증거라고 강조하였다. 아울러 호주 National Library of Australia의 Preserving Access to Digital Information(PADI) 이니셔티브
국내에서는 2004년 OASIS 출범을 전후하여 국가적 웹 아카이브의 필요성, 정책적 목표, 전략 개발 등 측면을 분석하고 전망한 연구들이 등장하였다
여기에서는 지난 2013년 12월부터 2014년 11월 사이 수시로 OASIS 홈페이지에 공개된 웹 자원 현황을 검토한 결과를 토대로 하여, OASIS 수집 자료의 수량적 성장, 주제별 분포 추이, 콘텐츠의 지속성과 최신성 등을 분석하였다.
국립중앙도서관은 2004년 처음 OASIS가 40,096건의 웹 자료(웹사이트와 웹문서)를 수집한 이래로 매년 수집 실적을 공개하였다.
여기에서 또한 눈여겨 볼 것은 2013년부터 2014년 사이 수집 건수가 급격히 증감한 총류, 사회과학, 기술과학, 예술 및 역사 분야이다. 이 기간 동안 사회과학은 6,963건 증가하였고, 기술과학은 614건, 예술은 862건, 역사는 727건 각각 증가하였다. 특히 사회과학(63.6%), 기술과학(12.0%) 및 예술(10.1%) 분야는 2014년 수집 웹사이트 전체에서 가장 주제 분포 도가 높은 상위 3개 분야로, 합쳐서 85.7%에 이른다. 2013년 당시 이 세 주제가 전체 85.3%를 구성했던 것보다 약간 더 비중이 늘어났다.
총류는 2013년 1,919건에서 2014년 1,817건으로 102건 감소하여 유일하게 감소한 분야이다. 하지만 단순한 수치 증감만으로 감소 이유와 실제 현황은 알 수 없다. 이 분야에서는 새로운 웹사이트가 전혀 수집되지 않은 것인지, 아니면 새로운 것을 수집하였어도 삭제한 웹사이트 수가 더 많았던 것인지 알기 어렵다. 만약 OASIS에서 상시 혹은 수시로 이전 수집 자료를 모니터 하고 적절하지 않은 웹사이트가 있을 경우 삭제하는 작업을 하고 있다면 신규 수집 건수와 더불어 폐기 혹은 삭제 통계를 제시해야 수치의 증감이 설명될 수 있다.
가장 눈에 띄는 것은 앞 절에서 언급한 대로 2014년 현재 ‘사회과학’ 웹사이트가 전체의 63.6%에 달하며 2013년의 61.7%보다도 증가하였다는 점이다. ‘사회과학’은 지난 2009년 공개된 웹사이트 259건 가운데 78건(30.1%)으로, 30.9%(80건)이었던 ‘기술과학’ 웹사이트와 비슷하게 큰 비중을 차지하였다. 전체 공개 건수가 많지 않았던 2009년에도 비중이 컸지만 2013년과 2014년 시점에서는 ‘사회과학’ 한 분야만이 압도적일 정도로 주제 편중이 더욱 심화되었다. 또한 2009년 5.8%(15건)에서 2014년 10.1%(5,635건)로 증가한 ‘예술’ 분야를 제외하고는, 이 기간 동안 다른 8개 주제 웹사이트 비율은 모두 감소하였다. 특히 ‘기술 과학’은 전체의 12.0%(6,696건)로서, 2009년에 비하여 수집 건수는 크게 증가하였으나 주제 비중은 현저히 줄어들었다.
2014년 ‘총류’(1,817건, 3.3%), ‘종교’(1,898건, 3.4%), ‘역사’(1,831건, 3.3%)의 3개 주제는 가까스로 3%를 넘어섰으나, ‘철학’(349건, 0.6%), ‘언어’(509건, 0.9%), ‘문학’(456 건, 0.8%)의 3개 주제는 1%도 넘지 못하였다. 이처럼 2009년에서 2014년 사이 수집 웹사이트 규모는 엄청나게 증대하였으나, 주제의 불균형은 매우 심화되었다.
물론 이러한 주제의 불균형은 OASIS 수집 정책의 문제가 아니라 국내에서 생산되고 유포 되는 웹사이트들의 주제 분포의 불균형에 원인이 있을 수도 있으나 확인하기 어렵다. 통계청 통계포털에 따르면 2012년 kr 도메인을 가진 국내 웹사이트는 1,097,557개(통계청 사용 단위)에 이른다(통계청 2012). 이 통계는 .com, .org, .net 등 도메인을 가진 국내 웹사이트들은 포함하지 않기 때문에 실제 전체 현황을 나타내지 못한다. 더욱이 웹사이트의 주제별 분포도는 알 수 없다. 따라서 OASIS 수집 웹사이트의 주제 불균형의 직접적 원인을 파악하기 어렵지만, 수집 기준이나 절차 자체에서 불균형이 기인한 것은 아닌지, 얼마나 그런 추세가 지속될 지 계속 관찰하고 원인을 파악하고자 노력할 필요가 있다.
이 기간 동안 ‘사회과학’ 10개 소주제의 분야별 웹사이트 건수와 분포 변화를 살펴보면, ‘사회과학’은 8건(7.2%)에서 426건(1.5%)으로, ‘경제학’은 25건(22.5%)에서 4,759건 (16.8%)으로, ‘정치학’은 8건(7.2%)에서 9,835건(34.7%)으로, ‘법학’은 8건(7.2%)에서 359건(1.3%)으로, ‘풍속, 예절, 민속학’은 21건(18.9%)에서 415건(1.5%)으로 각각 증가 하였다. ‘통계학’은 2011년 당시 1건도 수집되지 않았으나 14건(0%)이 수집되었고, ‘사회학, 사회문제’는 20건(18.0%)에서 4,710건(16.6%)으로, ‘행정학’은 7건(6.3%)에서 2,798건(9.9%)으로, 교육학은 10건(9.0%)에서 4,899건(17.3%)으로, ‘국방, 군사학’은 4건 (3.6%)에서 158건(0.6%)으로 모두 증가하였다. ‘통계학’은 수집 건수가 워낙 미미하여 증가 비율조차 0%로 머물고 있으나, 다른 분야들은 수십 배에서 수백 배 증가하였고, 특히 정치학 분야는 엄청난 규모로 증가하였다.
‘정치학’ 분야 웹사이트는 2011년부터 2013년까지 무려 1229.4배 증가하였고, 전체 ‘사회과학’ 내에서 분포 비율도 7.2%에서 34.7%로 급증하였다. 당시 OASIS 수집 웹사이트 45,986건 중에서 ‘사회과학-정치학’ 주제 웹사이트는 9,835건으로 전체의 21.4%를 차지하는 규모이다. 그밖에 ‘경제학’, ‘사회학, 사회문제’, ‘행정학’, 및 ‘교육학’의 4개 소주제 분야는 각각 10% 내외의 분포 비율을 보였지만, ‘법학’ 등 나머지 5개 소주제는 다 합쳐도 4.9% 밖에 되지 않았다. 전체 웹사이트 가운데 ‘사회과학’의 비중이 압도적인 상황에서, 그 안의 소주 제들 또한 심한 분포 불균형을 보이고 있다.
OASIS는 ‘주제별 브라우징’ 리스트와 더불어 ‘테마별 브라우징’ 리스트도 공개하고 있다. 2014년 11월 11일 현재 ‘테마별 브라우징’은 다음과 같은 8개 테마의 통계를 제시한다(괄호 안은 건수): 국가회의(0), 기관(0), 선거(883), 정부부처(482), 학회 및 연구기관(2607), 기타(21841), 행사(430), 기업(6).
여기 공개된 웹사이트 건수는 모두 26,249건으로 앞 절에서 살펴본 ‘주제별 브라우징’ 리스트의 공개 웹사이트 55,581건의 47.2% 정도이다. 이들 8개 테마 중 ‘국가회의’와 ‘기관’ 테마로 분류된 웹사이트는 0건이며, ‘기타’가 21,841건으로 83.2%에 이르러, 사실상 테마 분류는 무의미하게 보인다. 그럼에도 불구하고 테마 분류의 내용을 검토하고자 가장 규모가 작은 테마 ‘기업’(6건)을 브라우징한 결과는 다음과 같았다:
1. 반여중학교 (URL:
2. 퍼스트 스텝스 (URL:
3. 울산현대산악마라톤대회 (URL:
4. 유비쿼터스응용연구실 (URL:
5. 제주문화포럼 (URL:
6. 신아시아연구소 (URL:
상기한 6개의 웹사이트가 테마 ‘기업’에 속한다고 하기는 어렵다. 만약 레코드 1. ‘반여중학교’가 ‘기업’이라면, 수집 웹사이트 ‘키워드 검색’에서 ‘중학교’를 입력하면 나오는 476개 중학교도 같은 테마로 분류되어야 할 것이다. 초록 등 상세정보를 검토해도 이 특정한 중학교가 ‘기업’으로 분류된 이유는 찾을 수 없다.
다른 테마로 분류된 웹사이트들도 마찬가지다. ‘행사’ 테마로 분류된 430건의 브라우징 결과는 국제울진대게축제 등 축제, 엑스포, 페스티벌, 대회, 포럼을 망라하는 비교적 다양한 웹사이트들을 보여주었다. 동시에 한국문화예술위원회 온라인기부, 한국노화예방연구원, 흑자 경영연구소 등 다소 이해하기 어려운 웹사이트들, 다시 말하면 ‘행사’ 테마에 적합하지 않은 것들이 다수 포함되어 있었다. ‘정부부처’ 테마의 482건 또한 각급 정부 부처와 관련된 도서관, 교육청, 주민센터, 총영사관 등을 포함하지만, 무대예술전문인 자격검정위원회, 대한의사 협회 의학용어위원회, 대한민국 베트남참전 유공전우회 등 모호한 단체들도 포함하고 있다.
이처럼 특정 테마의 웹사이트 분류 기준이 불확실하거나 부정확한 한편 망라성 또한 문제 이다. 예를 들어, ‘수집 웹사이트’ 55,581건의 리스트에서 주민센터는 512건이 검색되는데, 이 ‘정부부처’ 테마 리스트에서는 용두동 동주민센터 등 175건만 나온다. 도서관 또한 ‘수집 웹사이트’ 리스트에서는 1,044건이 검색되는데 여기에서는 양주시립도서관 등 43건만 검색 된다. 이러한 ‘테마별 브라우징’ 리스트의 현황은 기왕에 수집한 자료를 어떻게 조직하여 이용자로 하여금 접근할 수 있게 하는가, 즉 수집 이후 부가가치적 처리에 관련되는데, 수집 웹사이트의 부분적 공개, 부적합한 테마 분류 등 여러 가지 문제점을 내보이고 있다.
OASIS가 가치 있는 웹 자원을 미래 세대를 위하여 수집하고 축적한다면, 그동안 수집한 자원 또한 지속적으로 잘 보존 및 관리해야 한다는 기대가 있다. OASIS는 2014년 11월 현재 홈페이지 ‘주제별 브라우징’ 디렉토리에 웹사이트 55,581건을 공개하고 있어, 이용자가 접근 가능한 웹사이트 규모는 이전보다 상당히 늘어났다.
여기에서는 이전에 수집된 웹사이트의 현재 보존 여부 및 접근 가능성을 보기 위하여 이전 연구(2011)에서 살펴보았던 55건을 검토하였다. 사이트명 키워드 검색 결과, 2014년 3월 시점에 이들 중 30건(54.5%)이 아키이빙 되어 있었고, 다른 25건(45.5%)은 검색이 되지 않았다. 이들을 최초 아카이빙 연도를 기준으로 보면 웹사이트의 장기적 보존 기준 혹은 지속성에 의문을 갖게 된다. 당시 보존되었던 55건 가운데 최초 아카이빙 연도를 알 수 없었던 대한철학회 등 4건은 현재도 모두 아카이빙 되어있다. 그러나 최초 아카이빙 시점이 2004년인 ‘팬코리아 영어교육학회’ 등 7건 중 5건(71.4%), 2005년 아카이빙 된 ‘경북대 김문기교수와 함께 하는 한국고전의 세계’ 등 34건 중 13건(38.2%), 2006년 아카이빙 된 한국생물 정보학회 홈페이지 등 6건 중 3건(50.0%)이 현재 남아있다. 그밖에 2007년과 2010년 처음 아카이빙 된 웹사이트도 각각 2건씩 남아있다.
최초 아카이빙 시점이 2004년이나 2005년이었던 웹사이트들은 2011년 조사 당시 이미 5-6년 정도 보존되고 있었던 것들이다. 이들이 2014년 현재 절반 가까이 아카이빙 대상에서 사라진 이유는 무엇인가? 처음부터 보존 가치가 없는 자료들을 그때까지 5-6년이나 보존 하고 있었던 것인가? 아니면 최초 아카이빙 당시에는 중요하다고 평가했으나 이후 그렇지 않다고 하여 폐기한 것인가? 실제로 2011년과 2014년 사이 OASIS의 웹 자원 선정기준이나 정책이 바뀌었다는 증거는 없다.
OASIS가 채택하고 있는 웹 크롤러 등을 이용한 기계적 수집에서 매번 모든 수집 웹사이트의 품질이 균일하고 우수한 것임을 보장하기 어려울 가능성이 높다. 전문가가 정기적으로 검증하지 않는다면 누적되는 웹 자원들의 진정한 가치를 확보하지 못할 수도 있다. 앞 절에서 수집 웹사이트의 수량적 성장과 관련하여 언급한 것처럼 이전에 수집된 웹사이트들의 품질이 적절하지 않으면 제적하는 것이 맞다. 그리고 그럴 경우 삭제되는 웹사이트에 대한 정보 및 통계를 제공하는 것이 바람직하다.
OASIS 수집 웹 자원의 최신성을 확인하기 위하여 2014년 1월 22일, 4월 12일, 11월 10일 세 차례에 걸쳐 OASIS ‘최신 수집자료’ 웹사이트를 검토하여, 공개된 20건 중 처음 12건으로
‘최신 수집자료’ 웹사이트에서는 몇 가지 문제점이 관찰되었다. 첫째, 아카이빙 최신성의 정의이다.
두 번째 문제점은 이들의 선정 이유이다. 이들이 과연 OASIS가 천명한 목표에 부합하는 “가치 있는 인터넷 자료”이며, “국가적 차원에서 수집•축적하여 미래 세대에 연구 자료로 제공”
세 번째 문제점은 웹사이트 공개와 관리에 관한 것이다. 2014년 4월과 11월 두 번 다 ‘최신 수집자료’ 레코드 1로 디스플레이 된 ‘DC2009-SEOUL’(
상기한 의문점들은 결국 OASIS 웹사이트의 수집 기준과 절차, 관리에 대한 문제로 귀결될 수밖에 없다. OASIS가 도대체 어떤 웹사이트를 언제, 어떤 방법으로 수집하고, 어떻게 유지 관리하는가에 대한 총체적인 점검이 필요하다.
OASIS 수집 웹사이트 통계가 정확하지 않다는 것은 이전 연구
예를 들어 2014년 4월 수집 웹사이트 리스트에서 무작위로 추출한 사이트명 ‘한국통합물류협회’를 검색한 결과, 동일한 URL (
최초의 아카이빙 버전과 캡처 기록상 일자의 불일치 문제도 있다. 예를 들어 ‘유네스코한국 위원회’ 검색 결과는 4건으로 ‘1. 유네스코 한국위원회, 2. 유네스코한국위원회, 3. 유네스코 한국위원회, 4. 유네스코한국위원회 청년사업’을 포함하였다. 단지 띄어쓰기 차이만으로 3건이 별개 웹사이트로 수집 및 보존되었으며, 이들의 상세정보를 보면 각각의 아카이빙 버전 일자와 캡처 일자에 차이가 났다. 레코드 1(아카이빙 버전 1: 2012-01-18)은 ‘3 captures 2011/06/24-2012/06/12)’, 즉 3차례, 레코드 2(아카이빙 버전 1: 2011-12-24)은 ‘9 captures 2011/06/24-2012/09/6)’, 즉 9차례, 레코드 3(아카이빙 버전 1: 2012-06 -21)은 ‘9 captures 2011/06/24-2012/09/6)’, 즉 9차례 캡처된 것으로 나타났다. 레코드 4 ‘유네스코한국위원회 청년사업’(아카이빙 버전 1: 2012-06-12)은 ‘3 captures 2011/ 06/24-2012/06/12’로 2011년 6월 24일부터 2012년 6월 12일 사이 모두 3차례의 캡처가 이루어졌다. 말하자면 각 웹사이트의 최초 실제 캡처는 2011년 6월이나 12월에 이루어졌고, 아카이빙 버전 1은 최초 캡처 버전이 아니라 그 후인 2011년 말부터 2012년 초반 사이 캡처된 나중 것들이다. 이들의 ‘수집 메인 화면’에서는 각각 아카이빙 버전 1에 명시된 시점의 웹사이트를 볼 수 있고, 이후 캡처 시점 웹사이트 스냅샷도 볼 수도 있다. 그렇다면 어째서 예를 들어 레코드 1 (아카이빙 버전 1: 2012-01-18)의 3차례 캡처에서 최초 캡처 날짜인 2011 년 6월 24일이 아니라 거의 반년이나 지난 시점의 2012년 1월 18일 캡처 버전이 ‘아카이빙 버전 1’로 간주되는지 알 수 없다.
이러한 중복이나 불명확한 아카이빙 버전 표시의 사례가 전체 수집 웹사이트들 가운데 얼마나 나타날지 이 연구에서 확인할 수 없었으나 분명 문제가 있는 것은 사실이다. 중복이 있다면, 그 규모가 얼마나 큰지, 그것이 단순 오류인지, 의도적인 숫자 부풀리기인지는 향후 전수조사로서만 답을 얻을 수 있을 것이다.
OASIS는 국립중앙도서관이 지난 2004년부터 운영하고 있는 국가 디지털 자원 아카이브이다. OASIS가 수집한 웹사이트들을 2013년 12월부터 2014년 11월 사이 검토한 결과, 다음과 같이 몇 가지 문제점을 관찰할 수 있었다:
첫째, 지난 10년 사이 OASIS 수집 웹사이트의 수량적 성장은 괄목할 만하지만, 콘텐츠의 품질은 의문시된다. 특히 ‘최신 수집자료’ 및 ‘주제별 브라우징’ 웹사이트 등은 “저작자 혹은 발행자의 권위 및 학술적 가치”와 같은 OASIS의 선정 근거에 따라 국가적 디지털 자산으로서 적합한 콘텐츠 가치를 가진 웹 자원이 수집되었는지 의문을 갖게 한다.
둘째, 2013년 12월 시점의 KDC 10개 ‘주제별 브라우징’ 리스트는 ‘사회과학’이 전체의 63.6%를, 그 안에서 ‘정치학’ 소주제가 34.7%(전체의 21.4%)를 각각 구성할 정도로 수집 웹사이트의 주제 불균형이 심각함을 보여준다. 현재는 주류 이하 소주제 리스트는 제공하지 않으며, 이들의 ‘테마별 브라우징’ 리스트에서는 웹사이트의 절반 정도를 8개 테마로 분류하였으나, 그 중 83.2%가 ‘기타’로 분류되어, 수집 웹사이트의 부분적 공개, 부적합한 테마 분류 등 문제점을 나타냈다.
셋째, 수집 웹사이트의 지속성 여부도 확실하지 않았다. 2011년 공개 웹사이트들 중 사이 트명이 확인 가능한 55건은 2014년 4월 현재 30건(54.5%)만이 남아있다. 수집 웹사이트의 누계는 증가하고 있지만 이전 수집 자료들 중 일부만 남아있고, OASIS 주제별 통계 수치도 증감이 있어, 수집과 제적이 동시에 진행되는 것으로 보인다. 그러나 재심이나 재평가 여부는 알려진 바 없다.
넷째, 수집 웹사이트의 최신성 정의 또한 분명하지 않았다. ‘최신 수집자료’ 웹사이트들의 아카이빙 시점과 공개 시점 사이에 4-5개월 시간차가 있고, 2013년 수집된 웹사이트가 2014년 11월에도 최신 수집 자료로 공개되기도 하였으며, 웹사이트 자체는 2009년도 것이 기도 하는 등 최신성의 범위가 모호하였다.
다섯째, OASIS 수집 웹사이트 통계의 정확성을 확인하기 어렵다. 무작위로 추출한 일부 사례에서 아카이빙 시점이 다른 동일 웹사이트가 복수의 별도 레코드로 간주되었거나, 웹사이트 상세정보에 나타난 ‘수집 메인 화면’의 최초 캡처 날짜와 ‘아카이빙 버전 1’ 날짜가 일치 하지 않는 경우가 확인되었다. 특정 웹사이트가 여러 차례 캡처 되거나 복수의 아카이빙버전으로 보존되었어도 이들을 별개 웹사이트로 처리하는 등 기본적 문제가 지속되고 있다.
이러한 문제점들은 이전 연구들
첫째, 무엇보다 OASIS 출범 당시 천명한 수집기준을 충실하게 적용하기만 해도 질적인 성장을 보장하고, 의심스러운 콘텐츠의 수집을 최소화할 수 있을 것이다. OASIS 출범 당시 여러 연구자들
둘째, 수집 자원의 급속한 양적 성장에 대한 집착보다는 진정한 가치를 가진 양질의 콘텐츠에 초점을 맞춘 완만한 성장을 인정할 수 있어야 한다. OASIS의 운영주체는 매년 사업의 성과와 목표 달성 여부를 수치로 증명해야 하는 부담이 있겠지만, 현재뿐만 아니라 미래의 이용자들이 동의할 만한 질적 가치를 갖지 못하는 콘텐츠는 모아두어도 별 의미가 없다. 그다지 가치가 인정되지 않을 것들을 다량 수집하는데 급급함으로써 오히려 가치 있는 것들이 앞서 언급한 ‘디지털 블랙홀’에 사라질 수도 있다는 우려를 정책에 반영하고, 질적 수집에 더욱 주목해야 할 것이다.
셋째, 수집 자원의 품질을 제고하기 위해서는 수집 방법을 점검할 필요가 있다. 매년 디지털 자원 수집과 서비스 유지관리에 할당된 한정된 예산 안에서 불가피하게 여겨진 기계적 수집이나 최저가 입찰에 의존한 외주 업무 등 절차적 문제를 재고할 필요가 있다.
OASIS가 출범한지 10년이 되었다. 국민의 세금으로 운영되며 국가 지식자원 수집과 보존의 책임을 위탁받은 국립중앙도서관이 이처럼 국가적으로 의미 있는 서비스를 제대로 운영해 왔다는 확신이 있다면, 10주년은 기념하고 자랑할 만한 시점이다. 하지만 무엇인가 하고는 있다는 명분만 근근이 유지해오고 있었다면 철저한 점검과 반성이 필요한 시점이다. 오류와 시행착오가 있었다면 이를 객관적으로 평가하고 문자 그대로 미래를 위하여 개선방안을 모색 해야 할 것이다.
1.
[book]
2011
2.
[book]
2013
3.
[web]
4.
[web]
5.
[journal]
김, 유승.
2008
6.
[journal]
김, 유승.
2007
7.
[journal]
노, 영희, 고, 영선.
2012
8.
[book]
서, 혜란.
2004
9.
[journal]
윤, 정옥.
2010
10.
[journal]
윤, 정옥.
2011
11.
[journal]
이, 소연.
2008
12.
[book]
이, 혜원.
2005
13.
[web]
14.
[book]
Beagrie, Neil..
2003
15.
[report]
Brazier, Caroline..
2013
16.
[web]
17. [web] http://pandora.nla.gov.au/pan/13910/20080930-1156/conferences.alia.org.au/alia2008/pdfs/124.TT.pdf
18.
[web]
19. [other] Gomes, Daniel Miranda Joao, Costa, Miguel.. 2011 “A Survey on Web Archiving Initiatives.” Proceedings of the 15th International Conference on Theory Practice Digital Libraries, Rese Adv. Technol. Digital Libraries 408 - 420
20.
[report]
Meyer, Eric..
2012
21.
[web]
22.
[web]
23. [web] PANDORA archive size and monthly growth. Statistics as at 26 October 2014. 2014b. http://pandora.nla.gov.au/statistics.html
24. [web] Preserving Access to Digital Information (PADI). 2014. Web Archiving. http://pandora.nla.gov.au/pan/10691/20110824-1153/www.nl a.gov.au/padi/topics/92.html
25.
[journal]
Toyoda, M., Kitsuregawa, M..
2012
“The History of Web Archiving.”
26. [web] UK Web Archive statistics. Statistics at 06 November, 2014. http://www.webarchive.org.uk/ukwa/statistics
27.
[web]
28.
[other]
2004
29.
[report]
2011
30.
[report]
2013
31. [web] OASIS. 2009. OASIS Introduction. Overview. http://www.oasis.go.kr/intro/intro_overview.jsp
32. [web] OASIS. 2013. Selection Guidelines. http://www.oasis.go.kr/ intro_new/intro_selguide.jsp
33.
[journal]
Kim, You-seung..
2008
“A Study of Combined Web Archiving Policy : BnF's Three Layers Web Archiving Strategy.”
34.
[journal]
Kim, You-seung..
2007
“A Study of Legal Issues for Web Archiving.”
35.
[journal]
Noh, Younghee, Go, Youngsun..
2012
“A Study on Improving the OASIS Selection Guidelines.”
36. [book] Suh, Hye-Ran.. 2004 Policies of Digital Deposits. National Library of Korea
37.
[journal]
Yoon, Cheong-Ok..
2010
“A Research on the OASIS, a Web Archive in Korea.”
38.
[journal]
Yoon, Cheong-Ok..
2011
“A Research on the OASIS, a Web Archive in Korea, Revisited.”
39.
[journal]
Lee, So-Yeon..
2008
“Trustworthy Repositories Audit Criteria: Self-Assessment of OASIS.”
40.
[book]
Lee, Hyewon..
2004
41. [web] kr domain (Year) (Numbers). Upadate: 2012.12.21. http://kosis.kr/statisticsList/statisticsList_01List.jsp