<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/resources/xsl/jats-html.xsl"?>
<article article-type="research-article" dtd-version="1.1" xml:lang="ko" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
	<journal-meta>
		<journal-id journal-id-type="publisher-id">jkits</journal-id>
		<journal-title-group>
		<journal-title>한국지식정보기술학회 논문지</journal-title>
		<journal-title xml:lang="en">Journal of Knowledge Information Technology and Systems</journal-title>
		</journal-title-group>
		<issn pub-type="ppub">1975-7700</issn>
		<publisher>
		<publisher-name>한국지식정보기술학회</publisher-name>
		<publisher-name xml:lang="en">Korea Knowledge Information Technology Society</publisher-name>
		</publisher>
	</journal-meta>
	<article-meta>
		<article-id pub-id-type="publisher-id">jkits_2020_15_06_1075</article-id>
		<article-id pub-id-type="doi">10.34163/jkits.2020.15.6.015</article-id>
		<article-categories>
			<subj-group>
				<subject>Research Article</subject>
			</subj-group>
		</article-categories>
		<title-group>
			<article-title>링크의 의미 중요성을 이용하는 문단 기반 집중 웹 크롤러 설계 및 구현</article-title>
			<trans-title-group xml:lang="en">
				<trans-title>A Design and Implementation of Paragraph-based Focused Web Crawler Using Semantic Priority of Link</trans-title>
			</trans-title-group>
		</title-group>
		<contrib-group>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>강</surname>
						<given-names>남오</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Kang</surname>
						<given-names>Nam Oh</given-names>
					</name>
				</name-alternatives>
					<xref ref-type="aff" rid="A1"><sup>1</sup></xref>
			</contrib>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>김</surname>
						<given-names>재호</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Kim</surname>
						<given-names>Jae Ho</given-names>
					</name>
				</name-alternatives>
				<xref ref-type="fn" rid="fn001">*</xref>
				<xref ref-type="aff" rid="A2"><sup>2</sup></xref>
			</contrib>
					</contrib-group>
		<aff-alternatives id="A1">
			<aff><sup>1</sup><italic>계명대학교 인문국제학대학 강사</italic></aff>
			<aff xml:lang="en"><italic>College of Humanities and International Studies, KeiMyung University</italic></aff>
		</aff-alternatives>
		<aff-alternatives id="A2">
			<aff><sup>2</sup><italic>강릉원주대 과학기술대학 컴퓨터공학과 교수</italic></aff>
			<aff xml:lang="en"><italic>Department of Computer Science and Engineering, Gangneung-Wonju National University</italic></aff>
		</aff-alternatives>
		<author-notes>
			<fn id="fn001"><label>*</label><p>Corresponding author is with the Department of Computer Science and Engineering, Gangnenug-Wonju National University, 150 Namwon-ro Heungup-myon, Wonju, 26403, KOREA.</p><p><italic>E-mail address</italic>: <email>kimjaeho@gwnu.ac.kr</email></p></fn>
		</author-notes>
		<pub-date pub-type="ppub">
			<month>12</month>
			<year>2020</year>
		</pub-date>
		<volume>15</volume>
		<issue>6</issue>
		<fpage>1075</fpage>
		<lpage>1083</lpage>
		<history>
			<date date-type="received">
				<day>08</day>
				<month>10</month>
				<year>2020</year>
			</date>
			<date date-type="rev-recd">
				<day>09</day>
				<month>11</month>
				<year>2020</year>
			</date>
			<date date-type="accepted">
				<day>11</day>
				<month>12</month>
				<year>2020</year>
			</date>
		</history>
		<permissions>
			<copyright-statement>&#x00A9; 2020 KKITS All rights reserved</copyright-statement>
			<copyright-year>2020</copyright-year>
		</permissions>
		<abstract>
		<title>요약</title>
		<p>검색 엔진과 전체 웹의 일치성 유지는 정보를 정확하고 효과적으로 검색하는데 아주 중요하다. 하지만 웹의 크기가 빠르게 성장하고 그 내용이 또한 동적으로 변하기 때문에, 검색 엔진이 하드웨어, 네트워크 그리고 컴퓨팅 시간과 같은 제한된 자원을 이용해서 그와 같은 목표를 달성하는 것은 불가능하다. 이런 문제를 해결하기 위해, 제한된 자원하에서도 효율적으로 주제와 관련성이 높은 링크를 발견 및 방문하고 관련성이 없는 문서의 검색을 회피하는 집중 웹 크롤러가 소개되었다. 본 연구에서 우리는 링크의 의미적 중요도를 이용하는 문단 기반 집중 웹 크롤러를 제안한다. 제안된 시스템은 주제와 링크의 앵커 텍스트 및 링크를 포함하는 문단과 같은 링크 데이터 간의 유사도 측정을 이용해서 획득한 웹 페이지로부터 가능성 있는 링크들을 선별한다. 본 연구는 다음의 점이 기존의 연구 방법과 차이가 있다. 우리는 링크 중요도 계산을 위해 WordNetd을 사용하는 새로운 유사도 함수를 제안했다. 그리고 높은 중요도를 가지는 링크를 우선 방문하는 방법을 제시했다. 제안된 시스템의 성능을 증명하기 위해 몇몇 주제와 시작 URL을 이용해서 실험을 수행했다. 실험의 결과는 본 논문에서 제안하는 링크의 의미 중요도를 사용하는 문단 기반 웹 집중 크롤러가 검색에 있어서 단어 빈도수의 향상을 보였다.</p>
		</abstract>
		<trans-abstract xml:lang="en">
		<title>ABSTRACT</title>
		<p>A search engine maintaining whole Web consistency is very important to retrieve information correctly and efficiently. However, as the size of Web is rapidly growing and content is also dynamically changing, it is impossible for the search engine to achieve the goal by using limited resources such as hardware, network and computing time. In order to solve this problem, a focused web crawler has been introduced which can identify and visit the most promising links related to a specific topic and avoid downloading off-topic documents efficiently under limited resources. In this research, we propose a paragraph-based focused web crawler using semantic priority of link. The proposed system selects promising links from a downloaded web page by measuring similarity between a topic and link's data such as anchor text and a paragraph containing the link. In this paper, different from existing methods, we proposed a novel similarity function for calculating a link priority by using WordNet. And we introduced a method to visit high-priority link first. We conducted experiments to prove the performance of the proposed paragraph-based web focused crawler by using some topics. The experimental result showed the paragraph-based web focused crawler using semantic priority of link improves the term frequency of document retrieval.</p>
		</trans-abstract>
		<kwd-group kwd-group-type="author" xml:lang="en">
<title>K E Y W O R D S</title>
			<kwd>Web search engines</kwd>
			<kwd>Focused web crawlers</kwd>
			<kwd>Link priorities</kwd>
			<kwd>Semantic webs</kwd>
			<kwd>Information retrievals</kwd>
			<kwd>WordNet</kwd>
		</kwd-group>
	</article-meta>
</front>
<body>
<sec id="sec001" sec-type="intro">
	<title>1. 서 론</title>
	<p>1990년대 팀 버너스 리가 월드 와이드 웹(World Wide Web)을 제안한 이후 웹은 인터넷의 대표적인 정보 공유 서비스로 자리 잡았다. 현재 전 세계 웹 사이트 수는 18억 개를 넘어섰고[<xref ref-type="bibr" rid="B001">1</xref>], 이런 방대한 웹 공간에서 정보를 효과적으로 검색하기 위해 사람들은 검색 엔진(Search engine)을 이용한다.</p>
	<p>검색 엔진은 사용자의 검색 질의에 빠른 응답을 위해 웹 크롤러(혹은 스파이더, 에이전트, 로봇)을 이용해서 미리 대량의 데이터를 수집하고 엄청난 양의 웹 페이지를 색인화 해두고 있다. 예를 들어서 구글의 경우 검색 색인은 수십억 개의 웹페이지를 포함하고 있으며 그 크기는 100페타바이트를 넘어서고 있다[<xref ref-type="bibr" rid="B002">2</xref>]. 그런데도 검색 엔진이 최신의 웹 상황을 반영하기에는 한계점이 있는데 그 이유는 웹을 통해 공개되는 웹 페이지의 수와 크기는 급 속도로 증가하고 그 내용 또한 매우 동적으로 변하기 때문이다[<xref ref-type="bibr" rid="B003">3</xref>].</p>
	<p>검색 엔진이 최신의 웹 상황을 유지하기 위해서는 웹 크롤러를 이용해서 자주 웹 크롤링을 해주어야 한다. 하지만 검색 엔진에서 사용하는 일반적인 웹 크롤러는 네트워크 대역폭, 시간, 그리고 저 장소 등의 제약으로 인해 웹상의 모든 페이지를 자주 내려받을 수는 없다. 이런 문제를 극복하기 위해 1999년 S. Chakrabati는 집중 웹 크롤러(Focused web crawler)를 제안했다[<xref ref-type="bibr" rid="B004">4</xref>].</p>
	<p>웹 공간 전반을 대상으로 검색된 정보의 색인을 구축하는 일반적인 웹 크롤러와 달리 집중 웹 크롤러는 웹에서 특정 영역의 주제를 검색하거나 사용자가 관심 있어 하는 정보만을 수집 및 관리한다. 따라서 집중 웹 크롤러는 일반 웹 크롤러보다 훨씬 적은 자원을 사용하며 실시간적인 검색 정보를 제공해 준다는 장점으로 인해 정보 추출, 디지털 도서관, 그리고 텍스트 분류 등의 응용에 활용된다[<xref ref-type="bibr" rid="B005">5</xref>].</p>
	<p>집중 웹 크롤러는 획득한 문서를 분석, 주제와 관련성이 없는 링크(URL)는 배제하고, 관련성이 높은 링크는 추출 및 방문함으로써 효과적인 정보 검색 및 성능 향상을 목표로 한다[<xref ref-type="bibr" rid="B006">6</xref>,<xref ref-type="bibr" rid="B007">7</xref>]. 그리고 이 목표의 달성을 위해 웹 문서와 주제의 연관성 측정, 웹 문서로부터의 텍스트 및 링크 추출, 주제와 링크에 연결된 문서의 연관도 예측, 링크들의 방문 알고리즘 등 다양한 연구가 수행되었다.</p>
	<p>본 논문에서는 집중 웹 크롤러의 성능 향상을 위해 웹 페이지를 링크 중심의 문단으로 추출하고, 사용자가 입력한 주제와 링크의 앵커 텍스트 및 문단과의 의미적 유사성을 측정, 방문할 링크의 우선 순위를 결정하는 의미 활용 문단 기반 집중 웹크롤러를 소개한다. 실험을 통해 본 논문에서 제시하는 웹 크롤링 방식이 기존의 웹 크롤링 방식보다 나은 성능을 보였다.</p>
	<p>본 논문의 구성은 다음과 같다. 제2장에서는 웹크롤러 구축을 위해 사용된 기존의 기법들에 관해서 설명한다. 제3장에서는 링크 중심 웹 문서의 문단화, 링크의 중요도 측정 그리고 이를 이용한 의미 활용 문단 기반 집중 웹 크롤러 구축에 대해서 살펴본다. 그리고 제4장에서는 실험을 통해 제안한 시스템의 성능을 알아보고 마지막으로 제5장에서는 결론을 맺는다.</p>
</sec>
<sec id="sec002">
	<title>2. 관련 연구</title>
	<sec id="sec002-1">
		<title>2.1 집중 웹 크롤러</title>
		<p>집중 웹 크롤러는 주어진 주제와 관련된 웹 페이지를 최대한 그리고 효과적으로 수집하는 것을 목표로 한다. 이를 달성하기 위해 집중 웹 크롤러는 이미 수집된 웹 페이지들의 우선순위를 정하고 이들로부터 방문할 링크들을 추출한 후 해당 링크의 웹 페이지를 내려받기 전에 주제와의 관련성을 예측하여서 관련성이 높은 웹 페이지를 수집하고 관련성이 낮은 링크는 배제하도록 설계된다.</p>
		<p>다음의 &#x003C;<xref ref-type="fig" rid="f001">그림 1</xref>&#x003E;은 이전의 연구들[<xref ref-type="bibr" rid="B005">5</xref>-<xref ref-type="bibr" rid="B008">8</xref>]에서 제시된 집중 웹 크롤러의 일반적인 구조를 보여준다.</p>
		<fig id="f001" orientation="portrait" position="float">
			<label>그림 1.</label>
			<caption>
				<title>집중 웹 크롤러 구조</title>
				<p>Figure 1. Structure of Focused Web Crawler</p>
			</caption>
			<graphic xlink:href="../ingestImageView?artiId=ART002663790&amp;imageName=jkits_2020_15_06_1075_f001.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
		</fig>
		<p>집중 웹 크롤러의 동작은 다음과 같다.</p>
		<p>1. 사용자가 질의어 혹은 주제를 입력하면 초기 검색 URL 생성기(일반적으로 검색 엔진 활용)는 검색 URL을 생성하여 URL 큐에 초기 방문 URL(링크)을 입력한다.</p>
		<p>2. 크롤러는 URL 큐로부터 링크를 가져와서 해당 웹 페이지를 다운 받는다.</p>
		<p>3. 다운 받은 웹 페이지로부터 텍스트와 링크를 분리해 낸다.</p>
		<p>4. 사용자가 입력한 질의어 혹은 주제와 텍스트 및 링크 앵커 텍스트 사이의 유사도 측정을 통해 링크의 중요도를 측정한다.</p>
		<p>5. 크롤러는 주제와 관련성이 높게 측정된 링크들을 URL 큐에 입력하고 해당 페이지를 관련 페이지 DB에 저장한다.</p>
		<p>6. 2-5를 반복 수행하며 URL 큐가 비거나 정해진 검색 결과 리스트가 만족되면 수행을 멈춘다.</p>
		<p>기존의 많은 연구가 위에서 서술한 집중 웹 크롤러에서 특정 동작의 개선을 통해 집중 웹 크롤러의 성능 향상을 도모했다.</p>
	</sec>
	<sec id="sec002-2">
		<title>2.2 링크 중요도 측정</title>
		<p>수집된 웹 문서에서 주제와 관련 있는 링크를 선별해내고 관리하는 것은 집중 웹 크롤러의 성능 향상에 중요한 역할을 한다.</p>
		<p>[<xref ref-type="bibr" rid="B009">9</xref>-<xref ref-type="bibr" rid="B012">12</xref>]에서는 검색어와 웹 페이지 전체의 유사도 측정보다 웹 페이지를 콘텐츠 블록으로 나눈 후 블록 단위로 유사도를 측정하는 것이 더욱 좋은 결과를 산출함을 보여주었다. [<xref ref-type="bibr" rid="B005">5</xref>]에서는 이런 결과를 바탕으로 검색 주제와 연관도가 높은 콘텐츠 블록 내의 링크를 추출 및 방문에 활용하는 링크 중요도 측정(Link Priority Evaluation) 방법을 제안했다. 그리고 링크의 앵커 텍스트가 때로는 목적지 웹 페이지를 요약하지 않음으로 인해 발생할 수 있는 링크와 주제와의 유사도 측정 오류를 완화하기 위해, JFE 유사도 측정 방법을 제안했다.</p>
<disp-formula id="d001">
	<label>(1)</label>
<mml:math id="m01-1"><mml:mi>S</mml:mi><mml:mi>i</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mrow><mml:mi>J</mml:mi><mml:mi>F</mml:mi><mml:mi>E</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mrow><mml:mi>u</mml:mi><mml:mo mathvariant="italic">,</mml:mo><mml:mi>v</mml:mi></mml:mrow></mml:mfenced><mml:mo mathvariant="italic">=</mml:mo><mml:msup><mml:mi>&#x3BB;</mml:mi><mml:mo>&#x2217;</mml:mo></mml:msup><mml:mi>S</mml:mi><mml:mi>i</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mrow><mml:mi>a</mml:mi><mml:mi>n</mml:mi><mml:mi>c</mml:mi><mml:mi>h</mml:mi><mml:mi>o</mml:mi><mml:mi>r</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mrow><mml:mi>u</mml:mi><mml:mo mathvariant="italic">,</mml:mo><mml:mi>v</mml:mi></mml:mrow></mml:mfenced><mml:mo>+</mml:mo><mml:mspace linebreak="newline"/><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:mo mathvariant="italic">&#xA0;</mml:mo><mml:msup><mml:mfenced><mml:mrow><mml:mn mathvariant="italic">1</mml:mn><mml:mo mathvariant="italic">-</mml:mo><mml:mi>&#x3BB;</mml:mi></mml:mrow></mml:mfenced><mml:mo mathvariant="italic">&#x2217;</mml:mo></mml:msup><mml:mi>S</mml:mi><mml:mi>i</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mrow><mml:mi>c</mml:mi><mml:mi>o</mml:mi><mml:mi>n</mml:mi><mml:mi>t</mml:mi><mml:mi>e</mml:mi><mml:mi>x</mml:mi><mml:mi>t</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mrow><mml:mi>u</mml:mi><mml:mo mathvariant="italic">,</mml:mo><mml:mi>v</mml:mi></mml:mrow></mml:mfenced></mml:math>
</disp-formula>
		<p>u: 링크</p>
		<p>v: 주제</p>
		<p><italic>Sim<sub>anchor</sub></italic>(<italic>u,v</italic>): 링크의 앵커 텍스트와 주제와의 유사도</p>
		<p><italic>Sim<sub>context</sub></italic>(<italic>u,v</italic>): 링크를 포함한 콘텐츠 블록과 주제와의 유사도</p>
		<p> λ: 중요도 인자 ([<xref ref-type="bibr" rid="B005">5</xref>]에서 기본적으로 0.5 설정)</p>
	</sec>
</sec>
<sec id="sec003" sec-type="methods">
	<title>3. 의미 활용 문단 기반 집중 웹 크롤러</title>
	<p>본 논문에서 제안하는 링크의 의미 중요성을 이용하는 문단 기반 집중 웹 크롤러는 2.1절에서 언급했던 기존의 집중 웹 크롤러에 비해 웹 페이지의 문단 단위 텍스트 추출, 링크의 중요도 측정 및 주제와 문단 관련성 기반 링크 방문 등에서 차이가 있다.</p>
	<p>제안하는 의미 활용 문단 기반 집중 크롤러는 다음과 같은 구조를 가진다.</p>
	<fig id="f002" orientation="portrait" position="float">
		<label>그림 2.</label>
		<caption>
			<title>의미 활용 문단 기반 집중 웹 크롤러 구조</title>
			<p>Figure 2. Structure of Paragraph-based Focused Web Clawer using Semantic Priority of Link</p>
		</caption>
		<graphic xlink:href="../ingestImageView?artiId=ART002663790&amp;imageName=jkits_2020_15_06_1075_f002.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<p>1. 사용자가 질의어 혹은 주제를 입력하면 초기검색 URL 생성기(일반적으로 검색 엔진)는 검색 URL을 생성하여 URL 관리자에 초기 방문 링크(URL)을 입력한다. 초기 방문 URL의 중요도는 최대값을 가진다.</p>
	<p>2. URL 관리자로부터 가장 중요도가 높은 링크를 가져와서 해당하는 웹 문서를 인터넷으로부터 다운로드 한다.</p>
	<p>3. 다운 받은 웹 문서로부터 모든 링크들을 추출한다. 그리고 추출된 링크를 중심으로 웹 페이지의 문단화를 수행한다. 이에 대해서는 3.1절에서 설명한다.</p>
	<p>4. 사용자가 입력한 질의어 혹은 주제와 문단화 된 텍스트 및 링크 앵커 텍스트 사이의 의미적 유사도 측정을 통해 링크의 중요도를 계산한다.이에 대해서는 3.2절에서 설명한다.</p>
	<p>5. 크롤러는 주제와 관련성이 높게 측정된 링크들을 URL 관리자에 입력하고 해당 페이지를 관련 페이지 DB에 저장한다. 이때 URL 관리자는 링크들을 중요도를 바탕으로 새롭게 정렬한다. 이에 대해서는 3.3절에서 설명한다.</p>
	<p>6. 2-5를 반복하여 수행하며 관리하는 링크들이 더 이상 없거나 정해진 검색 결과 리스트가 만족되면 수행을 멈춘다.</p>
	<sec id="sec003-1">
		<title>3.1 링크 중심 문단화</title>
		<p>웹 문서는 텍스트 내용, 링크, 광고 및 네비게이션 정보 등으로 이루어져 있다. 이런 웹 페이지로부터 비 본문 영역을 제거하고 텍스트 및 링크를 추출하기 위한 다양한 방법이 제시되었다.</p>
		<p>[<xref ref-type="bibr" rid="B006">6</xref>]에서는 문서 내의 각각 텍스트 블록들이 본문 영역에 해당하는지 분류하기 위해 의사결정트리를 생성하고 이용했으며 분류를 위한 특징으로 텍스트 블록의 단어 및 링크 밀도와 HTML 태그 분포 및 텍스트 블록 간 거리 등을 포함하는 문맥 정보를 사용했다. 하지만 이는 텍스트와 링크를 각각 추출하며 문단화를 위한 별도의 작업을 거쳐야 한다는 단점이 있다.</p>
		<p>본 연구에서는 획득한 웹 문서를 DOM으로 변환 후 XPath를 이용해서 링크와 링크를 포함한 문단을 추출한다. 이 과정에서 링크들 중 내부 문서 내비게이션을 위한 링크나 앵커 텍스트가 없는 링크들은 제거된다.</p>
	</sec>
	<sec id="sec003-2">
		<title>3.2 링크의 중요도 계산</title>
		<p>3.1에서 추출된 링크들은 각각이 주제와 얼마나 의미적 연관성이 높은지에 대한 유사도를 계산하고 이를 링크의 중요도 값으로 활용한다.</p>
		<p>본 연구에서는 웹 페이지로부터 주제와 연관성 있는 링크를 추출하기 위해 주제와 링크의 앵커 텍스트 및 링크를 포함하는 문단과의 의미적 유사도를 측정한다. 즉 링크의 앵커 텍스트 및 이를 포함하는 문단이 의미적으로 주제와 가까울수록 해당 링크를 중요한 링크로 판단한다. 주제의 유사도를 바탕으로 한 링크의 중요도를 계산하기 위해서는 단어 간의 유사도 측정이 가능해야 하는데 본 연구에서는 이를 측정하기 위해 WordNet[<xref ref-type="bibr" rid="B013">13</xref>]을 활용한다. 본 연구에서 사용한 주제와 링크 사이의 의미적 유사도 측정은 다음과 같다.</p>
<disp-formula id="d002">
	<label>(2)</label>
<mml:math id="m02-1"><mml:mi mathvariant="normal">t</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>&#xC8FC;&#xC81C;</mml:mi><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi mathvariant="normal">l</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi mathvariant="normal">&#xB9C1;</mml:mi><mml:mo>&#xD06C;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi mathvariant="normal">a</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi mathvariant="normal">&#xC575;</mml:mi><mml:mo>&#xCEE4;</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mo>&#xD14D;</mml:mo><mml:mi mathvariant="normal">&#xC2A4;</mml:mi><mml:mo>&#xD2B8;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi mathvariant="normal">p</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>&#xBB38;&#xB2E8;</mml:mi><mml:mspace linebreak="newline"/><mml:mi mathvariant="normal">w</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>&#xB2E8;&#xC5B4;</mml:mi><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>tw</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>&#xC8FC;&#xC81C;&#xC5B4;&#xC758;</mml:mi><mml:mo>&#xA0;</mml:mo><mml:mi>&#xB2E8;&#xC5B4;</mml:mi><mml:mspace linebreak="newline"/><mml:mi>aw</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi mathvariant="normal">&#xC575;</mml:mi><mml:mo>&#xCEE4;</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mo>&#xD14D;</mml:mo><mml:mi mathvariant="normal">&#xC2A4;</mml:mi><mml:mo>&#xD2B8;</mml:mo><mml:mi mathvariant="normal">&#xC758;</mml:mi><mml:mo>&#xA0;</mml:mo><mml:mi>&#xB2E8;&#xC5B4;</mml:mi><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi mathvariant="normal">s</mml:mi><mml:mo>:</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>&#xBB38;&#xC7A5;</mml:mi><mml:mspace linebreak="newline"/><mml:mi>t</mml:mi><mml:mo>=</mml:mo><mml:mfenced open="{" close="}"><mml:mrow><mml:mi>t</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>t</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>t</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mi>n</mml:mi></mml:msub></mml:mrow></mml:mfenced><mml:mspace linebreak="newline"/><mml:msub><mml:mi>a</mml:mi><mml:mi>&#x3B9;</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mfenced open="{" close="}"><mml:mrow><mml:mi>a</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>a</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mi>a</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mi>n</mml:mi></mml:msub></mml:mrow></mml:mfenced><mml:mspace linebreak="newline"/><mml:msub><mml:mi>p</mml:mi><mml:mi>&#x3B9;</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mfenced open="{" close="}"><mml:mrow><mml:msub><mml:mi>s</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:msub><mml:mi>s</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:msub><mml:mi>s</mml:mi><mml:mi>n</mml:mi></mml:msub></mml:mrow></mml:mfenced><mml:mspace linebreak="newline"/><mml:msub><mml:mi>s</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mfenced open="{" close="}"><mml:mrow><mml:msub><mml:mi>w</mml:mi><mml:mrow><mml:mi>i</mml:mi><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:msub><mml:mi>w</mml:mi><mml:mrow><mml:mi>i</mml:mi><mml:mn>2</mml:mn></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>&#x22EF;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:msub><mml:mi>w</mml:mi><mml:mrow><mml:mi>i</mml:mi><mml:mi>n</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced><mml:mo>=</mml:mo><mml:msub><mml:mi>w</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mspace linebreak="newline"/><mml:mi>S</mml:mi><mml:mi>i</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mrow><mml:mi>a</mml:mi><mml:mi>n</mml:mi><mml:mi>c</mml:mi><mml:mi>h</mml:mi><mml:mi>o</mml:mi><mml:mi>r</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mrow><mml:mi>t</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x3B9;</mml:mi></mml:mrow></mml:mfenced><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mstyle displaystyle="true"><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mi>i</mml:mi></mml:munder></mml:mstyle><mml:mstyle displaystyle="true"><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mi>k</mml:mi></mml:munder></mml:mstyle><mml:mi>p</mml:mi><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>h</mml:mi><mml:mi>_</mml:mi><mml:mi>s</mml:mi><mml:mi>i</mml:mi><mml:mi>m</mml:mi><mml:mi>i</mml:mi><mml:mi>l</mml:mi><mml:mi>a</mml:mi><mml:mi>r</mml:mi><mml:mi>i</mml:mi><mml:mi>t</mml:mi><mml:mi>y</mml:mi><mml:mfenced><mml:mrow><mml:mi>t</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:mi>a</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mi>k</mml:mi></mml:msub></mml:mrow></mml:mfenced></mml:mrow><mml:mrow><mml:mo>&#x2223;</mml:mo><mml:mi>t</mml:mi><mml:mo>&#x2223;</mml:mo><mml:mo>+</mml:mo><mml:mo>&#x2223;</mml:mo><mml:mi>a</mml:mi><mml:mo>&#x2223;</mml:mo></mml:mrow></mml:mfrac><mml:mspace linebreak="newline"/><mml:mi>S</mml:mi><mml:mi>i</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mrow><mml:mi>p</mml:mi><mml:mi>a</mml:mi><mml:mi>r</mml:mi><mml:mi>a</mml:mi><mml:mi>g</mml:mi><mml:mi>r</mml:mi><mml:mi>a</mml:mi><mml:mi>p</mml:mi><mml:mi>h</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mrow><mml:mi>t</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x3B9;</mml:mi></mml:mrow></mml:mfenced><mml:mo>=</mml:mo><mml:mfrac><mml:mstyle displaystyle="true"><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mi>i</mml:mi></mml:munder><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mi>j</mml:mi></mml:munder><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mi>k</mml:mi></mml:munder><mml:mi>p</mml:mi><mml:mi>a</mml:mi><mml:mi>t</mml:mi><mml:mi>h</mml:mi><mml:mi>_</mml:mi><mml:mi>s</mml:mi><mml:mi>i</mml:mi><mml:mi>m</mml:mi><mml:mi>i</mml:mi><mml:mi>l</mml:mi><mml:mi>a</mml:mi><mml:mi>r</mml:mi><mml:mi>i</mml:mi><mml:mi>t</mml:mi><mml:mi>y</mml:mi><mml:mfenced><mml:mrow><mml:mi>t</mml:mi><mml:msub><mml:mi>w</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>w</mml:mi><mml:mrow><mml:mi>j</mml:mi><mml:mi>k</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfenced></mml:mstyle><mml:mrow><mml:mo>&#x2223;</mml:mo><mml:mi>t</mml:mi><mml:mo>&#x2223;</mml:mo><mml:mo>+</mml:mo><mml:mo>&#x2223;</mml:mo><mml:mi>p</mml:mi><mml:mo>&#x2223;</mml:mo></mml:mrow></mml:mfrac><mml:mspace linebreak="newline"/></mml:math>
</disp-formula>
		<p>Sim<sub>anchor</sub>(t,l)는 주제와 앵커 텍스트의 유사도를, Sim<sub>paragraph</sub>(t,l)는 주제와 링크를 포함하는 문단의 유사도를 구한다. WordNet의 path_similarity 함수는 두 단어의 의미적 거리 유사도를 구한다. 그리고 주제와 링크의 유사도 Sim(t,l) 측정은Sim<sub>anchor</sub>(t,l)과 Sim<sub>paragraph</sub>(t,l)의 조화 평균을 이용한다.</p>
<disp-formula id="d003">
	<label>(3)</label>
<mml:math id="m03-1"><mml:mi>S</mml:mi><mml:mi>i</mml:mi><mml:mi>m</mml:mi><mml:mfenced><mml:mrow><mml:mi>t</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x3B9;</mml:mi></mml:mrow></mml:mfenced><mml:mo>=</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mrow><mml:mstyle displaystyle="true"><mml:mfrac><mml:mn>1</mml:mn><mml:mrow><mml:mi>S</mml:mi><mml:mi>i</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mrow><mml:mi>a</mml:mi><mml:mi>n</mml:mi><mml:mi>c</mml:mi><mml:mi>h</mml:mi><mml:mi>o</mml:mi><mml:mi>r</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mrow><mml:mi>t</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x3B9;</mml:mi></mml:mrow></mml:mfenced></mml:mrow></mml:mfrac></mml:mstyle><mml:mo>+</mml:mo><mml:mstyle displaystyle="true"><mml:mfrac><mml:mn>1</mml:mn><mml:mrow><mml:mi>s</mml:mi><mml:mi>i</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mrow><mml:mi>p</mml:mi><mml:mi>a</mml:mi><mml:mi>r</mml:mi><mml:mi>a</mml:mi><mml:mi>g</mml:mi><mml:mi>r</mml:mi><mml:mi>a</mml:mi><mml:mi>p</mml:mi><mml:mi>h</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mrow><mml:mi>t</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x3B9;</mml:mi></mml:mrow></mml:mfenced></mml:mrow></mml:mfrac></mml:mstyle></mml:mrow></mml:mfrac><mml:mspace linebreak="newline"/></mml:math>
</disp-formula>
		<p>집중 웹 크롤러의 링크 중요도 계산 방식은 시스템의 성능에 큰 영향을 준다. 식 (<xref ref-type="disp-formula" rid="d001">1</xref>)의 JEF에서는 링크의 중요도를 계산할 때 λ를 이용하여 주제-앵커 텍스트 유사도와 주제-콘텐츠 블록 유사도 간에 비중을 조절한다. 하지만 [<xref ref-type="bibr" rid="B005">5</xref>]에서는 λ를 0.5로 정함으로 인해 서로 다른 기준에서 측정된 두 유사도를 단지 산술 평균하고 있으며, λ의 합리적 설정 방식 또한 제안하지 못하고 있다. 본 연구에서 제안하는 링크의 중요도 계산 방식은 주제-앵커 텍스트와 주제-콘텐츠 블록의 유사도를 조화 평균을 이용한다. 이는 링크의 앵커 텍스트나 링크를 포함하는 문단 중 하나라도 주제와 의미적 유사성이 떨어질 경우 링크의 중요도 값을 떨어뜨리게 한다. 즉 두 요소 모두 높은 유사도를 가질 때 링크의 중요도 또한 높은 값을 가지도록 동작한다.</p>
		<p>그리고 본 연구에서 제안하는 링크의 중요도 계산은 WordNet의 path_similarity를 이용함으로써 유사도 측정에 단어 간의 의미 유사성을 반영하여 계산하도록 설계하였다. 이는 기존의 단어 빈도수를 기반한 유사도 계산 방식보다 단어의 의미성을 기반한 유사도 측정이 가능하게 한다.</p>
	</sec>
	<sec id="sec003-3">
		<title>3.3 링크 중요도 기반 웹 페이지 방문</title>
		<p>3.2에서 구한 주제와 링크 간의 유사도는 링크의 중요도로써 저장되고 집중 웹 크롤러가 방문할 웹 페이지를 선택하는데 이용된다. 웹 크롤러는 웹 페이지를 획득하고 웹 페이지 내의 링크들을 추출 후 중요도를 계산 후 중요도를 중심으로 방문할 링크들의 정렬을 실행한다. 이런 작업은 크롤러가 깊이 우선(Depth-first) 크롤링[<xref ref-type="bibr" rid="B014">14</xref>]이나 넓이 우선(Breath-first) 크롤링[<xref ref-type="bibr" rid="B014">14</xref>]이 아닌 주제와 링크의 유사도를 중심으로 한 크롤링이 가능하도록 해준다.</p>
	</sec>
</sec>
<sec id="sec004" sec-type="Results">
	<title>4. 실험</title>
	<p>주제와 문단간의 의미 비교를 이용하는 문단 기반 집중 웹 크롤러의 성능을 검증하기 위해 실험을 수행했다. 실험에서는 [<xref ref-type="bibr" rid="B005">5</xref>]에서 사용했던 검색 주제 중 일부를 이용했으며 그 대상은 다음과 같다.</p>
	<table-wrap id="t001">
		<label>표 1.</label>
		<caption>
			<title>주제와 시작 URL</title>
			<p>Table 1. The seed URLs for topics</p>
		</caption>
		<table frame="box" rules="all" width="100%">
<tbody>
<tr>
<td align="center"><p>주제</p></td>
<td><p><bold>Seed URL</bold></p></td>
</tr><tr>
<td align="center"><p><bold>Computer</bold></p></td>
<td><p><uri>https://en.wikipedia.org/wiki/Computer</uri></p></td>
</tr><tr>
<td align="center"><p><bold>Basketball</bold></p></td>
<td><p><uri>https://en.wikipedia.org/wiki/Basketball</uri></p></td>
</tr><tr>
<td align="center"><p><bold>Military</bold></p></td>
<td><p><uri>https://en.wikipedia.org/wiki/Military</uri></p></td>
</tr>
			</tbody>
		</table>
	</table-wrap>
	<p>본 논문에서 제안하는 시스템(SPFC)과 [<xref ref-type="bibr" rid="B005">5</xref>]에서 제안하는 Cosine 유사도를 활용한 문단 기반 집중 웹 크롤러(PFC) 그리고 넓이 우선 탐색을 수행하는 기존의 집중 웹 크롤러(FC) 간의 성능 비교를 실시했다. 시스템들은 각 주제에 대해 20, 30, 40, 50개의 웹 페이지를 검색하고 각 페이지에서 해당 주제에 대한 단어 빈도수를 측정했다.</p>
	<p>&#x003C;<xref ref-type="fig" rid="f003">그림 3</xref>&#x003E;은 주제어 Computer에 대해 시스템들이 웹 크롤링한 결과의 단어 빈도수를 구한 것이다.</p>
	<fig id="f003" orientation="portrait" position="float">
		<label>그림 3.</label>
		<caption>
			<title>주제어 Computer에 대한 단어 빈도수 비교</title>
			<p>Figure 3. Comparison of term frequency for Topic Computer</p>
		</caption>
		<graphic xlink:href="../ingestImageView?artiId=ART002663790&amp;imageName=jkits_2020_15_06_1075_f003.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<p>&#x003C;<xref ref-type="fig" rid="f004">그림 4</xref>&#x003E;와 &#x003C;<xref ref-type="fig" rid="f005">그림 5</xref>&#x003E;은 주제어 Military와 Basketball에 대해 시스템들이 웹 크롤링한 결과의 단어 빈도수를 구한 것이다.</p>
	<fig id="f004" orientation="portrait" position="float">
		<label>그림 4.</label>
		<caption>
			<title>주제어 Military에 대한 단어 빈도수 비교</title>
			<p>Figure 4. Comparison of term frequency for Topic Military</p>
		</caption>
		<graphic xlink:href="../ingestImageView?artiId=ART002663790&amp;imageName=jkits_2020_15_06_1075_f004.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<p>위의 실험들에서 보듯이 의미 활용 문단 기반 집중 웹 크롤러가 다른 시스템들에 비해 좋은 단어 빈도수 결과를 산출했다.</p>
	<fig id="f005" orientation="portrait" position="float">
		<label>그림 5.</label>
		<caption>
			<title>주제어 Basketball에 대한 단어 빈도수 비교</title>
			<p>Figure 5. Comparison of term frequency for Topic Basketball</p>
		</caption>
		<graphic xlink:href="../ingestImageView?artiId=ART002663790&amp;imageName=jkits_2020_15_06_1075_f005.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
</sec>
<sec id="sec005" sec-type="Conclusion">
	<title>5. 결 론</title>
	<p>집중 웹 크롤러의 성능을 향상하기 위해 의미 활용 문단 기반 집중 웹 크롤러를 설계 및 구현했다. 제안된 시스템은 획득한 웹 페이지로부터 주제와 관련성 있는 링크를 추출하고 링크와 주제와의 유사도를 중심으로 웹 페이지를 방문함으로써 주제와 관련성이 높은 페이지를 효과적으로 확보했다. 주제와 링크의 관련성을 계산하기 위해 WordNet을 이용, 주제와 링크의 데이터 간에 유사도를 측정했다. 측정된 유사도는 링크의 중요도로 활용되어 웹 크롤러가 방문할 우선순위를 정하는데 사용, 웹 크롤러의 성능을 향상시켰다. 몇몇 주제를 집중 크롤링하는 것으로 실험을 하였고, 실험 결과에서는 의미 활용 문단 기반 집중 웹 크롤러가 단어 빈도수 측면에서 좋은 결과를 보였다.</p>
	<p>본 시스템의 성능 향상을 위해 향후 다음 연구를 수행할 것이다. 첫째 특정 주제에 특화된 집중크롤러 구축을 위해 온톨로지의 도입[<xref ref-type="bibr" rid="B015">15</xref>-<xref ref-type="bibr" rid="B017">17</xref>]을 시도한다. 온톨로지는 특정 영역의 개념이나 지식을 표현하기 위해 사용된다. 본 연구에서 문단이나 주제의 의미적 유사성 파악을 위해 WordNet을 활용했다. 하지만, 집중 웹 크롤러가 특정 분야의 온톨로지를 활용한다면 보다 나은 검색 결과를 산출할 것이다. 둘째 링크의 중요도 판단에 기계 학습의 도입을 시도한다. 집중 웹 크롤러는 시작 URL부터 다양한 웹 페이지를 획득하고 분석하며 링크의 중요도를 계산한다. 이러한 과정을 통해 문단에 사용된 단어의 패턴을 학습하고 활용한다면 보다 효율적인 집중 웹 크롤러의 구축이 가능할 것이다.</p>
</sec>
</body>
<back>
<ref-list>
<title>References</title>
<!--[1] Total number of websites, https://www.internetlivestats.com/total-number-of-websites/, Aug. 2020.-->
<ref id="B001">
<label>[1]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2020</year>
<month>Aug.</month>
<source>Total number of websites</source>
<comment><uri>https://www.internetlivestats.com/total-number-of-websites/</uri></comment>
</element-citation>
</ref>
<!--[2] How search organizes information, https://www.google.com/intl/en/search/howsearchworks/crawling-indexing/, Aug. 2020.-->
<ref id="B002">
<label>[2]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2020</year>
<month>Aug.</month>
<source>How search organizes information</source>
<comment><uri>https://www.google.com/intl/en/search/howsearchworks/crawling-indexing/</uri></comment>
</element-citation>
</ref>
<!--[3] S. W. Kim, Focused crawler for efficient web gathering, Soongsil University, 2007.-->
<ref id="B003">
<label>[3]</label>
<element-citation publication-type="thesis">
<person-group>
<name><surname>Kim</surname><given-names>S. W.</given-names></name>
</person-group>
<year>2007</year>
<source>Focused crawler for efficient web gathering</source>
<publisher-name>Soongsil University</publisher-name>
</element-citation>
</ref>
<!--[4] S. Chakrabarti, M. van den Berg, and B. Dom, Focused crawling: a new approach to topic-specific web resource discovery, In proceedings of 8th International World Wide Web Conference, pp. 545-562, 1999.-->
<ref id="B004">
<label>[4]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Chakrabarti</surname><given-names>S.</given-names></name>
<name><surname>van den Berg</surname><given-names>M.</given-names></name>
<name><surname>Dom</surname><given-names>B.</given-names></name>
</person-group>
<year>1999</year>
<article-title>Focused crawling: a new approach to topic-specific web resource discovery</article-title>
<conf-name>proceedings of 8th International World Wide Web Conference</conf-name>
<fpage>545</fpage><lpage>562</lpage>
</element-citation>
</ref>
<!--[5] H. Lu, D. Zhan, L. Zhou, and D. He, An improved focused crawler: using web page classification and link priority evaluation, Mathematical Problems in Engineering, Vol. 2016, pp. 1-10, 2016.-->
<ref id="B005">
<label>[5]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Lu</surname><given-names>H.</given-names></name>
<name><surname>Zhan</surname><given-names>D.</given-names></name>
<name><surname>Zhou</surname><given-names>L.</given-names></name>
<name><surname>He</surname><given-names>D.</given-names></name>
</person-group>
<year>2016</year>
<article-title>An improved focused crawler: using web page classification and link priority evaluation</article-title>
<source>Mathematical Problems in Engineering</source>
<volume>2016</volume>
<fpage>1</fpage><lpage>10</lpage>
<pub-id pub-id-type="doi">10.1155/2016/6406901</pub-id>
</element-citation>
</ref>
<!--[6] S. Shah, S. Patel, and S. Nair, Focused and deep web crawling-A review, International Journal of Computer Science and Information Technologies, Vol. 5, No. 6, pp. 7488-7492, 2014.-->
<ref id="B006">
<label>[6]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Shah</surname><given-names>S.</given-names></name>
<name><surname>Patel</surname><given-names>S.</given-names></name>
<name><surname>Nair</surname><given-names>S.</given-names></name>
</person-group>
<year>2014</year>
<article-title>Focused and deep web crawling-A review</article-title>
<source>International Journal of Computer Science and Information Technologies</source>
<volume>5</volume><issue>6</issue>
<fpage>7488</fpage><lpage>7492</lpage>
</element-citation>
</ref>
<!--[7] D. Bhatt, D. A. Vyas, and S. Pandya, Focused web crawler, Advanced in Computer Science and Information Technology, Vol. 2, No. 11, pp. 1-6, Apr.-Jun. 2015.-->
<ref id="B007">
<label>[7]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Bhatt</surname><given-names>D.</given-names></name>
<name><surname>Vyas</surname><given-names>D. A.</given-names></name>
<name><surname>Pandya</surname><given-names>S.</given-names></name>
</person-group>
<year>2015</year>
<month>Apr.-Jun.</month>
<article-title>Focused web crawler</article-title>
<source>Advanced in Computer Science and Information Technology</source>
<volume>2</volume><issue>11</issue>
<fpage>1</fpage><lpage>6</lpage>
</element-citation>
</ref>
<!--[8] N. W. Min and A. N. Hlaing, Ranking hyperlinks approach for focused web crawler, International Conference on Advances in Engineering and Technology, pp. 233-235, Mar, 2014.-->
<ref id="B008">
<label>[8]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Min</surname><given-names>N. W.</given-names></name>
<name><surname>Hlaing</surname><given-names>A. N.</given-names></name>
</person-group>
<year>2014</year>
<month>Mar.</month>
<article-title>Ranking hyperlinks approach for focused web crawler</article-title>
<conf-name>International Conference on Advances in Engineering and Technology</conf-name>
<fpage>233</fpage><lpage>235</lpage>
<pub-id pub-id-type="doi">10.15242/iie.e0314109</pub-id>
</element-citation>
</ref>
<!--[9] T. Peng and L. Liu, Focused crawling enhanced by CBP-SLC, Knowledge-Based Systems, Vol. 51, pp. 15-26, 2013.-->
<ref id="B009">
<label>[9]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Peng</surname><given-names>T.</given-names></name>
<name><surname>Liu</surname><given-names>L.</given-names></name>
</person-group>
<year>2013</year>
<article-title>Focused crawling enhanced by CBP-SLC</article-title>
<source>Knowledge-Based Systems</source>
<volume>51</volume>
<fpage>15</fpage><lpage>26</lpage>
<pub-id pub-id-type="doi">10.1016/j.knosys.2013.06.008</pub-id>
</element-citation>
</ref>
<!--[10] N. Luo, W. Zuo, F. Yuan, and C. Zhang, A new method for focused crawler cross tunnel, First International Conference, RSKT, Vol. 4062 of Lecture Notes in Computer Science, pp. 632-637, Springer, 2006.-->
<ref id="B010">
<label>[10]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Luo</surname><given-names>N.</given-names></name>
<name><surname>Zuo</surname><given-names>W.</given-names></name>
<name><surname>Yuan</surname><given-names>F.</given-names></name>
<name><surname>Zhang</surname><given-names>C.</given-names></name>
</person-group>
<year>2006</year>
<article-title>A new method for focused crawler cross tunnel</article-title>
<conf-name>First International Conference, RSKT, Vol. 4062 of Lecture Notes in Computer Science</conf-name>
<publisher-name>Springer</publisher-name>
<fpage>632</fpage><lpage>637</lpage>
<pub-id pub-id-type="doi">10.1007/11795131_92</pub-id>
</element-citation>
</ref>
<!--[11] T. Peng, C. Zhang, and W. Zuo, Tunneling enhanced by web page content block partition for focused crawling, Concurrency Computation Practice and Experience, Vol. 20, No. 1, pp. 61-74, 2008.-->
<ref id="B011">
<label>[11]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Peng</surname><given-names>T.</given-names></name>
<name><surname>Zhang</surname><given-names>C.</given-names></name>
<name><surname>Zuo</surname><given-names>W.</given-names></name>
</person-group>
<year>2008</year>
<article-title>Tunneling enhanced by web page content block partition for focused crawling</article-title>
<source>Concurrency Computation Practice and Experience</source>
<volume>20</volume><issue>1</issue>
<fpage>61</fpage><lpage>74</lpage>
<pub-id pub-id-type="doi">10.1002/cpe.1211</pub-id>
</element-citation>
</ref>
<!--[12] S. J. Park, and J. H. Kim, Paragraph-based k-means clustering by using meaning-based paragraph division, Journal of Knowledge Information Technology and Systems, Vol. 12, No. 1, pp. 157-164, Feb. 2017.-->
<ref id="B012">
<label>[12]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Park</surname><given-names>S. J.</given-names></name>
<name><surname>Kim</surname><given-names>J. H.</given-names></name>
</person-group>
<year>2017</year>
<month>Feb.</month>
<article-title>Paragraph-based k-means clustering by using meaning-based paragraph division</article-title>
<source>Journal of Knowledge Information Technology and Systems</source>
<volume>12</volume><issue>1</issue>
<fpage>157</fpage><lpage>164</lpage>
<pub-id pub-id-type="doi">10.34163/jkits.2017.12.1.014</pub-id>
</element-citation>
</ref>
<!--[13] WordNet, https://wordnet.princeton.edu/, Sep. 2020.-->
<ref id="B013">
<label>[13]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2020</year>
<month>Sep.</month>
<source>WordNet</source>
<comment><uri>https://wordnet.princeton.edu/</uri></comment>
</element-citation>
</ref>
<!--[14] B. Ganguly, and R. Sheikh, A review of focused web crawling strategies, International Journal of Advanced Computer Research, Vol. 2, No. 4, pp 261-267, Dec. 2012.-->
<ref id="B014">
<label>[14]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Ganguly</surname><given-names>B.</given-names></name>
<name><surname>Sheikh</surname><given-names>R.</given-names></name>
</person-group>
<year>2012</year>
<month>Dec.</month>
<article-title>A review of focused web crawling strategies</article-title>
<source>International Journal of Advanced Computer Research</source>
<volume>2</volume><issue>4</issue>
<fpage>261</fpage><lpage>267</lpage>
</element-citation>
</ref>
<!--[15] Ontology, https://www.w3.org/standards/semanticweb/ontology, Sep. 2020.-->
<ref id="B015">
<label>[15]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2020</year>
<month>Sep.</month>
<source>Ontology</source>
<comment><uri>https://www.w3.org/standards/semanticweb/ontology</uri></comment>
</element-citation>
</ref>
<!--[16] G. Subbiah, M. Jayaraj, V. Kalyan, SrinivasaMurthy, and G. Aghila, Ontology-based web crawler, Proc. ITCC: Coding Comupt., pp. 334-341, 2004.-->
<ref id="B016">
<label>[16]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Subbiah</surname><given-names>G.</given-names></name>
<name><surname>Jayaraj</surname><given-names>M.</given-names></name>
<name><surname>Kalyan</surname><given-names>V.</given-names></name>
<name><surname>SrinivasaMurthy</surname></name>
<name><surname>Aghila</surname><given-names>G.</given-names></name>
</person-group>
<year>2004</year>
<article-title>Ontology-based web crawler</article-title>
<conf-name>Proc. ITCC: Coding Comupt.</conf-name>
<fpage>334</fpage><lpage>341</lpage>
<pub-id pub-id-type="doi">10.1109/ITCC.2004.1286658</pub-id>
</element-citation>
</ref>
<!--[17] J. Lee, The ontology construction of Instructional domain knowledge, Journal of Knowledge Information Technology and Systems, Vol.11, No. 1, pp. 57-63, Feb. 2016.-->
<ref id="B017">
<label>[17]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Lee</surname><given-names>J.</given-names></name>
</person-group>
<year>2016</year>
<month>Feb.</month>
<article-title>The ontology construction of Instructional domain knowledge</article-title>
<source>Journal of Knowledge Information Technology and Systems</source>
<volume>11</volume><issue>1</issue>
<fpage>57</fpage><lpage>63</lpage>
</element-citation>
</ref>
</ref-list>
<ack>
<title>감사의 글</title>
<p>이 논문은 2019년도 강릉원주대학교 학술연구조성비 지원에 의하여 수행되었음.</p>
</ack>
<bio>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002663790&amp;imageName=jkits_2020_15_06_1075_f006.jpg"></graphic><bold>Nam Oh Kang</bold> received the bachelor’s degree, the M.S. degree and the Ph.D degree in the Department of Computer Science and Engineering from Chung-Ang University in 1997, 2002, and 2006, respectively. His current research interests include web crawler, artificial intelligence, and machine learning.</p>
	<p><italic>E-mail address</italic>: <email>namohkang@gmail.com</email></p>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002663790&amp;imageName=jkits_2020_15_06_1075_f007.jpg"></graphic><bold>Jae Ho Kim</bold> received the bachelor’s degree, the M.S. degree and the Ph.D degree in the Department of Computer Science and Engineering from Chung-Ang University in 1988, 1990, and 2004, respectively. He has been a professor in the Department of Computer Science and Engineering at Gangneung-Wonju National University since 1997. His current research interests include web crawler, artificial intelligence, and machine learning, He is a life member of the KKITS.</p>
	<p><italic>E-mail address</italic>: <email>kimjaeho@gwnu.ac.kr</email></p>
</bio>
</back>
</article>
