<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/resources/xsl/jats-html.xsl"?>
<article article-type="research-article" dtd-version="1.1" xml:lang="ko" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
	<journal-meta>
		<journal-id journal-id-type="publisher-id">jkits</journal-id>
		<journal-title-group>
		<journal-title>한국지식정보기술학회 논문지</journal-title>
		<journal-title xml:lang="en">Journal of Knowledge Information Technology and Systems</journal-title>
		</journal-title-group>
		<issn pub-type="ppub">1975-7700</issn>
		<publisher>
		<publisher-name>한국지식정보기술학회</publisher-name>
		<publisher-name xml:lang="en">Korea Knowledge Information Technology Society</publisher-name>
		</publisher>
	</journal-meta>
	<article-meta>
		<article-id pub-id-type="publisher-id">jkits_2020_15_02_195</article-id>
		<article-id pub-id-type="doi">10.34163/jkits.2020.15.2.005</article-id>
		<article-categories>
			<subj-group>
				<subject>Research Article</subject>
			</subj-group>
		</article-categories>
		<title-group>
			<article-title>조류 울음소리를 이용한 조류 분류 딥러닝 시스템 개발</article-title>
			<trans-title-group xml:lang="en">
				<trans-title>Development of the Deep Learning System for Bird Classification Using Birdsong</trans-title>
			</trans-title-group>
		</title-group>
		<contrib-group>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>강</surname>
						<given-names>민정</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Kang</surname>
						<given-names>Min-Jeong</given-names>
					</name>
				</name-alternatives>
					<xref ref-type="aff" rid="A1"><sup>1</sup></xref>
			</contrib>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>김</surname>
						<given-names>영선</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Kim</surname>
						<given-names>Yeong-Seon</given-names>
					</name>
				</name-alternatives>
					<xref ref-type="aff" rid="A1"><sup>1</sup></xref>
			</contrib>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>신</surname>
						<given-names>화영</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Shin</surname>
						<given-names>Hwa-Yeong</given-names>
					</name>
				</name-alternatives>
					<xref ref-type="aff" rid="A1"><sup>1</sup></xref>
			</contrib>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>박</surname>
						<given-names>장우</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Park</surname>
						<given-names>Jangwoo</given-names>
					</name>
				</name-alternatives>
				<xref ref-type="fn" rid="fn002">*</xref>
				<xref ref-type="aff" rid="A2"><sup>2</sup></xref>
			</contrib>
					</contrib-group>
		<aff-alternatives id="A1">
			<aff><sup>1</sup><italic>순천대학교 정보통신공학과 학부생</italic></aff>
			<aff xml:lang="en"><italic>Department of Information&#x26;Communication Engineering, Sunchon National University</italic></aff>
		</aff-alternatives>
		<aff-alternatives id="A2">
			<aff><sup>2</sup><italic>순천대학교 정보통신공학과 교수</italic></aff>
			<aff xml:lang="en"><italic>Department of Information&#x26;Communication Engineering, Sunchon National University</italic></aff>
		</aff-alternatives>
		<author-notes>
			<fn id="fn002"><label>*</label><p>Corresponding author is with the Department of Information&#x26;Communication Engineering, Sunchon National University, 255 Jungang-ro Suncheon, 57922, KOREA.</p><p><italic>E-mail address</italic>: <email>jwpark@sunchon.ac.kr</email></p></fn>
		</author-notes>
		<pub-date pub-type="ppub">
			<month>04</month>
			<year>2020</year>
		</pub-date>
		<volume>15</volume>
		<issue>2</issue>
		<fpage>195</fpage>
		<lpage>203</lpage>
		<history>
			<date date-type="received">
				<day>27</day>
				<month>11</month>
				<year>2019</year>
			</date>
			<date date-type="rev-recd">
				<day>06</day>
				<month>01</month>
				<year>2020</year>
			</date>
			<date date-type="accepted">
				<day>10</day>
				<month>04</month>
				<year>2020</year>
			</date>
		</history>
		<permissions>
			<copyright-statement>&#x00A9; 2020 KKITS All rights reserved</copyright-statement>
			<copyright-year>2020</copyright-year>
		</permissions>
		<abstract>
		<title>요약</title>
		<p>야생조류의 활동과 분포는 생물 다양성을 평가할 수 있는 생물학적 지표가 된다. 조류의 서식지를 식별하기 위해서는 소리를 수집하고 분류하는 것이 필요하다. 새소리를 사용하면 야생조류의 위치나 종류를 쉽게 구별할 수 있다. 최근 머신러닝을 이용한 생물음향자료 분석에 대한 시도들이 늘어나고 있다. 딥러닝을 이용해 조류 울음소리를 분류하고자 한다. 조류 울음소리를 스펙트로그램 이미지로 변환한다. 스펙트로그램 이미지는 Convolutional Neural Network의 입력으로 사용한다. 일반적으로 분류하고자 하는 새소리 dataset은 노이즈를 많이 포함하고 있다. 심지어 노이즈를 포함한 데이터조차 구하기 어렵다. 데이터는 20종의 새를 약 200여 개씩 구했다. transfer learning을 기반으로 CNN모델인 ResNet34, ResNet50, AlexNet을 실험에 사용하였다. 실험 파라미터는 learning rate와 학습횟수이다. 그 결과, ResNet34에서 99.7%의 가장 높은 정확도를 보이고, 그 test에서는 평균 93%의 정확도를 보인다. 따라서 본 논문에서는 ResNet34을 이용해 20종의 조류 울음소리를 분류하는 Deep Learning 시스템을 구현하려고 한다. 이 시스템을 이용하여 조류 인플루엔자의 예방 등 다양한 활동에 도움이 될 수 있다.</p>
		</abstract>
		<trans-abstract xml:lang="en">
		<title>ABSTRACT</title>
		<p>The activity and distribution of wild birds are biological indicators to evaluate biodiversity. In order to identify bird habitats, collecting and classifying sounds should have to do. Using the bird sound can make easier to distinguish location or type of wild birds. Recently, attempts to analyze bioacoustic data have been risen using the machine learning. We are going to classify the bird songs using deep learning. The bird songs convert into the spectrogram images. Spectrogram images are used for the input of convolutional neural network. In generally the bird song data set for classification contains a lot of noise. Even obtaining the data including noise is difficult. The data is about 200 bird sounds of 20 species. Based on transfer learning, ResNet34, ResNet50 and AlexNet of Convolutional Neural Network are used as the experiment. The experiment parameter is learning rate and epochs. As a result, the ResNet34 shows the highest accuracy of 99.7% and an average of 93% in the test. Therefore, In this paper, we are going to develop the deep learning system that classifies 20 kinds of bird song using ResNet34. By using this system, it can be helpful various activities such as the prevention of avian influenza.</p>
		</trans-abstract>
		<kwd-group kwd-group-type="author" xml:lang="en">
<title>K E Y W O R D S</title>
			<kwd>Deep learning</kwd>
			<kwd>Classification</kwd>
			<kwd>Spectrogram, AI</kwd>
			<kwd>Convolutional Neural Networks</kwd>
			<kwd>ResNet</kwd>
			<kwd>AlexNet</kwd>
		</kwd-group>
	</article-meta>
</front>
<body>
<sec id="sec001" sec-type="intro">
	<title>1. 서 론</title>
	<p>야생조류 유입 증가로 발생한 많은 질병은 생태계에 매우 큰 영향을 미쳤다. 2014년 1월 야생조류 AI 집단폐사로 인하여 겨울 철새 현황자료 요구가 급증하였다[<xref ref-type="bibr" rid="B001">1</xref>]. 야생조류에 대한 질병 및 전염을 예방하기 위해 모니터링을 진행하고 있으며, 야생조류의 서식지와 질병 발생 농가 인근의 접근을 자제시켰다. 하지만 이는 야생조류의 환경 특성상 완벽히 예방할 수 없었다. 따라서 야생조류 서식지의 식별을 위한 효율적이고 확실한 시스템의 개발이 필요한 실정이다. 야생조류 서식지 식별을 위한 시스템 개발에 앞서 새의 종 분류를 위한 시스템 개발이 선행되어야 한다.</p>
	<p>최근 머신러닝 및 딥러닝에 관한 관심이 높아지고 있다. 딥러닝은 컴퓨터가 직접 데이터로부터 스스로 학습하는 네트워크 모델로 image, text 등을 직접 분류하고 학습할 수 있다. 이러한 발전은 빅데이터의 활용, 하드웨어의 발전과 인식알고리즘의 개발 등에 힘입어 실용성 높은 기술로 발전되었다. 또한 다양한 형태의 미디어들이 증가하면서 딥러닝의 응용 분야들이 새롭게 창출되고 있다. 그중 1998년에 LeCun 교수에 의해 개발된 CNN(Convolutional Neural Network)은 사람이나 동물의 시각처리 과정을 모방하였다. 역전파 학습알고리즘을 기반으로 영상인식 분야에 성공적으로 적용함으로써 널리 사용되고 있다[<xref ref-type="bibr" rid="B002">2</xref>].</p>
	<p>본 연구에서는 조류의 소리를 이용해서 조류를 구분할 수 있는 시스템을 개발하고자 한다. 조류의 소리를 바로 딥러닝에 적용할 수 없어서 이미지로 변환하는 과정이 필요하다. 소리를 스펙트로그램(spectrogram) 이미지로 변환하고 CNN에 적용한다. 딥러닝 모델로 사용할 CNN은 뛰어난 성능과 간단한 구조를 가지고 있다. 본 연구에서 분류하고자 하는 새소리 데이터는 환경 특성상 데이터를 구하기가 매우 힘들고, 한 데이터에서도 여러 노이즈가 포함되어 있어 분류가 더욱 어렵다. 딥러닝 모델로는 AlexNet, ResNet34, ResNet50을 선정하여 성능을 평가하고 조류 분류 시스템에 가장 적합한 모델을 찾는다. 최종 모델로 ResNet34를 선정하였다. 조류의 정보를 제공할 수 있는 웹앱을 구축하였다.</p>
	<p>본 논문의 구성은 다음과 같다. 제2장에서는 본 연구의 이론적 배경에 대해 다룬다. 제3장에서는 개발과정, 제4장에서는 실험결과를 살펴본다. 제5장에서는 결론을 기술한다.</p>
</sec>
<sec id="sec002">
	<title>2. 이론적 배경</title>
	<p>CNN(Convolutional Neural Network)은 1998년 LeCun이 필기체 인식을 위해 처음으로 고안하였고, Convolution layer, Pooling layer, Fully connected layer 등으로 구성된 심층신경망이다[<xref ref-type="bibr" rid="B003">3</xref>]. 딥러닝에 가장 많이 사용되는 알고리즘 중 하나인 CNN은 모델이 직접 사진, 영상, 글자 또는 소리를 분류할 수 있다. 수많은 은닉계층들이 각 이미지의 서로 다른 특징을 감지한다. 특징을 수동으로 추출할 필요가 없고, 가장 높은 수준의 인식결과를 보여준다[<xref ref-type="bibr" rid="B004">4</xref>]. 그리고 복잡하고 고차원적이며 비선형적인 매핑을 학습할 수 있는 능력이 뛰어나다.</p>
	<fig id="f001" orientation="portrait" position="float">
	<label>그림 1.</label>
	<caption>
		<title>CNN의 구조</title>
		<p>Figure 1. structure of Convolutional Neural Network</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f001.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
	<p>&#x003C;<xref ref-type="fig" rid="f001">그림 1</xref>&#x003E;은 CNN의 개략적인 구조를 보여준다. Convolution layer에서 filter가 입력데이터와 Convolution 연산을 한다. Convolution 연산은 filter가 입력데이터에서 stride만큼 돌아다니면서 계산하는 과정이다. filter의 개수만큼 feature map을 얻는다[<xref ref-type="bibr" rid="B005">5</xref>]. feature map에 뉴런의 상태를 저장하는 과정이 순차적으로 일어나는데 이는 feature map을 병렬로 실행함으로써 구현된다[<xref ref-type="bibr" rid="B003">3</xref>]. featurer map은 ReLU에 입력으로 들어간다. ReLU는 CNN에서 많이 쓰이는 Activation function 중 하나이다. ReLU는 복잡한 작업을 처리하기 위해 입력을 비선형적으로 만든다[<xref ref-type="bibr" rid="B006">6</xref>]. Activation map이 만들어지고 Pooling layer에 입력된다. Pooling layer는 데이터의 크기를 줄이는 계층이다. 그 방법으로는 max pooling과 average pooling이 있다. max pooling은 최댓값을, average pooling은 평균값을 기준으로 한다[<xref ref-type="bibr" rid="B007">7</xref>]. Fully connected layer는 class의 개수만큼 있다. class가 20개면 출력도 20개가 나온다. 각각 출력된 class들은 확률값을 가지는데, 가장 큰 값을 가진 class가 최종 예측결과가 된다.</p>
	<p>CNN의 대표적인 모델로는 ResNet, AlexNet, VGGNet, GoogLeNet이 있는데, 그 중 ResNet[<xref ref-type="bibr" rid="B008">8</xref>]과 AlexNet[<xref ref-type="bibr" rid="B009">9</xref>]을 사용하였다. 이 모델들은 각각 2012년, 2015년에 ILSVRC에서 우승하였다. ResNet은 Residual Network의 약자로, CNN의 깊이를 획기적으로 늘린 모델이며 152층의 깊이로 늘어날 수 있었던 원동력은 Residual Block이다. Residual Block에서 중요한 것은 skip connection이다. skip connection은 이전 층에서 넘어온 입력 x를 중간계층을 거치지 않고 바로 넘겨주어 별도로 연결한 것이다. skip connection의 연산은 아래 식 1로 나타낼 수 있다[<xref ref-type="bibr" rid="B010">10</xref>].</p>
<disp-formula-group>
<disp-formula id="dm01">
	<label>(1)</label>
<mml:math id="m01"><mml:mi>H</mml:mi><mml:mfenced><mml:mi>x</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:mi>F</mml:mi><mml:mfenced><mml:mi>x</mml:mi></mml:mfenced><mml:mo>+</mml:mo><mml:mi>x</mml:mi></mml:math>
</disp-formula>
</disp-formula-group>
	<p>Overfitting이란 학습 과정에서 모델이 훈련 데이터에 과도하게 최적화되어 학습되지 않은 테스트 데이터에 대해서는 잘 예측하지 못하는 현상이다. 훈련 오차가 작음에도 불구하고 실제 데이터에서는 오차가 많이 발생한다[<xref ref-type="bibr" rid="B011">11</xref>].</p>
	<p>Overfitting이 일어나는 원인은 크게 2가지로 생각할 수 있다. 첫 번째는, 학습에 필요한 데이터가 매우 부족할 경우 발생한다. 이에 대한 해결책은 데이터의 수를 늘리는 것이다. 그러나 상황에 따라 데이터 수집이 더 이상 불가능할 수도 있고, 데이터에 많은 노이즈가 포함되어 있을 수 있다. 두 번째는 훈련 시켜야 할 파라미터가 많아 모델이 복잡해지는 경우에 발생한다. 입력 변수가 많아지면 상대적으로 적은 데이터로 학습되어 데이터의 수가 기하급수적으로 필요해 데이터 부족으로 이어질 수 있다. Overfitting은 Regularization과 Dropout을 사용해서 어느 정도 방지할 수 있다. Regularization은 훈련 데이터와 테스트 데이터의 에러를 줄여 일반화에 적합한 특성을 갖게 만드는 것으로 성능과 모델의 훈련 안전성을 개선하는 효과가 있다. Dropout은 일부 노드만 임의로 사용하여 훈련 데이터에 대한 적합도를 떨어뜨리는 방법이다[<xref ref-type="bibr" rid="B012">12</xref>].</p>
</sec>
<sec id="sec003">
	<title>3. 개발과정</title>
	<p>&#x003C;<xref ref-type="fig" rid="f002">그림 2</xref>&#x003E;는 조류 분류 웹앱의 개발과정을 나타내는 순서도이다. 아래에 단계별로 자세한 설명을 하였다.</p>
	<fig id="f002" orientation="portrait" position="float">
	<label>그림 2.</label>
	<caption>
		<title>조류 분류 웹앱 개발과정</title>
		<p>Figure 2. sequence to develop bird classification web application</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f002.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<fig id="f003" orientation="portrait" position="float">
	<label>그림 3.</label>
	<caption>
		<title>각 클래스의 스펙트로그램</title>
		<p>Figure 3. spectrogram for each class</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f003.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<p>첫째, 실험에 사용된 모든 data는 Youtube, xeno-canto 등에서 수집하였다.</p>
	<p>둘째, librosa 라이브러리를 사용하여 소리를 스펙트로그램 이미지로 변환하는 전처리 과정을 거쳤다. 스펙트로그램은 소리의 주파수 스펙트럼을 시각화한 것이다. x축은 시간을 나타내고 y축은 주파수를 나타낸다. 특정 시간의 주파수 진폭을 색상의 농도로 표현한다[<xref ref-type="bibr" rid="B013">13</xref>]. &#x003C;<xref ref-type="fig" rid="f003">그림 3</xref>&#x003E;은 각 클래스의 스펙트로그램을 나타낸다.</p>
	<p>셋째, labeled된 스펙트로그램을 불러서 읽는 단계이다. 입력데이터를 신경망에 고정 크기 입력 계층으로 전송하기 전에 크기를 정규화하고 입력 영역 중앙에 위치시킨다.</p>
	<p>넷째, CNN의 모델 중 ResNet34, ResNet50, AlexNet을 사용하였다. class는 20개, 전체 데이터는 2924개이다. validation data는 각 data의 20%로 설정했다. 그리고 test data는 전체 데이터에서 validation data를 제외하고 10개씩 가져왔다. 데이터 크기는 64*64이며 imagenet_stats으로 normalize를 해주었다. &#x003C;<xref ref-type="fig" rid="f004">그림 4</xref>&#x003E;는 스펙트로그램을 넣고 은닉계층을 거쳐 출력을 얻는 과정을 개략적으로 보여준다.</p>
	<fig id="f004" orientation="portrait" position="float">
	<label>그림 4.</label>
	<caption>
		<title>스펙트로그램을 넣은 CNN 동작 과정</title>
		<p>Figure 4 . CNN process to put the spectrogram</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f004.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<p>다섯째, overfitting을 방지하기 위해 dropout을 0.5로 설정했다. 그리고 정확도 개선을 기준으로 SaveModelCallback을 사용하여 가장 높은 정확도를 보인 epoch 구간에서 자동으로 저장하였다.</p>
	<p>여섯째, 매우 큰 dataset으로 미리 훈련되어 있는 모델을 자신의 dataset에 적용해서 사용하는 기술인 Transfer learning을 사용하였다. 훈련횟수는 50번과 25번으로 총 6번의 실험을 진행하였으며 learning rate는 1e-06, 1e-05, 1e-04, 1e-03, 1e-06 ~ 1e-04, 음의 기울기가 가장 큰 점으로 실험을 했다. batch size는 16이다.</p>
	<p>일곱째, confusion matrix를 그려서 validation data의 predict, actual을 시각화하였다.</p>
	<p>여덟째, pkl파일을 생성하고 link generator에서 다운로드 링크를 얻어 모델에 관한 정보를 다운로드 하는 url로 사용하였다. server는 uvicorn, web framework는 starlette를 사용하였다.</p>
	<p>마지막으로 local testing server 환경에서 20개의 class를 각 10번씩 총 200번의 테스트를 진행하였다.</p>
</sec>
<sec id="sec004" sec-type="Results">
	<title>4. 실험결과 분석</title>
	<p>이전 장에서 제시한 순서도에 따라 조류 분류 연구를 진행하였다. model, 학습횟수, learning rate를 3가지 변수로 설정하여 실험을 수행하고, 조류 분류에 가장 적합한 모델을 찾고자 하였다. &#x003C;<xref ref-type="table" rid="t001">표 1</xref>&#x003E;은 실험 파라미터들이다.</p>
	<table-wrap id="t001">
		<label>표 1.</label>
		<caption>
			<title>파라미터 분석</title>
			<p>Table 1. Analysis parameter</p>
		</caption>
		<table frame="box" rules="all" width="100%">
			<tbody align="center">
<tr><td>Var.# </td>
<td>Name </td>
<td>Range </td>
</tr>
<tr><td rowspan="3">#1 </td>
<td rowspan="3">Model </td>
<td>ResNet34 </td>
</tr>
<tr><td>ResNet50 </td>
</tr>
<tr><td>AlexNet </td>
</tr>
<tr><td rowspan="2">#2 </td>
<td rowspan="2">Epochs </td>
<td>25 </td>
</tr>
<tr><td>50 </td>
</tr>
<tr><td rowspan="6">#3 </td>
<td rowspan="6">Learningrate </td>
<td>1E-06 </td>
</tr>
<tr><td>1E-05 </td>
</tr>
<tr><td>1E-04 </td>
</tr>
<tr><td>1E-03 </td>
</tr>
<tr><td>slice(1e-06,  1e-04) </td>
</tr>
<tr><td>suggested  lr </td>
</tr>
			</tbody>
		</table>
	</table-wrap>
	<p>실험에 사용된 데이터는 wav 파일을 스펙트로그램으로 변환하는 전처리 과정을 거쳤다. 20종 각각 200여 개의 소리 파일을 대상으로 하였으며, training data는 2912개, valid data는 728개, test data는 클래스마다 10개씩 총 200개를 사용하였다.</p>
	<table-wrap id="t002">
		<label>표 2.</label>
		<caption>
			<title>lr=slice(3e-3)에서 학습</title>
			<p>Table 2. Training at lr=slice(3e-3)</p>
		</caption>
		<table frame="box" rules="all" width="100%">
			<tbody align="center">
<tr><td rowspan="2">epochs </td>
<td colspan="3">accuracy(%) </td>
</tr>
<tr><td>ResNet34 </td>
<td>ResNet50 </td>
<td>AlexNet </td>
</tr>
<tr><td>25 </td>
<td>93.6 </td>
<td>95.0 </td>
<td>88.3 </td>
</tr>
<tr><td>50 </td>
<td>97.5 </td>
<td>97.9 </td>
<td>90.2 </td>
</tr>
			</tbody>
		</table>
	</table-wrap>
	<p>&#x003C;<xref ref-type="table" rid="t002">표 2</xref>&#x003E;는 각 모델을 기본 learning rate 구간인 slice(3e-3)에서 25번, 50번 훈련 시켰을 때의 정확도이다[<xref ref-type="bibr" rid="B014">14</xref>]. ResNet50에서 가장 높은 정확도를 보였고, AlexNet의 성능이 가장 저조했다. 두 모델은 9.6%의 성능 차를 보인다.</p>
	<p>&#x003C;<xref ref-type="fig" rid="f005">그림 5</xref>&#x003E;는 validation dataset의 confusion matrix를 나타낸 것이고, 쇠백로(Little Egret)를 다른 새로 잘못 판단한 경우가 4가지로 가장 많았다.</p>
	<fig id="f005" orientation="portrait" position="float">
	<label>그림 5.</label>
	<caption>
		<title>ResNet34를 이용한 모델의 confusion matrix</title>
		<p>Figure 5 . Confusion matrix using of ResNet34</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f005.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<p>&#x003C;<xref ref-type="fig" rid="f006">그림 6</xref>&#x003E;은 학습횟수가 25번인 환경에서 세 가지 모델의 learning rate 변화에 따른 가장 높은 정확도를 나타낸 것이다. 모델(ResNet34, ResNet50, AlexNet)마다 1e-04, 1e-04, 1e-03에서 가장 높은 결과를 얻었고, 그 값은 98.4%, 98.5%, 97%이다.</p>
	<fig id="f006" orientation="portrait" position="float">
	<label>그림 6.</label>
	<caption>
		<title>학습횟수가 25번인 모델별 정확도</title>
		<p>Figure 6 . each model accuracy of epochs=25</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f006.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<p>&#x003C;<xref ref-type="fig" rid="f007">그림 7</xref>&#x003E;은 학습횟수가 50번인 환경에서 세 가지 모델의 learning rate 변화에 따른 가장 높은 정확도를 나타낸 것이다. 모델(ResNet34, ResNet50, AlexNet)마다 1e-03, 1e-04, 1e-04에서 가장 높은 결과를 얻었고, 그 값은 99.7%, 99.6%, 97.6%이다.</p>
	<fig id="f007" orientation="portrait" position="float">
	<label>그림 7.</label>
	<caption>
		<title>학습횟수가 50번인 모델별 정확도</title>
		<p>Figure 7 . each model accuracy of epochs=50</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f007.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
	</fig>
	<table-wrap id="t003">
		<label>표 3.</label>
		<caption>
			<title>테스트 결과</title>
			<p>Table 3. Test result</p>
		</caption>
		<table frame="box" rules="all" width="100%">
			<tbody align="center">
<tr><td><bold>Bird</bold> </td>
<td><bold>Accuracy(%)</bold> </td>
</tr>
<tr><td>Bulbul </td>
<td>70 </td>
</tr>
<tr><td>CarrionCrow </td>
<td>100 </td>
</tr>
<tr><td>Chicken </td>
<td>100 </td>
</tr>
<tr><td>ChineseOriole </td>
<td>90 </td>
</tr>
<tr><td>Crane </td>
<td>70 </td>
</tr>
<tr><td>Daurian </td>
<td>80 </td>
</tr>
<tr><td>Dove </td>
<td>100 </td>
</tr>
<tr><td>Eagle </td>
<td>90 </td>
</tr>
<tr><td>Greyheron </td>
<td>90 </td>
</tr>
<tr><td>Lark </td>
<td>90 </td>
</tr>
<tr><td>LittleEgret </td>
<td>90 </td>
</tr>
<tr><td>LittelGrebe </td>
<td>100 </td>
</tr>
<tr><td>Magpie </td>
<td>100 </td>
</tr>
<tr><td>Mallard </td>
<td>100 </td>
</tr>
<tr><td>Mewgull </td>
<td>100 </td>
</tr>
<tr><td>Plover </td>
<td>100 </td>
</tr>
<tr><td>ReedWarbler </td>
<td>100 </td>
</tr>
<tr><td>ScopsOwl </td>
<td>100 </td>
</tr>
<tr><td>Sparrow </td>
<td>100 </td>
</tr>
<tr><td>Swallow </td>
<td>90 </td>
</tr>
<tr><td>Average </td>
<td>93 </td>
</tr>
			</tbody>
		</table>
	</table-wrap>
	<p>정확도가 가장 높은 ResNet34(epochs=50, lr=1e-03)를 production한 후 클래스마다 10번씩 test하였고, &#x003C;<xref ref-type="table" rid="t003">표 3</xref>&#x003E;은 그 결과를 보여준다. 학습횟수가 25번인 환경에서, 기본 learning rate=slice(3e-3)으로 모델을 훈련시켰을 때에 비해 ResNet34는 약 4.8%, ResNet50은 약 3.5%, AlexNet은 약 8.7%의 성능 향상을 보였다. 학습횟수가 50번인 환경에서는 각 2.2%, 1.7%, 7.4%의 향상을 보였다. ResNet이 AlexNet보다 validation loss가 낮고 accuracy는 높았다.</p>
</sec>
<sec id="sec005" sec-type="Conclusion">
	<title>5. 결 론</title>
	<p>본 연구에서는 조류를 분류하기 위해 소리를 스펙트로그램으로 변환하였다. CNN 기반의 ResNet34를 활용한 조류 분류 시스템을 만들고 조류의 정보를 제공할 수 있는 웹앱을 개발하였다. 조류 분류의 높은 정확도를 얻기 위해 학습횟수와 learning rate 값에 따른 세 개의 모델(AlexNet, ResNet34, ResNet50)로 실험했다. 가장 적합한 모델은 ResNet34임을 확인하였고, test에서 평균 93%의 정확도를 얻었다.</p>
	<p>본 연구는 조류의 서식지 식별로 질병 방지 및 지역 환경 변화를 감지하는 수단으로 사용될 수 있고, 생물 다양성 평가와 생태계 모니터링에 활용할 수 있다. 조류 관리체계를 정립하고 더 나아가 멸종 위기종의 보호 및 서식지를 파악하는 기반이 될 수 있다[<xref ref-type="bibr" rid="B015">15</xref>]. 조류 전문가 및 생태학자들과 협업을 통하여 더 훌륭한 모델을 개발하는 것이 필요하다.</p>
</sec>
</body>
<back>
<ref-list>
<title>References</title>
<!--[1] H-J. Kim, W-H. Hur, J-Y. Park, D-W. Kim, Y-S. Choi, S-G. Kang, J-W. Hwang, and J-Y. Lee, A winter waterbird monitoring for AI surveillance (2018), National Institute of Biological Resources, 2018.-->
<ref id="B001">
<label>[1]</label>
<element-citation publication-type="report">
<person-group>
<name><surname>Kim</surname><given-names>H-J.</given-names></name>
<name><surname>Hur</surname><given-names>W-H.</given-names></name>
<name><surname>Park</surname><given-names>J-Y.</given-names></name>
<name><surname>Kim</surname><given-names>D-W.</given-names></name>
<name><surname>Choi</surname><given-names>Y-S.</given-names></name>
<name><surname>Kang</surname><given-names>S-G.</given-names></name>
<name><surname>Hwang</surname><given-names>J-W.</given-names></name>
<name><surname>Lee</surname><given-names>J-Y.</given-names></name>
</person-group>
<year>2018</year>
<source>A winter waterbird monitoring for AI surveillance (2018)</source>
<publisher-name>National Institute of Biological Resources</publisher-name>
</element-citation>
</ref>
<!--[2] J-H Park, K-B Hwang, H-M Park, and Y-K Choi, Application of CNN for fish speies classification, Journal of the Korea Institute of Information and Communication Engineering, Vol. 23, No. 1, pp. 39-46, 2019.-->
<ref id="B002">
<label>[2]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Park</surname><given-names>J-H.</given-names></name>
<name><surname>Hwang</surname><given-names>K-B.</given-names></name>
<name><surname>Park</surname><given-names>H-M.</given-names></name>
<name><surname>Choi</surname><given-names>Y-K.</given-names></name>
</person-group>
<year>2019</year>
<article-title>Application of CNN for fish speies classification</article-title>
<source>Journal of the Korea Institute of Information and Communication Engineering</source>
<volume>23</volume><issue>1</issue>
<fpage>39</fpage><lpage>46</lpage>
<pub-id pub-id-type="doi">10.6109/jkiice.2019.23.1.39</pub-id>
</element-citation>
</ref>
<!--[3] Y. LeCun, and Y. Bengio, Convolutional networks for images, speech, and time series, The handbook of brain theory and neural networks, Vol. 3361, No. 10, pp. 1-14, 1995.-->
<ref id="B003">
<label>[3]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>LeCun</surname><given-names>Y.</given-names></name>
<name><surname>Bengio</surname><given-names>Y.</given-names></name>
</person-group>
<year>1995</year>
<chapter-title>Convolutional networks for images, speech, and time series</chapter-title>
<source>The handbook of brain theory and neural networks</source>
<comment>Vol. 3361, No. 10</comment>
<fpage>1</fpage><lpage>14</lpage>
</element-citation>
</ref>
<!--[4] What is Convolutional Neural Network? MATLAB & Simulink, https://kr.mathworks.com/solutions/deep-learning/convolutional-neural-network.html, Aug. 2019.-->
<ref id="B004">
<label>[4]</label>
<element-citation publication-type="other">
<year>2019</year>
<month>Aug.</month>
<source>What is Convolutional Neural Network?</source>
<comment>MATLAB &#x26; Simulink, <uri>https://kr.mathworks.com/solutions/deep-learning/convolutional-neural-network.html</uri></comment>
</element-citation>
</ref>
<!--[5] Convolutional Neural Network Abstract, http://taewan.kim/post/cnn/, Sep. 2019.-->
<ref id="B005">
<label>[5]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2019</year>
<month>Sep.</month>
<source>Convolutional Neural Network Abstract</source>
<comment><uri>http://taewan.kim/post/cnn/</uri></comment>
</element-citation>
</ref>
<!--[6] Activation functions and it’s types-Which is better?, https://towardsdatascience.com/activation-functions-and-its-types-which-is-better-a9a5310cc8f, Sep. 2019.-->
<ref id="B006">
<label>[6]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2019</year>
<month>Sep.</month>
<source>Activation functions and it’s types-Which is better?</source>
<comment><uri>https://towardsdatascience.com/activation-functions-and-its-types-which-is-better-a9a5310cc8f</uri></comment>
</element-citation>
</ref>
<!--[7] B. J. Son, and K. H. Lee, Crack recognition of sewer with low resolution using convolutional neural network(CNN) method, Journal of the Korean Society for Advanced Composite Structures, Vol. 8, No. 4, pp. 58-65, 2017.-->
<ref id="B007">
<label>[7]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Son</surname><given-names>B. J.</given-names></name>
<name><surname>Lee</surname><given-names>K. H.</given-names></name>
</person-group>
<year>2017</year>
<article-title>Crack recognition of sewer with low resolution using convolutional neural network(CNN) method</article-title>
<source>Journal of the Korean Society for Advanced Composite Structures</source>
<volume>8</volume><issue>4</issue>
<fpage>58</fpage><lpage>65</lpage>
<pub-id pub-id-type="doi">10.11004/KOSACS.2017.8.4.058</pub-id>
</element-citation>
</ref>
<!--[8] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition, In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016.-->
<ref id="B008">
<label>[8]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>He</surname><given-names>K.</given-names></name>
<name><surname>Zhang</surname><given-names>X.</given-names></name>
<name><surname>Ren</surname><given-names>S.</given-names></name>
<name><surname>Sun</surname><given-names>J.</given-names></name>
</person-group>
<year>2016</year>
<article-title>Deep residual learning for image recognition</article-title>
<conf-name>Proceedings of the IEEE conference on computer vision and pattern recognition</conf-name>
<fpage>770</fpage><lpage>778</lpage>
</element-citation>
</ref>
<!--[9] A. Krizhevsky, I. Sutskever, and G-E. Hinton, Imagenet classification with deep convolutional neural networks, In Advances in neural information processing systems, pp. 1097-1105, 2012.-->
<ref id="B009">
<label>[9]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Krizhevsky</surname><given-names>A.</given-names></name>
<name><surname>Sutskever</surname><given-names>I.</given-names></name>
<name><surname>Hinton</surname><given-names>G-E.</given-names></name>
</person-group>
<year>2012</year>
<article-title>Imagenet classification with deep convolutional neural networks</article-title>
<conf-name>Advances in neural information processing systems</conf-name>
<fpage>1097</fpage><lpage>1105</lpage>
</element-citation>
</ref>
<!--[10] [ML] Representative CNN models – AlexNet, VGGNet, GoogLeNet, ResNet, http://blog.naver.com/horajjan/221425497675, Aug. 2019.-->
<ref id="B010">
<label>[10]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2019</year>
<month>Aug.</month>
<source>[ML] Representative CNN models – AlexNet, VGGNet, GoogLeNet, ResNet</source>
<comment><uri>http://blog.naver.com/horajjan/221425497675</uri></comment>
</element-citation>
</ref>
<!--[11] S-H. Kim, S-J. Oh, G-Y. Yoon, Y-G. Jung, and M-S. Kang, Influence on overfitting and reliability due to change in training data, International Journal of Advanced Culture Technology, Vol. 5, No. 2, pp. 82-89, 2017.-->
<ref id="B011">
<label>[11]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Kim</surname><given-names>S-H.</given-names></name>
<name><surname>Oh</surname><given-names>S-J.</given-names></name>
<name><surname>Yoon</surname><given-names>G-Y.</given-names></name>
<name><surname>Jung</surname><given-names>Y-G.</given-names></name>
<name><surname>Kang</surname><given-names>M-S.</given-names></name>
</person-group>
<year>2017</year>
<article-title>Influence on overfitting and reliability due to change in training data</article-title>
<source>International Journal of Advanced Culture Technology</source>
<volume>5</volume><issue>2</issue>
<fpage>82</fpage><lpage>89</lpage>
<pub-id pub-id-type="doi">10.17703/IJACT.2017.5.2.82</pub-id>
</element-citation>
</ref>
<!--[12] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, Dropout: a simple way to prevent neural networks from overfitting, The journal of machine learning research,Vol. 15, No. 1, pp. 1929-1958, 2014.-->
<ref id="B012">
<label>[12]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Srivastava</surname><given-names>N.</given-names></name>
<name><surname>Hinton</surname><given-names>G.</given-names></name>
<name><surname>Krizhevsky</surname><given-names>A.</given-names></name>
<name><surname>Sutskever</surname><given-names>I.</given-names></name>
<name><surname>Salakhutdinov</surname><given-names>R.</given-names></name>
</person-group>
<year>2014</year>
<article-title>Dropout: a simple way to prevent neural networks from overfitting</article-title>
<source>The journal of machine learning research</source>
<volume>15</volume><issue>1</issue>
<fpage>1929</fpage><lpage>1958</lpage>
</element-citation>
</ref>
<!--[13] E. Browning, R. Gibb, P. G-Kapfer, and K. E. Jones, Passive acoustic monitoring in ecology and conservation, WWF-UK, 2017.-->
<ref id="B013">
<label>[13]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Browning</surname><given-names>E.</given-names></name>
<name><surname>Gibb</surname><given-names>R.</given-names></name>
<name><surname>G-Kapfer</surname><given-names>P.</given-names></name>
<name><surname>Jones</surname><given-names>K. E.</given-names></name>
</person-group>
<year>2017</year>
<source>Passive acoustic monitoring in ecology and conservation</source>
<publisher-name>WWF-UK</publisher-name>
</element-citation>
</ref>
<!--[14] basic_train|fastai, https://docs.fast.ai/basic_train.html, Oct, 2019.-->
<ref id="B014">
<label>[14]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2019</year>
<month>Oct.</month>
<source>basic_train|fastai</source>
<comment><uri>https://docs.fast.ai/basic_train.htm</uri></comment>
</element-citation>
</ref>
<!--[15] W-H. Hur, H-J. Kim, J-W. Hwang, J-Y. Lee, S-G. Kang, D-W. Kim, Y-S. Choi, J-Y. Park, and C-Y. Choi, A study of bird population monitoring in different habitats (2018), National Institute of Biological Resources, 2018.-->
<ref id="B015">
<label>[15]</label>
<element-citation publication-type="report">
<person-group>
<name><surname>Hur</surname><given-names>W-H.</given-names></name>
<name><surname>Kim</surname><given-names>H-J.</given-names></name>
<name><surname>Hwang</surname><given-names>J-W.</given-names></name>
<name><surname>Lee</surname><given-names>J-Y.</given-names></name>
<name><surname>Kang</surname><given-names>S-G.</given-names></name>
<name><surname>Kim</surname><given-names>D-W.</given-names></name>
<name><surname>Choi</surname><given-names>Y-S.</given-names></name>
<name><surname>Park</surname><given-names>J-Y.</given-names></name>
<name><surname>Choi</surname><given-names>C-Y.</given-names></name>
</person-group>
<year>2018</year>
<source>A study of bird population monitoring in different habitats (2018)</source>
<publisher-name>National Institute of Biological Resources</publisher-name>
</element-citation>
</ref>
</ref-list>
<bio>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f008.jpg"></graphic><bold>Min-Jeong Kang</bold>r eceived the bachelor’s degree in the Department of Information&#x26;Communication Engineering from the Sunchon National University in 2020. Her current research interests include artificial intelligence, statistics and algorithm.</p>
	<p><italic>E-mail address</italic>: <email>alswjd1122kk@naver.com</email></p>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f009.jpg"></graphic><bold>Young-Seon Kim</bold> received the bachelor’s degree in the Department of Information&#x26;Communication Engineering from the Sunchon National University in 2020. Her current research interests include artificial intelligence and database.</p>
	<p><italic>E-mail address</italic>: <email>sun505505@naver.com</email></p>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f010.jpg"></graphic><bold>Hwa-Yeong Shin</bold> received the bachelor’s degree in the Department of Information&#x26;Communication Engineering from the Sunchon National University in 2020. Her current research interests include artificial intelligence and internet of things.</p>
	<p><italic>E-mail address</italic>: <email>shy970929@naver.com</email></p>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002581766&amp;imageName=jkits_2020_15_02_195_f011.jpg"></graphic><bold>Jangwoo Park</bold> received the B.S., M.S. and Ph.D. degrees in Electronic engineering from Hanyang University, Seoul, Korea in 1987, 1989 and 1993, respectively. In 1995, he joined the faculty member of the Sunchon National University, where he is currently a professor in the Department of Information&#x26;Communication engineering. His research focuses on deep learning and machine learning.</p>
	<p><italic>E-mail address</italic>: <email>jwpark@sunchon.ac.kr</email></p>
</bio>
</back>
</article>
