<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/resources/xsl/jats-html.xsl"?>
<article article-type="research-article" dtd-version="1.1" xml:lang="ko" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
	<journal-meta>
		<journal-id journal-id-type="publisher-id">jkits</journal-id>
		<journal-title-group>
		<journal-title>한국지식정보기술학회 논문지</journal-title>
		<journal-title xml:lang="en">Journal of Knowledge Information Technology and Systems</journal-title>
		</journal-title-group>
		<issn pub-type="ppub">1975-7700</issn>
		<publisher>
		<publisher-name>한국지식정보기술학회</publisher-name>
		<publisher-name xml:lang="en">Korea Knowledge Information Technology Society</publisher-name>
		</publisher>
	</journal-meta>
	<article-meta>
		<article-id pub-id-type="publisher-id">jkits_2020_15_06_973</article-id>
		<article-id pub-id-type="doi">10.34163/jkits.2020.15.6.006</article-id>
		<article-categories>
			<subj-group>
				<subject>Research Article</subject>
			</subj-group>
		</article-categories>
		<title-group>
			<article-title>딥러닝을 이용한 소리 분류 시 방해음의 영향 분석</article-title>
			<trans-title-group xml:lang="en">
				<trans-title>Sound Classification Performance of Deep Neural Networks in the Presence of Disturbing Sounds</trans-title>
			</trans-title-group>
		</title-group>
		<contrib-group>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>오</surname>
						<given-names>원근</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Oh</surname>
						<given-names>Won geun</given-names>
					</name>
				</name-alternatives>
				<xref ref-type="fn" rid="fn001">*</xref>
				<xref ref-type="aff" rid="A1"><sup>1</sup></xref>
			</contrib>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>임</surname>
						<given-names>동균</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Lim</surname>
						<given-names>Dong Kyun</given-names>
					</name>
				</name-alternatives>
				<xref ref-type="aff" rid="A2"><sup>2</sup></xref>
			</contrib>
					</contrib-group>
		<aff-alternatives id="A1">
			<aff><sup>1</sup><italic>순천대학교 멀티미디어공학전공 교수</italic></aff>
			<aff xml:lang="en"><italic>Department of Multimedia Engineering, Sunchon National University</italic></aff>
		</aff-alternatives>
		<aff-alternatives id="A2">
			<aff><sup>2</sup><italic>한양사이버대학교 컴퓨터공학과 교수</italic></aff>
			<aff xml:lang="en"><italic>Department of Computer Science Engineering, HanYang Cyber University</italic></aff>
		</aff-alternatives>
		<author-notes>
			<fn id="fn001"><label>*</label><p>Corresponding author is with the Department of Multimedia Engineering, Sunchon National University, 255 Jungang-ro, Suncheon, Jeollanam-do 57922, KOREA.</p><p><italic>E-mail address</italic>: <email>owg@scnu.ac.kr</email></p></fn>
		</author-notes>
		<pub-date pub-type="ppub">
			<month>12</month>
			<year>2020</year>
		</pub-date>
		<volume>15</volume>
		<issue>6</issue>
		<fpage>973</fpage>
		<lpage>981</lpage>
		<history>
			<date date-type="received">
				<day>27</day>
				<month>11</month>
				<year>2020</year>
			</date>
			<date date-type="rev-recd">
				<day>09</day>
				<month>12</month>
				<year>2020</year>
			</date>
			<date date-type="accepted">
				<day>11</day>
				<month>12</month>
				<year>2020</year>
			</date>
		</history>
		<permissions>
			<copyright-statement>&#x00A9; 2020 KKITS All rights reserved</copyright-statement>
			<copyright-year>2020</copyright-year>
		</permissions>
		<abstract>
		<title>요약</title>
		<p>환경음 분류는 일상 환경에서 흔히 들을 수 있는 소리를 자동으로 인식해서 분류하는 분야이다. 이는 가정, 보안, 감시 등 분야에서 시각이 미치지 못하는 영역의 데이터 처리에 유용하게 사용될 수 있어 점차 관심이 커지고 있으며, 최근에는 CNN과 같은 심층 신경망을 이용하여 인식률을 높이려는 연구가 활발하게 진행되고 있다. 이 방법에서는 먼저 대량의 소리 데이터를 이용하여 심층 신경망을 학습한 후, 학습이 완료된 신경망에 마이크 등으로 소리를 입력하는 방식으로 동작한다. 그런데 응용하는 단계에서 인식하려는 소리와 함께 주변 소음이 판별하려는 소리와 함께 마이크로 입력되며, 이러한 방해음으로 인해 원래 학습했던 소리의 분류 성능이 떨어지게 된다. 이때 방해음의 크기가 커질 수록 심층 신경망의 인식률이 저하될 것으로 예상할 수 있으나, 구체적인 소음의 종류와 크기가 인식률에 미치는 영향에 대한 분석은 찾아보기 힘들다. 본 논문에서는 CNN을 이용하여 환경음 분류 시 방해음으로 인한 인식률 영향을 실험적으로 분석하였다. 사용한 데이터셋은 10종의 도시 환경음으로 구성된 UrbanSound8K이며, 심층 신경망으로는 이미지 분류에서 좋은 성능을 보이고 있는 VGG16 기반의 CNN을 이용하였다. 방해음은 주거 공간의 일상에서 흔히 들을 수 있는 3가지 유형의 소리를 사용하였는데, 생활 소음(헤어드라이어, 청소기, 수돗물, 망치),음성(남자, 여자, 합성음), 음악(첼로, 피아노, 트럼펫) 등으로 구성되어 있다. 실험은 판별하려는 소리와 방해음을 신호대 잡음비가 -50dB ~ 50dB 범위가 되도록 합성한 다음, 이를 학습이 완료된 심층 신경망에 입력하여 방해음이 없을 경우와 비교한 상대적 인식률을 구하였다. 실험 결과 SNR이 10~15dB 구간에서는 방해음이 없을 경우와 비교 시 90% 이상의 상대 인식률을 보였고, SNR이 20dB 이상인 경우는 방해음의 종류와 무관하게 95% 이상의 상대 인식률을 나타내었다.</p>
		</abstract>
		<trans-abstract xml:lang="en">
		<title>ABSTRACT</title>
		<p>Environmental sound classification is an area that automatically classifies sounds in our surroundings. It can be applied to home automation, security, and surveillance. Recently, the deep learning approaches have been adopted as a classifier for increasing performance. In this method, a deep neural network is trained using many sound data, and after the learning is completed, the microphone pickup sound is applied for classification. However, during this stage, the ambient noise can be put into the microphone along with the sound to be identified. And the sound cannot be properly classified due to this disturbing noise. The recognition rate of the deep neural network decreases as the loudness of the disturbing sound increases, but the analysis about the noise effect on the classification have been limited. In this paper, we present the effect of the disturbing noise on the classification rate. For this purpose, UrbanSound8K, which is composed of 10 types of urban environmental sounds, is used for training and test data. And the VGG16-based CNN which shows good performance in image classification was adopted as a baseline model. For the disturbing noise, we use three types of sounds that are consist of daily noises (hairdryer, vacuum cleaner, faucet water, and hammer), voices(male, female, and synthesized sound), and music(cello, piano, and trumpet). In the experiment, these disturbing noises are mixed with the clean sounds so that the signal-to-noise ratio is in the range of -50dB to 50dB. Then the mixed sound was applied to a deep neural network to obtain a relative recognition rate when compared to the clean cases. The results show that the recognition rate is more than 90% compared to the clean sound cases when the SNR is between 10 and 15 dB, and 95% or more when the SNR is greater than 20 dB, regardless of the type of the disturbing sound.</p>
		</trans-abstract>
		<kwd-group kwd-group-type="author" xml:lang="en">
<title>K E Y W O R D S</title>
			<kwd>Environmental sound classification</kwd>
			<kwd>Noise</kwd>
			<kwd>CNN</kwd>
			<kwd>VGG16</kwd>
			<kwd>UrbanSound8K</kwd>
			<kwd>Signal to noise ratio</kwd>
		</kwd-group>
	</article-meta>
</front>
<body>
<sec id="sec001" sec-type="intro">
	<title>1. 서 론</title>
	<p>환경음 분류(environmental sound classification)는 일상의 주변 환경에서 흔히 들을 수 있는 소리를 자동으로 인식하고 분류하는 분야로서, 사물 인터넷, 원격 감시, 홈오토메이션 등에 응용 시 시각이 미치지 못하는 영역의 데이터 처리에 효과적으로 응용될 수 있다. 또한 점차 늘어나는 노년층을 위한 청각 보조 기구 또는 청각 장애인을 위한 주변 상황 알림 등에도 유용하게 사용될 수 있다.</p>
	<p>최근에는 이러한 환경음 분류 시 머신 러닝 기반의 심층 신경망을 이용하여 인간의 청각과 유사한 수준으로 인식률을 높이려는 연구가 활발하게 진행되고 있다[<xref ref-type="bibr" rid="B001">1</xref>-<xref ref-type="bibr" rid="B009">9</xref>]. 이 방법은 먼저 구분하려는 소리 데이터를 이용해서 심층 신경망을 학습한 다음, 학습이 완료된 신경망에 마이크 등으로 실제 소리를 입력하여 어떤 소리인지 구분하는 방식으로 동작한다. 그런데 이를 실제로 응용할 때 인식하려는 소리와 주변의 소리도 함께 입력된다. 예를 들어 가정에서는 청소기나 헤어드라이어와 같은 가전제품 작동음, 사람 목소리, 그리고 음악 소리 등과 같은 주변 소음이 판별하려는 소리와 함께 마이크로 입력되어 인식률에 영향을 준다. 이때 방해 소음의 크기가 커지면 심층 신경망의 인식률이 저하될 것으로 예상할 수 있으나, 소음의 종류와 레벨에 따라 구체적으로 어느 정도 영향을 주는가에 대한 자료는 찾아보기 힘들다.</p>
	<p>본 논문에서는 머신 러닝을 이용하여 환경음 분류 문제를 다룰 때 방해음으로 인한 인식률 영향을 실험적으로 분석하였다. 이를 위해 먼저 UrbanSound8K 데이터셋[<xref ref-type="bibr" rid="B010">10</xref>]을 사용하여 VGG16[<xref ref-type="bibr" rid="B011">11</xref>]을 기반으로 한 심층 신경망을 학습시켰다. UrbanSound8K 데이터셋은 10종의 도시 환경음으로 구성되어 있으며, 다수의 연구에서 데이터셋으로 사용되었다[<xref ref-type="bibr" rid="B006">6</xref>-<xref ref-type="bibr" rid="B009">9</xref>]. VGG16은 이미지 분류에서 좋은 성능을 보이는 16층으로 구성된 CNN으로서, 실험에서는 가중치(weight)를 UrbanSound8K 데이터셋으로 다시 학습시켜 사용하였다.</p>
	<p>방해음은 주거 공간의 일상 생활에서 흔히 들을 수 있는 생활 소음으로 선정하였으며, 가전제품 작동음(헤어드라이어, 청소기, 수돗물 소리), 남/여 목소리, 망치 소리, 음악(첼로, 피아노, 트럼펫)등으로 구성되어 있다. 실험은 먼저 방해음을 판별하려는 소리와 신호대 잡음비가 -50dB ~ 50dB가 되도록 합성한 다음, 이를 학습이 완료된 심층 신경망에 입력하여 방해음이 없을 경우 대비 인식률이 어느정도 저하되는지 실험하였다. 실험 결과 SNR이 10dB~15dB인 경우 방해음이 없을 경우 대비 90% 이상의 인식률을 보였고, SNR이 20dB 이상일 때는 방해음의 종류와 무관하게 95% 이상의 상대 인식률을 나타내었다.</p>
	<p>본 논문의 구성은 2장은 데이터셋과 신경망 구조를 다루고, 3장은 실험 결과 및 분석 그리고 4장은 결론으로 이루어져 있다.</p>
</sec>
<sec id="sec002">
	<title>2. 데이터셋과 신경망 구조</title>
	<sec id="sec002-1">
		<title>2.1 도시 환경음 데이터셋</title>
		<p>본 논문에서 사용한 UrbanSound8K 데이터셋은 도시 일상에서 흔히 들을 수 있는 에어컨 소리, 개 짖는 소리, 자동차 경적 등과 같은 10종류의 소리로 구성되어 있다. 데이터셋의 전체 음원의 수는 총 8732개이며, 각 음원은 4초 이하 길이의 wav형식으로 저장되어 있다. 소리의 종류와 데이터의 수는 &#x003C;<xref ref-type="table" rid="t001">표 1</xref>&#x003E;과 같다.</p>
	</sec>
	<sec id="sec002-2">
		<title>2.2 오디오 데이터 특징 추출</title>
		<p>CNN을 이용해서 오디오를 분류하기 위해서는 먼저 각 음원에서 특징을 추출해야 한다. 오디오의 특징 추출 방법은 여러 가지가 있으나 본 논문에서는 심층 신경망을 이용한 음향 분류 문제에서 타 특징에 비해 높은 인식률을 나타내는[<xref ref-type="bibr" rid="B012">12</xref>, <xref ref-type="bibr" rid="B013">13</xref>] 로그 멜 스펙트로그램(log mel spectrogram)을 사용하였다. 추출 과정은 먼저 각 음원을 46.4ms 단위로 프레임을 구성하고 이를 50%씩 중첩하며 총 174개의 프레임을 생성한 다음, 각 프레임당 128개의 멜밴드 에너지를 계산하여 128×174 크기의 로그 멜 스펙트로그램 데이터를 추출하였다.</p>
		<table-wrap id="t001">
			<label>표 1.</label>
			<caption>
				<title>UrbanSound8K 데이터셋의 소리 종류와 음원의 수</title>
				<p>Table 1. The sound classes and number of audio clips in the UrbanSound8K dataset.</p>
			</caption>
			<table frame="box" rules="all" width="100%">
<tbody align="center">
<tr>
<td><p>classID</p></td>
<td><p>Sound class (Abbreviation)</p></td>
<td><p>Number of clips</p></td>
</tr><tr>
<td><p>0</p></td>
<td><p>air_conditioner (ac)</p></td>
<td><p>1,000</p></td>
</tr><tr>
<td><p>1</p></td>
<td><p>car_horn (ch)</p></td>
<td><p>429</p></td>
</tr><tr>
<td><p>2</p></td>
<td><p>children_playing (cp)</p></td>
<td><p>1,000</p></td>
</tr><tr>
<td><p>3</p></td>
<td><p>dog_bark (db)</p></td>
<td><p>1,000</p></td>
</tr><tr>
<td><p>4</p></td>
<td><p>drilling (dr)</p></td>
<td><p>1,000</p></td>
</tr><tr>
<td><p>5</p></td>
<td><p>engine_idling (en)</p></td>
<td><p>1,000</p></td>
</tr><tr>
<td><p>6</p></td>
<td><p>gun_shot (gs)</p></td>
<td><p>374</p></td>
</tr><tr>
<td><p>7</p></td>
<td><p>jackhammer (jh)</p></td>
<td><p>1,000</p></td>
</tr><tr>
<td><p>8</p></td>
<td><p>siren (si)</p></td>
<td><p>929</p></td>
</tr><tr>
<td><p>9</p></td>
<td><p>street_music (st)</p></td>
<td><p>1,000</p></td>
</tr>
				</tbody>
			</table>
		</table-wrap>
	</sec>
	<sec id="sec002-3">
		<title>2.3 CNN 구조와 학습 방법</title>
		<p>ecognition Challenge (ILSVRC)[<xref ref-type="bibr" rid="B014">14</xref>]에서 우수한 성능을 나타낸 16층으로 구성된 CNN구조의 심층 신경망으로서 이미지 분류 문제에서 자주 사용되는 모델이다. 실험에서는 VGG16의 출력단에 3개층의 relu 활성 함수와 1개층의 softmax 층을 추가하여 UrbanSound8K 데이터셋의 10개 소리를 구분하도록 하였다. 그리고 Keras에서 제공되는 VGG16 모델은 이미지넷의 데이터로 학습한 것이기 때문에 오디오 데이터에 그대로 사용할 수 없으므로 전체 네트워크의 가중치를 UrbanSound8K 데이터로 다시 학습시켰다. 학습 시 오디오의 로그 멜 스펙트럼은 VGG16에 적합한 224 x 224 x 3 크기의 jpg형식으로 변환하여 인가하였고, 학습 파라미터로 미니 배치 크기는 32, 학습률은 0.0001, 최적화 함수는 Adam 알고리즘을 사용하였다. 이때 전체 데이터의 10%는 검증용으로 사용하여 최대 100 에포크 동안 훈련하였으며, 과적합 방지를 위해 검증 정확도가 12 에포크 동안 개선되지 않으면 학습을 조기 종료하였다. 또한 인식 성능을 높이기 위해 20%의 시간축 쉬프트를 적용한 데이터 증강(augmentation)을 사용하였다. 인식률은 UrbanSound8K데이터에서 권장하는 10-겹(10-fold) 교차 검증법을 사용하여 10회 평균 인식률을 구하였다.</p>
	</sec>
</sec>
<sec id="sec003" sec-type="methods">
	<title>3. 실험 절차</title>
	<sec id="sec003-1">
		<title>3.1 방해음 데이터 생성</title>
		<p>방해음으로 사용할 소리는 일상에서 흔히 들을 수 있는 것으로 선택하였으며, 음원의 특성과 종류를 고려하여 다음과 같은 소리를 사용하였다.</p>
<p>　</p>
		<p>&#8226; 생활 소음 : 헤어드라이어, 청소기, 싱크대 물 소리, 망치 소리</p>
		<p>&#8226; 음성 : 남성, 여성, 합성음</p>
		<p>&#8226; 음악 : 첼로, 피아노, 트럼펫</p>
<p>　</p>
		<p>이들 음원에는 해당 소리 이외의 다른 소리는 포함되지 않았으며, 공개 음원 사이트인 freesound.org[<xref ref-type="bibr" rid="B015">15</xref>]에서 얻은 압축되지 않은 wave 포맷의 녹음 데이터(샘플링율 44.1kHz, 양자화 16비트 이상) 또는 고성능 마이크(Rode NTG4+)를 사용하여 직접 녹음한 소리를 사용하였다.</p>
		<p>실험 데이터는 이들 방해음과 UrbanSound8K 음원 각각을 다음 <xref ref-type="disp-formula" rid="d001">식 1</xref>과 같이 특정 SNR이 되도록 합성하여 생성하였다.</p>
<disp-formula id="d001">
	<label>(1)</label>
<mml:math id="m01-1"><mml:mi>S</mml:mi><mml:mi>N</mml:mi><mml:mi>R</mml:mi><mml:mo>=</mml:mo><mml:mn>10</mml:mn><mml:mi>log</mml:mi><mml:mfrac><mml:mrow><mml:mstyle displaystyle="true"><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mi>k</mml:mi></mml:munder></mml:mstyle><mml:msup><mml:mi>s</mml:mi><mml:mn>2</mml:mn></mml:msup><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:mrow><mml:mrow><mml:mstyle displaystyle="true"><mml:munder><mml:mo>&#x2211;</mml:mo><mml:mi>k</mml:mi></mml:munder></mml:mstyle><mml:msup><mml:mi>n</mml:mi><mml:mn>2</mml:mn></mml:msup><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:mrow></mml:mfrac></mml:math>
</disp-formula>
		<p>여기에서 <italic>s</italic>(<italic>k</italic>)는 방해음이 없는 UrbanSound8K 의 소리이고, <italic>n</italic>(<italic>k</italic>)는 방해음이다. SNR은 –50dB ~ 50dB 범위에서 구했으며, 인식률이 급격하게 변하는 -20dB ~ 20dB 구간에서는 5dB간격으로 데이터를 생성하고 그외 구간에서는 10dB ~ 20dB간격으로 실험 음원을 생성하였다. 생성한 데이터는 방해음 15종, SNR 13개로서 총 1,702,740개로 구성된다.</p>
	</sec>
	<sec id="sec003-2">
		<title>3.2 기준 인식률</title>
		<p>먼저 방해음이 없는 UrbanSound8K 데이터를 이용하여 소리를 분류하도록 심층 신경망을 학습시킨 다음 이때의 인식률을 기준 인식률로 사용한다.</p>
		<fig id="f001" orientation="portrait" position="float">
			<label>그림 1.</label>
			<caption>
				<title>방해음이 없을 때 인식률의 혼동 행렬</title>
				<p>Figure 1. The confusion matrix of deep neural network outputs without disturbance noise</p>
			</caption>
			<graphic xlink:href="../ingestImageView?artiId=ART002663683&amp;imageName=jkits_2020_15_06_973_f001.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
		</fig>
		<p>기준 인식률 학습 시 10-fold 평균 인식률은 0.764(76.4%)이고, 각 음원별로는 최대 97%(gun_shot), 최저 53.1% (aircon)의 인식률을 나타내었다. &#x003C;<xref ref-type="fig" rid="f001">그림 1</xref>&#x003E;은 방해음이 없을 때의 혼동 행렬(confusion matrix)을 나타낸 것이다.</p>
	</sec>
</sec>
<sec id="sec004" sec-type="Results">
	<title>4. 실험 결과</title>
	<p>학습이 완료된 심층 신경망에 방해음이 섞인 소리를 입력하여 SNR별 인식률을 방해음이 없을 때와 비교하였다. 전체 결과를 &#x003C;<xref ref-type="table" rid="t002">표 2</xref>&#x003E;에 보였다. 표의 값은 아래 &#x003C;<xref ref-type="disp-formula" rid="d002">식 2</xref>&#x003E;와 같이 방해음이 있을 때의 인식률을 방해음이 없을 때의 학습률인 0.767로 정규화하여 상대적인 인식률을 %로 나타낸 것이다.</p>
<disp-formula id="d002">
	<label>(2)</label>
<mml:math id="m02-1"><mml:mi>Relative</mml:mi><mml:mo>&#xA0;</mml:mo><mml:mi>Accuracy</mml:mi><mml:mfenced><mml:mo>%</mml:mo></mml:mfenced><mml:mo>=</mml:mo><mml:mfrac><mml:mi>Accuracy</mml:mi><mml:mrow><mml:mn>0</mml:mn><mml:mo>.</mml:mo><mml:mn>764</mml:mn></mml:mrow></mml:mfrac><mml:mo>&#xD7;</mml:mo><mml:mn>100</mml:mn></mml:math>
</disp-formula>
	<sec id="sec004-1">
		<title>4.1 생활 소음의 영향</title>
		<p>가정에서 흔히 듣는 소음으로 헤어 드라이어, 진공 청소기, 망치질 소리(0.8초에 1회), 그리고 수돗물 소리를 사용하였다. SNR에 따른 상대 인식률을 &#x003C;<xref ref-type="fig" rid="f002">그림 2</xref>&#x003E;에 나타내었다.</p>
		<fig id="f002" orientation="portrait" position="float">
			<label>그림 2.</label>
			<caption>
				<title>방해음이 생활 소음일 때 상대 인식률</title>
				<p>Figure 2. The relative accuracy of deep neural network in the presence of daily noises</p>
			</caption>
			<graphic xlink:href="../ingestImageView?artiId=ART002663683&amp;imageName=jkits_2020_15_06_973_f002.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
		</fig>
		<table-wrap id="t002">
			<label>표 2.</label>
			<caption>
				<title>방해음 SNR에 따른 상대 인식률(%)</title>
				<p>Table 2. Relative test accuracy(%) in the presence of the disturbing noises</p>
			</caption>
			<table frame="box" rules="all" width="100%">
<tbody align="center">
<tr>
<td><p>　　　＼SNR(dB)</p><p>Noise＼</p></td>
<td><p>-50</p></td>
<td><p>-30</p></td>
<td><p>-20</p></td>
<td><p>-15</p></td>
<td><p>-10</p></td>
<td><p>-5</p></td>
<td><p>0</p></td>
<td><p>5</p></td>
<td><p>10</p></td>
<td><p>15</p></td>
<td><p>20</p></td>
<td><p>30</p></td>
<td><p>50</p></td>
</tr><tr>
<td colspan="14" align="left"><p><bold>Daily noise</bold></p></td>
</tr><tr>
<td align="left"><p>Hairdryer</p></td>
<td><p>15.1</p></td>
<td><p>15.3</p></td>
<td><p>17.1</p></td>
<td><p>21.2</p></td>
<td><p>32.7</p></td>
<td><p>49.2</p></td>
<td><p>66.1</p></td>
<td><p>78.8</p></td>
<td><p>86.9</p></td>
<td><p>92.6</p></td>
<td><p>96.1</p></td>
<td><p>98.9</p></td>
<td><p>100.0</p></td>
</tr><tr>
<td align="left"><p>Vacuum</p></td>
<td><p>15.2</p></td>
<td><p>14.9</p></td>
<td><p>14.3</p></td>
<td><p>14.4</p></td>
<td><p>17.9</p></td>
<td><p>27.1</p></td>
<td><p>44.7</p></td>
<td><p>63.7</p></td>
<td><p>81.6</p></td>
<td><p>91.2</p></td>
<td><p>96.1</p></td>
<td><p>98.4</p></td>
<td><p>100.0</p></td>
</tr><tr>
<td align="left"><p>Hammer</p></td>
<td><p>5.7</p></td>
<td><p>9.3</p></td>
<td><p>16.6</p></td>
<td><p>27.7</p></td>
<td><p>43.9</p></td>
<td><p>59.8</p></td>
<td><p>76.0</p></td>
<td><p>86.8</p></td>
<td><p>93.9</p></td>
<td><p>97.9</p></td>
<td><p>98.9</p></td>
<td><p>99.7</p></td>
<td><p>100.0</p></td>
</tr><tr>
<td align="left"><p>Faucet</p></td>
<td><p>15.9</p></td>
<td><p>15.9</p></td>
<td><p>17.9</p></td>
<td><p>22.2</p></td>
<td><p>34.0</p></td>
<td><p>48.3</p></td>
<td><p>66.3</p></td>
<td><p>82.4</p></td>
<td><p>89.2</p></td>
<td><p>93.1</p></td>
<td><p>95.7</p></td>
<td><p>98.7</p></td>
<td><p>99.9</p></td>
</tr><tr>
<td align="left"><p><bold>Daily noise (Avg.)</bold></p></td>
<td><p><bold>13.0</bold></p></td>
<td><p><bold>13.9</bold></p></td>
<td><p><bold>16.5</bold></p></td>
<td><p><bold>21.4</bold></p></td>
<td><p><bold>32.1</bold></p></td>
<td><p><bold>46.1</bold></p></td>
<td><p><bold>63.3</bold></p></td>
<td><p><bold>77.9</bold></p></td>
<td><p><bold>87.9</bold></p></td>
<td><p><bold>93.7</bold></p></td>
<td><p><bold>96.7</bold></p></td>
<td><p><bold>98.9</bold></p></td>
<td><p><bold>100.0</bold></p></td>
</tr><tr>
<td colspan="14" align="left"><p><bold>Voice</bold></p></td>
</tr><tr>
<td align="left"><p>Voice_male</p></td>
<td><p>15.8</p></td>
<td><p>16.6</p></td>
<td><p>20.3</p></td>
<td><p>25.1</p></td>
<td><p>35.2</p></td>
<td><p>53.6</p></td>
<td><p>71.7</p></td>
<td><p>85.5</p></td>
<td><p>93.7</p></td>
<td><p>97.4</p></td>
<td><p>99.5</p></td>
<td><p>100.2</p></td>
<td><p>100.0</p></td>
</tr><tr>
<td align="left"><p>Voice_male(syn)</p></td>
<td><p>15.4</p></td>
<td><p>16.1</p></td>
<td><p>19.3</p></td>
<td><p>23.2</p></td>
<td><p>32.8</p></td>
<td><p>49.0</p></td>
<td><p>67.1</p></td>
<td><p>81.1</p></td>
<td><p>91.5</p></td>
<td><p>96.4</p></td>
<td><p>98.7</p></td>
<td><p>99.9</p></td>
<td><p>99.9</p></td>
</tr><tr>
<td align="left"><p>Voice_female</p></td>
<td><p>15.4</p></td>
<td><p>15.7</p></td>
<td><p>19.9</p></td>
<td><p>25.7</p></td>
<td><p>32.4</p></td>
<td><p>42.6</p></td>
<td><p>57.0</p></td>
<td><p>72.3</p></td>
<td><p>84.5</p></td>
<td><p>91.9</p></td>
<td><p>96.3</p></td>
<td><p>99.8</p></td>
<td><p>100.1</p></td>
</tr><tr>
<td align="left"><p>Voice_female(syn)</p></td>
<td><p>15.9</p></td>
<td><p>16.6</p></td>
<td><p>21.0</p></td>
<td><p>26.1</p></td>
<td><p>34.1</p></td>
<td><p>46.8</p></td>
<td><p>62.1</p></td>
<td><p>77.5</p></td>
<td><p>88.5</p></td>
<td><p>95.3</p></td>
<td><p>98.7</p></td>
<td><p>100.0</p></td>
<td><p>99.9</p></td>
</tr><tr>
<td align="left"><p><bold>Voice (Avg.)</bold></p></td>
<td><p><bold>15.6</bold></p></td>
<td><p><bold>16.2</bold></p></td>
<td><p><bold>20.1</bold></p></td>
<td><p><bold>25.0</bold></p></td>
<td><p><bold>33.6</bold></p></td>
<td><p><bold>48.0</bold></p></td>
<td><p><bold>64.5</bold></p></td>
<td><p><bold>79.1</bold></p></td>
<td><p><bold>89.5</bold></p></td>
<td><p><bold>95.2</bold></p></td>
<td><p><bold>98.3</bold></p></td>
<td><p><bold>100.0</bold></p></td>
<td><p><bold>100.0</bold></p></td>
</tr><tr>
<td colspan="14" align="left"><p><bold>Instruments</bold></p></td>
</tr><tr>
<td align="left"><p>Cello</p></td>
<td><p>15.4</p></td>
<td><p>16.7</p></td>
<td><p>19.5</p></td>
<td><p>23.7</p></td>
<td><p>31.8</p></td>
<td><p>46.2</p></td>
<td><p>62.8</p></td>
<td><p>79.0</p></td>
<td><p>91.1</p></td>
<td><p>97.0</p></td>
<td><p>98.9</p></td>
<td><p>99.7</p></td>
<td><p>99.9</p></td>
</tr><tr>
<td align="left"><p>Piano</p></td>
<td><p>13.8</p></td>
<td><p>14.8</p></td>
<td><p>16.4</p></td>
<td><p>19.1</p></td>
<td><p>22.9</p></td>
<td><p>30.1</p></td>
<td><p>42.7</p></td>
<td><p>60.3</p></td>
<td><p>78.7</p></td>
<td><p>90.1</p></td>
<td><p>95.7</p></td>
<td><p>99.5</p></td>
<td><p>100.0</p></td>
</tr><tr>
<td align="left"><p>Piano_jazz</p></td>
<td><p>15.6</p></td>
<td><p>15.6</p></td>
<td><p>15.7</p></td>
<td><p>16.1</p></td>
<td><p>18.0</p></td>
<td><p>21.4</p></td>
<td><p>30.4</p></td>
<td><p>51.1</p></td>
<td><p>76.4</p></td>
<td><p>90.5</p></td>
<td><p>95.9</p></td>
<td><p>99.3</p></td>
<td><p>99.9</p></td>
</tr><tr>
<td align="left"><p>Trumpet</p></td>
<td><p>9.7</p></td>
<td><p>12.2</p></td>
<td><p>14.5</p></td>
<td><p>16.6</p></td>
<td><p>20.4</p></td>
<td><p>26.9</p></td>
<td><p>36.3</p></td>
<td><p>49.1</p></td>
<td><p>62.9</p></td>
<td><p>76.5</p></td>
<td><p>86.8</p></td>
<td><p>97.5</p></td>
<td><p>100.0</p></td>
</tr><tr>
<td align="left"><p><bold>Instruments (Avg.)</bold></p></td>
<td><p><bold>13.6</bold></p></td>
<td><p><bold>14.8</bold></p></td>
<td><p><bold>16.5</bold></p></td>
<td><p><bold>18.9</bold></p></td>
<td><p><bold>23.3</bold></p></td>
<td><p><bold>31.2</bold></p></td>
<td><p><bold>43.0</bold></p></td>
<td><p><bold>59.9</bold></p></td>
<td><p><bold>77.3</bold></p></td>
<td><p><bold>88.5</bold></p></td>
<td><p><bold>94.3</bold></p></td>
<td><p><bold>99.0</bold></p></td>
<td><p><bold>99.9</bold></p></td>
</tr><tr>
<td align="left"><p><bold>Total Avg.</bold></p></td>
<td><p><bold>14.1</bold></p></td>
<td><p><bold>15.0</bold></p></td>
<td><p><bold>17.7</bold></p></td>
<td><p><bold>21.8</bold></p></td>
<td><p><bold>29.7</bold></p></td>
<td><p><bold>41.7</bold></p></td>
<td><p><bold>56.9</bold></p></td>
<td><p><bold>72.3</bold></p></td>
<td><p><bold>84.9</bold></p></td>
<td><p><bold>92.5</bold></p></td>
<td><p><bold>96.4</bold></p></td>
<td><p><bold>99.3</bold></p></td>
<td><p><bold>100.0</bold></p></td>
</tr>
				</tbody>
			</table>
		</table-wrap>
		<p>인식률에 가장 영향이 적은 것은 망치 소리였으며, 물소리와 헤어드라이어는 비슷하며 진공 청소기 소리는 상대적으로 가장 높은 방해 요인으로 나타났다.</p>
		<p>인간이 청감적으로 2배 크기로 인식되는 SNR 10dB에서 생활 소음의 상대 인식률 평균은 87.9% 였으며, 가장 높은 인식률을 보인 망치 소리와 가장 낮은 청소기 소리의 차이는 12.3%로 방해음의 종류에 따라 인식률 차이가 크다는 것을 알 수 있다. 방해음이 없는 경우와 거의 동등한 성능을 내기 위해서는 4종의 방해음 모두 SNR이 30dB 이상이 되어야 하며, 이때 기준 대비 98% 이상의 인식률을 나타내었다.</p>
	</sec>
	<sec id="sec004-2">
		<title>4.2 음성의 영향</title>
		<p>방해음이 음성일 때의 인식률 영향을 실험하기 위해 남성, 여성, 남성 기계 합성음, 여성 기계 합성음으로 동일한 문장을 녹음하여 실험하였다. &#x003C;<xref ref-type="fig" rid="f003">그림 3</xref>&#x003E;은 음성 방해음의 상대 인식률 결과를 나타낸 것이다. 가장 영향이 적은 것은 남성 음성이었고 다음으로 남성 합성음, 여성 음성, 그리고 여성 합성음 순으로 나타났다.</p>
		<p>SNR=10dB 일 때 상대 인식률은 평균 89.5%로 생활 소음에 비해 방해 정도가 덜한 것으로 나타났으며, 최대 상대 인식률과 최소 상대 인식률 간의 편차가 9.2%로 생활 소음보다 낮게 나타났다. 또한 남성 음성이 여성 음성보다 방해 정도가 낮게 나타났다. 예를 들어 SNR=10dB에서 남성 음성과 여성 음성의 상대 인식률 평균은 각각 92.6%와 86.5%로 남성 음성이 약 6.1% 더 높았다.</p>
	</sec>
	<sec id="sec004-3">
		<title>4.3 악기음에 의한 영향</title>
		<fig id="f003" orientation="portrait" position="float">
			<label>그림 3.</label>
			<caption>
				<title>방해음이 음성일 때 상대 인식률</title>
				<p>Figure 3. The relative accuracy of deep neural network in the presence of voices</p>
			</caption>
			<graphic xlink:href="../ingestImageView?artiId=ART002663683&amp;imageName=jkits_2020_15_06_973_f003.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
		</fig>
		<p>악기음을 평가하기 위해서 현악기(첼로), 관악기(트럼펫), 그리고 건반악기(피아노) 3종의 악기에 대해 각각 멜로디 연주와 음계 연주일 때에 대해 실험하였다. &#x003C;<xref ref-type="fig" rid="f004">그림 4</xref>&#x003E;는 그 결과를 나타낸 것이다. 악기음 중 가장 영향이 가장 낮은 것은 첼로 였고 다음으로 피아노, 트럼펫 순으로 나타났다.</p>
		<fig id="f004" orientation="portrait" position="float">
			<label>그림 4.</label>
			<caption>
				<title>방해음이 악기음일 때 상대 인식률</title>
				<p>Figure 4. The relative accuracy of deep neural network in the presence of musical instrument sound</p>
			</caption>
			<graphic xlink:href="../ingestImageView?artiId=ART002663683&amp;imageName=jkits_2020_15_06_973_f004.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
		</fig>
		<p>피아노는 음악의 종류에 따라 SNR 5dB 이하에서 차이를 보였지만 SNR이 10dB 이상인 경우에는 거의 동일한 인식률을 보였다. 10dB에서 평균 상대 인식률은 77.3% 였으며, 최대 인식률과 최저 인식률의 차이는 29%(첼로 91.9%, 트럼펫의 62.9%)의 차이를 보여 세 가지 방해음 유형 중에서 가장 큰 편차를 나타냈다. 이는 어느 정도 스펙트럼이 제한된 생활 소음이나 음성과는 달리 악기 종류에 따라 스펙트럼 대역이 차이가 나기 때문이며, 고음을 내는 악기가 방해의 정도가 큰 경향을 나타냈다.</p>
	</sec>
	<sec id="sec004-4">
		<title>4.4 방해음 유형별 영향</title>
		<p>&#x003C;<xref ref-type="fig" rid="f005">그림 5</xref>&#x003E;는 SNR에 따른 각 방해음 유형별 상대 인식률 평균을 나타낸 것이다. 소음 유형(일상 소음, 음성, 악기음)별로 방해 정도는 음성이 평균적으로 가장 낮았고, 다음으로 생활 소음, 악기의 순서였다. 음성과 생활 소음의 차이는 대략 1~2% 정도로 그렇게 크지 않았으나, 악기음은 악기 종류에 따라 일상 소음 대비 최대 20%까지도 차이가 나는 경우가 있어서 악기 종류에 따라 방해의 정도가 크게 달라지는 것을 알 수 있다.</p>
		<fig id="f005" orientation="portrait" position="float">
			<label>그림 5.</label>
			<caption>
				<title>방해음 유형별 상대 인식률</title>
				<p>Figure 5. The relative accuracy of deep neural network according to the disturbance type</p>
			</caption>
			<graphic xlink:href="../ingestImageView?artiId=ART002663683&amp;imageName=jkits_2020_15_06_973_f005.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
		</fig>
		<p>&#x003C;<xref ref-type="table" rid="t003">표 3</xref>&#x003E;은 방해음 없을 때 대비 90% 인식률과 95% 인식률을 얻을 수 있는 SNR값을 유형별로 나타낸 것이다. 일상 소음이나 음성만 존재하는 경우에는 SNR이 11.8dB 이상이면 무소음 대비 90%의 상대 인식률을 얻을 수 있으며, 17.2dB 이상이면 95%의 상대 인식률이 얻어진다. 그러나 악기음이 존재하는 경우는 90%의 상대 인식률을 얻기 위해서는 16.3dB, 95%의 상대 인식률을 얻기 위해서는 21.5dB의 SNR이 필요함을 알 수 있다.</p>
		<table-wrap id="t003">
			<label>표 3.</label>
			<caption>
				<title>90%와 95% 상대 인식률에 필요한 SNR</title>
				<p>Table 3. The SNR for 90% and 95% relative accuracy</p>
			</caption>
			<table frame="box" rules="all" width="100%">
<tbody align="center">
<tr>
<td><p>　　　＼Rel. Accu.</p><p>Noise＼</p></td>
<td><p>90%</p></td>
<td><p>95%</p></td>
</tr><tr>
<td><p>Daily noise</p></td>
<td><p>11.8 dB</p></td>
<td><p>17.2 dB</p></td>
</tr><tr>
<td><p>Voice</p></td>
<td><p>10.5 dB</p></td>
<td><p>14.8 dB</p></td>
</tr><tr>
<td><p>Instrument</p></td>
<td><p>16.3 dB</p></td>
<td><p>21.5 dB</p></td>
</tr><tr>
<td><p>Total</p></td>
<td><p>13.3 dB</p></td>
<td><p>18.2 dB</p></td>
</tr>
				</tbody>
			</table>
		</table-wrap>
	</sec>
</sec>
<sec id="sec005" sec-type="Conclusion">
	<title>5. 논의 및 결론</title>
	<p>본 논문에서는 도시 환경음을 인식하도록 학습된 심층 신경망을 실제로 응용하는 경우 주변 소음으로 인해 인식률이 저하되는 정도를 여러 유형의 방해음에 대해 분석하였다. 실험 결과 동일한 SNR인 경우에 음성이 가장 낮은 방해 요인이었으며, 다음으로 생활 소음, 악기음 순이었다. 음성과 생활 소음은 종류에 따라 큰 차이가 없었다. 그러나 악기음은 악기의 종류에 따라 인식률에 많은 차이가 발생하였으며, 첼로와 같은 저음 악기보다 트럼펫과 같은 고음 악기가 인식률에 더 많은 영향을 주었다. 음성의 경우 남성 음성보다 여성 음성으로 인한 방해 정도가 약간 더 높게 나타났다. 대체적으로 저음역대 보다는 중고 음역대의 방해음이 인식률을 낮추는데 더 많은 영향을 주는 경향이 있었다.</p>
	<p>이상의 연구 결과로 어떤 소리가 환경음 인식 시 더 큰 방해 요인으로 작용하는지에 대해 알 수 있으며, 이를 방해음 크기와 인식률에 대한 가이드라인으로 사용할 수 있을 것이다. 그러나 본 연구는 특정 구조의 심층 신경망을 이용해서 제한된 종류의 방해음을 이용하여 인식률을 평가한 것으로 일반화에는 한계가 있으므로, 보다 일반적인 결과를 도출하기 위해 순환 신경망과 같은 또 다른 구조의 심층 신경망과 다른 종류의 데이터셋, 그리고 보다 다양한 방해음을 이용한 실험을 수행할 예정이다.</p>
</sec>
</body>
<back>
<ref-list>
<title>References</title>
<!--[1] S. Abdoli, P. Cardinal, and A. L. Koerich, End-to-end environmental sound classification using a 1D convolutional neural network, Expert Systems with Applications, Vol. 136, pp. 252-263, 2019.-->
<ref id="B001">
<label>[1]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Abdoli</surname><given-names>S.</given-names></name>
<name><surname>Cardinal</surname><given-names>P.</given-names></name>
<name><surname>Koerich</surname><given-names>A. L.</given-names></name>
</person-group>
<year>2019</year>
<article-title>End-to-end environmental sound classification using a 1D convolutional neural network</article-title>
<source>Expert Systems with Applications</source>
<volume>136</volume>
<fpage>252</fpage><lpage>263</lpage>
<pub-id pub-id-type="doi">10.1016/j.eswa.2019.06.040</pub-id>
</element-citation>
</ref>
<!--[2] B. Zhu, C. Wang, F. Liu, J. Lei, Z. Huang, Y. Peng, and F. Li, Learning environmental sounds with multi-scale convolutional neural network, Proceedings of the International Joint Conference on Neural Networks, pp. 1-8, 2018.-->
<ref id="B002">
<label>[2]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Zhu</surname><given-names>B.</given-names></name>
<name><surname>Wang</surname><given-names>C.</given-names></name>
<name><surname>Liu</surname><given-names>F.</given-names></name>
<name><surname>Lei</surname><given-names>J.</given-names></name>
<name><surname>Huang</surname><given-names>Z.</given-names></name>
<name><surname>Peng</surname><given-names>Y.</given-names></name>
<name><surname>Li</surname><given-names>F.</given-names></name>
</person-group>
<year>2018</year>
<article-title>Learning environmental sounds with multi-scale convolutional neural network</article-title>
<conf-name>Proceedings of the International Joint Conference on Neural Networks</conf-name>
<fpage>1</fpage><lpage>8</lpage>
<pub-id pub-id-type="doi">10.1109/IJCNN.2018.8489641</pub-id>
</element-citation>
</ref>
<!--[3] V. Boddapati, A. Petef, J. Rasmusson, and L. Lundberg, Classifying environmental sounds using image recognition networks, Procedia Computer Science, Vol. 112, pp. 2048-2056, 2017.-->
<ref id="B003">
<label>[3]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Boddapati</surname><given-names>V.</given-names></name>
<name><surname>Petef</surname><given-names>A.</given-names></name>
<name><surname>Rasmusson</surname><given-names>J.</given-names></name>
<name><surname>Lundberg</surname><given-names>L.</given-names></name>
</person-group>
<year>2017</year>
<article-title>Classifying environmental sounds using image recognition networks</article-title>
<source>Procedia Computer Science</source>
<volume>112</volume>
<fpage>2048</fpage><lpage>2056</lpage>
<pub-id pub-id-type="doi">10.1016/j.procs.2017.08.250</pub-id>
</element-citation>
</ref>
<!--[4] Y. Tokozume and T. Harada, Learning environmental sounds with end-to-end convolutional neural network, 2017 IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 2721-2725, 2017.-->
<ref id="B004">
<label>[4]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Tokozume</surname><given-names>Y.</given-names></name>
<name><surname>Harada</surname><given-names>T.</given-names></name>
</person-group>
<year>2017</year>
<article-title>Learning environmental sounds with end-to-end convolutional neural network</article-title>
<conf-name>2017 IEEE International Conference on Acoustics, Speech, and Signal Processing</conf-name>
<fpage>2721</fpage><lpage>2725</lpage>
<pub-id pub-id-type="doi">10.1109/ICASSP.2017.7952651</pub-id>
</element-citation>
</ref>
<!--[5] D. Chong, Y. Zou, and W. Wang, Multi-channel convolutional neural networks with multi-level feature fusion for environmental sound classification, Lecture Notes in Computer Science, pp. 157-168, 2019.-->
<ref id="B005">
<label>[5]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Chong</surname><given-names>D.</given-names></name>
<name><surname>Zou</surname><given-names>Y.</given-names></name>
<name><surname>Wang</surname><given-names>W.</given-names></name>
</person-group>
<year>2019</year>
<article-title>Multi-channel convolutional neural networks with multi-level feature fusion for environmental sound classification</article-title>
<source>Lecture Notes in Computer Science</source>
<fpage>157</fpage><lpage>168</lpage>
<pub-id pub-id-type="doi">10.1007/978-3-030-05716-9_13</pub-id>
</element-citation>
</ref>
<!--[6] K. J. Piczak, Environmental sound classification with convolutional neural networks, Proceeding of IEEE 25th International Workshop on Machine Learning for Signal Processing, pp. 1-6, 2015.-->
<ref id="B006">
<label>[6]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Piczak</surname><given-names>K. J.</given-names></name>
</person-group>
<year>2015</year>
<article-title>Environmental sound classification with convolutional neural networks</article-title>
<conf-name>Proceeding of IEEE 25th International Workshop on Machine Learning for Signal Processing</conf-name>
<fpage>1</fpage><lpage>6</lpage>
<pub-id pub-id-type="doi">10.1109/MLSP.2015.7324337</pub-id>
</element-citation>
</ref>
<!--[7] Y. Su, K. Zhang, J. Wang, and K. Madani, Environment sound classification using a two-stream CNN based on decision-level fusion, Sensors, Vol. 19, pp. 1733-1747, 2019.-->
<ref id="B007">
<label>[7]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Su</surname><given-names>Y.</given-names></name>
<name><surname>Zhang</surname><given-names>K.</given-names></name>
<name><surname>Wang</surname><given-names>J.</given-names></name>
<name><surname>Madani</surname><given-names>K.</given-names></name>
</person-group>
<year>2019</year>
<article-title>Environment sound classification using a two-stream CNN based on decision-level fusion</article-title>
<source>Sensors</source>
<volume>19</volume>
<fpage>1733</fpage><lpage>1747</lpage>
<pub-id pub-id-type="doi">10.3390/s19071733</pub-id>
</element-citation>
</ref>
<!--[8] S-M. Suh, Effective implementation for fast deep learning algorithm, Journal of Knowledge Information Technology and Systems, Vol. 14, No. 5, pp. 553-561, 2019-->
<ref id="B008">
<label>[8]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Suh</surname><given-names>S-M.</given-names></name>
</person-group>
<year>2019</year>
<article-title>Effective implementation for fast deep learning algorithm</article-title>
<source>Journal of Knowledge Information Technology and Systems</source>
<volume>14</volume><issue>5</issue>
<fpage>553</fpage><lpage>561</lpage>
<pub-id pub-id-type="doi">10.34163/jkits.2019.14.5.012</pub-id>
</element-citation>
</ref>
<!--[9] M-J. Kang, Y-S. Kim, H-Y. Shin, J. Park, Development of the deep learning system for bird classification using birdsong, Journal of Knowledge Information Technology and Systems, Vol. 15, No. 2, pp. 195-203, 2020-->
<ref id="B009">
<label>[9]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Kang</surname><given-names>M-J.</given-names></name>
<name><surname>Kim</surname><given-names>Y-S.</given-names></name>
<name><surname>Shin</surname><given-names>H-Y.</given-names></name>
<name><surname>Park</surname><given-names>J.</given-names></name>
</person-group>
<year>2020</year>
<article-title>Development of the deep learning system for bird classification using birdsong</article-title>
<source>Journal of Knowledge Information Technology and Systems</source>
<volume>15</volume><issue>2</issue>
<fpage>195</fpage><lpage>203</lpage>
<pub-id pub-id-type="doi">10.34163/jkits.2020.15.2.005</pub-id>
</element-citation>
</ref>
<!--[10] J. Salamon, C. Jacoby, and J. P. Bello, A dataset and taxonomy for urban sound research, Proceedings of the 22nd ACM International Conference on Multimedia, pp. 1041-1044, 2014.-->
<ref id="B010">
<label>[10]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Salamon</surname><given-names>J.</given-names></name>
<name><surname>Jacoby</surname><given-names>C.</given-names></name>
<name><surname>Bello</surname><given-names>J. P.</given-names></name>
</person-group>
<year>2014</year>
<article-title>A dataset and taxonomy for urban sound research</article-title>
<conf-name>Proceedings of the 22nd ACM International Conference on Multimedia</conf-name>
<fpage>1041</fpage><lpage>1044</lpage>
<pub-id pub-id-type="doi">10.1145/2647868.2655045</pub-id>
</element-citation>
</ref>
<!--[11] K. Simonyan and A. Zisseman, Very deep convolutional networks for large-scale image recognition, arXiv preprint arXiv:1409.1556, 2015.-->
<ref id="B011">
<label>[11]</label>
<element-citation publication-type="other">
<person-group>
<name><surname>Simonyan</surname><given-names>K.</given-names></name>
<name><surname>Zisseman</surname><given-names>A.</given-names></name>
</person-group>
<year>2015</year>
<source>Very deep convolutional networks for large-scale image recognition</source>
<comment>arXiv preprint arXiv:1409.1556</comment>
</element-citation>
</ref>
<!--[12] W. Oh, Audio classification performance of CNN according to audio feature extraction methods, Proceedings of Acoustical Society of Korea, p. 64, 2019.-->
<ref id="B012">
<label>[12]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Oh</surname><given-names>W.</given-names></name>
</person-group>
<year>2019</year>
<article-title>Audio classification performance of CNN according to audio feature extraction methods</article-title>
<conf-name>Proceedings of Acoustical Society of Korea</conf-name>
<fpage>64</fpage>
</element-citation>
</ref>
<!--[13] W. Oh, Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods, The Journal of the Acoustical Society of Korea. Vol. 39, No. 3, pp. 143-149, 2020.-->
<ref id="B013">
<label>[13]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Oh</surname><given-names>W.</given-names></name>
</person-group>
<year>2020</year>
<article-title>Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods</article-title>
<source>The Journal of the Acoustical Society of Korea</source>
<volume>39</volume><issue>3</issue>
<fpage>143</fpage><lpage>149</lpage>
<pub-id pub-id-type="doi">10.7776/ASK.2020.39.3.143</pub-id>
</element-citation>
</ref>
<!--[14] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. F.-Fei, ImageNet large scale visual recognition challenge, International Journal of Computer Vision, Vol. 115, pp. 211-252, 2015.-->
<ref id="B014">
<label>[14]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Russakovsky</surname><given-names>O.</given-names></name>
<name><surname>Deng</surname><given-names>J.</given-names></name>
<name><surname>Su</surname><given-names>H.</given-names></name>
<name><surname>Krause</surname><given-names>J.</given-names></name>
<name><surname>Satheesh</surname><given-names>S.</given-names></name>
<name><surname>Ma</surname><given-names>S.</given-names></name>
<name><surname>Huang</surname><given-names>Z.</given-names></name>
<name><surname>Karpathy</surname><given-names>A.</given-names></name>
<name><surname>Khosla</surname><given-names>A.</given-names></name>
<name><surname>Bernstein</surname><given-names>M.</given-names></name>
<name><surname>Berg</surname><given-names>A. C.</given-names></name>
<name><surname>F.-Fei</surname><given-names>L.</given-names></name>
</person-group>
<year>2015</year>
<article-title>ImageNet large scale visual recognition challenge</article-title>
<source>International Journal of Computer Vision</source>
<volume>115</volume>
<fpage>211</fpage><lpage>252</lpage>
</element-citation>
</ref>
<!--[15] Freesound, https://freesound.org/, Oct. 2020.-->
<ref id="B015">
<label>[15]</label>
<element-citation publication-type="webpage" publication-format="web">
<year>2020</year>
<month>Oct.</month>
<source>Freesound</source>
<comment><uri>https://freesound.org/</uri></comment>
</element-citation>
</ref>
</ref-list>
<ack>
<title>감사의 글</title>
<p>이 논문은 2018년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. NRF-2018R1D1A1B07050790)</p>
</ack>
<bio>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002663683&amp;imageName=jkits_2020_15_06_973_f006.jpg"></graphic><bold>Won geun Oh</bold> received the B.S., M.S., and Ph.D. degrees in Electronic Communication Engineering from Hanyang University in 1989, 1992, and 1997, respectively. In 1997, he joined the faculty member of Sunchon National University, where he is currently a professor in Department of Multimedia Engineering. His current research interests include sound systems, machine learning, and audio signal processing.</p>
	<p><italic>E-mail address</italic>: <email>owg@scnu.ac.kr</email></p>
	<p><graphic xlink:href="../ingestImageView?artiId=ART002663683&amp;imageName=jkits_2020_15_06_973_f007.jpg"></graphic><bold>Dong Kyun Lim</bold> received the bachelor’s degree in the Department of Electronic Communication Engineering from Hanyang University in 1985. He received the M.S. degree and the Ph.D. degree in the Department of Electronic Communication Engineering from Hanyang University in 1987 and 2001, respectively. He was a professor in the Department of Computer Science Engineering at ChungCheng University from 1990 to 2003. He has been a professor in the Department of Computer Science Engineering at HanYang Cyber University since 2003. His current research interests include artificial intelligence, cyber education, microprocessor. He is a life member of the KKITS.</p>
	<p><italic>E-mail address</italic>: <email>eiger07@hycu.ac.kr</email></p>
</bio>
</back>
</article>
