<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/resources/xsl/jats-html.xsl"?>
<article article-type="research-article" dtd-version="1.1" xml:lang="ko" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
	<journal-meta>
		<journal-id journal-id-type="publisher-id">jkits</journal-id>
		<journal-title-group>
		<journal-title>한국지식정보기술학회 논문지</journal-title>
		<journal-title xml:lang="en">Journal of Knowledge Information Technology and Systems</journal-title>
		</journal-title-group>
		<issn pub-type="ppub">1975-7700</issn>
		<publisher>
		<publisher-name>한국지식정보기술학회</publisher-name>
		<publisher-name xml:lang="en">Korea Knowledge Information Technology Society</publisher-name>
		</publisher>
	</journal-meta>
	<article-meta>
		<article-id pub-id-type="publisher-id">jkits_2019_14_01_53</article-id>
		<article-id pub-id-type="doi">10.34163/jkits.2019.14.1.006</article-id>
		<article-categories>
			<subj-group>
				<subject>Research Article</subject>
			</subj-group>
		</article-categories>
		<title-group>
			<article-title>잔차신호를 활용한 초다채널 오디오 부호화기의 음질개선에 관한 연구</article-title>
			<trans-title-group xml:lang="en">
				<trans-title>A Study on Quality Improvement of Ultra Multi-channel Audio Coding using Residual Signal</trans-title>
			</trans-title-group>
		</title-group>
		<contrib-group>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>김</surname><given-names>광기</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Kim</surname><given-names>Kwangki</given-names>
					</name>
					</name-alternatives>
				<xref ref-type="aff" rid="A1"><sup>1</sup></xref>
						<xref ref-type="fn" rid="fn001"><sup>*</sup></xref>
			</contrib>
		</contrib-group>
		<aff-alternatives id="A1">
			<aff><italic>나사렛대학교 IT융합학부 교수</italic></aff>
			<aff xml:lang="en"><italic>School of IT Convergence, Korea Nazarene University</italic></aff>
		</aff-alternatives>
			<author-notes>
			<fn id="fn001"><label>*</label><p>Corresponding author is with School of IT Convergence, Korea Nazarene University, 48 Wolbong-ro Seobuk-gu Cheonan-si Chungcheongnam-do, 31172, S.KOREA.</p><p><italic>E-mail address</italic>: <email>k2kim@kornu.ac.kr</email></p></fn>
		</author-notes>
		<pub-date pub-type="ppub">
			<month>2</month>
			<year>2019</year>
		</pub-date>
		<volume>14</volume>
		<issue>1</issue>
		<fpage>53</fpage>
		<lpage>62</lpage>
		<history>
			<date date-type="received">
				<day>6</day>
				<month>12</month>
				<year>2018</year>
			</date>
			<date date-type="rev-recd">
				<day>3</day>
				<month>1</month>
				<year>2019</year>
			</date>
			<date date-type="accepted">
				<day>8</day>
				<month>2</month>
				<year>2019</year>
			</date>
		</history>
		<permissions>
			<copyright-statement>&#x00A9; 2019 KKITS All rights reserved</copyright-statement>
			<copyright-year>2019</copyright-year>
		</permissions>
		<abstract>
			<title>요약</title>
			<p>재생공간 분할 기반의 초다채널 오디오 부호화기는 재생공간을 5개 공간으로 나눠 각 공간별로 부호화한 후, 생성된 다운믹스 신호를 5.1 채널 오디오 부호화기를 이용하여 부호화하기 때문에 하나 또는 두 개의 부호화기만 필요하여 비트율과 복잡도가 매우 낮아 유/무선 네트워크 및 통신환경과 모바일 환경에서 실감음향 서비스를 가능하게 한다. 그러나, 재생공간 분할 기반의 초다채널 오디오 부호화기는 다운믹스 신호와 28개의 서브밴드에서 추출된 파워비 파라미터만으로 초다채널 신호를 복원하기 때문에 음질의 열화를 피할 수 없다. 초다채널 오디오 부호화기의 음질열화 문제를 해결하기 위해 원 신호와 복원된 신호 사이의 차이를 보정해주는 잔차신호를 이용하여 복원된 신호의 음질을 개선하는 방법을 제안한다. 제안된 방법에 따라 기존의 재생공간별 부호화 모듈은 잔차신호를 추출하고 이를 이용하여 복원하는 과정이 추가되며, 2채널 입력에 대해 하나의 잔차신호가 추출되도록 전체적인 부호화 구조가 변경된다. 검증을 위해 구현된 잔차신호 기반의 초다채널 오디오 부호화기를 이용하여 10.2 채널 오디오 콘텐츠에 대해 부호화를 수행하였으며, 비트율 측정과 음질평가를 수행하였다. 실험결과로부터 비트율은 기존의 부호화기에 비해 약 44% 증가하였으나 음질이 크게 개선되어 제안된 방법의 유효성을 확인할 수 있었다.</p>
		</abstract>
		<trans-abstract xml:lang="en">
			<title>ABSTRACT</title>
			<p>The conventional ultra multi-channel audio coding (UMAC) based on playback space segmentation divides the playback space into five spaces and separately encodes input signals for each space using the encoding module for each space. Generated 5 down-mix signals for each space are encoded using a 5.1 channel audio coder. Therefore, the UMAC requires only one or two coders, so that the bit rate and complexity are very low, enabling realistic sound service in wired/wireless network, communication, and mobile environments. However, since the UMAC restores the ultra multi-channel signal using only the down-mix signal and the power ratio parameters extracted from the 28 sub-bands, deterioration of the sound quality can not be avoided. In this paper, we propose an enhanced UMAC (E-UMAC) to improve the quality of reconstructed signal by using residual signal which compensates the difference between original signal and reconstructed signal to solve the problem of sound quality deterioration of the UMAC. According to the proposed method, a coding module for each playback space is changed to extract a residual signal and add a process of restoring the input signals using the residual signal. Moreover, the overall coding structure is changed so that one residual signal is extracted for the 2-channel input. For the verification, we coded 10.2 channel audio contents using the implemented E-UMAC and performed the bit-rate measurement and the sound quality evaluation. The effectiveness of the proposed E-UMAC was validated from experimental results that the bit-rate is increased by about 44% compared with the UMAC but the sound quality of the reconstructed signal is greatly improved.</p>
		</trans-abstract>
		<kwd-group kwd-group-type="author" xml:lang="en">
			<kwd>Realistic audio service</kwd>
			<kwd>Ultra multi-channel audio signals</kwd>
			<kwd>Ultra multi-channel audio coding</kwd>
			<kwd>Down-mixing</kwd>
			<kwd>Spatial parameter</kwd>
			<kwd>Residual signal</kwd>
		</kwd-group>
	</article-meta>
</front>
<body>
<sec id="sec001" sec-type="intro">
	<title>1. 서 론</title>
<p>디지털 기술 및 통신 기술의 발달로 방송, 영화, 인터넷 및 개인 미디어 등 다양한 분야에서 오디오 및 비디오 위주의 멀티미디어 콘텐츠의 보급이 급속히 확대되고 있다. 또한, 3DTV와 3D 영화의 보편화와 지상파 UHDTV (Ultra High Definition TV) 방송이 개시됨에 따라 사실감과 현장감을 전달하는 실감미디어에 대한 요구가 커지고 있다 <xref ref-type="bibr" rid="B001">[1]</xref>. 이러한 실감미디어는 기존의 일반적인 멀티미디어 콘텐츠에 비해 데이터양이 매우 크기 때문에 유/무선 네트워크나 통신환경에서 실감미디어를 전송하기 위한 비디오 및 오디오 부호화에 대한 연구가 활발히 진행 중이다 <xref ref-type="bibr" rid="B002">[2]</xref><xref ref-type="bibr" rid="B003">[3]</xref>. 본 논문에서는 유/무선 네트워크나 통신 환경에서 초다채널 오디오 신호에 의한 실감음향 서비스를 위한 부호화 기술을 다루며, 낮은 비트율과 복잡도를 고려하여 개발된 기존의 초다채널 오디오 부호화기<xref ref-type="bibr" rid="B004">[4]</xref>의 음질 측면에서의 성능 개선을 위한 방법을 제안한다.</p>
<p>부호화를 거치지 않은 10.2 채널 이상의 초다채널 오디오 신호는 채널 수에 따라 데이터 양이 매우 크게 증가하므로 네트워크나 통신환경을 통해 전송되어 서비스 되는데 많은 제약이 있다. 이를 해결하기 위하여 초다채널 오디오 신호의 부호화에 대한 연구가 진행 중이며, MPEG (Moving Picuture Experts Group) 오디오 서브그룹에서는 모노/스테레오 음성/오디오 통합 부호화기인 MPEG-D USAC (Unified Speech and Audio Coding)<xref ref-type="bibr" rid="B005">[5]</xref> 을 조합하여 초다채널 오디오 신호를 부호화하는 MPEG-H 3D Audio 표준을 개발하였다 <xref ref-type="bibr" rid="B006">[6]</xref>. MPEG-H 3D Audio는 2개의 입력 신호를 하나의 MPEG-D USAC으로 부호화 하므로 10.2 채널의 경우 5개의 부호화기가 필요하여 높은 비트율과 고사향의 시스템이 필요하다는 문제를 지닌다. 이를 해결하고자 낮은 비트율과 복잡도에 초점을 맞춰서 기존의 5.1 채널 오디오 부호화기인 MPEG Surround<xref ref-type="bibr" rid="B007">[7]</xref>나 SSLCC (Sound Source Location Coefficients Coding)<xref ref-type="bibr" rid="B008">[8]</xref>, <xref ref-type="bibr" rid="B009">[9]</xref>를 재활용하는 재생공간 분할 기반의 초다채널 오디오 부호화기가 제안되었다 <xref ref-type="bibr" rid="B004">[4]</xref>. 재생공간 분할 기반의 초다채널 오디오 부호화기는 하나 또는 두 개의 오디오 부호화기만을 이용하기 때문에 비트율과 복잡도가 매우 낮아 유/무선 네트워크 및 통신환경과 모바일 환경에서 실감음향 서비스를 가능하게 한다. 그러나, 재생공간 분할 기반의 초다채널 오디오 부호화기는 28개의 서브밴드에서 추출된 파워비 파라미터 만으로 초다채널 신호를 복원하므로 음질의 열화가 크다는 문제를 지닌다. 이를 해결하고자 본 논문에서는 원 신호와 파라미터로 복원한 신호 사이의 차이를 보정해주는 잔차신호를 이용하여 복원된 신호의 음질을 개선하는 방법을 제안한다. 제안된 방법에 따라 기존의 초다채널 오디오 부호화기의 재생공간별 부호화 모듈에 잔차신호를 추출하고 이를 이용하여 복원하는 과정이 추가되며, 잔차신호가 2채널 입력에 대해 1개씩 추출되도록 전체적인 부호화 구조가 변경된다. 최종적으로 제안된 잔차신호 기반의 초다채널 오디오 부호화기를 구현하여 비트율의 측정과 음질 평가를 통해 제안된 방법의 유효성을 확인하도록 한다.</p>
<p>본 논문은 다음과 같이 구성된다. 먼저 2장에서 기존의 초다채널 오디오 부호화기를 설명하고, 3장에서는 제안된 잔차신호 처리를 갖는 초다채널 오디오 부호화기를 설명한다. 4장에서는 실험 결과를 제시하고, 5장에서 결론을 맺도록 한다.</p>
</sec>
<sec id="sec002">
<title>2. 초다채널 오디오 부호화기</title>
<sec id="sec002-1">
<title>2.1 초다채널 오디오 부호화</title>
<p>초다채널 오디오 부호화는 입력 초다채널 신호를 5개의 공간(Center, Left front, Right front, Left back, Right back)으로 분할하여 수행하며<xref ref-type="bibr" rid="B004">[4]</xref>, &#x003C;<xref ref-type="fig" rid="f001">그림 1</xref>&#x003E;에서 보는 바와 같은 재생공간별 부호화모듈을 각각의 재생공간에 적용한다. 재생공간별 부호화모듈에서 입력된 공간신호는 다운믹싱 과정을 거쳐 공간을 대표하는 하나의 다운믹스 신호를 생성하며, 재생공간별 신호로의 복원을 위한 파라미터를 추출한다. 재생공간별 다운믹스 신호는 식 (<xref ref-type="disp-formula" rid="dm01">1</xref>)을, 파라미터는 식 (<xref ref-type="disp-formula" rid="dm02">2</xref>)와 (<xref ref-type="disp-formula" rid="dm03">3</xref>)을 이용하여 계산한다.</p>
<disp-formula-group>
	<disp-formula id="dm01">
		<label>(1)</label>
<mml:math id="dm01-1"><mml:mi>d</mml:mi><mml:mi>m</mml:mi><mml:mi>x</mml:mi><mml:mfenced><mml:mi>n</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover><mml:msub><mml:mi>x</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>n</mml:mi></mml:mfenced><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mn>0</mml:mn><mml:mo>&#x2264;</mml:mo><mml:mi>n</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi>M</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:math>
	</disp-formula>
	<disp-formula id="dm02">
		<label>(2)</label>
<mml:math id="dm02-1"><mml:mi>p</mml:mi><mml:msub><mml:mi>r</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msub><mml:mi>p</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced></mml:mrow><mml:mrow><mml:msub><mml:mi>p</mml:mi><mml:mrow><mml:mi>m</mml:mi><mml:mi>a</mml:mi><mml:mi>x</mml:mi></mml:mrow></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced></mml:mrow></mml:mfrac><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mfenced open="{" close=""><mml:mtable columnalign="left"><mml:mtr><mml:mtd><mml:mn>1</mml:mn><mml:mo>&#x2264;</mml:mo><mml:mi>b</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi>L</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>1</mml:mn><mml:mo>&#x2264;</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi>N</mml:mi></mml:mtd></mml:mtr></mml:mtable></mml:mfenced></mml:math>
	</disp-formula>
	<disp-formula id="dm03">
		<label>(3)</label>
<mml:math id="dm03-1"><mml:msub><mml:mi>p</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:mstyle displaystyle="false"><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>k</mml:mi><mml:mo>=</mml:mo><mml:msub><mml:mi>A</mml:mi><mml:mrow><mml:mi>b</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:msub><mml:mi>A</mml:mi><mml:mi>b</mml:mi></mml:msub><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:munderover></mml:mstyle><mml:msup><mml:mfenced open="[" close="]"><mml:mrow><mml:msub><mml:mi>X</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:mrow></mml:mfenced><mml:mn>2</mml:mn></mml:msup></mml:math>
	</disp-formula>
</disp-formula-group>
<p>식 (<xref ref-type="disp-formula" rid="dm01">1</xref>)에서 n은 시간 인덱스, i는 채널 인덱스를 나타내며, N은 재생공간별 입력되는 채널 개수, M은 프레임 길이로 2048의 값을 갖는다. 식 (<xref ref-type="disp-formula" rid="dm02">2</xref>)에서 Pmax는 입력되는 신호 중 최대파워 값을 나타내며, b는 서브밴드 인덱스, L은 서브밴드 수로 28의 값을 갖는다. 식 (<xref ref-type="disp-formula" rid="dm03">3</xref>)에서 k는 주파수 인덱스를 나타내며, Xi(k)는 i번째 입력 신호를 주파수 영역으로 변환한 것이다. 또한, Ab-1과 Ab-1은 서브밴드의 주파수 영역에서의 시작과 끝 지점을 나타내며, 인간의 청각특성을 반영하여 28개의 서브밴드는 &#x003C;<xref ref-type="table" rid="t001">표 1</xref>&#x003E;의 값을 사용한다 <xref ref-type="bibr" rid="B010">[10]</xref>.</p>
<fig id="f001" orientation="portrait" position="float">
	<label>그림 1.</label>
	<caption>
		<title>재생공간별 부호화 모듈.</title>
		<p>Figure 1. Encoding module for each playback space</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f001.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<table-wrap id="t001">
<label>표 1.</label>
<caption>
<title>서브밴드의 구분 기준 (DFT 길이: 2048, 샘플링 주파수: 44.1 kHz)</title>
<p>Table1. Classification criteria of subband (DFT length: 2048, sampling frequency: 44.1 kHz)</p>
</caption>
<table frame="box" rules="all" width="100%">
<tbody>
<tr align="center">
<td><p>A<sub>0</sub></p> 0</td>
<td><p>A<sub>1</sub></p>
3</td>
<td><p>A<sub>2</sub></p>
7</td>
<td><p>A<sub>3</sub></p>
11</td>
<td><p>A<sub>4</sub></p>
15</td>
<td><p>A<sub>5</sub></p>
19</td>
<td><p>A<sub>6</sub></p>
23</td>
<td><p>A<sub>7</sub></p>
27</td>
</tr>
<tr align="center">
<td><p>A<sub>5</sub></p>
31</td>
<td><p>A<sub>9</sub></p>
39</td>
<td><p>A<sub>10</sub></p>
47</td>
<td><p>A<sub>11</sub></p>
55</td>
<td><p>A<sub>12</sub></p>
63</td>
<td><p>A<sub>13</sub></p>
79</td>
<td><p>A<sub>14</sub></p>
95</td>
<td><p>A<sub>15</sub></p>
111</td>
</tr>
<tr align="center">
<td><p>A<sub>16</sub></p>
127</td>
<td><p>A<sub>17</sub></p>
159</td>
<td><p>A<sub>18</sub></p>
191</td>
<td><p>A<sub>19</sub></p>
223</td>
<td><p>A<sub>20</sub></p>
255</td>
<td><p>A<sub>21</sub></p>
287</td>
<td><p>A<sub>22</sub></p>
319</td>
<td><p>A<sub>23</sub></p>
367</td>
</tr>
<tr align="center">
<td><p>A<sub>24</sub></p>
415</td>
<td><p>A<sub>25</sub></p>
479</td>
<td><p>A<sub>26</sub></p>
559</td>
<td><p>A<sub>27</sub></p>
655</td>
<td><p>A<sub>28</sub></p>
1025</td>
<td>-</td>
<td>-</td>
<td>-</td>
</tr>
</tbody>
</table>
</table-wrap>
<fig id="f002" orientation="portrait" position="float">
	<label>그림 2.</label>
	<caption>
		<title>재생공간별 부호화 모듈을 활용한 초다채널 오디오 부호화 구조.</title>
		<p>Figure 2. Ultra multi-channel audio encoding structure using coding module for each playback space</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f002.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>이러한 재생공간별 부호화 모듈은 &#x003C;<xref ref-type="fig" rid="f002">그림 2</xref>&#x003E;처럼 각 재생공간별로 적용되어 각 재생공간을 대표하는 5개의 다운믹스 신호와 재생공간별 신호 복원을 위한 파라미터를 추출한다. 재생공간별 부호화 과정을 통해 생성된 다운믹스 신호들은 &#x003C;<xref ref-type="fig" rid="f003">그림 3</xref>&#x003E;처럼 기존의 MPEG Surround나 SSLCC와 같은 다채널 오디오 부호화기<xref ref-type="bibr" rid="B007">[7]</xref>-<xref ref-type="bibr" rid="B009">[9]</xref>를 통해 최종 스테레오 다운믹스 신호와 다채널 신호 복원을 위한 파라미터를 생성한다.</p>
<fig id="f003" orientation="portrait" position="float">
	<label>그림 3.</label>
	<caption>
		<title>재생공간별 다운믹스 신호의 부호화.</title>
		<p>Figure 3. Encoding of down-mix signal for each playback space.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f003.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
</sec>
<sec id="sec002-2">
<title>2.2 초다채널 오디오 복호화</title>
<p>초다채널 신호의 복원은 부호화의 역과정으로 진행된다. 먼저, &#x003C;<xref ref-type="fig" rid="f004">그림 4</xref>&#x003E;에서 보는 바와 같이 다채널 오디오 복호화기에서 스테레오 다운믹스 신호와 다채널 신호 복원을 위한 파라미터를 이용하여 다채널 오디오 신호 (공간별 다운믹스 신호)를 생성한다 <xref ref-type="bibr" rid="B004">[4]</xref>. 생성된 다채널 재생공간별 다운믹스 신호는 &#x003C;<xref ref-type="fig" rid="f005">그림 5</xref>&#x003E;와 &#x003C;<xref ref-type="fig" rid="f006">그림 6</xref>&#x003E;의 재생공간별 복호화 모듈에 입력되어 재생공간별 신호를 생성하게 된다. 재생공간별 복호화는 수식 (<xref ref-type="disp-formula" rid="dm04">4</xref>)를 이용하여 수행한다.</p>
<disp-formula-group>
	<disp-formula id="dm04">
		<label>(4)</label>
<mml:math id="dm04-1"><mml:mover><mml:msub><mml:mi>X</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mo>&#x2227;</mml:mo></mml:mover><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:msub><mml:mi>G</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>&#xB7;</mml:mo><mml:mi>D</mml:mi><mml:mi>M</mml:mi><mml:mi>X</mml:mi><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced><mml:mo>,</mml:mo><mml:mo>&#xA0;</mml:mo><mml:mfenced open="{" close=""><mml:mtable columnalign="left"><mml:mtr><mml:mtd><mml:mn>1</mml:mn><mml:mo>&#x2264;</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi>N</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>1</mml:mn><mml:mo>&#x2264;</mml:mo><mml:mi>b</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi>L</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mi>A</mml:mi><mml:mrow><mml:mi>b</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mi>k</mml:mi><mml:mo>&#x2264;</mml:mo><mml:msub><mml:mi>A</mml:mi><mml:mi>b</mml:mi></mml:msub><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mfenced></mml:math>
	</disp-formula>
	<disp-formula id="dm05">
		<label>(5)</label>
<mml:math id="dm05-1"><mml:msub><mml:mi>G</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:msqrt><mml:mfrac><mml:mrow><mml:mi>P</mml:mi><mml:msub><mml:mi>r</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced></mml:mrow><mml:mrow><mml:mstyle displaystyle="true"><mml:munderover><mml:mo>&#x2211;</mml:mo><mml:mrow><mml:mi>j</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>N</mml:mi></mml:munderover></mml:mstyle><mml:mi>P</mml:mi><mml:msub><mml:mi>r</mml:mi><mml:mi>j</mml:mi></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced></mml:mrow></mml:mfrac></mml:msqrt></mml:math>
	</disp-formula>
</disp-formula-group>
<p>수식 (<xref ref-type="disp-formula" rid="dm04">4</xref>)에서 <mml:math id="dm001"><mml:mo>&#x2007;</mml:mo><mml:msub><mml:mover><mml:mi>X</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:math>는 주파수 영역에서 복원된 i번째 채널 신호이며, DMX(<italic>k</italic>)는 주파수 영역으로 변환된 다운믹스 신호이다. 수식 (<xref ref-type="disp-formula" rid="dm05">5</xref>)의  G<sub><italic>i</italic></sub>(<italic>b</italic>) 는 서브밴드 b에서 i번째 채널 신호의 이득을 나타내는 것으로 주파수 영역으로 변환된 다운믹스 신호에 이를 곱해서 원래의 초다채널 신호를 복원할 수 있다.</p>
<fig id="f004" orientation="portrait" position="float">
	<label>그림 4.</label>
	<caption>
		<title>재생공간별 다운믹스 신호의 복호화.</title>
		<p>Figure 4. Decoding of down-mix signal for each playback space.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f004.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f005" orientation="portrait" position="float">
	<label>그림 5.</label>
	<caption>
		<title>재생공간별 복호화 모듈.</title>
		<p>Figure 5. Decoding module for each playback space</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f005.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f006" orientation="portrait" position="float">
	<label>그림 6.</label>
	<caption>
		<title>재생공간별 부호화 모듈을 활용한 초다채널 오디오 부호화 구조.</title>
		<p>Figure 6. Ultra multi-channel audio decoding structure using coding module for each playback space</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f006.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f007" orientation="portrait" position="float">
	<label>그림 7.</label>
	<caption>
		<title>사용자 재생환경에 따른 렌더링을 통한 최종 신호 출력</title>
		<p>Figure 7. Final signal output through rendering according to user playback environment</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f007.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>이러한 복호화 과정을 거쳐 생성된 초다채널 오디오 신호는 &#x003C;<xref ref-type="fig" rid="f007">그림 7</xref>&#x003E;에서 보이는 렌더링 과정을 통해 사용자의 재생환경에 따른 최종 출력 신호를 생성하며, 스피커 재생환경과 헤드폰 재생환경에 따라 매트릭스 기반의 렌더링과 바이노럴 렌더링을 적용한다 <xref ref-type="bibr" rid="B011">[11]</xref><xref ref-type="bibr" rid="B012">[12]</xref>.</p>
</sec>
</sec>
<sec id="sec003">
<title>3. 잔차 신호를 활용한 초다채널 오디오 부호화기 개선</title>
<sec id="sec003-1">
<title>3.1 개요</title>
<p>2장에서 설명한 초다채널 오디오 부호화기의 재생공간별 부호화 모듈은 다운믹스 신호와 각 채널 신호의 파워비 만을 활용하기 때문에 재생공간별 오디오 신호가 부호화와 복호화 과정에서 음질의 열화가 심하게 발생한다. 특히, 각 채널 신호의 파워비 파라미터는 주파수 영역을 28개의 서브밴드로 나눠서 추출하기 때문에 낮은 주파수 해상도를 지녀 음질 열화의 주요 요인이 된다. 이를 해결하기 위해서는 현재의 28개의 서브밴드의 수를 높여 주파수 해상도를 높이는 방법과 각 재생공간별 원신호와 복원된 신호 사이의 잔차신호<xref ref-type="bibr" rid="B013">[13]</xref>를 이용하여 복원된 신호를 최대한 원 신호에 가깝게 만드는 방법을 고려할 수 있다. 본 논문에서는 잔차신호를 이용하여 재생공간별 부호화 모듈을 개선함으로써 초다채널 오디오 부호화기의 성능을 개선하도록 한다.</p>
</sec>
<sec id="sec003-2">
<title>3.2 개선된 초다채널 오디오 부호화</title>
<fig id="f008" orientation="portrait" position="float">
	<label>그림 8.</label>
	<caption>
		<title>개선된 재생공간별 부호화 모듈.</title>
		<p>Figure 8. Enhanced encoding module for each playback space</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f008.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>&#x003C;<xref ref-type="fig" rid="f008">그림 8</xref>&#x003E;은 잔차신호의 추출이 추가된 재생공간별 부호화 모듈로 잔차신호는 입력신호와 추출된 파라미터를 이용하여 수식 (<xref ref-type="disp-formula" rid="dm06">6</xref>)과 같이 추출한다 <xref ref-type="bibr" rid="B014">[14]</xref>.</p>
<disp-formula-group>
	<disp-formula id="dm06">
		<label>(6)</label>
<mml:math id="dm06-1"><mml:mspace linebreak="newline"/><mml:mi>R</mml:mi><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msub><mml:mi>G</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>&#xB7;</mml:mo><mml:msub><mml:mi>X</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:mrow><mml:mrow><mml:msub><mml:mi>G</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>+</mml:mo><mml:msub><mml:mi>G</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced></mml:mrow></mml:mfrac><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:msub><mml:mi>G</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>&#xB7;</mml:mo><mml:msub><mml:mi>X</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:mrow><mml:mrow><mml:msub><mml:mi>G</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>+</mml:mo><mml:msub><mml:mi>G</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced></mml:mrow></mml:mfrac><mml:mo>,</mml:mo><mml:mfenced open="{" close=""><mml:mtable columnalign="left"><mml:mtr><mml:mtd><mml:mn>1</mml:mn><mml:mo>&#x2264;</mml:mo><mml:mi>b</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi>L</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mi>A</mml:mi><mml:mrow><mml:mi>b</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>&#x2264;</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x2264;</mml:mo><mml:msub><mml:mi>A</mml:mi><mml:mi>b</mml:mi></mml:msub><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mfenced></mml:math>
	</disp-formula>
</disp-formula-group>
<p>수식 (<xref ref-type="disp-formula" rid="dm06">6</xref>)에서 <italic>R</italic>(<italic>k</italic>)는 잔차신호, <italic>X</italic><sub>1</sub>(<italic>k</italic>)와 <italic>X</italic><sub>2</sub> (<italic>k</italic>)는 입력신호, <italic>G</italic><sub>1</sub>(<italic>b</italic>)와 <italic>G</italic><sub>2</sub>(<italic>b</italic>)는 추출된 파라미터와 수식 (<xref ref-type="disp-formula" rid="dm05">5</xref>)를 이용하여 계산된 입력신호의 이득을 나타낸다. 한편, 잔차신호는 수식 (<xref ref-type="disp-formula" rid="dm06">6</xref>)과 같이 2개의 입력 신호와 이들의 복원을 위한 파라미터를 이용하여 추출하므로 이에 따라 재생공간별 부호화 모듈은 입력 신호를 2개씩 처리하도록 조정된다. &#x003C;<xref ref-type="fig" rid="f009">그림 9</xref>&#x003E;, &#x003C;<xref ref-type="fig" rid="f010">그림 10</xref>&#x003E;, &#x003C;<xref ref-type="fig" rid="f011">그림 11</xref>&#x003E;에 보이는 바와 같이 재생공간별 입력 신호의 개수가 증가함에 따라 재생공간별 부호화 모듈을 조합하여 재생공간별 오디오 신호의 부호화를 수행하며, 입력신호가 5개 이상의 경우에도 마찬가지로 재생공간별 부호화 모듈을 확장하여 부호화하도록 한다.</p>
<fig id="f009" orientation="portrait" position="float">
	<label>그림 9.</label>
	<caption>
		<title>2 채널 입력 신호의 부호화.</title>
		<p>Figure 9. Encoding of 2-channel input signals.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f009.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f010" orientation="portrait" position="float">
	<label>그림 10.</label>
	<caption>
		<title>3 채널 입력 신호의 부호화.</title>
		<p>Figure 10. Encoding of 3-channel input signals.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f010.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f011" orientation="portrait" position="float">
	<label>그림 11.</label>
	<caption>
		<title>4 채널 입력 신호의 부호화.</title>
		<p>Figure 11. Encoding of 4-channel input signals.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f011.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
</sec>
<sec id="sec003-3">
<title>3.3 개선된 초다채널 오디오 복호화</title>
<p>잔차신호를 활용하여 개선된 재생공간별 부호화 모듈에 따라 복호화 모듈도 &#x003C;<xref ref-type="fig" rid="f012">그림 12</xref>&#x003E;에서 보는 바와 같이 수정되며, 재생공간별 다운믹스 신호, 잔차신호, 파라미터를 활용한 재생공간별 신호의 복원은 수식 (<xref ref-type="disp-formula" rid="dm07">7</xref>)을 이용하여 수행된다.</p>
<disp-formula-group>
	<disp-formula id="dm07">
		<label>(7)</label>
<mml:math id="dm07-1"><mml:mtable><mml:mtr><mml:mtd><mml:msub><mml:mover><mml:mi>K</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>x</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:mi>D</mml:mi><mml:mi>M</mml:mi><mml:mi>X</mml:mi><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced><mml:mo>&#xB7;</mml:mo><mml:msub><mml:mi>G</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>+</mml:mo><mml:mover><mml:mi>R</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:mtd></mml:mtr><mml:mtr><mml:mtd/></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mover><mml:mi>K</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mn>2</mml:mn></mml:msub><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced><mml:mo>=</mml:mo><mml:mi>D</mml:mi><mml:mi>M</mml:mi><mml:mi>X</mml:mi><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced><mml:mo>&#xB7;</mml:mo><mml:msub><mml:mi>G</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mfenced><mml:mi>b</mml:mi></mml:mfenced><mml:mo>+</mml:mo><mml:mover><mml:mi>R</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:mtd></mml:mtr></mml:mtable><mml:mo>,</mml:mo><mml:mfenced open="{" close="" separators="|"><mml:mtable rowlines="none" columnlines="none" frame="none"><mml:mtr><mml:mtd><mml:mn>1</mml:mn><mml:mo>&#x2264;</mml:mo><mml:mi mathvariant="normal">b</mml:mi><mml:mo>&#x2264;</mml:mo><mml:mi mathvariant="normal">L</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mi mathvariant="normal">A</mml:mi><mml:mrow><mml:mi mathvariant="normal">b</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>&#x2264;</mml:mo><mml:mi mathvariant="normal">k</mml:mi><mml:mo>&#x2264;</mml:mo><mml:msub><mml:mi mathvariant="normal">A</mml:mi><mml:mi mathvariant="normal">b</mml:mi></mml:msub><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mfenced></mml:math>
	</disp-formula>
</disp-formula-group>
<p>수식 (<xref ref-type="disp-formula" rid="dm07">7</xref>)에서 <mml:math id="dm002"><mml:mo>&#x2007;</mml:mo><mml:msub><mml:mover><mml:mi>X</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mn>1</mml:mn></mml:msub><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:math>와 <mml:math id="dm003"><mml:mo>&#x2007;</mml:mo><mml:msub><mml:mover><mml:mi>X</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mn>2</mml:mn></mml:msub><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:math>는 복원된 신호를 나타내며, <mml:math id="dm004"><mml:mo>&#x2007;</mml:mo><mml:mover><mml:mi>R</mml:mi><mml:mo>^</mml:mo></mml:mover><mml:mfenced><mml:mi>k</mml:mi></mml:mfenced></mml:math>는 부호화/복호화 과정을 거친 잔차신호이다. 재생공간별 입력 신호의 개수에 따라 재생공간별 부호화를 수행한 것처럼 재생공간별 복호화는 재생공간별 복호화 모듈을 조합하여 &#x003C;<xref ref-type="fig" rid="f013">그림 13</xref>&#x003E;, &#x003C;<xref ref-type="fig" rid="f014">그림 14</xref>&#x003E;, &#x003C;<xref ref-type="fig" rid="f015">그림 15</xref>&#x003E;와 같이 재생공간별 복호화 모듈을 확장하여 신호를 복원하도록 한다.</p>
<fig id="f012" orientation="portrait" position="float">
	<label>그림 12.</label>
	<caption>
		<title>개선된 재생공간별 복호화 모듈.</title>
		<p>Figure 12. Enhanced decoding module for each playback space</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f012.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f013" orientation="portrait" position="float">
	<label>그림 13.</label>
	<caption>
		<title>2채널 신호의 복호화.</title>
		<p>Figure 13. Decoding of 2-channel signals.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f013.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f014" orientation="portrait" position="float">
	<label>그림 14.</label>
	<caption>
		<title>3 채널 신호의 복호화.</title>
		<p>Figure 14. Decoding of 3-channel signals.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f014.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<fig id="f015" orientation="portrait" position="float">
	<label>그림 15.</label>
	<caption>
		<title>4 채널 신호의 복호화.</title>
		<p>Figure 15. Decoding of 4-channel signals.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f015.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
</sec>
<sec id="sec003-4">
<title>3.4 잔차신호의 부호화</title>
<p>잔차신호는 수식 (<xref ref-type="disp-formula" rid="dm06">6</xref>)에서 보는 바와 같이 전체 주파수 대역에서 추출하므로 그 자체로 또 다른 오디오 신호이며, 별도로 부호화 및 복호화 과정을 거친다. 잔차신호를 일반적인 오디오 신호처럼 부호화를 했을 경우, 높은 비트율을 필요로 하기 때문에 초다채널 오디오 부호화기의 음질을 개선한다고 할지라도 비트율 측면에서의 성능을 크게 저하 시키는 문제를 지닌다. 이에 따라 인간의 청각 특성이 저주파에 민감하다는 사실에 기반하여 잔차신호의 저주파 대역인 0-5.5 kHz에 해당하는 신호만 사용하도록 한다 <xref ref-type="bibr" rid="B014">[14]</xref>. 잔차신호의 부호화는 TCX (Transform Coded Excitation) 기반의 오디오 부호화기 <xref ref-type="bibr" rid="B014">[14]</xref><xref ref-type="bibr" rid="B015">[15]</xref>를 이용하여 수행하며, 채널 당 15kbps를 할당함으로써 잔차신호에 의한 비트율 증가를 최소화 하고 기존의 초다채널 오디오 부호화기의 음질을 향상시키도록 하였다.</p>
</sec>
</sec>
<sec id="sec004" sec-type="results">
<title>4. 실험 및 결과</title>
<fig id="f016" orientation="portrait" position="float">
	<label>그림 16.</label>
	<caption>
		<title>10.2 채널 레이아웃</title>
		<p>Figure 16. 10.2 channel configuration</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f016.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>잔차신호를 활용하여 개선된 초다채널 오디오 부호화기의 성능을 확인하기 위하여 10.2 채널 오디오 콘텐츠 3개를 이용하여 부호화를 수행한 후, 비트율과 음질을 확인하였다. 오디오 콘텐츠는 20초의 지속시간과 44.1 kHz 샘플링 주파수, 16 비트 양자화를 갖으며, &#x003C;<xref ref-type="fig" rid="f016">그림 16</xref>&#x003E;과 &#x003C;<xref ref-type="table" rid="t002">표 2</xref>&#x003E;에서 보는 바와 같이 각 채널 공간별 2개의 오디오 신호가 할당된다.</p>
<table-wrap id="t002">
<label>표 2.</label>
<caption>
<title>10.2 채널 재생공간 분할</title>
<p>Table 2. Space segmentation of 10.2 channel configuration</p>
</caption>
<table frame="box" rules="all" width="100%">
<tbody>
<tr align="center">
<td>분할 공간</td>
<td>할당 채널</td>
</tr>
<tr align="center">
<td>Center</td>
<td>1, 10</td>
</tr>
<tr align="center">
<td>Left front</td>
<td>2, 8</td>
</tr>
<tr align="center">
<td>Left back</td>
<td>4, 6</td>
</tr>
<tr align="center">
<td>Right front</td>
<td>3, 9</td>
</tr>
<tr align="center">
<td>Right back</td>
<td>5, 7</td>
</tr>
</tbody>
</table>
</table-wrap>
<table-wrap id="t003">
<label>표 3.</label>
<caption>
<title>비트율 결과</title>
<p>Table 3. Bitrate result</p>
</caption>
<table frame="box" rules="all" width="100%">
<tbody>
<tr align="center">
<td>모드</td>
<td>비트율 평균</td>
<td>증가율</td>
</tr>
<tr align="center">
<td>기존의 초다채널 오디오 부호화기</td>
<td>170.15 kbps(다운믹스 140 kbps+채널당 약 3 kbps)</td>
<td rowspan="2" valign="middle">44.08 %</td>
</tr>
<tr align="center">
<td>잔차신호를 활용하여 개선된 초다채널 오디오 부호화기</td>
<td>245.15 kbps(다운믹스 140 kbps+채널당 10.5 kbps)</td>
</tr>
</tbody>
</table>
</table-wrap>
<p>&#x003C;<xref ref-type="table" rid="t003">표 3</xref>&#x003E;은 기존의 초다채널 오디오 부호화기와 개선된 초다채널 오디오 부호화기에 의한 10.2 채널 오디오 콘텐츠의 부호화 비트율을 보여준다. 잔차신호를 제외한 비트율의 증가는 없으며, 2개의 입력신호 별로 하나의 잔차신호를 추출하므로 5개의 잔차신호가 생성되고 이를 15 kbps로 부호화하기 때문에 75 kbps의 비트율이 증가한다. &#x003C;<xref ref-type="fig" rid="f017">그림 17</xref>&#x003E;은 &#x003C;<xref ref-type="table" rid="t004">표 4</xref>&#x003E;의 시스템과 6명의 평가자를 대상으로 수행한 MUSHRA <xref ref-type="bibr" rid="B016">[16]</xref> 청취평가 결과를 보여준다. 본 실험에서는 10.2 채널 재생 시스템의 구현상의 문제로 재생공간별 2채널 원 신호와 복원 신호의 음질을 비교하여 잔차신호에 의한 음질 개선을 확인하였다. 청취평가 결과 잔차신호를 활용하여 개선된 초다채널 오디오 부호화기에 의해 복원된 신호가 기존의 초다채널 오디오 부호화기에 의해 복원된 신호보다 크게 개선된 음질을 보인다. 이는 잔차신호에 의해 비트율이 약 44% 증가했음에도 음질개선 측면에서 매우 효율적임을 보여주어 제안된 잔차신호를 갖는 초다채널 부호화기의 유효성을 확인할 수 있다.</p>
<table-wrap id="t004">
<label>표 4.</label>
<caption>
<title>실험 대상</title>
<p>Table 4. System under test</p>
</caption>
<table frame="box" rules="all" width="100%">
<tbody>
<tr align="center">
<td>구분</td>
<td>설명</td>
</tr>
<tr>
<td align="center">Reference</td>
<td>원 신호</td>
</tr>
<tr>
<td align="center">Original</td>
<td>기존의 초다채널 오디오 부호화기에 의해 복원된 신호</td>
</tr>
<tr>
<td align="center">Enhanced</td>
<td>잔차신호를 활용하여 개선된 초다채널 오디오 부호화기에 의해 복원된 신호</td>
</tr>
</tbody>
</table>
</table-wrap>
<fig id="f017" orientation="portrait" position="float">
	<label>그림 17.</label>
	<caption>
		<title>청취평가 결과</title>
		<p>Figure 17. Listening test results.</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f017.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
</sec>
<sec id="sec00" sec-type="Conclusions">
<title>5. 결 론</title>
<p>본 논문에서는 기존의 초다채널 오디오 부호화기의 음질 측면에서의 성능을 개선하기 위하여 잔차신호를 갖는 초다채널 오디오 부호화 방법을 제안하였다. 제안된 방법은 각 재생공간별로 부호화 모듈을 이용하여 부호화하는 기존의 초다채널 오디오 부호화기에 각 재생공간별로 잔차신호를 추가로 추출하여 파라미터만으로 복원된 신호가 원신호에 가까워지도록 함으로써 음질을 개선하였다. 잔차신호의 추가에 따라 기존의 재생공간별 부호화 모듈은 2 채널 입력만을 받도록 수정되었으며, 입력 신호의 수에 따라서 재생공간별 부호화 모듈을 조합하여 초다채널 오디오 신호를 부호화하였다. 추출된 잔차신호는 TCX 기반의 오디오 부호화기를 이용하여 압축/복원하며, 채널 당 15 kbps의 비트율이 소모되도록 하였다. 실험을 통해 제안된 잔차신호를 갖는 초다채널 오디오 부호화기가 기존의 초다채널 오디오 부호화기에 비해 약 40 %의 비트율 증가를 보이는데 반해 음질을 크게 개선하여 제안된 방법의 유효성을 확인할 수 있었다. 향후 과제로 제안된 방법에 의한 전체적인 음질의 개선 정도를 확인하기 위하여 10.2 채널 재생 시스템에서의 청취평가가 필요하며, 서브밴드 수의 조절을 통해 잔차신호보다 비트율의 증가는 최소화하면서 음질을 개선할 수 있는 방법에 대한 연구가 필요하다.</p>
</sec>
</body>
<back>
<ref-list>
<title>References</title>
<!-- [1] S. Cho, D. Jeon, and J. Choi. Status on UHDTV technology and standadization, TTA Journal 140, pp. 49-54, 2012.-->
<ref id="B001">
<label>[1]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Cho</surname><given-names>S.</given-names></name>
<name><surname>Jeon</surname><given-names>D.</given-names></name>
<name><surname>Choi</surname><given-names>J.</given-names></name>
</person-group>
<year>2012</year>
<article-title>Status on UHDTV technology and standadization</article-title>
<source>TTA Journal</source>
<volume>140</volume>
<fpage>49</fpage><lpage>54</lpage>
</element-citation>
</ref>
<!-- [2] J. Shin, Status and prospect of coding technology for UHDTV broadcasting, Broadcasting and Media, Vol. 19, No. 2, pp. 69-79, 2014.-->
<ref id="B002">
<label>[2]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Shin</surname><given-names>J.</given-names></name>
</person-group>
<year>2014</year>
<article-title>Status and prospect of coding technology for UHDTV broadcasting</article-title>
<source>Broadcasting and Media</source>
<volume>19</volume><issue>2</issue>
<fpage>69</fpage><lpage>79</lpage>
</element-citation>
</ref>
<!-- [3] J. Seo, J. Yoo, K. Kang, and S. Jang, Status of audio standardization for realistic broadcasting, Broadcasting and Media, Vol. 19, No. 1, pp. 37-47, 2014.-->
<ref id="B003">
<label>[3]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Seo</surname><given-names>J.</given-names></name>
<name><surname>Yoo</surname><given-names>J.</given-names></name>
<name><surname>Kang</surname><given-names>K.</given-names></name>
<name><surname>Jang</surname><given-names>S.</given-names></name>
</person-group>
<year>2014</year>
<article-title>Status of audio standardization for realistic broadcasting</article-title>
<source>Broadcasting and Media</source>
<volume>19</volume><issue>1</issue>
<fpage>37</fpage><lpage>47</lpage>
</element-citation>
</ref>
<!-- [4] K. Kim, A study on ultra multi-channel audio coding for realistic audio services, Journal of Knowledge Information Technology and Systems, Vol. 13, No. 1, pp 101-120, 2018.-->
<ref id="B004">
<label>[4]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Kim</surname><given-names>K.</given-names></name>
</person-group>
<year>2018</year>
<article-title>A study on ultra multi-channel audio coding for realistic audio services</article-title>
<source>Journal of Knowledge Information Technology and Systems</source>
<volume>13</volume><issue>1</issue>
<fpage>101</fpage><lpage>120</lpage>
</element-citation>
</ref>
<!-- [5] ISO/IEC 23003-3:2012, Information technology-MPEG audio technologies-Part 3: Unified speech and audio coding, 2012.-->
<ref id="B005">
<label>[5]</label>
<element-citation publication-type="other">
<collab>ISO/IEC</collab>
<year>2012</year>
<comment>23003-3:2012</comment>
<source>Information technology-MPEG audio technologies-Part 3: Unified speech and audio coding</source>
<pub-id pub-id-type="doi">10.3403/30236824</pub-id>
</element-citation>
</ref>
<!-- [6] ISO/IEC 23008-3:2015, MPEG-H (High efficiency coding and media deliver in heterogeneous environments), Part 3: 3D Audio, 2015.-->
<ref id="B006">
<label>[6]</label>
<element-citation publication-type="other">
<collab>ISO/IEC</collab>
<year>2015</year>
<comment>23008-3:2015</comment>
<source>MPEG-H (High efficiency coding and media deliver in heterogeneous environments), Part 3: 3D Audio</source>
</element-citation>
</ref>
<!-- [7] ISO/IEC 23003-1:2007, Information technology-MPEG audio technologies-Part 1: MPEG surround, 2007.-->
<ref id="B007">
<label>[7]</label>
<element-citation publication-type="other">
<collab>ISO/IEC</collab>
<year>2007</year>
<comment>23003-1:2007</comment>
<source>Information technology-MPEG audio technologies-Part 1: MPEG surround</source>
</element-citation>
</ref>
<!-- [8] H. Moon, J. Seo, S. Beack, and K. Sung, A multi-channel audio compression method with virtual source location information for MPEG-4 SAC, IEEE Transactions on Consumer Electronics, Vol. 51, No. 4, pp. 1253-1259, 2005.-->
<ref id="B008">
<label>[8]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Moon</surname><given-names>H.</given-names></name>
<name><surname>Seo</surname><given-names>J.</given-names></name>
<name><surname>Beack</surname><given-names>S.</given-names></name>
<name><surname>Sung</surname><given-names>K.</given-names></name>
</person-group>
<year>2005</year>
<article-title>A multi-channel audio compression method with virtual source location information for MPEG-4 SAC</article-title>
<source>IEEE Transactions on Consumer Electronics</source>
<volume>51</volume><issue>4</issue>
<fpage>1253</fpage><lpage>1259</lpage>
<pub-id pub-id-type="doi">10.1109/tce.2005.1561852</pub-id>
</element-citation>
</ref>
<!-- [9] S. Beack, J. Seo, H. Moon, K. Kang, and M. Hahn, Angle-based virtual source location representation for spatial audio coding. ETRI Journal, Vol. 28, No. 2, pp. 219-222, 2006.-->
<ref id="B009">
<label>[9]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Beack</surname><given-names>S.</given-names></name>
<name><surname>Seo</surname><given-names>J.</given-names></name>
<name><surname>Moon</surname><given-names>H.</given-names></name>
<name><surname>Kang</surname><given-names>K.</given-names></name>
<name><surname>Hahn</surname><given-names>M.</given-names></name>
</person-group>
<year>2006</year>
<article-title>Angle-based virtual source location representation for spatial audio coding</article-title>
<source>ETRI Journal</source>
<volume>28</volume><issue>2</issue>
<fpage>219</fpage><lpage>222</lpage>
<pub-id pub-id-type="doi">10.4218/etrij.06.0205.0079</pub-id>
</element-citation>
</ref>
<!-- [10] F. Baumgarte, and C. Faller, Binaural cue coding-part I: psychoacoustic fundamentals and design principles, IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, pp. 509.519, 2003.-->
<ref id="B010">
<label>[10]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Baumgarte</surname><given-names>F.</given-names></name>
<name><surname>Faller</surname><given-names>C.</given-names></name>
</person-group>
<year>2003</year>
<article-title>Binaural cue coding-part I: psychoacoustic fundamentals and design principles</article-title>
<source>IEEE Transactions on Speech and Audio Processing</source>
<volume>11</volume><issue>6</issue>
<fpage>509</fpage><lpage>519</lpage>
<pub-id pub-id-type="doi">10.1109/tsa.2003.818109</pub-id>
</element-citation>
</ref>
<!-- [11] K. Kim, Implementation of binaural decoding in spatial cue based multi-channel audio coding, Journal of Knowledge Information Technology and Systems, Vol. 9, No. 1, pp. 85-94, 2014.-->
<ref id="B011">
<label>[11]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Kim</surname><given-names>K.</given-names></name>
</person-group>
<year>2014</year>
<article-title>Implementation of binaural decoding in spatial cue based multi-channel audio coding</article-title>
<source>Journal of Knowledge Information Technology and Systems</source>
<volume>9</volume><issue>1</issue>
<fpage>85</fpage><lpage>94</lpage>
</element-citation>
</ref>
<!-- [12] K. Kim, A study on sound scene control of binaural sound in multi-channel audio coding, Journal of Knowledge Information Technology and Systems, Vol. 12, No. 1, pp. 177-185, 2017.-->
<ref id="B012">
<label>[12]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Kim</surname><given-names>K.</given-names></name>
</person-group>
<year>2017</year>
<article-title>A study on sound scene control of binaural sound in multi-channel audio coding</article-title>
<source>Journal of Knowledge Information Technology and Systems</source>
<volume>12</volume><issue>1</issue>
<fpage>177</fpage><lpage>185</lpage>
<pub-id pub-id-type="doi">10.34163/jkits.2017.12.1.016</pub-id>
</element-citation>
</ref>
<!-- [13] J. Herre, H. Purnhagen, J. Breebard, C. Faller, S. Disch, K. Kjorling, E. Schuijers, J. Hilpert, and F. Myburg, The reference model architecture for MPEG spatial audio coding, in Proc. 118th AES Convention, Barcelona, Spain, 2005.-->
<ref id="B013">
<label>[13]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Herre</surname><given-names>J.</given-names></name>
<name><surname>Purnhagen</surname><given-names>H.</given-names></name>
<name><surname>Breebard</surname><given-names>J.</given-names></name>
<name><surname>Faller</surname><given-names>C.</given-names></name>
<name><surname>Disch</surname><given-names>S.</given-names></name>
<name><surname>Kjorling</surname><given-names>K.</given-names></name>
<name><surname>Schuijers</surname><given-names>E.</given-names></name>
<name><surname>Hilpert</surname><given-names>J.</given-names></name>
<name><surname>Myburg</surname><given-names>F.</given-names></name>
</person-group>
<year>2005</year>
<source>The reference model architecture for MPEG spatial audio coding</source>
<conf-name>118th AES Convention</conf-name>
<publisher-loc>Barcelona, Spain</publisher-loc>
</element-citation>
</ref>
<!-- [14] K. Kim, S. Beack, J. Seo, K. Kang, and M. Hahn, Spatial audio object coding with two-step coding structure for interactive audio service, IEEE Transactions on Multimedia, Vol. 13, No. 6, pp. 1208-1216, 2011.-->
<ref id="B014">
<label>[14]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Kim</surname><given-names>K.</given-names></name>
<name><surname>Beack</surname><given-names>S.</given-names></name>
<name><surname>Seo</surname><given-names>J.</given-names></name>
<name><surname>Kang</surname><given-names>K.</given-names></name>
<name><surname>Hahn</surname><given-names>M.</given-names></name>
</person-group>
<year>2011</year>
<article-title>Spatial audio object coding with two-step coding structure for interactive audio service</article-title>
<source>IEEE Transactions on Multimedia</source>
<volume>13</volume><issue>6</issue>
<fpage>1208</fpage><lpage>1216</lpage>
<pub-id pub-id-type="doi">10.1109/tmm.2011.2168197</pub-id>
</element-citation>
</ref>
<!-- [15] R. Lefebvre, R. Salami, C. Laflamme, and J.-P. Adoul, High quality coding of wideband audio signals using transform coded excitation (TCX), in Proc. ICASSP’94, pp. I.193.I.196, Apr. 1994.-->
<ref id="B015">
<label>[15]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Lefebvre</surname><given-names>R.</given-names></name>
<name><surname>Salami</surname><given-names>R.</given-names></name>
<name><surname>Laflamme</surname><given-names>C.</given-names></name>
<name><surname>Adoul</surname><given-names>J.-P.</given-names></name>
</person-group>
<year>1994</year>
<month>Apr.</month>
<source>High quality coding of wideband audio signals using transform coded excitation (TCX)</source>
<conf-name>ICASSP’94</conf-name>
<fpage>I.193</fpage><lpage>I.196</lpage>
<pub-id pub-id-type="doi">10.1109/icassp.1994.389322</pub-id>
</element-citation>
</ref>
<!-- [16] ITU-R Recommendation, Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA), ITU, BS 1543-1. Geneva, Switzerland, 2001.-->
<ref id="B016">
<label>[16]</label>
<element-citation publication-type="other">
<collab>ITU</collab>
<year>2001</year>
<article-title>Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA)</article-title>
<source>ITU-R Recommendation</source>
<comment>BS 1543-1</comment>
<publisher-loc>Geneva, Switzerland</publisher-loc>
</element-citation>
</ref>
</ref-list>
<ack>
<title>Acknowledgments</title>
<p>본 논문은 2018년도 나사렛대학교 교비학술연구조성비 지원에 의해 연구되었으며, 2018년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. 2017R1D1A3B03034951). 또한, 본 연구는 한국연구재단을 통해 과학기술정보통신부의 기초연구실지원사업으로부터 지원받아 수행됨(NRF-2018R1A4A1025559).</p>
</ack>
<bio>
<p><graphic xlink:href="../ingestImageView?artiId=ART002439609&amp;imageName=jkits_2019_14_01_53_f018.jpg"></graphic><bold>Kwangki Kim</bold> received the B.S. degree in electronic engineering from Korea Aviation University, Koyang, South Korea, in 2002, the M.S. degree and the Ph.D. degree in department of Information and Communications Engineering at Korea Advanced Institute of Science and Technology, Daejeon, South Korea, in 2004 and 2011, respectively. He worked as a researcher in Samsung DMC R&#x0026;D center in 2012. Currently, He is an assistant professor in Korea Nazarene University, Chon-an, Korea. His research interests include multi-channel/-object audio coding, spatial audio, 3D sound, and their applications. He is a life member of the KKITS.</p>
<p><italic>E-mail address</italic>: <email>jk2kim@kornu.ac.kr</email></p>
</bio>
</back>
</article>
