<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/resources/xsl/jats-html.xsl"?>
<article article-type="research-article" dtd-version="1.1" xml:lang="ko" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
	<journal-meta>
		<journal-id journal-id-type="publisher-id">jkits</journal-id>
		<journal-title-group>
		<journal-title>한국지식정보기술학회 논문지</journal-title>
		<journal-title xml:lang="en">Journal of Knowledge Information Technology and Systems</journal-title>
		</journal-title-group>
		<issn pub-type="ppub">1975-7700</issn>
		<publisher>
		<publisher-name>한국지식정보기술학회</publisher-name>
		<publisher-name xml:lang="en">Korea Knowledge Information Technology Society</publisher-name>
		</publisher>
	</journal-meta>
	<article-meta>
		<article-id pub-id-type="publisher-id">jkits_2019_14_04_391</article-id>
		<article-id pub-id-type="doi">10.34163/jkits.2019.14.4.008</article-id>
		<article-categories>
			<subj-group>
				<subject>Research Article</subject>
			</subj-group>
		</article-categories>
		<title-group>
			<article-title>빅데이터 기반 음성언어 처리 기술에 관한 연구</article-title>
			<trans-title-group xml:lang="en">
				<trans-title>A Study on the Spoken Language Processing Technology Based on Big Data</trans-title>
			</trans-title-group>
		</title-group>
		<contrib-group>
			<contrib contrib-type="author" xlink:type="simple">
				<name-alternatives>
					<name name-style="eastern">
						<surname>조</surname><given-names>진관</given-names>
					</name>
					<name name-style="western" xml:lang="en">
						<surname>Cho</surname><given-names>Jin-Kwan</given-names>
					</name>
					</name-alternatives>
					<xref ref-type="aff" rid="A1"></xref>
					<xref ref-type="fn" rid="fn01"><sup>*</sup></xref>
			</contrib>
					</contrib-group>
		<aff-alternatives id="A1">
			<aff><italic>경동대학교 외식사업경영학과 부교수</italic></aff>
			<aff xml:lang="en"><italic>Department of Food Service Management, Kyungdong University</italic></aff>
		</aff-alternatives>
				<author-notes>
			<fn id="fn01"><label>*</label><p>Corresponding author is with the Department of Food Service Management, Kyungdong University, Metropol Campus(Yangju) 27 Kyungdong University-ro, Yangju, Gyeonggido, 11458, KOREA. </p>
			<p><italic>E-mail address</italic>: <email>jkcho@kduniv.ac.kr</email></p></fn>
		</author-notes>
		<pub-date pub-type="ppub">
			<month>8</month>
			<year>2019</year>
		</pub-date>
		<volume>14</volume>
		<issue>4</issue>
		<fpage>391</fpage>
		<lpage>399</lpage>
		<history>
			<date date-type="received">
				<day>6</day>
				<month>6</month>
				<year>2019</year>
			</date>
			<date date-type="rev-recd">
				<day>9</day>
				<month>7</month>
				<year>2019</year>
			</date>
			<date date-type="accepted">
				<day>9</day>
				<month>8</month>
				<year>2019</year>
			</date>
		</history>
		<permissions>
			<copyright-statement>&#x00A9; 2019 KKITS All rights reserved</copyright-statement>
			<copyright-year>2019</copyright-year>
		</permissions>
		<abstract>
			<title>요약</title>
			<p>스마트 기기로 인한 다양한 정보처리 시대로 인해, 대부분의 사용자들은 스마트 기기와 컴퓨터를 통해서 각종 정보 및 생활의 편의를 느끼고 있다. 다양한 정보 중 언어 처리 분야는 인간의 언어를 컴퓨터가 자동으로 이해하고 처리하는 알고리즘을 연구하고 있으며, 시리와 같은 음성 대화 시스템 등 다양한 응용 서비스를 제공하고 있다. 특히, 언어 처리 기술은, 오늘날 빅데이터 환경에 적합한 서비스를 제공하며, 방대한 음성 및 텍스트 정보를 처리하기 위한 필수 기술이다. 또한, 빅데이터 기반 응용 시스템은 대용량의 데이터를 언어 처리 기술로 그 성능을 향상시키는 주된 리소스가 된다. 나아가, 우리의 연구는 빅데이터 기반 언어 처리를 위해 웹/앱 환경 기반 음성합성, 빅데이터 기반 음성신호처리, 음성합성 알고리즘을 제안한다. 빅데이터 기반 음성신호처리와 음성합성 알고르짐은 유기적인 상호절차에 의해 수행된다. 상호절차에 의해, 우리는 빅데이터 기반 언어 처리를 위한 RLS와 SNR 알고리즘을 이용하여 인석 성능을 실험하였다. 따라서, 본 논문에서는, 빅데이터를 이용하여 언어 처리 기술의 성능을 개선시키고자 다양한 선행 연구를 토대로 빅데이터 기반 언어 처리 기술에 대해 제안하고자 한다.</p>
		</abstract>
		<trans-abstract xml:lang="en">
			<title>ABSTRACT</title>
			<p>Among the age of multiple information processing with smart device, many users feel each information and comfortable life through their smart device and computer so on. The area of language processing about multiple information make an automatically recognition and processing by computer with human language, and study their algorithm. In addition, it provides a several of application services such as siri, speech conversation system. Especially, language processing technology offer to valuable service in big data environment, and necessary to essential technology to processing big speech and text information. Moreover, big data-based application system become main resource that make a good performance using language processing technology by huge data. Moreover, our research provide web/app environment-based speech collaboration, big data-based both speech signal processing, and speech collaboration algorithm. Big data-based both speech signal processing and speech algorithm carry out by transaction procedure organically. By the transaction procedure, we had an experiment with Trek user speech data using RLS and SNR algorithm for big data-based language processing. Accordingly, in this paper, we propose big data-based information processing with many pre-research in order to improve a capability of the information processing technology using big data.</p>
		</trans-abstract>
		<kwd-group kwd-group-type="author" xml:lang="en">
			<kwd>Information processing</kwd>
			<kwd>Smart device</kwd>
			<kwd>Language processing</kwd>
			<kwd>Application service</kwd>
			<kwd>Speech conversation system</kwd>
			<kwd>Big data environment</kwd>
			<kwd>Application system</kwd>
		</kwd-group>
	</article-meta>
</front>
<body>
<sec id="sec001" sec-type="intro">
	<title>1. 서 론</title>
<p>오늘날 4차 산업혁명의 발전과 더불어 스마트 기기들의 다양한 서비스 및 애플리케이션의 증가로 인해 사용자가 언제 어디서든 무엇을 원하는지 그들의 행동과 상황을 인지하여 제공해주는 다양한 음성 서비스가 지원되고 있다 <xref ref-type="bibr" rid="B001">[1]</xref>. 이러한 음성 서비스는 사용자가 원하는 환경적, 상황적 인지에 따라 지니톡과 Siri와 같은 대화형 시스템으로 발전하였다. 특히 스마트 기기가 보편화됨에 따라 컴퓨팅 환경에서 제공하는 다양한 서비스 및 응용 프로그램들에 의해 한·영 등의 자동번역 서비스 및 스마트 네비게이션, 알림 기능 등 인간의 음성/자연어를 인식하고 처리하는 서비스라는 점이다 <xref ref-type="bibr" rid="B002">[2]</xref>. 또한, 음성언어 처리는 이들이 사용되는 인간과 컴퓨터 상호작용에 근거한 인공지능 기반 언어 프로그램의 한 연구 분야로서, 인간과 컴퓨터 간의 자연어 인터페이스에 의해 자연어를 컴퓨터가 자동으로 이해하고 처리하는 메커니즘을 핵심적으로 연구하고 있다 <xref ref-type="bibr" rid="B003">[3]</xref>. 국가적 언어의 소통이 불편함없이 자동 통번역 서비스, Siri와 같은 음성 대화 서비스, 다차원 공간에서 활용될 수 있는 차세대 인터페이스 서비스, 자가 적응적 질의 응답 시스템 등 수많은 응용 소프트웨어들이 음성언어 처리 기술에 기반을 둔다. 그 중에서도 유비쿼터스 환경의 시대를 기점으로 빅데이터 환경에 적합한 사용자인지 적응형 음성 및 텍스트 정보가 유/무선 환경에서 다양한 데이터 서비스 형태로 제공됨에 따라, 음성언어 처리 기술은 빅데이터 분석/처리를 위한 필수 기술로도 그 중요성을 인정받고 있다. 대부분의 빅데이터 연구는 빅데이터를 어떻게 분석하고 저장하고 관리하는지에 관한 것으로 <xref ref-type="bibr" rid="B004">[4]</xref>, 사용자 기반 콘텐츠 중심의 서비스 형태로 제공되었으나, 음성언어 처리 분야에서 빅데이터 그 자체로 이를 위한 특정 서비스를 제공받기에는 쉽지 않지만, 방대한 음성 및 텍스트 정보는 바로 인간이 발생하는 자연어이기 때문에, 과거의 음성처리 소프트웨어 비해 이들이 음성언어 처리에서 다루는 여러 가지 문제를 쉽게 해결할 수 있다 <xref ref-type="bibr" rid="B005">[5]</xref>. 이는 결국 현대의 음성언어 처리 기술은 방대한 데이터의 양을 특정 환경에 적합한 알고리즘 기술을 적용하여 데이터를 처리하는 속도 및 통계적 방법에 기반을 두고 있기 때문이다. 이는 통계에서 데이터의 규모가 커질수록 확률 모델이 실제 모델과 더 가까워져 보다 정확히 계산될 수 있으며[<xref ref-type="bibr" rid="B006">6</xref>-<xref ref-type="bibr" rid="B008">8</xref>], 빅데이터 기반 통계적 모델링을 통해, 처리된 음성언어 모델이 보다 정교해질 수 있을 것이다 <xref ref-type="bibr" rid="B009">[9]</xref><xref ref-type="bibr" rid="B010">[10]</xref>. 이에, 본 논문에서는 빅데이터를 이용하여 대용량 데이터를 언어 처리 기술로 그 성능을 향상시킬 수 있는 리소스들로부터 빅데이터 기반 언어 처리에 대해 제안하고자 한다. 본 논문에서는 빅데이터를 관련 요소 기술과 빅데이터 시스템의 일련의 관리/저장 기술을 적용함으로서 보다 효율적인 언어처리를 제안하고자 한다. 본 논문의 구성은 다음과 같다. 2절에서는 음성인식 기술에 대해 소개하고, 3절에서는 빅데이터 기반 언어처리, 4절에서는 실험 결과 및 분석, 그리고 5절에서는 결론을 기술한다.</p>
</sec>
<sec id="sec002">
<title>2. 음성인식 기술</title>
<p>음성인식이란 응용 소프트웨어 환경을 지원하는 컴퓨팅 기기를 이용하여 음성의 특정 파라미터를 추출하고 인지하는 것으로서, 사람이 표현하는 음성을 입, 혀 및 주파수를 통해 인간의 음성을 전기신호로 변화한 후 음성 신호의 주파수 특성을 분석하여 인식하는 기술을 말한다 <xref ref-type="bibr" rid="B011">[11]</xref>. 오늘날 그래픽 인터페이스 기술이 발달하면서, 마우스, 키보드를 병합한 편리한 분석 기기 및 소프트웨어들로 다양한 알고리즘과 기술을 통해 처리됨에 따라, 이에 대한 정확도 및 자연어 처리에 대한 자연스러운 음성 핵심 기술이 모바일 기술 및 클라우드 시스템의 성장으로 인터페이스와 편리한 정보검색에 제공되고 있다. 이러한 음성인식 시스템은 사용자가 요구하는 인터페이스 환경과 대화형 정보검색서비스 요구가 점차 확대되면서, 구글, 네이버 등 유무선 환경을 위한 통합 크로스 플랫폼 제공과 스마트 기기상의 사용자 적응형 검색 서비스를 제공하면서 음성검색 기능을 필수적으로 제공되고 있다 <xref ref-type="bibr" rid="B012">[12]</xref>. 대표적으로, 사용자 데이터를 활용하여 사람이 인지 가능한 범위내에 음성 변화를 행동으로 발전시키려 하고 있으며, 다양한 음성 인터페이스와의 대화를 통해 그들이 스스로 검색하고, 분석하고, 서비스를 제공하는 등 사용자의 니즈에 자가 적응할 수 있는 사고 서비스까지 제공하고자 한다. 이러한 사고기반, 음성기반, 자가적응기반 차세대 융합 컴퓨팅 기술을 제공하는 대표적 업체인 애플과 구글은 빅 클라우드 서비스를 내세우며 자연어 음성인식 기반 정보 제공 서비스가 상용화되고 있고 곧 사용자 곁에 다가올 시대가 가까워오고 있음을 나타내는 사례로 볼 수 있다.</p>
<sec id="sec002-1">
<title>2.1 음성인식분류</title>
<p>음성처리에서의 가장 중요한 요소로서는 음성인식에 대한 분류이다. 이러한 처리는 인식대상이 특정 대화의 단독 숫자음을 출력하는 방식으로서, 기기기상에 음성 데이터를 전달 시 문장으로 출력되어 나오는 시스템을 의미한다 <xref ref-type="bibr" rid="B013">[13]</xref>. 이외에 다른 기술적 요인으로서는 어휘수, 음성의 종류 등에 따라 다양하게 분류할 수 있다. 음성인식에 대한 분류 중 사용자의 음성을 훈련시켜 특정 사용자만 인식하도록하는 회자종속방식과 사용자 제한과 훈련과정 없이 모든 사람의 음성을 인식하는 회자독립방식이 있다. 또한 발음방법적 측면에 있어 조사, 접두사, 접미사나 어미등에 대한 부가적 처리를 하지 않고 음성의 시작과 끝점으로 구현할 수 있는 고립단어 인식과 연결단어 인식, 그리고 연속으로 발음된 음성에서 특정 단어만을 검색하여 인식할 수 있는 핵심어 인식이 있다 <xref ref-type="bibr" rid="B014">[14]</xref>. 이에 대한 발전적 음성 인식으로는 일반적 사람과 대화하듯 대화체로 발성을 하면 이를 인식하는 기술이다. 이처럼 사람의 음성은 스마트 기기 뿐 만 아니라 유무선인터넷 환경에서 쓰여지는 다양하고 대규모적인 데이터를 사용해야 하고 있기 때문에, 고품질의 음성인식 서비스를 위해서는 많은 데이터와 다양한 지식을 활용하여 성능을 개선할 필요가 있다 <xref ref-type="bibr" rid="B015">[15]</xref>. 음성인식 기술의 보편적 활용에 제약을 주고 있는 해결 과제로사용자에 따른 인식률의 차이, 주변 잡음에 따른 인식률 저하, 인식대상 어휘의 제한으로 인한 인식 오류 발생을 들 수 있다. 이에 대한 문제들을 해결하기 위해서는 많은 데이터 스토리지와 처리 및 이를 활용하는 방법론, 다양한 지식을 활용하는 음성인식 프레임이 필요하다. 음성인식을 활용한 수 많은 데이터 및 다양한 지식은 두 가지 측면인 음향학적 관점과 언어학적 관점으로 살펴볼 수 있다. 첫째, 음향학적 관점에서는 화자, 배경잡음, 마이크로폰 등의 다양한 환경을 표현하는 데이터 및 지식을 제공하고 있으며, 둘째로, 언어학적 관점에서는 어휘, 문법, 문맥 등을 모델링하여 많은 데이터 및 언어정보를 정확하게 추출하고, 지식 정보로 제공된다. 이러한 두 관점의 지식을 메타 데이터로 표현함으로서, 지식 정보 신뢰적 통계 결과를 얻기 위한 다양한 의미론적 데이터와 통계적 음성인식 프레임에 결합하기 위한 방법론으로 음성인식의 성능은 크게 개선 될 수 있다.</p>
</sec>
<sec id="sec002-2">
<title>2.2 음성인식방법</title>
<p>다음으로 음성처리에서의 중요한 요소로서는 음성인식방법으로 이는 인식 알고리즘이 동적정합법과 은닉 마코프 모델, 신경망등을 들 수 있다 <xref ref-type="bibr" rid="B016">[16]</xref>. 동적 정합법은 대표 패턴과 이미 정의된 패턴 건을 비교하여 둘 사이의 유사성을 판별하는 방법이다. 지속길이의 불일치를 비선형적으로 최적화하는 방법으로 이러한 처리는 인식대상이 특정 대화의 단독 숫자음을 출력하는 방식으로서, 부분 최적화에 기반을 두어 전체의 최적화를 수행하는 방법을 또한 말한다. 은닉 마코프 모델은 음성 인식에 있어 가장 많이 사용되는 방법으로 높은 인식률과 편리한 학습성, 음성의 시간적 변화를 모델링하는 천이확률과 스펙트럼 변화를 모델링으로 하는 출력활률로 나타낼 수 있다. 마지막으로 인간의 뇌가 정보를 암호화하고 해독하는 과정을 모델링한 신경 회로망으로 퍼지 기능을 가진 인공뉴런 상호 밀도성과 연결성에 따른 다양한 기능을 수행하는 방법이다. 아래의 &lt;<xref ref-type="fig" rid="f001">그림 1</xref>&gt;은 음성인식 과정을 나타내는 흐름도 이다.</p>
<fig id="f001" orientation="portrait" position="float">
	<label>그림 1.</label>
	<caption>
		<title>음성인식 과정 흐름도</title>
		<p>Figure 1. Speech Recognition Process Flow</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002497003&amp;imageName=jkits_2019_14_04_391_f001.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>위에 언급한 음성인식 방법은 오늘날 스마트 기기 기반 유무선 환경과 클라우드 서비스의 이용이 증가하고 있으며 <xref ref-type="bibr" rid="B017">[17]</xref>, 다양한 사용자들은 음성인식을 통해 대규모의 사용자 로그 데이터를 수집하고 있다. 나아가 상황적 여러 환경에서 화자의 다양한 어휘를 활용한 의미론적 음성 데이터를 제공하고 있으며, 자연어 음성인식을 위한 빅데이터 수집에 필수적인 요소로 적용되고 있다. 이와 같은 사례로, 구글은 2년 동안 한 사용자가 제공한 음성을 자체 음성 검색 서비스를 이용하여 음성 데이터 수집, 음향학적 정보와 다양한 분야에 적용 가능한 텍스트 자료 수집을 한다. 또한, 문법 구조를 학습함으로서 음성인식 성능 개선을 위해 활용되고 있다.</p>
</sec>
</sec>
<sec id="sec003">
<title>3. 빅데이터 기반 언어처리</title>
<p>본 논문에서는 빅데이터 기반 언어처리로 구글과 같은 상용 검색 엔진과 구글 빅데어와 같은 대규모 통계적 언어처리 기법으로 처리하는데는 연구의 일부분이지만, 그 중 n-gram 빈도수는 오류교정, 구문 분석에서 애매성을 해소 처리하기 위한 태스크이다. 또한, 검색 엔진과 웹으로부터 n-gram 카운트를 생성하고, 관련 질의어 도메인 집합을 정의하여 검색하는 방식으로 성능 개선을 하고자 한다.</p>
<sec id="sec003-1">
<title>3.1 유·무선 환경 기반 음성 합성</title>
<p>유·무선 환경(웹기반/앱기반)에서의 언어처리에 서 대규모 데이터를 사용해야 함에 따라, 개인 보호법 상 특정 사용자의 음성 데이터가 아닌 Trek에서 제공하는 음성 데이터를 활용하였다.이 데이터는 실제 사용자가 제공하는 데이터 보다는 일부 음성적 패턴이 있다. 본 연구에서 활용되는 음성데이터는 음성합성을 통해 사용자의 목소리 파형과 함께 빅데이터 기억장치에 저장해 놓고, 주어진 문장에 따라 이들을 합성하여 의미있는 음성으로 만든다. 빅데이터 시스템은 기존 구글(Google N-Gram1)을 통해 언어적 처리부와 음성합성부로 분류하고, 음성합성부에서는 운율생성부와 데이터베이스 및 합성기부로 분류하였다. 실제 응용적 데이터를 처리하는 제한된 어휘 개수와 구문 구조의 문장만을 합성하는 제한 및 무제한 어휘 합성 두 가지 단계를 통합하여 수행하였다. 결국 한국어의 특성상 모든 음소에 대한 발음 데이터상에 음성의 크기, 길이, 높낮이 등을 조절해야하는 자연어 처리가 요구되기 때문이다. 아래의 &lt;<xref ref-type="fig" rid="f002">그림 2</xref>&gt;는 음성합성 과정을 나타내는 플로우이다.</p>
<fig id="f002" orientation="portrait" position="float">
	<label>그림 2.</label>
	<caption>
		<title>음성합성 과정 흐름도</title>
		<p>Figure 2. Speech Collaboration Process Flow</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002497003&amp;imageName=jkits_2019_14_04_391_f002.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>이와 같이 대규모 음성 데이터 사용의 필요성과 웹/앱 기반 n-gram 빈도 수와 웹/앱 기반 모델로서의 8개 언어처리 생성과 분석 문제가 적용 가능하다.</p>
</sec>
<sec id="sec003-2">
<title>3.2 빅데이터 기반 음성신호처리부</title>
<p>음성신호처리는 아래의 &lt;<xref ref-type="fig" rid="f003">그림 3</xref>&gt;과 같이, 음성파 형생성과 음성DB로 구성된다. 음성파형은 PCM, ADPCM과 같은 부호화를 통해 DB를 구축하고, 이에 대한 알고리즘을 적용하여 원음 생성을 하는데 있다. 이에 대한 파형을 위해, 첫째로 Vocoding은 수학적 모델링 방식으로 음성을 합성하여 Pitch 조절을 한다. Format 합성방식에서는 음성고유의 포맷을 추출한 후 DB를 생성하여 음소와 음소가 연결되는 포맷 변화를 규칙화함으로서 이를 합성하는 Synthesis-by-Rule을 활용한다.</p>
<fig id="f003" orientation="portrait" position="float">
	<label>그림 3.</label>
	<caption>
		<title>음성신호 처리 과정 흐름도</title>
		<p>Figure 3. Speech Signal Transaction Process Flow</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002497003&amp;imageName=jkits_2019_14_04_391_f003.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>둘째로, 음성 데이터 경우, 기본적 합성 단위간 연결에 의해 이루어지는 음성단위를 연결시 발행사는 스펙트럼의 불연속성을 최소화하고자 음성DB를 생성하였다.</p>
</sec>
<sec id="sec003-3">
<title>3.3 빅데이터 기반 음성합성 알고리즘</title>
<p>위에서 언급했듯이, 음성합성과 음성신호처리부에 의해 동작되는 언어 처리는 음성합성 알고리즘에 의해 구현된다. 이 알고리즘을 위한 과정 흐름도는 &lt;<xref ref-type="fig" rid="f004">그림 4</xref>&gt;와 같으며, 언어학적 처리부와 음성 신호 처부로 구성되어 동작한다. 언어학적 처리부 측면에서는 텍스트 전처리, 발음표기 알고리즘, 문장분석과정 동작으로 나뉜다. 텍스트 전처리에서는 한글을 포함한 반정형 데이터 즉, 숫자, 기호, 영어, 약어 등을 적절한 동의어 사전을 통해 한글로 변형하여 생성하고, 발음표기 변환 알고리즘에 의해 그 표기로 다시 변환된다. 또한, 문장분석과정에서 입력문장의 구조를 선행 처리하여, 음성합성에 필요한 운율 정보를 추출한다.</p>
<fig id="f004" orientation="portrait" position="float">
	<label>그림 4.</label>
	<caption>
		<title>음성합성 알고리즘을 위한 과정 흐름도</title>
		<p>Figure 4. Process Flow of Speech Collaboration Algorithm</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002497003&amp;imageName=jkits_2019_14_04_391_f004.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>언어학적 처리부에서 처리된 운율정보와 음성 데이터베이스를 활용하여 음성 파형을 생성 시킨 후 음성의 기본적 단위들에 대한 정보를 저장 한 후 RLS 알고리즘을 활용하여 파라미터 추척을 위해 적용된다. 기존 LPC 방식에 비해 저장해야 할 데이터 양이 많기 때문에 음성 합성에 적용하기 위해서는 적절한 데이터를 생성하고자 빅데이터를 활용한 이유이기도 하다. 하지만, RLS 알고리즘은 잡음의 형태에 따라 다양한 음성의 노이즈를 처리한데 어려움이 있어, 일반적 반향 잡음 제거를 위한 HMM이 특정 파라미터의 음성 신호를 직접 모델링하는 연출 출력 확률 분포와 벡터 양자화를 위한 이산 출력분포로도 적용가능하다.</p>
</sec>
</sec>
<sec id="sec004">
<title>4. 실험 결과 및 분석</title>
<p>본 논문에서는 빅데이터 기반 언어 처리를 위해 RLS에 SNR 알고리즘을 이용하여 인식 성능을 실험하였다. 제안된 방법을 실험하기 위해 Trek 음성을 각각 10개의 음성에 5dB가 되도록 혼합하였고, 반향잡음 제거 실험을 수행하였고, 아래의 &lt;<xref ref-type="fig" rid="f005">그림5</xref>&gt;와 같다.</p>
<fig id="f005" orientation="portrait" position="float">
	<label>그림 5.</label>
	<caption>
		<title>음성신호처리과정</title>
		<p>Figure 5. Speech Signal Process Flow</p>
	</caption>
	<graphic xlink:href="../ingestImageView?artiId=ART002497003&amp;imageName=jkits_2019_14_04_391_f005.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic>
</fig>
<p>또한, 음성 데이터에 대한 언어 인식 실험을 위해서 음성 빅데이터 데이터베이스로 약 20여명의 Trek 사용자 음성을 학습 모델로 사용하였으며, 이중 5명의 음성을 테스트하여 데이터로 활용하였다. 어휘 인식을 위해 해당 Trek 사용자 음성 데이터 상의 10개의 단어를 랜덤으로 발생시켜 인식 실험을 수행한 결과 1.09%의 인식 성능을 나타낼 수 있었다.</p>
</sec>
<sec id="sec005" sec-type="Conclusions">
<title>5. 결 론</title>
<p>본 연구에서는, 실제 상용화되고 있는 빅데이터 기반 시스템들에서의 언어 처리에 대한 대규모 리소스로 활용되기에는 부족한 점이 있다. 하지만, 관련 요소 기술의 성능을 향상시키 위해서는 음성 인식의 음향 모델링과 언어 모델링 학습을 위해 빅데이터를 사용해야 하며, 모델의 정확성을 향상시키기 위한 필수적 기술 요소로 활용된다. 또한, 언어처리는 어휘 선택 문제와 구문 분석 등의 문제에 대한 융합적 프레임워크를 기반으로 통계 모델의 학습 성능을 향상시킬 수 있다. 그 뿐 만 아니라 다양한 앱 기반 애플리케이션에서 제공하는 언어 변환 모델 및 소프트웨어의 기술 향상으로 언어 모델 및 변환 모델을 규모화를 극대화 할 수 있으로 기대된다. 본 논문에서 제안하는 빅데이터 기반 언어처리는 실제 상용 서비스 시스템에 빅데이터 기반 음성언어 처리 기술을 안착시키기 위해 실험적 데이터 및 빅데이터 환경 기반 분석, 저장 및 추출, 평가하는데 수행하였다. 급변하게 변화하는 클라우드 컴퓨팅 환경과 이에 적합한 빅데이터의 응용 연구 수행을 통해, 본 연구에서 제안하고자 하는 언어 처리 각각의 확률 모델과 정확성에 대한 연구가 향후 진행되어야 할 것이다.</p>
</sec>
</body>
<back>
<ref-list>
<title>References</title>
<!-- [1] C. F. Baker, C. J. Fillmore, and J. B. Lowe. The Berkeley FrameNet project. In Proceedings of COLINGACL’98, pp. 86.90, Montreal, Canada, 1998.-->
<ref id="B001">
<label>[1]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Baker</surname><given-names>C. F.</given-names></name>
<name><surname>Fillmore</surname><given-names>C. J.</given-names></name>
<name><surname>Lowe</surname><given-names>J. B.</given-names></name>
</person-group>
<year>1998</year>
<article-title>The Berkeley FrameNet project</article-title>
<conf-name>Proceedings of COLINGACL’98</conf-name>
<conf-loc>Montreal, Canada</conf-loc>
<fpage>86</fpage><lpage>90</lpage>
</element-citation>
</ref>
<!-- [2] M. E. Beckman, J. Hirschberg, and S. Shattuck-Hufnagel. Prosodic Typology: The phonology of intonation and phrasing, chapter The original ToBI system and the evolution of the ToBI framework. Oxford University Press, 2006.-->
<ref id="B002">
<label>[2]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Beckman</surname><given-names>M. E.</given-names></name>
<name><surname>Hirschberg</surname><given-names>J.</given-names></name>
<name><surname>Shattuck-Hufnagel</surname><given-names>S.</given-names></name>
</person-group>
<year>2006</year>
<chapter-title>chapter The original ToBI system and the evolution of the ToBI framework</chapter-title>
<source>Prosodic Typology: The phonology of intonation and phrasing</source>
<publisher-name>Oxford University Press</publisher-name>
</element-citation>
</ref>
<!-- [3] R. A. Calvo, and S. D’Mello. Affect detection: An interdisciplinary review of models, methods, and their applications. IEEE Transactions On Affective Computing, Vol. 1, No. 1, pp. 18-37, 2010.-->
<ref id="B003">
<label>[3]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Calvo</surname><given-names>R. A.</given-names></name>
<name><surname>D’Mello</surname><given-names>S.</given-names></name>
</person-group>
<year>2010</year>
<article-title>Affect detection: An interdisciplinary review of models, methods, and their applications</article-title>
<source>IEEE Transactions On Affective Computing</source>
<volume>1</volume><issue>1</issue>
<fpage>18</fpage><lpage>37</lpage>
<pub-id pub-id-type="doi">10.1109/t-affc.2010.1</pub-id>
</element-citation>
</ref>
<!-- [4] Y. Choi, and C. Cardie. Learning with compositional semantics as structural inference for subsentential sentiment analysis. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 793-801, 2008.-->
<ref id="B004">
<label>[4]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Choi</surname><given-names>Y.</given-names></name>
<name><surname>Cardie</surname><given-names>C.</given-names></name>
</person-group>
<year>2008</year>
<article-title>Learning with compositional semantics as structural inference for subsentential sentiment analysis</article-title>
<source>Proceedings of the Conference on Empirical Methods in Natural Language Processing</source>
<fpage>793</fpage><lpage>801</lpage>
<pub-id pub-id-type="doi">10.3115/1613715.1613816</pub-id>
</element-citation>
</ref>
<!-- [5] N. Chomsky. Minimalist inquiries: The framework. In R. Martin, D. Michaels, and J. Uriagereka, editors, Step by Step: Essays in Minimalist Syntax in Honor of Howard Lasnik, Cambridge, MA: MIT Press, pp. 89-115, 2000.-->
<ref id="B005">
<label>[5]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Chomsky</surname><given-names>N.</given-names></name>
</person-group>
<person-group person-group-type="editor">
<name><surname>Martin</surname><given-names>R.</given-names></name>
<name><surname>Michaels</surname><given-names>D.</given-names></name>
<name><surname>Uriagereka</surname><given-names>J.</given-names></name>
</person-group>
<year>2000</year>
<chapter-title>Minimalist inquiries: The framework</chapter-title>
<source>Step by Step: Essays in Minimalist Syntax in Honor of Howard Lasnik</source>
<publisher-loc>Cambridge, MA</publisher-loc>
<publisher-name>MIT Press</publisher-name>
<fpage>89</fpage><lpage>115</lpage>
<pub-id pub-id-type="doi">10.1017/s0022226702271625</pub-id>
</element-citation>
</ref>
<!-- [6] M. Davel, and E. Barnard. Pronunciation prediction with Default&#x26;Refine. Computer Speech and Language, Vol. 22, No. 4, pp. 374-393, 2008.-->
<ref id="B006">
<label>[6]</label>
<element-citation publication-type="journal">
<person-group>
<name><surname>Davel</surname><given-names>M.</given-names></name>
<name><surname>Barnard</surname><given-names>E.</given-names></name>
</person-group>
<year>2008</year>
<article-title>Pronunciation prediction with Default&#x26;Refine</article-title>
<source>Computer Speech and Language</source>
<volume>22</volume><issue>4</issue>
<fpage>374</fpage><lpage>393</lpage>
<pub-id pub-id-type="doi">10.1016/j.csl.2008.01.001</pub-id>
</element-citation>
</ref>
<!-- [7] M. H. Davel, C. J. van Heerden, and E. Barnard. Validating smartphone-collected speech corpora. In Proceedings of the Third International Workshop on Spoken Languages Technologies for Under-Resourced Languages (SLTU’12), 2012.-->
<ref id="B007">
<label>[7]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Davel</surname><given-names>M. H.</given-names></name>
<name><surname>van Heerden</surname><given-names>C. J.</given-names></name>
<name><surname>Barnard</surname><given-names>E.</given-names></name>
</person-group>
<year>2012</year>
<article-title>Validating smartphone-collected speech corpora</article-title>
<conf-name>Proceedings of the Third International Workshop on Spoken Languages Technologies for Under-Resourced Languages (SLTU’12)</conf-name>
</element-citation>
</ref>
<!-- [8] M. Dong, K. Lua, and J. Xu. Selecting prosody parameters for unit selection based Chinese TTS. In K. Su, J. Tsujii, J. Lee, and O. Y. Kwong, editors, Natural Language Processing . IJCNLP 2004, Vol. 3248 of Lecture Notes in Computer Science, pp. 272-279, 2005.-->
<ref id="B008">
<label>[8]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Dong</surname><given-names>M.</given-names></name>
<name><surname>Lua</surname><given-names>K.</given-names></name>
<name><surname>Xu</surname><given-names>J.</given-names></name>
</person-group>
<person-group person-group-type="editor">
<name><surname>Su</surname><given-names>K.</given-names></name>
<name><surname>Tsujii,</surname><given-names>J.</given-names></name>
<name><surname>Lee</surname><given-names>J.</given-names></name>
<name><surname>Kwong</surname><given-names>O. Y.</given-names></name>
</person-group>
<year>2005</year>
<chapter-title>Selecting prosody parameters for unit selection based Chinese TTS</chapter-title>
<source>Natural Language Processing</source>
<comment>IJCNLP 2004, Vol. 3248 of Lecture Notes in Computer Science</comment>
<fpage>272</fpage><lpage>279</lpage>
</element-citation>
</ref>
<!-- [9] A. Esuli, and F. Sebastiani. SentiWordNet: a publicly available lexical resource for opinion mining. In Proceedings of the Fifth International Conference on Language Resources and Evaluation, pp. 417-422, 2006.-->
<ref id="B009">
<label>[9]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Esuli</surname><given-names>A.</given-names></name>
<name><surname>Sebastiani</surname><given-names>F.</given-names></name>
</person-group>
<year>2006</year>
<article-title>SentiWordNet: a publicly available lexical resource for opinion mining</article-title>
<source>Proceedings of the Fifth International Conference on Language Resources and Evaluation</source>
<fpage>417</fpage><lpage>422</lpage>
</element-citation>
</ref>
<!-- [10] C. Féry. Syntax, information structure, embedded prosodic phrasing and the relational scaling of pitch accents. In N. Erteschick-Shir and L. Rochman, editors, The sound of Syntax, pp. 271-290. Oxford University Press, 2009.-->
<ref id="B010">
<label>[10]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Féry</surname><given-names>C.</given-names></name>
</person-group>
<person-group person-group-type="editor">
<name><surname>Erteschick-Shir</surname><given-names>N.</given-names></name>
<name><surname>Rochman</surname><given-names>L.</given-names></name>
</person-group>
<year>2009</year>
<chapter-title>Syntax, information structure, embedded prosodic phrasing and the relational scaling of pitch accents</chapter-title>
<source>The sound of Syntax</source>
<fpage>271</fpage><lpage>290</lpage>
<publisher-name>Oxford University Press</publisher-name>
<pub-id pub-id-type="doi">10.1093/acprof:oso/9780199556861.003.0013</pub-id>
</element-citation>
</ref>
<!-- [11] C. Féry, and S. Ishihara. How focus and givenness shape prosody. In M. Zimmermann and C. F´ery, editors, Information Structure  from Different Perspectives, Oxford University Press, pp. 36-63, 2009.-->
<ref id="B011">
<label>[11]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Féry</surname><given-names>C.</given-names></name>
<name><surname>Ishihara</surname><given-names>S.</given-names></name>
</person-group>
<person-group person-group-type="editor">
<name><surname>Zimmermann</surname><given-names>M.</given-names></name>
<name><surname>F´ery</surname><given-names>C.</given-names></name>
</person-group>
<year>2009</year>
<chapter-title>How focus and givenness shape prosody</chapter-title>
<source>Information Structure  from Different Perspectives</source>
<publisher-name>Oxford University Press</publisher-name>
<fpage>36</fpage><lpage>63</lpage>
</element-citation>
</ref>
<!-- [12] B. Fossett, and P. Mirenda. Handbook of Developmental disabilities, chapter augmentative and alternative communication. pp. 330-366. Guilford Press, 2009.-->
<ref id="B012">
<label>[12]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Fossett</surname><given-names>B.</given-names></name>
<name><surname>Mirenda</surname><given-names>P.</given-names></name>
</person-group>
<year>2009</year>
<chapter-title>chapter augmentative and alternative communication</chapter-title>
<source>Handbook of Developmental disabilities</source>
<fpage>330</fpage><lpage>366</lpage>
<publisher-name>Guilford Press</publisher-name>
</element-citation>
</ref>
<!-- [13] D. J. Hirst. Form and function in the representation of speech prosody. In K. Hirose, D. J. Hirst, and Y. Sagisaka, editors, Quantitative prosody modeling for natural speech description and generation, Vol. 46 of Speech Communication, pp. 334-347, 2005.-->
<ref id="B013">
<label>[13]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Hirst</surname><given-names>D. J.</given-names></name>
</person-group>
<person-group person-group-type="editor">
<name><surname>Hirose</surname><given-names>K.</given-names></name>
<name><surname>Hirst</surname><given-names>D. J.</given-names></name>
<name><surname>Sagisaka</surname><given-names>Y.</given-names></name>
</person-group>
<year>2005</year>
<chapter-title>Form and function in the representation of speech prosody</chapter-title>
<comment>Quantitative prosody modeling for natural speech description and generation</comment>
<source>Speech Communication</source>
<volume>46</volume>
<fpage>334</fpage><lpage>347</lpage>
<pub-id pub-id-type="doi">10.1016/j.specom.2005.02.020</pub-id>
</element-citation>
</ref>
<!-- [14] J. A. Louw. Speect: A multilingual text-to-speech system. In Proceedings of the 19th Annual Symposium of the Pattern Recognition Association of South Africa (PRASA), pp. 165-168, 2008.-->
<ref id="B014">
<label>[14]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Louw</surname><given-names>J. A.</given-names></name>
</person-group>
<year>2008</year>
<article-title>Speect: A multilingual text-to-speech system</article-title>
<source>Proceedings of the 19th Annual Symposium of the Pattern Recognition Association of South Africa (PRASA)</source>
<fpage>165</fpage><lpage>168</lpage>
</element-citation>
</ref>
<!-- [15] B. Z. Pollermann, and M. Archinard. Improvements in speech synthesis. In E. Keller, G. Bailly, A. Monaghan, J. Terken, and M. Huckvale, editors, Acoustic patterns of emotions, pp. 237-245. 2002.-->
<ref id="B015">
<label>[15]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Pollermann</surname><given-names>B. Z.</given-names></name>
<name><surname>Archinard</surname><given-names>M.</given-names></name>
</person-group>
<person-group person-group-type="editor">
<name><surname>Keller</surname><given-names>E.</given-names></name>
<name><surname>Bailly</surname><given-names>G.</given-names></name>
<name><surname>Monaghan</surname><given-names>A.</given-names></name>
<name><surname>Terken</surname><given-names>J.</given-names></name>
<name><surname>Huckvale</surname><given-names>M.</given-names></name>
</person-group>
<year>2002</year>
<chapter-title>Improvements in speech synthesis</chapter-title>
<source>Acoustic patterns of emotions</source>
<fpage>237</fpage><lpage>245</lpage>
<pub-id pub-id-type="doi">10.1002/0470845945.ch23</pub-id>
</element-citation>
</ref>
<!-- [16] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, and K. Vesely. The Kaldi speech recognition toolkit. In IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. IEEE Signal Processing Society, pp. 123-130, 2011.-->
<ref id="B016">
<label>[16]</label>
<element-citation publication-type="paper">
<person-group>
<name><surname>Povey</surname><given-names>D.</given-names></name>
<name><surname>Ghoshal</surname><given-names>A.</given-names></name>
<name><surname>Boulianne</surname><given-names>G.</given-names></name>
<name><surname>Burget</surname><given-names>L.</given-names></name>
<name><surname>Glembek</surname><given-names>O.</given-names></name>
<name><surname>Goel</surname><given-names>N.</given-names></name>
<name><surname>Hannemann</surname><given-names>M.</given-names></name>
<name><surname>Motlicek</surname><given-names>P.</given-names></name>
<name><surname>Qian</surname><given-names>Y.</given-names></name>
<name><surname>Schwarz</surname><given-names>P.</given-names></name>
<name><surname>Silovsky</surname><given-names>J.</given-names></name>
<name><surname>Stemmer</surname><given-names>G.</given-names></name>
<name><surname>Vesely</surname><given-names>K.</given-names></name>
</person-group>
<year>2011</year>
<article-title>The Kaldi speech recognition toolkit</article-title>
<conf-name>IEEE 2011 Workshop on Automatic Speech Recognition and Understanding</conf-name>
<publisher-name>IEEE Signal Processing Society</publisher-name>
<fpage>123</fpage><lpage>130</lpage>
</element-citation>
</ref>
<!-- [17] M. Schröder. Expressive speech synthesis: Past, present, and possible futures. In J. Tao and T. Tan, editors, Affective Information Processing, Springer London, pp. 111-126, 2009.-->
<ref id="B017">
<label>[17]</label>
<element-citation publication-type="book">
<person-group>
<name><surname>Schröder</surname><given-names>M.</given-names></name>
</person-group>
<person-group person-group-type="editor">
<name><surname>Tao</surname><given-names>J.</given-names></name>
<name><surname>Tan</surname><given-names>T.</given-names></name>
</person-group>
<year>2009</year>
<chapter-title>Expressive speech synthesis: Past, present, and possible futures</chapter-title>
<source>Affective Information Processing</source>
<publisher-loc>London</publisher-loc>
<publisher-name>Springer</publisher-name>
<fpage>111</fpage><lpage>126</lpage>
<pub-id pub-id-type="doi">10.1007/978-1-84800-306-4_7</pub-id>
</element-citation>
</ref>
</ref-list>
<bio>
<p><graphic xlink:href="../ingestImageView?artiId=ART002497003&amp;imageName=jkits_2019_14_04_391_f006.jpg" position="float" orientation="portrait" xlink:type="simple"></graphic><bold>Jin-Kwan Cho</bold> received the bachelor’s degree from the department of English Language and Literature in Hanyang University in 1988. He received the M.S. degree and the Ph.D. degree from the Department of English Language and Literature in Hanyang University in 1990 and 2001 respectively. He was an instructor in the various universities including Hanyang University, Kyunghee University and Kwangwoon University from 1991 to 1997. He has been a professor iin the Department of Food Service Management iin Kyungdong University since 1998. His current research interests include English phonetics and phonology, big data, and food service industry. He is a member of the KKITS.</p>
<p><italic>E-mail address</italic>: <email>jkcho@kduniv.ac.kr</email></p>
</bio>
</back>
</article>
