![[출처=NC AI]](https://cdn.ebn.co.kr/news/photo/202508/1674815_691176_245.png)
NC AI는 세계 최대 음성·언어 기술 학회인 ‘인터스피치(INTERSPEECH) 2025’에서 혁신적인 몬스터 사운드 생성·변환 기술을 공개한다고 18일 밝혔다.
올해로 26회를 맞는 인터스피치는 국제 음성커뮤니케이션협회(ISCA)가 주최하는 세계 최대 음성·언어 학회다. 오는 21일까지 네덜란드 로테르담에서 열리며, ‘공정하고 포용적인 음성 과학과 기술(Fair and Inclusive Speech Science and Technology)’을 주제로 개인과 언어 간 다양한 특성을 존중하는 맞춤형 음성 기술 발전을 논의한다.
NC AI는 이번 행사에서 두 편의 논문을 발표한다. △몬스터 사운드에 특화된 고품질 음색 변환 모델의 구조·학습 기법 △이를 실시간 웹 기반 데모로 구현한 사례가 포함된다. 현장에서는 마이크 입력이나 음성 파일 업로드를 통해 즉시 몬스터의 울음·포효로 변환되는 체험이 제공되며, 온라인 데모도 동시 공개된다.
이번 기술은 MMORPG 등 대규모 게임에서 몬스터 사운드 제작 방식을 혁신하는 도약으로 평가된다. CD 음질(44.1kHz)로 원음을 분석해 거친 숨소리, 날카로운 포효까지 세밀하게 구현하고, 발화 내용은 유지한 채 원하는 스타일만 덧입힌다.
또 목소리의 의미(what)와 느낌(how)을 동시에 분석해 대사뿐 아니라 웃음, 포효, 숨소리 같은 비언어적 요소까지 자연스럽게 변환한다. 0.005초 단위로 강약 변화를 반영해 실제 생물이 내는 듯한 울림을 재현하는 것이 특징이다.
이 과정은 기존 사운드 디자이너의 수작업 부담을 크게 줄인다. 인간 음성의 주파수 스펙트럼을 확장해 몬스터 특유의 복잡한 질감과 다이내믹한 변화를 자동 생성할 수 있으며, 전투 상황이나 감정 상태에 따른 캐릭터별 새로운 음향도 손쉽게 구현된다.
기술 기반은 방대한 데이터다. NC AI Audio AI팀은 엔씨소프트 사운드센터와 협력해 대규모 게임 오디오 DB를 음색, 공기감, 분위기 등 세부 속성별로 분류·태깅했다. 여기에 '디휴머나이저' 등 음향 변형 툴을 활용, 현실 녹음으로 구현하기 어려운 가상의 몬스터 사운드를 대량 증강해 모델 학습 범위를 넓혔다. 이 데이터 전략은 지난 춘계 한국음향학회에서 이미 학계와 업계로부터 높은 평가를 받았다.
모델 성능도 입증됐다. 최근 공개된 DDDM-VC, Diff-HierVC, Free-VC 등 최신 음색 변환 모델을 뛰어넘는 성적을 기록했으며 △음질 △자연스러움 △음색 유사도 △발화 보존성 등 모든 평가 항목에서 우위를 확보했다. 고해상도 오디오 처리, 스타일 적용 최적화, 언어·비언어 동시 분석, 질감 복원 로직 등이 복합적으로 작용한 결과다.
이번 기술은 NC AI의 생성형 SFX 저작 툴 ‘사운드 팔레트(Sound Palette)’ 핵심 엔진으로도 활용된다. 크리에이터가 원하는 분위기와 음색을 입력하면 즉시 수백 가지 변주 사운드를 만들어내 제작 속도와 창의성을 크게 높인다. 적용 범위는 게임을 넘어 영화, 광고, XR, 메타버스까지 확장되고 있다.
이 성과로 NC AI는 ‘독자 AI 파운데이션 모델 프로젝트’ 수행 기업으로서 기술력을 공식 인정받으며 국내 멀티모달 AI 분야에서 독보적 입지를 확보했다. 인터스피치 2025 발표와 데모 시연은 글로벌 연구자 및 산업계와의 협력 확대 계기가 될 전망이다. 회사는 추후 연구 성과와 시연 영상을 공개하고, AI 오디오 창작 도구의 상용화와 해외 진출을 가속화할 계획이다.
조남현 NC AI Audio AI팀장은 "방대한 게임 오디오 데이터와 첨단 모델링, 사운드 디자인 전문성을 결합해 몬스터 사운드 변환 기술을 완성했다"며 "앞으로도 AI를 통해 창작자의 상상을 현실화하고 디지털 콘텐츠 산업 전반에 혁신적인 오디오 경험을 제공하겠다"고 말했다.