
KAIST가 영상 속 물체의 질량과 속도를 스스로 추론해 장면에 맞는 현실적 효과음을 생성하는 인공지능(AI) 기술을 개발했다.
이 기술은 화면 내용을 분석하는 수준을 넘어 소리가 발생하는 물리적 원인까지 AI가 이해하도록 설계한 기술로, 영화·게임·가상현실(VR) 콘텐츠 제작 자동화와 차세대 멀티모달 AI 발전에 기여할 전망이다.
KAIST 전산학부 오태현 교수팀은 포스텍, Sony AI와 공동연구로 물리 정보를 반영해 영상에 현실적인 맞춤 음향을 생성하는 AI 기술 ‘파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis)’를 개발했다.
기존 생성 AI는 데이터 패턴과 상관관계를 학습해 결과를 만드는 방식이다.
반면 파바스는 현실 세계 물리 법칙과 인과관계를 함께 이해하도록 설계한 물리적으로 일관된 생성 AI 가능성을 제시했다.
예를 들어 영화 장면에 티라노사우르스가 걸어오는 장면을 보면 땅이 울리는 듯한 저주파음을 떠올린다.
사람은 사물 형태뿐 아니라 질량과 속도, 충돌 강도까지 종합적으로 판단해 소리를 예측하기 때문이다.
기존 영상-음향 생성 AI는 화면 속 객체 형태와 장면 패턴 중심으로 학습해 물리적 차이를 충분히 반영하지 못했다.
연구팀은 이 한계를 해결하기 위해 AI가 영상 속 물리 상황 자체를 이해하도록 설계했다. 일반 영상에는 물체 무게나 실제 속도가 숫자로 주어지지 않지만, 파바스는 객체 움직임과 주변 환경 맥락을 분석해 물체 질량과 속도를 추정하고 이를 음향 생성 과정에 반영한다.
이는 무엇이 보이는지를 인식하는 수준을 넘어 ‘왜 이런 소리가 나는가’라는 물리적 원인까지 AI가 이해하도록 만든 것이다.
파바스는 영상에서 실제 소리를 만드는 객체를 인식하고, 이동 속도나 충돌 강도, 운동 변화 등을 분석해 질량과 속도 같은 물리량을 추정한다.
이렇게 얻은 정보를 생성 모델 조건값으로 입력해 물리적으로 타당한 음향을 생성한다.
실험 결과 파바스는 기존 모델보다 훨씬 자연스러운 효과음을 구현했다.
특히 물체 충돌이나 타격 장면에서 충돌 강도와 움직임 변화에 따라 소리 크기와 음색이 자연스럽게 달라졌고, 주요 충돌 시점과 음향 발생 타이밍도 실제 환경과 높은 수준으로 일치했다.
아울러 연구팀은 영상 속 운동에너지 변화와 생성된 음향 강도가 얼마나 잘 맞아떨어지는지를 측정하는 방식을 적용해 물리적 일관성을 평가하는 새로운 기준도 제시했다.

최근 생성형 AI 업계는 구글 ‘비오(Veo) 3’, 바이트댄스 ‘시댄스(Seedance) 2.0’ 등 영상과 음향을 동시에 생성하는 기술 경쟁이 치열하다.
하지만 실제 영화·광고·게임 제작 현장에서는 새 영상을 생성하는 것보다 이미 완성된 영상에 효과음을 정교하게 입히는 후반 작업 수요가 훨씬 크다.
파바스가 이런 산업 현장에 특히 적합하다.
예를 들어 광고 영상 속 병을 내려놓는 소리, 운동화가 바닥을 밟는 소리, 포장재가 스치는 소리 등을 자동 생성할 수 있다. 게임이나 메타버스에서는 캐릭터 움직임과 충돌 상황에 따라 더욱 현실적인 음향 효과를 구현할 수 있다.
특히 증강현실(AR), 가상현실(VR), 로보틱스 시뮬레이션 분야 활용 가능성도 크다. 시각과 청각 경험이 동시에 자연스러워야 하는 환경에서는 물리적 일관성이 몰입감을 좌우하는 핵심 요소다.
오 교수는 “기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전했다면 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 크다”며 “향후 텍스트·영상·음성 정보를 동시에 이해하는 차세대 멀티모달 AI 핵심 기반 기술로 확장될 수 있을 것”이라고 설명했다.
한편, 이번 연구는 포스텍 오현빈 석박사통합과정이 제1저자로 수행했고, 연구결과는 국제학술대회 ‘CVPR 2026(Computer Vision and Pattern Recognition 2026)’에서 전체 논문 중 상위 1% 이내만 선정되는 오랄(Oral) 발표 논문으로 채택됐다.
(논문명 : PAVAS: Physics-Aware Video-to-Audio Synthesis)

이재형 기자 jh@kukinews.com













































