월드
메타, 1,600여 개 언어 인식하는 AI 음성 인식 기술 ‘옴니링구얼 ASR’ 공개
박동현
입력 : 2025.11.11 10:14
조회수 : 646
0
0
소수언어 500개 포함… 세계 최대 규모 AI 전사 모델
7B 파라미터 음성 인코더·350개 언어 말뭉치도 함께 공개
이번 발표는 AI 음성 인식의 범위를 전 세계 언어로 확장한 혁신적 시도로, AI가 처음으로 500종 이상의 저자원 언어(데이터가 부족한 언어)를 처리할 수 있게 됐다는 점에서 주목받고 있습니다.
메타의 기초 AI 연구(Fundamental AI Research, FAIR)팀이 개발한 옴니링구얼 ASR은 음성을 자동으로 문자로 바꾸는 시스템으로, 기존 AI 모델이 수십 개 언어만 지원하던 한계를 넘어섰습니다.
이 시스템은 7B(billion-70억)개의 매개변수를 가진 ‘Omnilingual wav2vec 2.0’모델을 기반으로 하며, 1,600여 개 언어에서 동시 학습과 전사(transcription)를 할 수 있습니다.
특히 고자원 언어뿐 아니라 디지털 기록이 거의 없는 저자원 언어에서도 일정 수준 이상의 정확도를 보여, AI 음성 인식의 언어 불균형 해소에 기여할 것으로 기대됩니다.
메타에 따르면 전체 지원 언어 중 78%에서 문자 오류율(CER)이 10% 미만으로, 기존 다국어 ASR 시스템 대비 월등한 인식 성능을 기록했습니다.
옴니링구얼 ASR은 단순히 많은 언어를 지원하는 데 그치지 않고, 사용자가 자신의 언어를 추가할 수 있는 ‘확장형 구조’를 채택했습니다.
기존 AI 모델은 새로운 언어를 추가하려면 전문가의 세밀한 조율(fine-tuning)이 필요했지만, 이번 시스템은 몇 개의 음성-문자 예시만으로도 학습이 가능한 ‘인컨텍스트 학습(in-context learning)’ 기능을 적용했습니다.
즉, 특정 지역의 화자가 자신이 사용하는 언어로 짧은 녹음 몇 개만 제공해도 기본적인 수준의 인식 모델을 만들 수 있습니다.
이 기능은 대형 언어모델(LLM) 기술에서 차용된 개념으로, 전문 장비나 대규모 데이터 없이도 새로운 언어를 AI에 등록할 수 있는 획기적인 방식입니다.
메타는 이번 발표와 함께 ‘옴니링구얼 ASR 말뭉치(Omnilingual ASR Corpus)’를 공개했습니다.
이는 전 세계 350개 소수언어 화자들의 실제 음성을 기록하고 자막화한 데이터셋으로, AI 연구자와 언어학자들이 자유롭게 활용할 수 있도록 오픈소스(비영리 공유) 형태로 제공됩니다.
또한 wav2vec 2.0 모델과 LLM-ASR 시스템의 경량(300M)부터 고성능(7B) 버전까지 다양한 모델을 Apache 2.0 및 CC-BY 라이선스로 개방해, 연구자와 개발자들이 자체적인 음성 인식 솔루션을 구축할 수 있도록 했습니다.
옴니링구얼 ASR 프로젝트는 전 세계 언어 공동체와의 협력을 기반으로 구축됐습니다.
메타는 인터넷에 데이터가 거의 없는 언어를 확보하기 위해 현지 단체와 협력해 원어민 화자들을 직접 모집·보상하며 음성 데이터를 수집했는데요.
특히 Mozilla Foundation(모질라 재단)의 Common Voice프로젝트, 아프리카 언어 단체 Lanfrica/NaijaVoices 등과 협력해 언어 다양성과 문화적 맥락을 모델에 반영했습니다.
메타는 이번 기술을 통해 “모든 언어의 말이 AI에 의해 문자로 전환되는 진정한 글로벌 음성 인식 시대”를 열겠다고 밝혔습니다.
이어 “옴니링구얼 ASR은 인류가 사용하는 거의 모든 언어를 디지털 공간으로 끌어올릴 수 있는 기반 기술”이라며, “언어 자원이 부족한 지역에서도 누구나 자신의 목소리로 디지털 세상과 소통할 수 있는 세상을 만드는 것이 목표”라고 강조했습니다.
KNN 뉴스는 24시간 여러분의 제보를 기다립니다.
▷ 전화
부산 051-850-9000
경남 055-283-0505
▷ 이메일 jebo@knn.co.kr
▷ knn 홈페이지/앱 접속, 시청자 제보 누르기
▷ 카카오톡 친구찾기 @knn
▷ 전화
부산 051-850-9000
경남 055-283-0505
▷ 이메일 jebo@knn.co.kr
▷ knn 홈페이지/앱 접속, 시청자 제보 누르기
▷ 카카오톡 친구찾기 @knn
디지털 뉴스팀 박동현
pdhyun@knn.co.kr
많이 본 뉴스
주요뉴스
-
까마귀가 뒤덮는 도심..민원 속출에 퇴치에도 고민2025.12.26
-
한달 뒤 '대심도 개통'...차는 더 막히나?2025.12.26
-
잇따른 방산 핵심기술 유출..구멍뚫린 안보2025.12.26
-
70년 배정학원 기사회생 폐교부지에 청년주택2025.12.26
-
부산시 전통시장 활성화 정책 점검2025.12.26
-
성탄절 단독주택 화재 참사…1명 숨져2025.12.25
-
농협, 자체 개혁 기대 어려워2025.12.25
-
불길만 스쳐도 활활 흡음재...방염 기준도 제각각2025.12.24
-
[르포]엇갈리는 모금 성적표…숨은 온정은 올해도2025.12.24
-
이른 추위에 독감 유행...혈액부족 '빨간불'2025.12.24
페이스북
트위터
카카오톡
URL복사