본문으로 건너뛰기
피드

사투리 명령도 알아듣는 페르소나AI 피지컬 AI 로봇 시연

ai-ml 약 5분

페르소나AI가 AI EXPO KOREA 2026에서 사투리 음성 명령을 이해하는 4족 보행 로봇과 휴머노이드를 시연했어. 핵심은 온디바이스 기반 SSTT 대규모 언어 모델(LLM)로 현장 작업자의 말투를 이해하고, 공장·재해 현장에서 사람을 탐지해 경보와 보고까지 수행하는 피지컬 AI라는 점이야.

  • 1

    4족 보행 로봇이 사투리 음성 명령을 인식하고 이동 명령을 수행함

  • 2

    온디바이스 기반 SSTT 대규모 언어 모델이 탑재됨

  • 3

    시연에서는 쓰러진 사람 탐지, 경보, 계단 이동, 추가 촬영 판단까지 보여줌

  • 4

    실제 산업 현장과 군부대에서는 수십 대 로봇을 네트워크로 연결하는 구상을 제시함

  • 페르소나AI가 AI EXPO KOREA 2026에서 ‘말귀 알아듣는’ 피지컬 AI 로봇을 시연함

    • 시연 장소는 5월 6일부터 8일까지 서울 코엑스에서 열린 국제인공지능대전임
    • 회사는 하루 네 번, 오전 10시 30분·12시 30분·오후 2시·오후 4시에 시연 행사를 진행함
  • 현장에서 제일 눈에 띈 건 사투리 명령 처리였음

    • “저짝 끝까지 가 한 바퀴 돌고 온나” 같은 식의 요청에도 4족 보행 로봇이 즉각 움직였다고 함
    • 산업 현장은 표준어만 쓰는 공간이 아니고, 공장·재해 현장은 지역 곳곳에 있으니 방언 인식이 실제로 중요하다는 설명임

중요

> 로봇이 멋지게 걷는 것보다 더 현실적인 문제는 ‘현장 작업자의 말을 제대로 알아듣느냐’임. 명령을 못 알아듣는 순간 지연과 손실이 바로 생기니까.

  • 로봇에는 온디바이스 기반 SSTT 대규모 언어 모델(LLM)이 들어감

    • 페르소나AI는 창업 초기부터 AI 원천 엔진과 생성형 AI 플랫폼을 연구해 왔다고 설명함
    • 이번 전시에서는 자체 AI 엔진을 지능형 4족 보행 로봇과 휴머노이드에 붙인 형태를 보여줌
  • 시연 내용은 꽤 현장형임. 단순히 걷는 데서 끝나지 않음

    • 전시장에는 실제 공장이나 재해 현장처럼 꾸민 공간이 마련됐고, 로봇은 쓰러진 사람을 식별한 뒤 경보를 울림
    • 계단을 올라가 현장에 투입되고, 구조자를 발견하면 스스로 가까이 접근해 추가 촬영까지 수행함
    • 음성 명령을 바탕으로 상황을 관찰하고 판단해서 행동하는 ‘에이전틱 로봇’에 가까운 그림임
sequenceDiagram
    participant 작업자
    participant 로봇
    participant 음성인식모델
    participant 현장센서
    participant 관제시스템
    작업자->>로봇: 사투리 음성 명령
    로봇->>음성인식모델: 명령 해석 요청
    음성인식모델-->>로봇: 이동·탐색 의도 반환
    로봇->>현장센서: 사람·장애물 탐지
    현장센서-->>로봇: 구조자 후보 감지
    로봇->>관제시스템: 경보와 현장 정보 보고
  • 자율주행 기능도 포함됐다고 함

    • 갑작스러운 장애물이 나타나면 피해 가거나 최적 경로를 찾는 식임
    • 구조자 발견 시에는 먼저 경보를 울리고 관제에도 즉시 보고함
    • 사람이 CCTV를 계속 보고 있지 않아도, 현장 로봇이 먼저 반응한다는 게 회사가 말하는 피지컬 AI의 핵심임
  • 실제 배치 시나리오는 단일 로봇보다 네트워크형 로봇에 가까움

    • 전시장에서는 4족 보행 로봇 한 대만 시연했지만, 산업 현장이나 군부대에서는 수십 대가 하나의 네트워크로 연결될 수 있다고 설명함
    • 공장에서는 밤낮없이 사각지대를 순찰하며 화재나 이상 징후를 감시하고, 군사 목적으론 병사보다 먼저 위험 지역에 투입되는 식임
  • 휴머노이드 쪽도 같이 보여줌

    • 전시장에는 4족 보행 로봇 외에 휴머노이드 로봇의 정교한 움직임을 보여주는 무술 시연도 마련됨
    • 다만 기사에서 기술적으로 더 크게 강조한 건 휴머노이드 동작보다 현장 음성 이해와 4족 로봇의 판단·보고 흐름임

기술 맥락

  • 여기서 중요한 선택은 음성 인식을 클라우드에만 맡기지 않고 로봇 안에서 처리하는 온디바이스 구조예요. 공장이나 재해 현장은 네트워크가 불안정할 수 있고, 명령 지연이 곧 사고 대응 지연으로 이어질 수 있거든요.

  • 사투리 대응도 단순 편의 기능이 아니에요. 현장 작업자는 위급한 상황에서 표준어 문장으로 또박또박 명령하지 않기 때문에, 방언과 구어체를 이해하는 능력이 로봇의 실제 투입 가능성을 좌우해요.

  • 로봇의 역할도 원격 조종 장난감에 머물지 않아요. 음성 명령을 받고, 센서로 사람과 장애물을 확인하고, 경보와 관제 보고까지 이어지는 흐름이라 현장 운영 시스템 일부로 들어가는 구조에 가까워요.

  • 그래서 이 사례는 모델 성능만 보는 AI 뉴스라기보다, 대규모 언어 모델(LLM)·음성 인식·로봇 제어·관제 시스템을 한 현장 워크플로로 묶는 문제로 보는 게 맞아요.

피지컬 AI에서 진짜 어려운 부분은 ‘로봇이 움직인다’보다 ‘현장의 애매한 말을 알아듣고 실패 비용을 줄인다’ 쪽이야. 사투리 인식까지 강조한 건 한국 산업 현장에 꽤 현실적인 문제를 찌른 포인트임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

퍼스트바이오, 일라이 릴리 AI 신약개발 플랫폼으로 후보물질 발굴 고도화

퍼스트바이오테라퓨틱스가 일라이 릴리의 AI 기반 신약개발 협업 플랫폼 릴리 튠랩에 참여한다. 회사는 퇴행성 뇌질환과 항암 저분자화합물 파이프라인에 릴리의 AI 모델링을 접목해 후보물질 탐색과 리드 최적화 정확도를 높이려 한다. 자체 축적한 고정밀 ADMET 데이터셋을 보안 환경에서 활용한다는 점도 핵심이다.

ai-ml

아스트랄큐, AI가 소재를 예측하고 로봇이 검증하는 클라우드랩으로 시드 투자 유치

AI 기반 소재 개발 기업 아스트랄큐가 한국투자액셀러레이터, 블루포인트파트너스, 슈미트, 스마일게이트인베스트먼트로부터 시드 투자를 유치했다. 회사는 머신러닝 해밀토니안, 머신러닝 포스 필드, 무기물 자동 합성 랩을 결합해 예측부터 실제 합성 검증까지 이어지는 클라우드랩을 만들고 있다. 소재 개발 속도를 10~20배 높이고 비용을 낮추겠다는 목표가 핵심이다.

ai-ml

텐센트 클라우드, 확산 트랜스포머 기반 영상 화질 향상 기술로 방송 기술상 수상

텐센트 클라우드의 영상 화질 향상 기술과 스마트 지우기 기능이 2026년 NAB 쇼 올해의 제품상에 선정됐다. 핵심은 확산 트랜스포머 기반 실시간 4K 초해상도, 최대 120프레임 보간, 영상 내 로고·자막·얼굴·번호판 제거 자동화다. 스트리밍, 숏폼, 이커머스, 게임 영상 현지화에 바로 걸리는 기술이라 미디어 개발자에게는 꽤 실무적인 신호다.

ai-ml

구글 클라우드와 솔라나, AI 에이전트가 API 비용을 직접 내는 결제 프로토콜 공개

구글 클라우드와 솔라나 재단이 AI 에이전트용 결제 프로토콜 페이닷에스에이치를 공개했다. 에이전트가 솔라나 지갑을 신원처럼 쓰고, 스테이블코인으로 API 호출 비용을 건별로 결제하는 구조다. 월정액 구독 대신 호출당 1센트 미만 결제라는 점에서 API 과금 모델 자체를 흔드는 시도다.

ai-ml

미즈호, 알파벳 목표가 올림…구글 클라우드와 TPU 수익성을 더 높게 봤다

미즈호 파이낸셜이 알파벳의 12개월 목표주가를 420달러에서 460달러로 올렸다. 핵심 근거는 구글 클라우드 매출과 영업이익이 월가 예상보다 더 크게 뛸 수 있고, 자체 AI 칩인 TPU 기반 하드웨어 판매도 높은 마진을 낼 수 있다는 분석이다.