---
title: "사투리 명령도 알아듣는 페르소나AI 피지컬 AI 로봇 시연"
published: 2026-05-07T08:29:02.118Z
canonical: https://jeff.news/article/2254
---
# 사투리 명령도 알아듣는 페르소나AI 피지컬 AI 로봇 시연

페르소나AI가 AI EXPO KOREA 2026에서 사투리 음성 명령을 이해하는 4족 보행 로봇과 휴머노이드를 시연했어. 핵심은 온디바이스 기반 SSTT 대규모 언어 모델(LLM)로 현장 작업자의 말투를 이해하고, 공장·재해 현장에서 사람을 탐지해 경보와 보고까지 수행하는 피지컬 AI라는 점이야.

- 페르소나AI가 AI EXPO KOREA 2026에서 ‘말귀 알아듣는’ 피지컬 AI 로봇을 시연함
  - 시연 장소는 5월 6일부터 8일까지 서울 코엑스에서 열린 국제인공지능대전임
  - 회사는 하루 네 번, 오전 10시 30분·12시 30분·오후 2시·오후 4시에 시연 행사를 진행함

- 현장에서 제일 눈에 띈 건 사투리 명령 처리였음
  - “저짝 끝까지 가 한 바퀴 돌고 온나” 같은 식의 요청에도 4족 보행 로봇이 즉각 움직였다고 함
  - 산업 현장은 표준어만 쓰는 공간이 아니고, 공장·재해 현장은 지역 곳곳에 있으니 방언 인식이 실제로 중요하다는 설명임

> [!IMPORTANT]
> 로봇이 멋지게 걷는 것보다 더 현실적인 문제는 ‘현장 작업자의 말을 제대로 알아듣느냐’임. 명령을 못 알아듣는 순간 지연과 손실이 바로 생기니까.

- 로봇에는 온디바이스 기반 SSTT 대규모 언어 모델(LLM)이 들어감
  - 페르소나AI는 창업 초기부터 AI 원천 엔진과 생성형 AI 플랫폼을 연구해 왔다고 설명함
  - 이번 전시에서는 자체 AI 엔진을 지능형 4족 보행 로봇과 휴머노이드에 붙인 형태를 보여줌

- 시연 내용은 꽤 현장형임. 단순히 걷는 데서 끝나지 않음
  - 전시장에는 실제 공장이나 재해 현장처럼 꾸민 공간이 마련됐고, 로봇은 쓰러진 사람을 식별한 뒤 경보를 울림
  - 계단을 올라가 현장에 투입되고, 구조자를 발견하면 스스로 가까이 접근해 추가 촬영까지 수행함
  - 음성 명령을 바탕으로 상황을 관찰하고 판단해서 행동하는 ‘에이전틱 로봇’에 가까운 그림임

```mermaid
sequenceDiagram
    participant 작업자
    participant 로봇
    participant 음성인식모델
    participant 현장센서
    participant 관제시스템
    작업자->>로봇: 사투리 음성 명령
    로봇->>음성인식모델: 명령 해석 요청
    음성인식모델-->>로봇: 이동·탐색 의도 반환
    로봇->>현장센서: 사람·장애물 탐지
    현장센서-->>로봇: 구조자 후보 감지
    로봇->>관제시스템: 경보와 현장 정보 보고
```

- 자율주행 기능도 포함됐다고 함
  - 갑작스러운 장애물이 나타나면 피해 가거나 최적 경로를 찾는 식임
  - 구조자 발견 시에는 먼저 경보를 울리고 관제에도 즉시 보고함
  - 사람이 CCTV를 계속 보고 있지 않아도, 현장 로봇이 먼저 반응한다는 게 회사가 말하는 피지컬 AI의 핵심임

- 실제 배치 시나리오는 단일 로봇보다 네트워크형 로봇에 가까움
  - 전시장에서는 4족 보행 로봇 한 대만 시연했지만, 산업 현장이나 군부대에서는 수십 대가 하나의 네트워크로 연결될 수 있다고 설명함
  - 공장에서는 밤낮없이 사각지대를 순찰하며 화재나 이상 징후를 감시하고, 군사 목적으론 병사보다 먼저 위험 지역에 투입되는 식임

- 휴머노이드 쪽도 같이 보여줌
  - 전시장에는 4족 보행 로봇 외에 휴머노이드 로봇의 정교한 움직임을 보여주는 무술 시연도 마련됨
  - 다만 기사에서 기술적으로 더 크게 강조한 건 휴머노이드 동작보다 현장 음성 이해와 4족 로봇의 판단·보고 흐름임

---
## 기술 맥락

- 여기서 중요한 선택은 음성 인식을 클라우드에만 맡기지 않고 로봇 안에서 처리하는 온디바이스 구조예요. 공장이나 재해 현장은 네트워크가 불안정할 수 있고, 명령 지연이 곧 사고 대응 지연으로 이어질 수 있거든요.

- 사투리 대응도 단순 편의 기능이 아니에요. 현장 작업자는 위급한 상황에서 표준어 문장으로 또박또박 명령하지 않기 때문에, 방언과 구어체를 이해하는 능력이 로봇의 실제 투입 가능성을 좌우해요.

- 로봇의 역할도 원격 조종 장난감에 머물지 않아요. 음성 명령을 받고, 센서로 사람과 장애물을 확인하고, 경보와 관제 보고까지 이어지는 흐름이라 현장 운영 시스템 일부로 들어가는 구조에 가까워요.

- 그래서 이 사례는 모델 성능만 보는 AI 뉴스라기보다, 대규모 언어 모델(LLM)·음성 인식·로봇 제어·관제 시스템을 한 현장 워크플로로 묶는 문제로 보는 게 맞아요.

## 핵심 포인트

- 4족 보행 로봇이 사투리 음성 명령을 인식하고 이동 명령을 수행함
- 온디바이스 기반 SSTT 대규모 언어 모델이 탑재됨
- 시연에서는 쓰러진 사람 탐지, 경보, 계단 이동, 추가 촬영 판단까지 보여줌
- 실제 산업 현장과 군부대에서는 수십 대 로봇을 네트워크로 연결하는 구상을 제시함

## 인사이트

피지컬 AI에서 진짜 어려운 부분은 ‘로봇이 움직인다’보다 ‘현장의 애매한 말을 알아듣고 실패 비용을 줄인다’ 쪽이야. 사투리 인식까지 강조한 건 한국 산업 현장에 꽤 현실적인 문제를 찌른 포인트임.
