본문으로 건너뛰기
피드

사투리 명령도 알아듣는 페르소나AI 피지컬 AI 로봇 시연

ai-ml 약 5분
vote
0
댓글
북마크

페르소나AI가 AI EXPO KOREA 2026에서 사투리 음성 명령을 이해하는 4족 보행 로봇과 휴머노이드를 시연했어. 핵심은 온디바이스 기반 SSTT 대규모 언어 모델(LLM)로 현장 작업자의 말투를 이해하고, 공장·재해 현장에서 사람을 탐지해 경보와 보고까지 수행하는 피지컬 AI라는 점이야.

  • 1

    4족 보행 로봇이 사투리 음성 명령을 인식하고 이동 명령을 수행함

  • 2

    온디바이스 기반 SSTT 대규모 언어 모델이 탑재됨

  • 3

    시연에서는 쓰러진 사람 탐지, 경보, 계단 이동, 추가 촬영 판단까지 보여줌

  • 4

    실제 산업 현장과 군부대에서는 수십 대 로봇을 네트워크로 연결하는 구상을 제시함

  • 페르소나AI가 AI EXPO KOREA 2026에서 ‘말귀 알아듣는’ 피지컬 AI 로봇을 시연함

    • 시연 장소는 5월 6일부터 8일까지 서울 코엑스에서 열린 국제인공지능대전임
    • 회사는 하루 네 번, 오전 10시 30분·12시 30분·오후 2시·오후 4시에 시연 행사를 진행함
  • 현장에서 제일 눈에 띈 건 사투리 명령 처리였음

    • “저짝 끝까지 가 한 바퀴 돌고 온나” 같은 식의 요청에도 4족 보행 로봇이 즉각 움직였다고 함
    • 산업 현장은 표준어만 쓰는 공간이 아니고, 공장·재해 현장은 지역 곳곳에 있으니 방언 인식이 실제로 중요하다는 설명임

중요

> 로봇이 멋지게 걷는 것보다 더 현실적인 문제는 ‘현장 작업자의 말을 제대로 알아듣느냐’임. 명령을 못 알아듣는 순간 지연과 손실이 바로 생기니까.

  • 로봇에는 온디바이스 기반 SSTT 대규모 언어 모델(LLM)이 들어감

    • 페르소나AI는 창업 초기부터 AI 원천 엔진과 생성형 AI 플랫폼을 연구해 왔다고 설명함
    • 이번 전시에서는 자체 AI 엔진을 지능형 4족 보행 로봇과 휴머노이드에 붙인 형태를 보여줌
  • 시연 내용은 꽤 현장형임. 단순히 걷는 데서 끝나지 않음

    • 전시장에는 실제 공장이나 재해 현장처럼 꾸민 공간이 마련됐고, 로봇은 쓰러진 사람을 식별한 뒤 경보를 울림
    • 계단을 올라가 현장에 투입되고, 구조자를 발견하면 스스로 가까이 접근해 추가 촬영까지 수행함
    • 음성 명령을 바탕으로 상황을 관찰하고 판단해서 행동하는 ‘에이전틱 로봇’에 가까운 그림임
sequenceDiagram
    participant 작업자
    participant 로봇
    participant 음성인식모델
    participant 현장센서
    participant 관제시스템
    작업자->>로봇: 사투리 음성 명령
    로봇->>음성인식모델: 명령 해석 요청
    음성인식모델-->>로봇: 이동·탐색 의도 반환
    로봇->>현장센서: 사람·장애물 탐지
    현장센서-->>로봇: 구조자 후보 감지
    로봇->>관제시스템: 경보와 현장 정보 보고
  • 자율주행 기능도 포함됐다고 함

    • 갑작스러운 장애물이 나타나면 피해 가거나 최적 경로를 찾는 식임
    • 구조자 발견 시에는 먼저 경보를 울리고 관제에도 즉시 보고함
    • 사람이 CCTV를 계속 보고 있지 않아도, 현장 로봇이 먼저 반응한다는 게 회사가 말하는 피지컬 AI의 핵심임
  • 실제 배치 시나리오는 단일 로봇보다 네트워크형 로봇에 가까움

    • 전시장에서는 4족 보행 로봇 한 대만 시연했지만, 산업 현장이나 군부대에서는 수십 대가 하나의 네트워크로 연결될 수 있다고 설명함
    • 공장에서는 밤낮없이 사각지대를 순찰하며 화재나 이상 징후를 감시하고, 군사 목적으론 병사보다 먼저 위험 지역에 투입되는 식임
  • 휴머노이드 쪽도 같이 보여줌

    • 전시장에는 4족 보행 로봇 외에 휴머노이드 로봇의 정교한 움직임을 보여주는 무술 시연도 마련됨
    • 다만 기사에서 기술적으로 더 크게 강조한 건 휴머노이드 동작보다 현장 음성 이해와 4족 로봇의 판단·보고 흐름임

기술 맥락

  • 여기서 중요한 선택은 음성 인식을 클라우드에만 맡기지 않고 로봇 안에서 처리하는 온디바이스 구조예요. 공장이나 재해 현장은 네트워크가 불안정할 수 있고, 명령 지연이 곧 사고 대응 지연으로 이어질 수 있거든요.

  • 사투리 대응도 단순 편의 기능이 아니에요. 현장 작업자는 위급한 상황에서 표준어 문장으로 또박또박 명령하지 않기 때문에, 방언과 구어체를 이해하는 능력이 로봇의 실제 투입 가능성을 좌우해요.

  • 로봇의 역할도 원격 조종 장난감에 머물지 않아요. 음성 명령을 받고, 센서로 사람과 장애물을 확인하고, 경보와 관제 보고까지 이어지는 흐름이라 현장 운영 시스템 일부로 들어가는 구조에 가까워요.

  • 그래서 이 사례는 모델 성능만 보는 AI 뉴스라기보다, 대규모 언어 모델(LLM)·음성 인식·로봇 제어·관제 시스템을 한 현장 워크플로로 묶는 문제로 보는 게 맞아요.

피지컬 AI에서 진짜 어려운 부분은 ‘로봇이 움직인다’보다 ‘현장의 애매한 말을 알아듣고 실패 비용을 줄인다’ 쪽이야. 사투리 인식까지 강조한 건 한국 산업 현장에 꽤 현실적인 문제를 찌른 포인트임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

스노우플레이크, 한국 행사서 기업용 AI 데이터 클라우드와 업무 에이전트 공개

스노우플레이크가 서울에서 열리는 딜로이트 커넥트 코리아 2026에 참여해 기업용 AI 데이터 클라우드 전략을 소개함. 핵심 메시지는 AI 도입의 병목이 모델 자체보다 데이터 품질, 거버넌스, 보안, 비용을 한 플랫폼에서 다루는 준비도에 있다는 쪽임.

ai-ml

LG CNS·두산, AI·로봇·데이터센터까지 묶어 신사업 협력

LG CNS와 두산이 AX, RX, 데이터센터, 클라우드 분야에서 전방위 협력에 나선다. LG CNS의 에이전틱AI 플랫폼과 클라우드·데이터센터 역량, 두산의 에너지·첨단소재·제조 기반을 결합해 제조AX와 로봇, 수소연료전지 데이터센터 활용까지 검토한다는 내용이다.

ai-ml

LG CNS, 오픈AI·앤트로픽·팔란티어 묶고 기업 AI 전환 시장 정조준

LG CNS가 오픈AI, 앤트로픽, 팔란티어와 잇따라 파트너십을 맺으며 국내 기업용 AI 전환 시장을 공략하고 있다. 단순 SI 기업 이미지에서 벗어나 클라우드와 AI 중심 사업자로 체질을 바꾸고 있으며, 클라우드&AI 부문 매출 비중도 58.2%까지 올라왔다.

ai-ml

유클릭스, 기업용 제미나이 체험센터 열고 PoC 이후 공백 노린다

유클릭스가 과천 사옥에 ‘구글 제미나이 엔터프라이즈 익스피리언스 센터’를 열었다. 기업들이 생성형 AI에 관심은 많지만 실제 운영으로 못 넘어가는 문제를 겨냥해, 체험·워크숍·PoC·업무 적용까지 이어지는 모델을 제공하겠다는 내용이다.

ai-ml

구글·AWS, 엔비디아식으로 AI 칩 팔기 시작했다

구글과 AWS가 자체 클라우드 안에서만 쓰던 AI 칩을 외부 데이터센터와 기업 고객에게 팔려는 움직임을 키우고 있다. 구글은 TPU 판매에 금융 보증까지 붙이고, AWS는 트레이니움 칩 외부 판매 가능성을 공개적으로 언급했다. 엔비디아 GPU 독점 구도에 균열이 날지 보는 포인트다.