본문으로 건너뛰기
피드

프렌들리AI, 코딩 에이전트 추론 속도 3배·비용 절반 내세운 서버리스 솔루션 공개

ai-ml 약 6분

프렌들리AI가 국제인공지능대전에서 코딩 에이전트에 최적화된 추론 엔진과 서버리스 엔드포인트를 선보인다. Claude Code 같은 도구에서 환경 변수만 바꿔 오픈소스 모델로 연결하고, 기존 클로즈드 API 대비 50% 이상 비용 절감과 vLLM 대비 최대 3배 빠른 처리 속도를 강조한다.

  • 1

    프렌들리AI는 5월 6일부터 8일까지 서울 코엑스에서 열리는 AI EXPO KOREA 2026에 참가

  • 2

    GLM-5.1, MiniMax, Kimi 등 오픈소스 모델을 별도 인프라 없이 API로 연결하는 서버리스 엔드포인트를 시연

  • 3

    Claude Code, Kilo Code, OpenCode 같은 코딩 에이전트와의 연동 솔루션을 공개

  • 4

    Claude Code는 ANTHROPIC_BASE_URL과 ANTHROPIC_MODEL 환경 변수 변경만으로 MiniMax-M2.5, GLM-5.1 등으로 전환 가능

  • 5

    기존 클로즈드 API 대비 50% 이상 비용 절감, vLLM 대비 최대 3배 빠른 처리 속도를 내세움

  • 프렌들리AI가 AI EXPO KOREA 2026에서 코딩 에이전트용 추론 솔루션을 공개함

    • 행사는 5월 6일부터 8일까지 서울 코엑스 1층 A홀 전관에서 열림
    • 프렌들리AI는 AI 추론 엔진 소프트웨어 기업이고, 대규모 AI 연산 핵심 기술인 연속 배칭을 세계 최초로 개발한 연구진이 창업했다고 소개됨
    • 현재 LG AI Research, SK텔레콤, 업스테이지, 트웰브랩스, 넥스트데이 AI 등이 프로덕션 환경에서 플랫폼을 활용 중이라고 밝힘
  • 이번 부스의 핵심은 “코딩 에이전트를 더 싸고 빠르게 돌리기”임

    • GLM-5.1, MiniMax, Kimi 같은 검증된 오픈소스 모델을 별도 인프라 없이 서버리스 엔드포인트로 제공
    • Claude Code, Kilo Code, OpenCode 같은 코딩 에이전트와 쉽게 붙이는 연동 솔루션을 공개
    • 낮은 레이턴시와 높은 처리량으로 에이전트 루프가 끊기지 않게 하는 전용 추론 엔진을 강조
  • 연동 방식은 꽤 직관적임. Claude Code 기준으로 환경 변수만 바꾸면 됨

    • ANTHROPIC_BASE_URL과 ANTHROPIC_MODEL을 바꾸면 MiniMax-M2.5, GLM-5.1 같은 모델로 전환 가능
    • Kilo Code나 OpenCode도 비슷한 방식으로 고성능 오픈소스 모델과 연결할 수 있다고 설명함
    • 즉, 개발자가 쓰던 에이전트 도구는 유지하고 뒤쪽 추론 백엔드만 갈아끼우는 그림임

중요

> 프렌들리AI가 내세운 숫자는 꽤 세다. 기존 클로즈드 API 대비 비용 50% 이상 절감, 오픈소스 추론 엔진 vLLM 대비 최대 3배 빠른 처리 속도다.

  • 왜 이게 중요하냐면, 코딩 에이전트는 호출 횟수가 많음

    • 일반 챗봇처럼 한 번 답하고 끝나는 게 아니라 계획, 코드 생성, 실행, 오류 수정 루프를 계속 돈다
    • 이때 레이턴시가 높으면 체감 속도가 바로 무너지고, 토큰 비용이 높으면 팀 단위 도입이 부담스러워짐
    • 프렌들리AI는 연산 규모가 커질수록 비용·성능 격차가 더 벌어진다고 주장함
  • 고객 사례도 성능 메시지를 뒷받침하는 쪽으로 제시됨

    • LG AI Research는 커스텀 모델 API가 단 하루 만에 기업용 모니터링 기능까지 탑재돼 라이브 환경에 적용됐다고 평가
    • SK텔레콤은 대용량 데이터 처리가 안정적이고 응답 속도가 빠른 점을 장점으로 언급
    • 단순 데모가 아니라 실제 운영 환경에서 쓰이고 있다는 점을 강조한 셈
  • 한국 개발자 입장에서는 꽤 실용적인 뉴스임

    • Claude Code류 도구를 쓰고 있는데 비용이나 속도가 걸린다면, 모델 API 호환 레이어를 바꿔보는 접근이 가능해짐
    • 특히 오픈소스 모델을 쓰고 싶지만 GPU 인프라 운영은 부담스러운 팀에게 서버리스 추론 엔드포인트는 현실적인 타협점이 될 수 있음

기술 맥락

  • 이 기사에서 기술적 선택은 “좋은 모델을 고른다”보다 “에이전트 루프를 버틸 추론 백엔드를 고른다”에 가까워요. 코딩 에이전트는 요청을 한 번 보내고 끝나는 서비스가 아니라, 계속 모델을 호출하면서 코드를 만들고 고치는 구조거든요.

  • 서버리스 엔드포인트를 내세운 이유는 팀이 GPU 인프라를 직접 운영하기 어렵기 때문이에요. 모델은 오픈소스로 쓰고 싶지만 배포, 스케일링, 모니터링까지 직접 맡으면 운영 부담이 너무 커져요.

  • 환경 변수만 바꿔 Claude Code 같은 도구와 연결하는 방식은 마이그레이션 비용을 낮추려는 선택이에요. 개발자 워크플로우를 바꾸지 않고, 뒤쪽 모델 제공자와 추론 엔진만 교체할 수 있어야 실제 도입이 쉬워요.

  • vLLM 대비 최대 3배 빠르다는 주장은 추론 엔진 레이어의 경쟁을 보여줘요. 코딩 에이전트에서는 레이턴시가 곧 작업 시간이고, 작업 시간이 곧 비용이라서 추론 최적화가 제품 경쟁력으로 바로 이어져요.

코딩 에이전트가 실무 도구가 되려면 모델 성능만큼 중요한 게 추론 지연과 비용이다. 프렌들리AI의 메시지는 개발자가 쓰던 에이전트 도구는 유지하되, 뒤쪽 모델과 추론 엔진만 바꿔 더 싸고 빠르게 돌리자는 쪽이다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

네이버클라우드, K-AI 파트너십 공동의장사로 산·학·연 AI 연합 이끈다

네이버클라우드가 K-AI 파트너십 공동의장사로 선임됐고, 김유원 대표가 조준희 KOSA 회장과 함께 공동의장을 맡는다. 이 협력체는 과기부 지원 아래 산·학·연을 묶어 국내 AX 역량을 모으고, 실제 사업 매칭과 수출 성과까지 연결하는 실행형 AI 민관 협력체를 지향한다.

ai-ml

세일즈포스와 구글 클라우드, 슬랙·워크스페이스에 AI 에이전트 바로 꽂는다

세일즈포스와 구글 클라우드가 에이전트포스와 제미나이 엔터프라이즈 연동을 확대해 슬랙과 구글 워크스페이스 안에서 AI 에이전트를 바로 배포할 수 있게 했다. 핵심은 데이터 이동 없이 여러 시스템의 정보를 실시간으로 쓰는 제로 카피 구조와, 영업·문서·회의·고객 응대 흐름을 한 화면에서 이어가게 만드는 통합이다.

ai-ml

아이티센클로잇, 구글 클라우드 기반 기업용 AI 전환 플랫폼 시연

아이티센클로잇이 AI EXPO KOREA 2026에서 구글 클라우드 기반의 기업 맞춤형 AI 전환 전략을 공개한다. 제미나이 엔터프라이즈, 버텍스 AI, 자체 멀티 에이전트 관리 플랫폼, AI 영상 제작 솔루션을 묶어 엔드투엔드 기업 AI 도입 시나리오를 보여줄 예정이다.

ai-ml

중국 AI 업계, 모델과 국산 칩을 한 몸처럼 묶기 시작함

샤오미가 오픈소스 대규모 언어 모델(LLM) ‘미모 V2.5 프로’를 공개했고, 중국 GPU 업체들이 출시 당일 호환을 발표했다. 딥시크, 스텝펀, 즈푸, 알리바바, 바이두까지 중국산 AI 모델과 중국산 연산 칩의 결합이 빠르게 늘고 있다.

ai-ml

머스크와 오픈AI, ‘안전한 AI’ 정체성 두고 법정 정면충돌

일론 머스크가 오픈AI 경영진을 상대로 낸 소송 첫 변론에서 오픈AI의 영리화가 초기 비영리 목적을 훼손했다고 주장했다. 오픈AI는 머스크가 경쟁사 xAI를 운영하는 이해관계자라며, 이번 소송을 경쟁사의 공격으로 보고 있다.