---
title: "구글, 에이전트와 코딩에 맞춘 Gemini 3.5 Flash 공개"
published: 2026-05-19T17:43:45.000Z
canonical: https://jeff.news/article/2847
---
# 구글, 에이전트와 코딩에 맞춘 Gemini 3.5 Flash 공개

구글이 Gemini 3.5 제품군의 첫 모델로 Gemini 3.5 Flash를 공개했다. Flash 계열의 속도를 유지하면서 에이전트 작업과 코딩 성능을 끌어올렸고, Gemini 앱, 구글 검색의 AI Mode, Gemini API, Android Studio, 기업용 플랫폼에 바로 투입된다.

- 구글이 Gemini 3.5 제품군을 공개했고, 첫 타자는 Gemini 3.5 Flash임
  - Gemini 3.5는 “프런티어급 지능”과 “행동 능력”을 결합한 모델 패밀리로 소개됨
  - 이번에 먼저 나온 3.5 Flash는 에이전트 작업과 코딩에 초점을 둔 모델임
  - Gemini 3.5 Pro는 이미 내부에서 쓰고 있고, 다음 달 공개를 예고함

- 배포 범위가 꽤 넓음. 실험실 모델이 아니라 바로 기본값으로 밀어 넣는 분위기임
  - 일반 사용자는 Gemini 앱과 구글 검색의 AI Mode에서 쓸 수 있음
  - 개발자는 Google Antigravity, Gemini API, Google AI Studio, Android Studio에서 접근 가능함
  - 기업 고객은 Gemini Enterprise Agent Platform과 Gemini Enterprise 쪽으로 제공됨

- 성능 수치에서 구글이 강조하는 건 “큰 모델급 성능 + Flash급 속도”임
  - Terminal-Bench 2.1에서 76.2%를 기록했다고 밝힘
  - GDPval-AA는 1656 Elo, MCP Atlas는 83.6%로 제시됨
  - 멀티모달 이해 쪽에서는 CharXiv Reasoning 84.2%를 내세움
  - 출력 토큰 초당 속도 기준으로 다른 프런티어 모델보다 4배 빠르다고 주장함

> [!IMPORTANT]
> 구글의 핵심 주장은 “가장 큰 모델을 매번 쓰지 않아도, 긴 코딩·에이전트 작업을 빠르고 싸게 굴릴 수 있다”는 쪽임. 실제 체감은 벤치마크보다 장기 작업 안정성과 비용에서 갈릴 가능성이 큼.

- 3.5 Flash가 겨냥하는 대표 사용처는 장기 실행 에이전트 작업임
  - 앱 개발, 코드베이스 유지보수, 금융 문서 준비 같은 실제 업무를 계획하고 반복 수행하는 시나리오를 예로 듦
  - 구글은 이런 작업이 예전에는 개발자에게 며칠, 감사자에게 몇 주 걸렸지만 이제 훨씬 짧은 시간에 가능하다고 설명함
  - 비용도 다른 프런티어 모델의 절반 미만인 경우가 많다고 주장함

- Google Antigravity와 결합하면 서브에이전트 기반 작업 엔진으로 쓰인다는 설명도 나옴
  - 업데이트된 Antigravity harness와 함께 쓰면 협업형 서브에이전트를 배치할 수 있다고 함
  - 감독 아래에서 다단계 워크플로와 코딩 작업을 실행하면서 성능을 유지하는 쪽을 노림
  - 이건 IDE 안 자동완성보다, 여러 작업자를 나눠 굴리는 개발 에이전트 플랫폼에 가까운 방향임

- 개인용 에이전트 Gemini Spark도 3.5 Flash 기반으로 공개됨
  - Gemini Spark는 사용자의 지시에 따라 디지털 생활을 돕는 24시간 개인 AI 에이전트로 소개됨
  - 신뢰된 테스터 대상으로 먼저 배포되고, 미국의 Google AI Ultra 구독자에게 베타가 제공될 예정임

- 안전성 쪽 메시지도 같이 붙음
  - Gemini 3.5는 Frontier Safety Framework에 맞춰 개발됐다고 함
  - 사이버와 CBRN 관련 보호 장치를 강화했고, 유해 콘텐츠 생성 가능성과 안전한 질문을 잘못 거부하는 문제를 줄였다고 설명함
  - 내부 추론을 점검하고 이해하기 위한 해석 가능성 도구도 사용했다고 밝힘

---

## 기술 맥락

- 이번 발표에서 중요한 선택은 Flash 계열을 에이전트 기본 모델로 밀어붙이는 거예요. 에이전트는 한 번 답하는 작업보다 토큰을 많이 쓰고 오래 돌기 때문에, 최고 성능만큼이나 속도와 비용이 중요하거든요.

- 구글이 코딩 벤치마크와 MCP Atlas 같은 지표를 같이 든 이유도 여기 있어요. 코딩 모델은 단순히 함수 하나 잘 짜는 게 아니라, 터미널을 쓰고 도구를 호출하고 여러 단계를 이어가야 실제 업무에 쓸 수 있어요.

- Antigravity harness와 서브에이전트 이야기는 모델 하나의 성능보다 실행 환경을 강조하는 대목이에요. 모델이 계획을 세우고, 하위 작업을 나누고, 결과를 다시 합치는 구조에서는 런타임과 감독 장치가 모델만큼 중요해져요.

- 개발자 입장에서 봐야 할 포인트는 벤치마크 숫자 자체보다 실패했을 때 복구 가능한지, 긴 작업에서 맥락을 잃지 않는지, 비용이 예측 가능한지예요. 에이전트가 실무에 들어오면 “한 번 잘 대답함”보다 “오래 굴려도 사고 안 침”이 훨씬 중요해요.

## 핵심 포인트

- Gemini 3.5 Flash는 Terminal-Bench 2.1에서 76.2%, MCP Atlas에서 83.6%, CharXiv Reasoning에서 84.2%를 기록했다고 구글이 발표
- 출력 토큰 속도 기준으로 다른 프런티어 모델보다 4배 빠르다고 주장
- Gemini 앱과 구글 검색 AI Mode의 기본 모델로 전 세계에 적용됨
- Google Antigravity와 결합하면 협업형 서브에이전트를 배치해 장기 작업을 수행하는 엔진으로 쓰인다고 설명
- Gemini 3.5 Pro는 내부 사용 중이며 다음 달 출시 예정

## 인사이트

구글의 메시지는 단순히 ‘더 똑똑한 챗봇’이 아니라 ‘빠른 모델을 기본값으로 깔고 에이전트 작업을 대규모로 돌리겠다’에 가깝다. 개발자 입장에서는 코딩 벤치마크보다 실제 장기 작업에서 비용과 속도가 얼마나 버티는지가 관전 포인트다.
