구글이 4월 2일 Gemini API에 Flex와 Priority라는 두 개의 새 추론 계층을 추가했다. 표면적으로는 개발자 편의 기능처럼 보이지만, 실제 의미는 더 크다. 이제 같은 모델이라도 어떤 요청은 절반 가격에, 어떤 요청은 더 비싼 안정성 프리미엄을 붙여 파는 구조가 열렸다. AI 경쟁이 모델 성능 비교에서 끝나지 않고, 워크로드를 어떻게 나누고 가격을 붙이며 고객을 묶어 두는가의 싸움으로 넘어가고 있다는 뜻이다. 투자자에게 중요한 질문은 구글이 좋은 모델을 내놨느냐가 아니라, AI를 클라우드처럼 계층 상품으로 팔 수 있느냐이다.
구글은 AI를 이제 한 덩어리 서비스로 팔지 않는다
구글 발표에 따르면 Flex는 지연을 감수할 수 있는 작업에 쓰는 저가형 계층이다. 배치 API처럼 비동기 작업을 따로 관리하지 않아도 되면서도 표준 API 대비 가격을 50% 낮췄다. 반대로 Priority는 혼잡한 시간에도 가장 높은 우선순위로 처리되는 프리미엄 계층이다. 한도를 넘으면 요청이 실패하는 대신 표준 계층으로 자동 전환된다. 같은 API, 같은 엔드포인트 안에서 배경 작업과 실시간 작업을 다른 가격표로 팔겠다는 선언이다.
이 변화는 사소하지 않다. 지금까지 생성형 AI 시장의 주된 비교 기준은 모델 품질과 벤치마크였다. 하지만 실제 기업 예산은 훨씬 복잡하게 움직인다. 고객 응대 봇, 실시간 코파일럿, 내부 리서치 에이전트, 배경 자동화는 모두 다른 비용 구조를 요구한다. 구글은 이 차이를 모델 종류가 아니라 서비스 계층으로 흡수하려 하고 있다. 이는 AI를 소프트웨어 기능이 아니라 인프라 상품으로 다루겠다는 접근이다.
가격표를 잘게 자르는 회사가 개발자 예산을 더 오래 붙든다
이번 발표의 핵심은 성능이 아니라 가격 설계다. 구글은 Flex를 통해 지연 허용 워크로드를 절반 가격으로 끌어들이고, Priority를 통해 끊기면 안 되는 워크로드에는 안정성 프리미엄을 붙인다. 이렇게 되면 개발자는 같은 공급자 안에서 비용 최적화와 서비스 연속성을 동시에 조정하게 된다. 멀티벤더를 고민하던 고객도, 실제 운영 단계에서는 한 플랫폼 안에서 등급만 나눠 쓰는 쪽이 더 편해진다. 락인이 기술이 아니라 운영 설계에서 생기기 시작하는 순간이다.
이 지점에서 구글이 같은 날 공개한 Gemma 4와도 연결된다. 구글은 한쪽에서는 개방형 모델을 Apache 2.0 라이선스로 풀어 개발자 접점을 넓히고, 다른 한쪽에서는 Gemini API를 세분화해 상용 트래픽을 자기 가격표 안에 묶는다. NVIDIA가 즉시 Gemma 4의 로컬 실행 최적화를 강조한 것도 같은 맥락이다. 오픈 모델은 진입 장벽을 낮추지만, 반복 매출은 결국 누가 배포 경로와 운영 계층을 장악하느냐에서 나온다. 모델 공개와 유료 API 계층화가 충돌하는 것이 아니라, 오히려 서로를 보완하는 구조가 되고 있다.
앞으로 AI 플랫폼의 차이는 모델 점수보다 장애 없는 시간에 붙을 가능성이 크다
여기서 더 흥미로운 대목은 Priority의 자동 강등 구조다. 한도를 넘더라도 요청이 실패하지 않고 Standard로 내려가 서비스가 유지된다는 설계는, 구글이 단순 모델 판매보다 사업 연속성 보장을 팔기 시작했다는 뜻이다. 이는 클라우드 시장에서 장기적으로 가장 수익성이 높은 층이다. 고객은 가장 싼 모델보다, 가장 안 끊기는 워크플로에 더 높은 돈을 낸다.
이제 빅테크 AI 경쟁은 누가 가장 똑똑한 모델을 만들었느냐보다 누가 개발자의 요청을 더 세밀하게 분류하고, 그 분류마다 다른 가격과 신뢰도를 설계해 예산을 흡수하느냐로 옮겨갈 가능성이 크다. 투자자는 모델 출시 뉴스에만 반응할 것이 아니라, 이런 식의 계층 상품이 반복 매출과 고객 락인을 얼마나 강화하는지 봐야 한다. AI 시장의 다음 승부는 성능 1점 차이가 아니라, 배경 작업부터 실시간 업무까지 한 지붕 아래에서 가격화하는 능력에서 갈릴 가능성이 높다. 그 구조를 먼저 완성하는 플랫폼이 결국 모델 이상의 프리미엄을 가져가게 될 것이다.
참고 소스
- Google Blog, 2026-04-02, Flex and Priority tiers in the Gemini API
- Google Blog, 2026-04-02, Gemma 4: Byte for byte, the most capable open models
- NVIDIA Blog, 2026-04-02, From RTX to Spark: NVIDIA Accelerates Gemma 4 for Local Agentic AI


