AI 시대의 리텐션 규칙
MVP, 이탈, 그리고 옛날 SaaS 전략
전통적인 SaaS에서는 초기 리텐션이 보통 고된 여정이다. 흔한 전략은 기능이 빈약한 MVP를 먼저 출시한 뒤, 유저들이 붙잡아 주길 바라면서 이를 보강하느라 정신없는 작업을 하는 거다. 초기에는 반복적인 개선(iterations)이 예상되기까지 하고, 오히려 장려되기도 한다. 창업자들은 반복 개선이 탈주한 유저들을 되돌리거나 적어도 새는 통(leaky bucket)을 늦추길 빌며 손가락을 꼬아 쥔다.
이런 역학이 SaaS를 수년간 정의해 왔다. 가진 걸로 먼저 출시하고, 많은 초기 채택자들이 떠나는 걸 지켜보며, 리텐션을 높이기 위해 필사적으로 반복 작업을 한다. 훌륭한 리텐션은 금덩이지만, 출시 직후부터 달성하기는 악명 높을 정도로 어렵다. BK가 지적했듯이, “리텐션은 앱의 생명혈이며 움직이기 가장 힘든 지표”다. SaaS 세계에서 초기 유저 손실은 거의 통과의례나 다름없다: 최소화해야 할 건 맞지만, 대체로 계획에 포함시켜 대비하는 현실이다.
하지만 이제 AI 세계에서 이상하고 마법 같은 일이 벌어지고 있다. 옛날 전략이 뒤집히고 있다. 초기 리텐션이 낮은 게 당연하던 게 아니라, 일부 AI 제품들이 첫 유저 코호트부터 놀라울 정도로 높은 리텐션을 달성하고 있다. 마치 그 유저들이 정확히 원하던 걸 딱 찾아서 절대 떠나지 않는 것처럼 말이다. 모든 AI 제품에서 일어나는 건 아니다(전혀 그렇지 않다), 하지만 모든 창업자가 주목할 만한 새로운 패턴이 나타나고 있다. 우리는 이를 신데렐라 “유리 구두” 효과라고 부르기 시작했는데, 이게 유저 리텐션에 대한 우리의 인식을 완전히 뒤집어놓고 있다.
새로운 AI 현실: 구두가 딱 맞으면 유저들은 자리를 지킨다
어떤 AI 제품들이 전형적인 MVP-이탈 패턴을 거스르는 이유는 뭘까? 그 답은 우리가 신데렐라 유리구두 효과라고 이름 붙인 가설에 있다. 이 비유는 동화에서 그대로 따온 거다: 잠재 고객들(우리의 비유에서 신데렐라 본인)이 해결책을 이것저것, 모델을 이것저것 계속 시도하며 완벽한 맞춤을 찾는다고 상상해 보라. 대부분의 제안들은 너무 헐거웠다거나, 너무 꽉 끼거나, 아니면 해야 할 일(job-to-be-done)에 딱 맞지 않는 경우가 대부분이다. 이런 고가치 문제들—이를 미해결 워크로드(unsolved workloads)라고 부르자—은 신데렐라의 발처럼, 딱 맞는 유리구두를 기다리는 거다.
오늘날의 혼란스러운 AI 환경에서 개발자들은 어지러울 정도로 다양한 모델들을 실험하고 있다. (데이터로 보면, OpenRouter의 사용량이 1년 만에 10조 토큰에서 100조 토큰 이상으로 10배 폭증했다. 매일 새로운 엔드포인트가 추가되고 있다.) 각 릴리스마다 팀들은 재빨리 테스트한다: 이 새로운 모델이 내 문제를 더 잘 풀어주나? 대부분의 경우 답은 “그냥 그렇다”인데, 그래서 이탈(churn)한다. 한 번 써보고 떠나는 AI “관광객”이 되는 거지. 이게 표준이다: 큰 흥분, 짧은 실험, 그리고 다음 걸로 넘어감.
하지만 가끔씩, 고집 센 고가치 문제를 놀라울 정도로 정밀하게 푸는 새로운 최첨단(frontier) 모델이 등장한다. 그럴 때 신데렐라의 구두를 찾은 것과 같다. 특정 유저 코호트가 워크로드-모델 맞춤(workload-model fit)을 발견한다—그들이 절실히 필요로 했던 것과 AI가 제공하는 게 완벽하게 맞아떨어지는 거다. 이 유저들은 전형적인 초기 채택자처럼 이탈하지 않는다. 대신 발을 깊이 박고 버틴다. 모델을 제품이나 워크플로에 깊숙이 통합하고, 그 주위에 상당한 엔지니어링 노력을 투자하며, 사실상 락인(lock in)된다. 어차피 이 모델이 그들의 유스케이스에 장갑처럼 딱 맞는다면 왜 바꾸겠나?
우리는 이런 초기 끈끈한 유저들을 기초 코호트(foundational cohort)라고 부른다. 이들은 종종 출시 직후, 모델이 최첨단(state-of-the-art)으로 처음 칭송받을 때 나타난다. 근본적으로 새로운 무언가의 약속에 이끌려 오고, 그 약속이 실현되면 리텐션이 놀라울 정도다. 마치 제품이 그냥 유저 베이스를 찾은 게 아니라, 이상적인 유저 베이스를 첫날부터 바로 찾은 것 같다. 이건 전형적인 MVP 스토리와 완전히 반대다. AI에서는 초기 코호트가 나중에 오는 코호트보다 더 나은 장기 리텐션을 보일 수 있다.
왜 후발 유저들이 덜 충성스러운가? “유리구두” 코호트가 맞는 걸 찾은 뒤에는, 후속 유저들은 대개 더 캐주얼하게 실험하거나 이미 다른 데서 필요를 채우고 있기 때문이다. 모델은 더 이상 반짝이는 새로운 최첨단(frontier)이 아니다. 이제 수많은 도구 중 하나일 뿐이고, 충족되지 않은 니즈가 있으면 이들은 다음 유행 모델(model du jour)로 뛰어든다. 반대로 기초 코호트(foundational)는 완벽한 짝을 찾았기 때문에 확고하게 자리 잡고 있다.
기초 코호트의 실제 사례: 두 번의 론칭 이야기
유리 구두 효과를 실제로 확인하려면 최근 AI 모델 론칭들을 봐라. 우리는 State of AI: An Empirical 100 Trillion Token Study with OpenRouter(State of AI: OpenRouter 데이터를 통한 실세계 LLM 사용에 대한 포괄적 분석)의 사용 코호트들을 분석했다. 리텐션 곡선들이 놀라운 이야기를 들려준다. 각 코호트는 특정 월에 해당 모델 사용을 시작한 유저들을 나타내고, 그 후 몇 달 동안 그 유저들 중 얼마나 많은 비율이 여전히 활성 상태인지 보여준다(유저가 나중에라도 돌아오면 “리텐션”으로 친다, 공백 기간이 있어도).

Google의 Gemini 2.5 Pro를 보자. 2025년 중반에 최상위 “최첨단(frontier)” 모델로 데뷔한 플래그십 모델이다. 2025년 6월 론칭 코호트가 등대처럼 돋보인다: 5개월 후에도 그 코호트의 약 20%가 여전히 모델을 적극 사용 중이었다. 단일 모델을 쓰는 개발자 코호트치고는 놀라울 정도로 높은 리텐션이다. 이는 6월에 개발자 무리가 Gemini 2.5 Pro에서 정확히 필요로 했던 걸 찾았다는 걸 시사한다—아마 고급 코딩 기능이나 정확도 대폭 향상 같은 거—그리고 그대로 붙잡혔다.
이제 몇 달 후, 예를 들어 2025년 9월이나 10월에 온보딩한 코호트들과 비교해 보자. 이 후발 코호트들은 훨씬 더 세게 이탈했다; 리텐션 곡선이 바닥으로 곤두박질쳤다는 건, 그 유저들 대부분이 후속 달에 사라졌다는 의미다. 왜 그랬을까? 2025년 가을쯤 Gemini 2.5 Pro는 더 이상 반짝이는 신상 새 모델이 아니었다—더 새로운 모델들이 지평선에 떠 있었고, 아직 완벽한 맞춤을 못 찾은 개발자들은 계속 쇼핑 중이었다. 기초( foundational) 6월 코호트가 이미 모델의 주요 유스케이스를 차지해 버렸고, 후발 유저들은 “탐험가”가 되어 정착민이 되지 못했다. Gemini 2.5 Pro를 써봤지만, 그들의 니즈에 신데렐라급 맞춤이 안 보이니 그냥 넘어간 거다.
비슷한 패턴을 Anthropic의 Claude 4 Sonnet에서도 본다. 같은 시기 또 다른 최첨단(frontier) 모델이다. 2025년 5월 론칭 코호트는 4개월째에 유저 40% 정도를 유지했는데, Gemini와 비슷한 수준이지만 Claude 후발 코호트들에 비하면 여전히 두드러진다. 그 5월 유저들은 아마 최적화된 상태(sweet spot)를 찔렀을 거다(Claude 4의 고급 추론이나 긴 컨텍스트 윈도우가 다른 모델들이 못 푼 문제를 해결한 탓일 수 있다). Claude 4 Sonnet 차트의 후발 코호트들은 다른 이야기를 한다: 가을에 들어온 유저들은 더 빨리 이탈했는데, Claude 4가 더 이상 독보적이지 않았고 그들의 미충족 니즈가 다른 데로 밀어냈기 때문이다.
요컨대, AI 모델이 명확한 기술적 우위를 가지고 데뷔할 때 기초 코호트(foundational cohort)를 낚을 짧은 창(window)이 생긴다. 이 창은 다음 빅 모델 론칭까지 지속될 수 있는데, 그 안에 “구두를 신어본” 첫 유저들이 맞는 걸 찾으면 그만이다. 찾으면 그들은 제품을 살려주고(사용량도 높게 유지하며) 과대광고가 사라진 후에도 파워 유저가 된다. 못 찾으면… 그 뒤 모든 코호트가 똑같아 보인다: 순간적이고 변덕스러운.

구두가 맞지 않을 때: 경고 사례들
“유리구두” 순간이 아예 안 오면 어떻게 될까? 불행히도 그런 사례도 있다: 독특하고 끈끈한 우위를 한 번도 보여주지 못한 채 론칭한 모델들이다. 이들의 리텐션 차트는 순수한 상품(commodity) 곡선처럼 보인다: 모든 코호트가 똑같이 행동한다(게다가 형편없이).
Gemini 2.0 Flash(Google 모델의 이전 세대)나 Llama 4 Maverick을 보자. 이 모델들은 제법 괜찮은 성능으로 등장했지만, 기존 모델들에 비해 명확한 최첨단(frontier) 도약은 아니었다. 결과적으로 어떤 코호트도 지속적인 애착을 형성하지 못했다. 유저들은 왔다가 장난치듯 써보고, 1개월 차든 10개월 차든 비슷한 비율로 이탈했다. 각 코호트의 리텐션 선들이 그래프 바닥 근처에서 실망스럽게 얽혀 있다—두드러진 건 없고, 기초 코호트(foundational users)도 없다. 직설적으로 말하면, 제품이 product-market fit을 찾지 못한 거다. “좋은 편이지만 대체 가능한(good-enough)” 시장에 직행한 셈이다—여러 모델들이 그럭저럭 할 수 있는 환경에서, 어떤 것도 큰 충성심을 불러일으키지 못했다. 카테고리 리더로 보이거나 새로운 문제 유형을 푸는 해결사로 인식되지 않으니, 이 모델들은 중요한 유저 베이스를 락인하지 못했다.
기초 코호트가 그 어느 때보다 중요한 이유
급속히 발전하는 foundation 모델 시대에 리텐션 주변의 위험도가 바뀌었다. AI 능력이 아기 걸음이 아니라 거대한 도약으로 앞서가는 시대에 들어섰다. 각 도약마다 새로운 유스케이스를 정복할 기회가 생긴다: 이전에 풀리지 않던 작업을 마침내 완벽히 해내는 첫 모델이 되는 거다. 그렇게 되면 그 문제를 가진 유저들이 몰려들고 그대로 머문다.
이 “신데렐라” 역학은 AI 회사와 투자자들에게 거대한 함의를 지닌다:
- Product-Market Fit = Workload-Model Fit: AI에서 product-market fit을 달성한다는 건 말 그대로 한 고가치 워크로드를 누구보다 잘 푸는 걸 의미할 수 있다. 광범위한 기능 세트가 아니라 핵심 영역에서의 깊이가 더 중요하다. 그 완벽한 타점(sweet spot)을 찌르면 리텐션이 자연스럽게 따라온다—유저들이 오랫동안 갈망하던 걸 마침내 얻기 때문이다.
- 선도자 우위, 재정의: 시장에 먼저 나오는 게 항상 성공 보장은 아니다—다만 먼저 나오는 게 급한 문제를 최상으로 푸는 걸 의미할 때 말이다. 유리 구두 효과는 새로운 능력 수준을 먼저 달성한 모델이 그 능력에 대한 충성 유저의 사자 지분을 락인한다는 걸 시사한다. 그 유저들은 나중에 빼내기 매우 비용이 많이 든다. 이제 모델 주위에 워크플로, 비즈니스, 심지어 사고 습관까지 구축했기 때문이다. 경쟁 모델로 바꾸려면 재훈련 비용, 품질 리스크, 엔지니어링 작업이 들고—원래 쌍을 묶어두는 높은 마찰이다. 비즈니스 용어로 이건 높은 전환 비용으로 인한 전형적인 락인이다. AI 모델이 깊이 박히면 빼내는 건 신데렐라 구두를 다른 발에 억지로 끼우는 것만큼 어렵다.
- 리텐션, 북극성 지표(North Star Metric)로 삼기: 새로운 AI 도구들의 골드러시에서 성장(가입, 채택)이 전부라고 생각할 수 있다. 하지만 똑똑한 창업자들은 리텐션 곡선에 똑같이 신경 쓸 거다. 기초 코호트(foundational cohort)가 형성되는 조짐이 있는가? 적어도 한 유저 세그먼트가 네 모델을 필수로 여기는가? 모든 코호트가 빠른 드롭오프로 똑같이 행동한다면 레드 플래그다—차별화에 더 힘을 쓰거나 더 구체적인 pain point를 노려야 할 수 있다. 반대로 한 코호트가 나머지보다 훨씬 잘 붙잡힌다면 그들을 연구하라. 그들은 네 유리구두 착용자들이고, 제품이 왜 그들의 니즈에 맞았는지 이해하면 로드맵(그리고 투자자 피치)을 안내할 수 있다.
- 최첨단 창(window)은 좁다: 데이터는 “최첨단(frontier) 모델”의 시장 왕관이 일시적이라는 걸 보여준다. 각 새 모델은 다음 경쟁자가 올 때까지 짧은 창(window) 동안만 최첨단으로 여겨진다. 이는 AI 회사들이 그 희귀한 기초 유저들을 잡을 짧은 기간이 있다는 뜻이다. 가장 사로잡기 힘든 유저들—미충족 니즈를 가진 이들—을 감동시킬 일회성 기회다. 그 창을 놓치면 점진적 개선의 참호전에서 싸워야 한다. AI 스타트업에겐 론칭 압박을 높인다: 거의 올인 아니면 아웃(all or nothing)에 가깝다. 제대로 맞히면 업사이드가 크다(굳건한 유저들, 어쩌면 니치에서 준 독점). 중간 론칭의 다운사이드는 가파른 이탈과 나중 차별화의 오르막길이다.
결론: “유리 구두” 순간을 위해 구축하기
신데렐라 유리 구두 효과는 화려한 비유 이상이다. AI가 제품 채택과 리텐션 규칙을 다시 쓰는 방식을 반영한 거다. 새로운 모델들이 끊임없이 나오고 개발자들이 간단한 API 호출로 갈아탈 수 있는 세상에서 유저 충성심이 순간적일 것처럼 보인다. 하지만 보았듯이, AI 제품이 깊은 니즈를 진짜로 충족시키면 관광객이 아니라 팬을 만든다. 그 초기 팬들은 풍파를 견디며 남아, 전체 비즈니스를 세울 수 있는 기반을 제공한다.
AI 창업자와 빌더들에게 명확한 지침이 있다: 시장의 미해결 고가치 문제들을 파악하라. 군중 속에서 “그럭저럭”인 반쪽짜리 범용 모델을 만드는 대신, 좁더라도 그중 하나를 완벽히 푸는 첫 번째가 되도록 목표를 세워라. 진열대 위 또 다른 구두가 되는 것과, 그것을 찾던 발에 딱 맞는 유리 구두가 되는 차이다.
결국 AI의 다음 국면 이야기는 누가 더 크거나 빠른 모델을 가졌는지에 그치지 않을 수 있다. “우리가 딱 필요로 하던 유저들을 찾았고, 4개월이 지나도 여전히 함께다”라고 말할 수 있는 이들이 써낼 거다. 그게 완벽한 맞춤의 마법이다.
원문: The Cinderella “Glass Slipper” Effect
blog by ash에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.
