GPU 한 장에 AI 모델 하나를 올리지 못하는 시대가 됐습니다. 구글은 이 문제에 대한 해법을 들고 나왔고, 발표 다음 날 메모리 반도체 주가가 일제히 급락했습니다. 메모리를 덜 쓰는 AI가 등장하면 메모리 반도체 시장은 어떻게 될까요.
AI 모델은 왜 이렇게 메모리를 많이 먹을까
GPT-3를 추론만 돌리는 데 필요한 메모리는 약 350GB입니다. 노트북에 흔히 탑재되는 16GB RAM의 스물두 배에 달하는 양이죠. 고성능 GPU인 NVIDIA A100 한 장의 메모리가 80GB이니, GPU 다섯 장을 묶어도 모자랍니다.
학습 단계로 가면 상황은 더 심각해집니다. 그래디언트, 옵티마이저 상태, 활성화 값까지 저장해야 하기 때문에 추론 대비 3~4배의 메모리가 추가로 듭니다. GPT-3 기준이라면 1TB를 훌쩍 넘기는 셈입니다.
문제는 모델 크기의 성장 속도입니다. 2017년 트랜스포머 아키텍처가 처음 등장했을 때 파라미터는 6,500만 개에 불과했습니다. 그로부터 불과 몇 년 만에 GPT-3는 1,750억, 구글 PaLM은 5,400억까지 불어났고, GPT-4급 모델은 수천억에서 1조 개를 넘긴 것으로 추정됩니다. Nature Machine Intelligence에서 제시된 ‘Densing Law’ 개념처럼, 파라미터 수의 폭증은 곧 메모리 수요의 폭증과 직결됩니다.
여기에 KV 캐시라는 복병이 있습니다. KV 캐시는 LLM이 긴 대화를 이어갈 때 이전 계산 결과를 저장해두는 일종의 임시 메모리 장치입니다. 대화가 길어질수록, 동시에 처리하는 요청이 많아질수록 이 캐시가 차지하는 메모리가 급격히 늘어납니다. 이른바 ‘메모리 월(memory wall)’ 병목의 핵심 원인이죠.
수치로 보면 격차가 극명합니다. 지난 20년간 GPU·TPU 같은 연산 칩의 성능은 약 90,000배 확장됐지만, DRAM 대역폭은 고작 30배 늘어나는 데 그쳤습니다. 연산 능력은 고속도로가 됐는데 메모리는 여전히 좁은 골목길인 겁니다.
구글이 발표한 AI 메모리 절감 기술의 핵심 원리
구글이 내놓은 해법의 이름은 TurboQuant입니다. 구글 리서치 블로그에 공개된 핵심은 KV 캐시에 저장되는 데이터를 값당 3비트로 압축하는 것입니다. 기존에 16비트를 쓰던 것과 비교하면 메모리 사용량을 최소 6배 줄이는 셈이죠. 더 중요한 건, 이미 학습이 끝난 모델에 재학습 없이 바로 적용할 수 있다는 점입니다.
TurboQuant는 두 가지 기술의 조합으로 작동합니다.
첫 번째는 PolarQuant입니다. 데이터를 압축하는 1차 단계에 해당합니다. 일반적인 좌표계(카테시안 좌표)로 표현된 데이터 벡터를 극좌표로 변환합니다. 쉽게 말해, 데이터를 ‘크기’와 ‘방향’이라는 두 가지 성분으로 분리하는 겁니다. 이렇게 하면 기존 방식에서 필수적이었던 정규화 단계를 생략할 수 있고, 그 과정에서 발생하던 메모리 오버헤드도 사라집니다.
두 번째는 QJL이라는 오류 보정 기술입니다. 존슨-린덴슈트라우스(Johnson-Lindenstrauss) 변환이라는 수학적 기법을 활용합니다. 고차원 데이터를 낮은 차원으로 축소하되, 데이터 간의 관계는 보존하는 방법입니다. 비유하자면, 1,000페이지짜리 책을 10페이지 요약본으로 압축하면서도 핵심 줄거리와 등장인물 간의 관계는 그대로 유지하는 것과 비슷합니다. 각 수치를 +1 또는 -1이라는 단일 부호 비트로 축소하기 때문에 추가 메모리 부담도 없습니다.
성능도 인상적입니다. ‘건초 더미에서 바늘 찾기(Needle-in-a-haystack)’라 불리는 벤치마크 테스트에서 완벽한 점수를 기록했습니다. H100 GPU 기준으로 어텐션 연산 속도는 최대 8배 빨라졌습니다.
다만 한계도 있습니다. Hacker News 개발자 커뮤니티에서는 “실제 추론 시간(wall-clock time) 데이터가 빠져 있다”는 지적이 나왔습니다. 아직 연구 논문 단계이며, ICLR 2026과 AISTATS 2026 학회에서 정식 발표될 예정입니다. 상용 서비스 환경에서의 검증은 아직 남은 과제입니다.
HBM 수요는 정말 줄어들 수 있는가
시장의 첫 반응은 공포였습니다. 발표 다음 날 SK하이닉스 주가는 6.2% 급락했고, 삼성전자와 미국 마이크론 등 주요 메모리 기업도 일제히 큰 폭의 하락세를 보였습니다. 클라우드플레어 CEO는 이 기술을 “구글의 딥시크”라 불렀습니다. 올해 초 중국 딥시크가 저비용 AI 모델로 반도체 시장을 뒤흔들었던 충격의 재현이라는 뜻이었죠.
그런데 숫자를 좀 더 뜯어보면 이야기가 달라집니다.
모건스탠리의 분석이 핵심을 짚습니다. TurboQuant는 추론 단계의 KV 캐싱에만 적용되는 기술입니다. 모델 가중치가 차지하는 HBM 용량에는 영향을 주지 않고, 학습 작업과도 무관합니다. 총 스토리지 수요가 6배 줄어든다는 의미가 아니라, 하나의 GPU가 처리할 수 있는 작업량이 늘어난다는 뜻에 가깝습니다.
여기서 경제학의 오래된 개념 하나가 등장합니다. 제본스 역설입니다. 19세기 영국의 경제학자 윌리엄 제본스는 증기기관의 효율이 높아지자 석탄 소비가 줄어들기는커녕 오히려 폭발적으로 늘어난 현상을 관찰했습니다. 효율성 향상이 비용을 낮추면, 그만큼 사용량이 증가해서 총소비가 되레 커지는 현상이죠.
삼성증권은 이 역설이 AI 메모리 절감 기술에도 그대로 적용될 수 있다고 봅니다. TurboQuant로 추론 비용이 하락하면 장문맥 처리와 대규모 배치 활용이 가능해지고, 전체 추론 수요는 오히려 증가한다는 논리입니다. 쿼리와 토큰 사용량의 증가 속도가 절감 효과를 상회할 수 있다는 전망이죠.
메모리 반도체 시장이 받을 실제 영향
HBM 시장은 이미 폭발적 성장 궤도 위에 있습니다. Yole Group에 따르면 2025년 메모리 시장은 2,000억 달러에 육박하며, 뱅크오브아메리카에 따르면 2026년 HBM 시장 규모는 약 546억 달러(약 75조 원)로, 전년 대비 60% 이상 성장할 것으로 전망됩니다. 2028년까지 연평균 성장률을 감안하면 1,000억 달러 돌파도 시야권에 들어오는 수준이며, 이미 2026년분 HBM 물량은 매진 상태입니다.
빅테크 기업들의 투자 행보는 더 직접적인 신호를 보내줍니다. 2026년 주요 빅테크의 AI 설비투자(CAPEX) 합산 규모는 약 6,350억~6,650억 달러(약 877조~918조 원)로 추정됩니다. 2025년 3,810억 달러 대비 67~74% 증가한 수치입니다. 구글 스스로가 메모리 절감 기술을 발표하면서도 AI 투자를 줄이겠다는 신호는 전혀 내놓지 않은 거죠.
모건스탠리는 이 기술이 장기적으로 메모리 수요 펀더멘털에 “중립에서 긍정적”이라고 평가했습니다. 효율성 혁명이 더 큰 규모의 AI 배포를 활성화할 것이라는 판단입니다. 마이크론과 샌디스크에 대한 ‘비중확대(Overweight)’ 의견도 유지했습니다.
물론 냉정하게 봐야 할 부분도 있습니다. TurboQuant는 아직 연구 논문 단계입니다. 모든 클라우드 업체가 구글의 기술을 일괄 도입할 것이란 보장은 없습니다. 상용화까지의 시차, 각 업체별 기술 스택의 차이, 경쟁 기술의 등장 가능성까지 고려하면 시장에 대한 실질적 영향이 체감되기까지는 시간이 필요합니다.
메모리 전쟁의 다음 국면
AI 메모리 절감 기술이 수요를 잠식할 것이란 우려와 별개로, 메모리 반도체 자체의 진화도 빠르게 진행 중입니다.
차세대 HBM4는 대역폭 2TB/s, 인터페이스 폭 2배 확대, 스택당 최대 64GB를 목표로 합니다. 특히 로직 다이(연산 칩)를 메모리에 통합하는 방향으로 나아가고 있어, 메모리가 단순한 저장장치에서 코프로세서(보조 연산 장치)로 진화하는 셈입니다. 메모리 월 문제를 하드웨어 차원에서 근본적으로 해결하려는 시도죠.
업계의 큰 흐름도 바뀌고 있습니다. 파라미터 수를 무한정 늘리는 시대에서, 파라미터당 성능 효율을 높이는 방향으로 이동하고 있습니다. 구글의 TurboQuant도 이 맥락 위에 있습니다. 더 적은 메모리로 더 많은 일을 하겠다는 것이지, 메모리가 필요 없다는 이야기가 아닙니다.
결국 이번 구글의 발표가 던지는 메시지는 명확합니다. AI 산업의 병목은 연산이 아니라 메모리이며, 그 병목을 풀기 위한 경쟁은 소프트웨어와 하드웨어 양쪽에서 동시에 벌어지고 있다는 것입니다. 메모리 반도체 기업에게 이것은 위협이 아니라, 자신들의 제품이 여전히 AI 시대의 가장 귀한 자원이라는 반증일 수 있습니다.