Djob News

"AI 모델이 아무리 똑똑해도, 기억을 저장할 공간이 부족하면 멈출 수밖에 없다."

GPU 한 장에 테라바이트(TB)급 메모리를 탑재하는 시대가 열리고 있다. 인공지능(AI) 산업이 폭발적으로 성장하면서 연산 성능의 병목이 '처리 속도'에서 '메모리 용량'으로 이동하고 있기 때문이다. 이 구조적 변화의 중심에 HBF(고대역폭플래시, High Bandwidth Flash)가 있다.

HBM의 한계, 속도가 아닌 '공간'의 문제

현재 AI 서버의 핵심 메모리는 HBM(고대역폭메모리, High Bandwidth Memory)이다. D램(DRAM)을 수직으로 쌓아 GPU 바로 옆에 붙이는 방식으로, 초당 수 테라바이트(TB/s)에 달하는 압도적인 대역폭을 제공한다. 엔비디아의 H100, B200 같은 최신 AI 가속기가 이 HBM에 의존하는 이유가 바로 여기에 있다.

그러나 AI 모델의 파라미터 수가 수천억 개를 넘어서고, 추론(Inference) 과정에서 발생하는 '키밸류 캐시(KV Cache)'와 컨텍스트 데이터의 양이 급증하면서 HBM만으로는 역부족인 상황에 직면하고 있다. HBM은 패키지 면적의 물리적 제약, 막대한 전력 소모, 그리고 심각한 발열 문제 때문에 탑재 용량을 무한정 늘리기가 구조적으로 어렵다.

넘치는 데이터를 일반 SSD 스토리지로 내리면 어떻게 될까. 극심한 지연 시간(Latency)이 발생해 AI 서비스 품질이 급격히 저하된다. 초고속 HBM과 상대적으로 느린 SSD 사이에 거대한 '속도 단절'이 존재하기 때문이다. 전문가들은 이를 현재 AI 인프라가 안고 있는 가장 치명적인 구조적 결함으로 지목한다.

낸드 플래시로 만든 '준고속 대용량' 메모리

HBF는 이 간극을 메우기 위해 등장한 새로운 개념의 메모리다. 기술의 핵심은 기반 소자에 있다. HBM이 초고속 D램을 적층한 것이라면, HBF는 SSD에 주로 쓰이는 낸드 플래시(NAND Flash)를 HBM처럼 3차원으로 쌓아 만든다.

낸드 플래시는 D램 대비 비트(bit)당 단가가 훨씬 낮다. 이 특성 덕분에 HBF는 같은 비용으로 HBM 대비 8~16배에 달하는 용량을 제공할 수 있다. GPU 한 장에 수 테라바이트급 메모리를 탑재하는 것이 현실적인 목표가 된다.

속도는 어떨까. HBF는 낸드 플래시의 구조적 한계상 쓰기(Write) 속도와 수명(약 10만 회 쓰기 제한)에서 HBM에 미치지 못한다. 그러나 설계의 방향은 처음부터 달랐다. HBF는 읽기(Read) 속도를 극단적으로 최적화해 HBM에 근접한 성능을 끌어냈다. 이는 AI 서비스의 특성—한 번 메모리에 올린 모델 가중치와 데이터를 반복해서 읽어 들이는 작업 패턴—과 정확히 맞아떨어진다.

업계 전문가들은 HBM을 "당장 필요한 자료를 꽂아두는 책장"에, HBF를 "방대한 지식을 보관하는 도서관"에 비유한다. 역할이 다를 뿐, 우열을 가리는 경쟁 관계가 아니라는 뜻이다.

AI 인프라의 '비어있던 중간 계층'을 채운다

HBF의 등장이 산업적으로 중요한 이유는 단순히 용량이 크기 때문만이 아니다. 현재 AI 서버 메모리 계층 구조의 치명적 공백을 채운다는 점에서 의미가 크다.

현재 구조를 단순화하면 이렇다: 최상단에는 초고속·소용량의 HBM이, 최하단에는 대용량·저속의 SSD 스토리지가 있다. 이 두 계층 사이의 속도 격차는 수십 배에서 수백 배에 달한다. 데이터가 이 두 계층을 오갈 때마다 발생하는 병목은 AI 연산 파이프라인 전체의 효율을 떨어뜨린다.

HBF는 이 사이에서 '따뜻한 중간 계층(Warm Tier)'으로 자리잡는다. HBM이 즉각 처리해야 할 '뜨거운(Hot)' 데이터를 담당하고, HBF가 자주 참조되는 '따뜻한(Warm)' 데이터를 빠르게 공급하며, SSD가 장기 보관 데이터를 맡는 3단 계층 구조가 완성되는 것이다.

HBM + HBF 하이브리드, AI 가속기의 미래 설계도

전문가들이 주목하는 것은 HBF 단독이 아니라 HBM과 HBF의 하이브리드 통합이다. 향후 AI 가속기는 하나의 패키지 안에 두 메모리가 공존하는 구조로 진화할 것이라는 전망이 지배적이다.

역할 분담은 명확하다. HBM은 고속 연산과 즉각적인 데이터 처리를 담당하고, HBF는 대규모 모델 파라미터와 컨텍스트 데이터의 저장 및 공급을 맡는다. 이 구조에서는 HBM의 용량 한계라는 '천장'이 사라지고, AI 가속기가 다룰 수 있는 모델의 규모와 복잡도가 한 차원 더 높아진다.

특히 AI 기술의 무게중심이 '학습(Training)'에서 실제 서비스 단계인 '추론(Inference)'으로 이동하면서, 이 하이브리드 구조의 경제적 가치는 더욱 커진다. 클라우드 기업들에게 추론 비용과 처리 효율은 현재 가장 절박한 과제다. HBF는 대용량 데이터를 저비용으로 GPU 가까이에 두어 SSD로 내릴 때 발생하는 지연을 없애고, 추론 시스템의 비용 효율을 획기적으로 끌어올릴 수 있는 현실적인 해법으로 주목받고 있다.

메모리 반도체 산업의 판을 바꿀 변수

HBF의 부상은 반도체 산업 지형에도 영향을 미친다. HBM 시장은 현재 SK하이닉스와 삼성전자, 마이크론이 과점하고 있다. 그러나 HBF는 낸드 플래시 기반이라는 점에서, 낸드 제조 역량을 보유한 기업들에게도 새로운 기회가 열린다.

물론 HBF가 상용화까지 넘어야 할 기술적 장벽도 남아 있다. 낸드 플래시의 쓰기 수명 제한을 AI 워크로드 환경에서 어떻게 관리할 것인지, HBM과의 패키지 통합 표준을 어떻게 정립할 것인지가 핵심 과제다. 업계는 이르면 2026년에서 2027년 사이에 초기 상용 제품이 등장할 것으로 전망하고 있다.

분명한 것은, HBF가 HBM의 '대체자'가 아닌 '완성자'로서 AI 인프라의 다음 장(章)을 함께 쓸 것이라는 점이다. AI 모델이 커질수록, 추론 서비스가 늘어날수록, HBF의 존재 이유는 더욱 선명해진다.

디잡뉴스 테크브리프는 AI·반도체·디지털 산업의 핵심 기술 트렌드를 독자의 시선으로 전달합니다.

[디잡뉴스 | DiJab News]

AI메모리구조 HBF메모리 HBM메모리 AI서버인프라 GPU메모리병목 낸드플래시 AI반도체 메모리계층구조 AI추론인프라 차세대메모리기술