본문 바로가기
삼성전자

삼성전자의 생성형 AI 빅스비, LLM 기술, 하이브리드 전략

by 인사이드필기장 2026. 1. 14.

삼성전자는 빅스비를 단순한 "명령 실행기"에서 유연한 "생성형 AI 에이전트"로 전환함으로써 음성 비서 시장에 패러다임 전환을 주도하고 있습니다. 이러한 진화는 삼성의 독자적인 대규모 언어 모델(LLM) 기술 통합을 통해 가능해졌으며, 이 기술을 통해 빅스비는 미리 프로그래밍한 스크립트의 한계를 벗어나 인간의 맥락에 담긴 미묘한 뉘앙스를 이해할 수 있게 되었습니다. 단순한 "불 켜줘" 같은 작업에만 국한되지 않고, 새로운 빅스비는 사용자의 의도와 이전 대화 기록을 분석하여 복잡하고 다층적인 요청을 이해할 수 있습니다. 무엇보다 중요한 것은 이러한 변화가 개인 정보 보호와 성능의 균형을 맞춘 "하이브리드 AI 전략"에 기반한다는 점입니다. 삼성은 기기 내 AI(NPU 사용)를 통해 개인적이고 즉각적인 작업을 처리하고, 복잡한 인지 처리 작업은 클라우드로 오프로드함으로써, 빅스비가 순수 클라우드 기반 경쟁 제품보다 더 똑똑하고 자연스러울 뿐만 아니라 더 빠르고 안전하도록 보장합니다.

삼성전자의 생성형 AI 빅스비, LLM 기술, 하이브리드 전략
삼성전자의 생성형 AI 빅스비, LLM 기술, 하이브리드 전략

생성형 AI로 진화한 새로운 빅스비의 비약적인 발전

"새로운 빅스비"의 핵심적인 변화는 지난 10년간 음성 비서를 정의해 온 기존의 "명령 슬롯" 아키텍처를 완전히 해체한 데 있습니다. 이전 빅스비는 엄격한 의사 결정 트리에 따라 작동했습니다. 사용자가 말한 문장이 미리 코딩된 스크립트와 완벽하게 일치하지 않으면, 예를 들어 "제습기를 켜세요"라는 구체적인 명령 대신 "여기가 좀 습해요"라고 말하면 시스템은 해당 작업을 실행하지 못했습니다. 생성형 AI, 특히 삼성의 독자적인 "삼성 가우스" 모델의 경량 버전을 통합함으로써 시스템은 구문뿐 아니라 의미적 뉘앙스까지 파악할 수 있습니다. 시스템은 자연어를 엄격한 코드가 아닌 유동적인 입력으로 취급하여 환경과 대화의 맥락에서 사용자의 목표를 추론합니다. 즉, 이제 개발자가 문장의 모든 가능한 변형을 하드 코딩할 필요 없이, 음성 비서가 추상적인 인간의 표현("영화를 보고 싶어요")과 구체적인 기기 상태(조명을 20%로 낮추고, TV를 켜고, 블라인드를 닫아주세요) 사이의 간극을 메울 수 있게 되었습니다. 이러한 진화의 중요한 도약은 기존 음성 비서의 골칫거리였던 "기억 상실" 문제를 해결하는 "다중 턴" 대화 기능의 완성입니다. 과거에는 모든 명령이 독립적인 이벤트로 처리되었습니다. 예를 들어 "서울 날씨는 어때요?"라고 질문한 후 "도쿄는 어때요?"라고 질문하면 시스템이 "날씨"라는 주제를 잊어버리는 경우가 많았습니다. 새로운 생성형 빅스비는 단기 기억에 동적인 "콘텍스트 스택"을 유지하여 대명사와 시간적 참조를 암묵적으로 이해할 수 있습니다. 사용자가 "TV에서 파리 여행 사진을 보여줘"라고 요청한 후 "가장 좋은 사진을 엄마에게 보내줘"라고 말하면, AI는 "가장 좋은 사진"이 이전 요청에서 선택한 특정 이미지를 가리키고 "엄마"는 연락처 대상임을 이해합니다. 이러한 명령 연결 기능은 인간과의 상호 작용을 모방한 사용자 경험을 제공하며, 사용자가 "깨우기 단어"나 전체 문장 구조를 매번 반복하지 않고도 실시간으로 매개변수를 다듬거나 수정하거나 확장할 수 있도록 하여 사용자의 인지 부하를 크게 줄여줍니다.

인간의 음성을 이해하는 LLM 기술

새로운 빅스비를 구동하는 핵심 엔진은 삼성의 독자적인 대규모 언어 모델인 "삼성 가우스 언어"입니다. 이는 이전 세대의 경직된 "명령 및 제어" 논리를 유연한 "추론 엔진"으로 근본적으로 대체합니다. 기존의 음성 비서들은 "켜기"와 같은 특정 문구를 특정 기기 ID와 일치시켜야 하는 하드코딩된 결정 트리에 의존했던 것과 달리, LLM 기반의 빅스비는 트랜스포머 아키텍처를 활용하여 문장의 의미 벡터를 분석합니다. 즉, 키워드를 찾는 대신 문구의 전체 문맥을 기반으로 사용자의 의도를 예측할 확률을 계산합니다. 예를 들어, 사용자가 "여기가 좀 답답하네"라고 중얼거리면 LLM은 공기 순환에 대한 욕구를 추론하고 공기청정기나 에어컨을 자동으로 작동시켜 추상적인 불만을 구체적인 API 기능 호출로 연결합니다. 이러한 "제로샷" 학습 기능 덕분에 개발자가 모든 가능한 문장 구조를 수동으로 프로그래밍할 필요 없이 수백만 가지의 인간 언어 변형을 처리할 수 있으며, 마치 사람이 듣는 것처럼 속어, 머뭇거림, 간접적인 요청까지 "이해"할 수 있습니다. 이 기술의 핵심적인 혁신은 진정한 다중 턴 대화를 가능하게 하는 동적 "컨텍스트 스택" 메모리 시스템의 구현입니다. 기존 시스템에서는 모든 상호 작용이 독립적인 이벤트였기 때문에, 음성 비서는 10초 전에 했던 말을 즉시 잊어버렸습니다. 하지만 새로운 LLM 기반 아키텍처는 대화의 "상태"를 유지하는 단기 메모리 버퍼를 갖추고 있습니다. 예를 들어 사용자가 "파리 날씨는 어때요?"라고 질문한 후 바로 "파리행 비행기표는 얼마예요?"라고 질문하면, LLM은 "거기"가 이전 대화에서 파리를 지칭하는 대명사임을 이해합니다. 이러한 언어적 연속성은 시각적 맥락에도 적용됩니다. LLM은 기기의 UI 레이어와 통합되어 현재 화면에 표시되는 내용을 "인식"할 수 있습니다. 사용자가 강아지 사진을 보고 "이 사진을 엄마에게 보내줘"라고 말하면, AI는 "이것"을 이미지 파일로, "엄마"를 특정 연락처로 인식하여 파일 추출, 메신저 열기, 파일 첨부, 전송 등 복잡한 여러 단계의 워크플로를 한 번의 부드러운 동작으로 실행합니다. 이를 통해 음성 제어의 불편함을 획기적으로 줄여줍니다. 또한, 이 LLM 기술은 사고 연쇄(Chain-of-Thought, CoT) 추론이라는 과정을 통해 "복잡한 명령 추종"에 최적화되어 있습니다. 사람들은 종종 "거실 조명을 끄고 독서 등은 켜둔 채로 블라인드를 50%로 설정해 줘"와 같이 표준 봇이 혼란스러워하는 복잡하고 난해한 명령을 내립니다. 기존의 NPU(신경 처리 장치)는 "조명을 끄세요"와 "램프를 켜 두세요"와 같은 상충하는 명령에 제대로 대응하지 못할 가능성이 높습니다. 하지만 삼성 가우스 모델은 이러한 문장을 논리적인 순서로 개별 작업으로 분해합니다. "거실"이라는 개체를 식별하고, "메인 조명" 그룹과 "독서 등" 장치를 분리한 후, 각 장치에 적절한 상태 변화를 적용한 다음 "블라인드" 명령을 실행합니다. 한 번의 호흡으로 여러 의도 신호를 분석하고, 분류하고, 순서대로 전달하는 이 능력이야말로 진정한 AI 에이전트를 단순한 음성 리모컨과 구분 짓는 요소이며, 사용자가 로봇처럼 딱딱하고 단절된 명령이 아닌 자연스럽고 대화적인 문장으로 스마트 홈 생태계를 제어할 수 있게 해 줍니다.

보안과 효율성을 모두 확보하는 하이브리드 전략

삼성의 "하이브리드 AI" 전략 구현은 생성형 AI에 필요한 막대한 연산 능력과 개인 데이터의 엄격한 개인 정보 보호 요구 사항 사이의 내재한 충돌을 해결하기 위해 설계된 정교한 아키텍처 분기 구조를 나타냅니다. 하드웨어 수준에서 이 시스템은 기기의 신경 처리 장치(NPU)에 내장된 실시간 "게이트웨이 라우터" 로직에 의존합니다. 사용자가 음성 명령을 내리면 이 로컬 게이트키퍼가 요청의 "의도 복잡성"을 즉시 평가합니다. "핫스팟 켜기", "내 마지막 문자 메시지 읽기", "화면 밝기 조절하기"와 같이 개인 기기 관리와 관련된 작업인 경우 데이터 경로는 해당 기기에 물리적으로 고정됩니다. 고도로 최적화되고 양자화된 삼성 가우스(Gauss) 기반의 온디바이스 LLM은 휴대전화 자체 칩을 사용하여 명령을 실행합니다. 이를 통해 민감한 생체 음성 데이터와 개인 사용 패턴이 공용 인터넷을 거치지 않도록 보장하고, 서버 왕복 지연 시간을 없애 Wi-Fi 연결이 없는 "사각지대"에서도 정상적으로 작동합니다. 반대로, NPU가 로컬 저장소의 지식 기반을 넘어서는 요청(예: "50페이지짜리 PDF 요약", "바르셀로나 여행 일정 생성" 또는 복잡한 창작 글쓰기)을 감지하면 시스템은 클라우드 AI로 암호화된 터널을 원활하게 생성합니다. 바로 이 지점에서 "삼성 녹스 볼트" 통합을 통해 하이브리드 모델의 "보안" 측면이 매우 중요해집니다. 데이터 패킷이 휴대전화에서 클라우드 처리로 전송되기 전에 엄격한 "개인 식별 정보(PII) 제거" 과정을 거칩니다. 시스템은 요청을 특정 사용자의 신원이나 기기 ID와 연결할 수 있는 메타데이터를 제거하여 쿼리를 익명화합니다. 경쟁사들이 흔히 사용자 데이터를 수집하여 알고리즘을 재학습시키는 "클라우드 기반" 모델을 기본으로 사용하는 것과 달리, 삼성의 하이브리드 접근 방식은 클라우드를 사용자 습관을 저장하는 저장소가 아닌 순전히 계산 엔진으로만 취급하여, 사용자의 사생활을 효과적으로 보호하는 "디지털 에어 갭"을 구축하면서도 슈퍼컴퓨터 수준의 인텔리전스에 접근할 수 있도록 합니다. 효율성과 지속가능성 측면에서 볼 때, 이러한 하이브리드 분산 방식은 AI 산업을 괴롭히는 "토큰당 에너지" 위기를 해결합니다. 타이머 설정과 같은 간단한 작업을 위해 수십억 개의 매개변수를 가진 대규모 모델을 클라우드에서 실행하는 것은 막대한 에너지와 서버 자원의 낭비입니다. 삼성은 이러한 고빈도, 저 복잡성 작업을 스마트폰의 효율적이고 저전력인 NPU(온디바이스 AI)로 오프로드함으로써 데이터 센터 사용과 관련된 탄소 발자국을 획기적으로 줄입니다. 또한, 이는 기기 자체의 열 스로틀링을 줄여줍니다. 로컬 NPU는 특정 행렬 연산에 최적화되어 있어 5G 모뎀을 활성화하여 서버와 데이터를 주고받는 것보다 배터리 소모가 훨씬 적습니다. 이러한 균형 잡힌 부하 관리는 사용자가 필요할 때는 클라우드의 무한한 지식을 활용하고, 일상적인 상호 작용에는 즉각적이고 배터리 소모를 줄이는 로컬 하드웨어의 응답성을 누릴 수 있도록 하여 "두 가지 장점"을 모두 경험할 수 있게 해 줍니다.