용어집
GEO·AI 검색

멀티모달 검색

멀티모달 검색은 텍스트뿐 아니라 이미지·음성·동영상 등 여러 형식의 입력을 하나의 질의로 결합해 검색하는 방식입니다. 키워드 매칭에 의존하던 전통 검색과 달리, 서로 다른 형식의 입력을 의미 기반으로 비교해 답을 찾습니다.

  • 멀티모달 검색은 사진을 찍어 올리면서 동시에 텍스트로 질문하는 식으로, 여러 입력 형식을 하나의 질의에 결합하는 검색입니다.
  • 구글은 2022년 4월 텍스트와 이미지를 함께 쓰는 멀티서치(multisearch)를 미국·영어 베타로 출시했고, 이를 MUM AI 모델이 뒷받침합니다.
  • 핵심 원리는 사진·음성·텍스트를 공통 임베딩 공간에서 형식이 아닌 의미로 비교하는 것입니다.
  • AI 검색 시대에는 이미지의 alt 텍스트, 캡션, 구조화 데이터, 주변 문맥이 모델이 실제로 읽는 신호가 됩니다.
  • 이미지 해상도와 OCR 가독성이 낮으면 모델이 시각 토큰을 잘못 해석해 환각으로 이어질 수 있습니다.

멀티모달 검색(Multimodal Search)은 텍스트·이미지·음성·동영상 같은 서로 다른 형식의 입력을 한 번의 질의로 결합해 의도를 파악하고 답을 찾는 검색 방식입니다. 예를 들어 마음에 드는 원피스를 사진으로 찍은 뒤 "초록색"이라는 텍스트를 덧붙이면, 검색엔진이 두 입력을 함께 해석해 같은 디자인의 초록색 제품을 보여줍니다. 키워드를 정확히 타이핑해야 했던 전통 검색과 달리, 말로 표현하기 어려운 대상도 보여주거나 들려주면서 찾을 수 있다는 점이 핵심입니다.

이 흐름의 기술적 토대는 구글이 2021년 5월에 발표한 MUM(Multitask Unified Model)입니다. MUM은 75개 언어로 학습되었고 텍스트·이미지·동영상 등 여러 형식의 정보를 한꺼번에 이해하도록 설계되었습니다. 구글은 2021년 9월 Search On 행사에서 MUM을 구글 렌즈(Google Lens)와 결합한 멀티모달 검색을 시연했고, 2022년 4월 7일 미국·영어 사용자를 대상으로 멀티서치(multisearch)를 베타로 출시했습니다. 사용자는 구글 앱에서 렌즈로 사진을 찍은 뒤 "+ Add to your search"로 텍스트를 덧붙여 시각 질의와 텍스트 질의를 하나로 합칠 수 있습니다.

전통 검색과 무엇이 다른가

가장 큰 차이는 입력 형식과 매칭 방식입니다. 전통 검색이 텍스트 키워드의 일치를 따진다면, 멀티모달 검색은 형식이 다른 입력들을 의미 단위로 변환해 비교합니다.

구분전통(키워드) 검색멀티모달 검색
입력 형식텍스트 키워드텍스트·이미지·음성·동영상의 조합
매칭 방식키워드·문자열 일치공통 임베딩 공간에서 의미 기반 비교
질의 예시"초록색 원피스"원피스 사진 + "초록색" 텍스트
적합한 상황대상을 단어로 정확히 표현할 수 있을 때말로 설명하기 어려운 대상을 보여주거나 들려줄 때
대표 기술역색인, 랭킹 알고리즘MUM 등 멀티모달 AI 모델, 멀티모달 임베딩

실제 사례와 근거

구글이 공식 블로그와 Search On 발표에서 든 사례들은 멀티모달 검색의 쓰임새를 구체적으로 보여줍니다. 마음에 드는 원피스를 다른 색으로 찾기, 식탁 사진을 찍고 "커피 테이블"을 덧붙여 어울리는 가구 찾기, 모르는 식물을 촬영해 관리법 찾기 등이 대표 예시입니다. Search On 2021 시연에서는 처음 보는 자전거 부품을 사진으로 찍고 "이거 어떻게 고치죠?"라고 물으면, 시스템이 그 이미지를 동영상 속 정확한 한 장면에 매칭해 수리 방법을 찾아 주는 사례도 소개되었습니다. 셔츠의 무늬를 찍어 같은 패턴의 양말을 찾는 시연도 함께 공개되었습니다. 이후 구글은 카메라로 본 제품을 주변 매장에서 찾아 주는 "multisearch near me" 기능을 추가했습니다.

AI 검색이 일상화되면서 멀티모달 검색은 이미지·동영상·음성 자산을 어떻게 최적화하느냐의 문제로 확장되고 있습니다. Search Engine Land의 Myriam Jessier는 2025년 12월 기고에서, AI 시스템이 이미지를 "시각 토큰(visual tokens)"으로 변환하는 과정에서 해상도가 낮으면 토큰을 잘못 해석해 환각이 발생할 수 있다고 설명합니다. 같은 글에 따르면 이미지 안 텍스트가 OCR로 읽히려면 글자 높이가 최소 30픽셀, 명도 대비가 약 40 그레이스케일 값 이상이어야 하며, 스타일이 강한 글꼴은 OCR을 방해합니다. 또한 alt 텍스트는 단순 접근성 텍스트를 넘어, 모호한 시각 토큰의 의미를 모델이 확정하도록 돕는 "의미 표지판(semantic signpost)" 역할을 한다고 강조합니다.

실행 체크리스트

  • 모든 핵심 이미지에 대상·맥락을 구체적으로 담은 alt 텍스트를 작성합니다(장식용 이미지는 예외).
  • 이미지 해상도를 충분히 확보하고, 이미지 내 텍스트는 글자 높이 30픽셀·명도 대비 40 이상을 목표로 합니다.
  • 이미지·동영상 주변에 설명 캡션과 본문 문맥을 두어 모델이 읽을 수 있는 텍스트 신호를 늘립니다.
  • 제품·이미지에 구조화 데이터(스키마)를 적용해 형식·관계 정보를 명시합니다.
  • 동영상에는 자막·타임스탬프·핵심 장면 설명을 넣어 특정 순간이 매칭될 수 있도록 합니다.
  • 원본 이미지를 사용해 출처 신뢰도를 확보하고, 중복·도용 이미지 사용을 피합니다.

참고·출처