구글 멀티모달 AI 검색, 이제 눈으로 보고 답한다!

 


구글 검색, 이제 눈으로 보고 답한다! 멀티모달 AI 검색 시대 개막

안녕하세요!
우리가 매일 사용하는 검색 엔진, 주로 어떻게 이용하시나요? 아마 대부분 키보드로 궁금한 내용을 입력하는 '텍스트' 기반의 검색에 익숙하실 겁니다. 하지만 이제 검색의 패러다임이 바뀌고 있습니다. 인공지능(AI)이 글자뿐만 아니라 이미지를 '보고', 그 의미를 이해하며 답을 찾아주는 시대, 바로 '멀티모달(Multimodal) AI 검색'의 시대가 활짝 열리고 있습니다!

그 선두에 선 구글이 최근 자사의 AI 검색 기능인 'AI 모드(AI Mode)'에 이미지 분석 기능을 전격 통합했다는 놀라운 소식을 발표했습니다. 이는 마치 검색 엔진에 '눈' 이 달린 것과 같은 혁신적인 변화인데요, 단순히 이미지를 인식하는 것을 넘어, 사진 속 상황과 맥락까지 파악하여 더욱 깊이 있고 풍부한 정보를 제공한다고 합니다.

오늘은 구글의 새로운 멀티모달 검색 기능이 무엇인지 자세히 알아보고, 이 기술이 왜 중요한지, 그리고 우리가 앞으로 활용할 수 있는 다양한 멀티모달 검색 방법은 어떤 것들이 있는지 쉽고 상세하게 알아 보겠습니다.

 


검색의 한계를 넘어서: 왜 멀티모달 AI인가?

우리는 세상을 오감(五感)으로 경험합니다. 눈으로 보고, 귀로 듣고, 코로 냄새 맡고, 혀로 맛보고, 피부로 느끼죠. 이렇게 다양한 감각(양식, Modality)을 통해 얻은 정보를 종합하여 세상을 이해하고 판단합니다.

하지만 기존의 검색은 주로 '텍스트'라는 단일 양식에 의존해왔습니다. 물론 텍스트는 강력한 정보 전달 수단이지만, 세상의 모든 것을 온전히 담아내기에는 한계가 있습니다.

  • 말로 설명하기 어려운 것: 처음 보는 식물의 이름, 독특한 디자인의 가구, 여행지에서 마주친 낯선 건축물… 이런 것들을 텍스트만으로 정확하게 묘사하여 검색하기란 쉽지 않습니다.
  • 시각적 맥락의 중요성: 패션 스타일링, 인테리어 디자인, 특정 장소의 분위기 등은 텍스트 설명만으로는 그 느낌을 제대로 전달받기 어렵습니다. 이미지가 주는 시각적 정보와 맥락이 핵심이죠.
  • 정보의 불완전성: 텍스트 정보만으로는 놓치기 쉬운 미묘한 뉘앙스나 숨겨진 의미들이 이미지나 오디오와 결합될 때 비로소 명확해지는 경우가 많습니다.

멀티모달 AI는 바로 이러한 한계를 극복하기 위해 등장했습니다. 텍스트, 이미지, 오디오 등 두 가지 이상의 데이터 양식을 동시에 이해하고 처리함으로써, 마치 인간이 세상을 인지하는 방식처럼 정보를 더욱 풍부하고, 깊이 있고, 정확하게 파악할 수 있게 됩니다. (참고문헌 1) 이는 AI가 세상을 이해하는 방식의 근본적인 진화를 의미하며, 검색 경험 역시 이전과는 차원이 다른 수준으로 끌어올릴 잠재력을 지닙니다.

 


구글의 혁신: 'AI 모드'에 눈을 달다!

최근 구글이 발표한 내용은 바로 자사의 최신 AI 검색 기능인 'AI 모드'에 구글 렌즈(Google Lens)의 강력한 이미지 분석 기술을 통합했다는 것입니다.

AI 모드는 기존의 파란색 링크 목록 대신, AI가 검색 결과를 요약하고 관련 정보를 종합하여 보여주는 구글의 차세대 검색 인터페이스입니다. 여기에 이미지 분석 능력이 더해지면서, 사용자는 이제 다음과 같은 경험을 할 수 있게 됩니다.

  1. 이미지로 질문하기: 구글 앱의 AI 모드에서 카메라로 사진을 찍거나 갤러리의 이미지를 업로드한 후, 그 이미지에 대해 텍스트로 질문할 수 있습니다.
  2. 맥락 이해 및 분석: 구글 렌즈 기술을 통해 이미지 속 객체(사물, 텍스트 등)를 식별하는 것은 기본! AI는 더 나아가 이미지 전체의 맥락, 객체 간의 관계, 색상, 재질, 배치, 형태 등 시각적 특성까지 종합적으로 분석합니다.
  3. 정교하고 풍부한 답변: 분석된 시각 정보와 사용자의 텍스트 질문을 바탕으로, AI는 기존보다 훨씬 깊이 있고 정교한 답변을 생성합니다. 단순히 이미지 속 객체를 알려주는 것을 넘어, 관련 정보, 추천, 비교 분석 등 다각적인 정보를 제공합니다.
  4. 대화형 후속 질문: AI가 제공한 답변에 대해 사용자는 자연스럽게 추가 질문을 이어갈 수 있습니다. 마치 AI와 이미지에 대해 대화하는 듯한 경험을 제공하여 궁금증을 완전히 해소할 수 있도록 돕습니다.

핵심 기술: 쿼리 팬아웃 (Query Fan-out)

구글은 이 기능의 강점으로 '쿼리 팬아웃' 기술을 강조합니다. 이는 사용자가 이미지를 업로드하고 질문했을 때, AI가 이미지 전체에 대한 질문뿐만 아니라 이미지 속 개별 사물이나 요소들에 대해서도 동시에 여러 개의 세부 쿼리(질문)를 생성하고 실행하여 정보를 수집하는 방식입니다. 이렇게 얻어진 다양한 정보를 종합하여 최종 답변을 만들기 때문에, 훨씬 더 풍부하고 다각적인 결과를 얻을 수 있다는 것이 구글의 설명입니다. 이는 챗GPT 서치나 퍼플렉시티와 같은 경쟁 서비스들과 차별화되는 지점이라고 평가받습니다.

예시 시나리오:

  • 책장 사진 + "이 책들이 마음에 들었는데, 비슷한 분위기의 다른 책 추천해줘": AI가 사진 속 책 제목들을 인식하고, 그 책들의 장르, 작가, 분위기 등을 분석하여 사용자의 취향에 맞는 새로운 책들을 추천해 줍니다. 구매 링크나 서평 정보를 함께 제공할 수도 있습니다.
  • 독특한 패턴의 옷 사진 + "이런 스타일과 어울리는 신발 찾아줘": AI가 옷의 색상, 패턴, 재질, 스타일을 분석하고, 그에 맞는 신발 디자인, 색상 등을 추천하며 관련 쇼핑 정보를 제공합니다.
  • 여행 중 찍은 음식 사진 + "이 음식 이름이 뭐고, 주 재료는 뭐야?": AI가 음식의 형태와 재료를 시각적으로 분석하여 음식의 이름과 레시피, 유래 등에 대한 정보를 알려줍니다.

현재 이 기능은 미국 내 구글 랩스(Labs) 사용자를 대상으로 우선 제공되며, 점차 확대될 예정입니다. 이는 구글이 검색의 미래를 멀티모달 AI에서 찾고 있음을 명확히 보여주는 행보입니다.

 


나도 써보자! 다양한 멀티모달 검색 활용법 A to Z

구글의 AI 모드 업데이트는 멀티모달 검색의 가능성을 보여주는 대표적인 사례지만, 우리가 이미 활용하고 있거나 앞으로 활용하게 될 멀티모달 검색 방법은 더욱 다양합니다. 종류별로 나누어 사용 방법을 알아볼까요?

1. 이미지 + 텍스트 검색: "사진으로 묻고 글로 답하다"

  • 핵심: 시각 정보(이미지)와 언어 정보(텍스트)를 결합하여 검색하는 가장 대표적인 방식입니다. 구글의 새로운 AI 모드 기능이 여기에 해당합니다.
  • 사용 방법:
    • 구글 AI 모드 (향후 확대 시): 구글 앱 실행 → 검색창 옆 AI 모드 활성화 → 카메라 아이콘 클릭하여 사진 촬영 또는 갤러리에서 이미지 선택 → 이미지 하단 또는 검색창에 이미지와 관련된 질문 입력 (예: "이 식물 이름 알려줘", "이 옷 어디서 살 수 있어?") → AI가 이미지 분석 결과와 질문 내용을 종합하여 답변 생성
    • 핀터레스트 렌즈 등 유사 기능: 특정 플랫폼 앱에서 제공하는 유사 기능을 활용하여 이미지 업로드 후 관련 정보를 텍스트로 검색하거나 질문할 수 있습니다.
  • 장점: 말로 설명하기 어려운 대상을 쉽게 검색하고, 이미지의 맥락을 반영한 정확하고 구체적인 정보를 얻을 수 있습니다.
  • 이미지 특징(Visual Features)과 텍스트 임베딩(Text Embeddings)을 공통된 벡터 공간(Joint Embedding Space)에 매핑하여 서로 다른 양식 간의 의미적 유사성을 측정하고 관련 정보를 찾는 기술(예: CLIP 모델)이 기반이 됩니다. (참고문헌 3)

2. 이미지 기반 검색 (역 이미지 검색): "이 사진과 비슷한 것을 찾아줘"

  • 핵심: 텍스트 질문 없이 이미지만으로 관련 정보를 찾는 방식입니다. 주로 이미지 자체의 출처를 찾거나, 시각적으로 유사한 다른 이미지를 찾는 데 사용됩니다. 구글 렌즈의 기본 기능 중 하나입니다.
  • 사용 방법:
    • 구글 렌즈 앱 또는 구글 앱 내 렌즈 아이콘: 렌즈 실행 → 카메라로 찾고 싶은 대상을 비추거나 갤러리에서 이미지 선택 → AI가 이미지 속 객체, 텍스트, 장소 등을 자동으로 인식하여 관련 정보(검색 결과, 쇼핑 정보, 유사 이미지 등)를 카드 형태로 보여줌. 별도의 텍스트 질문은 필요하지 않습니다.
    • 구글 이미지 검색: PC 웹 브라우저에서 구글 이미지 검색 페이지 접속 → 카메라 아이콘 클릭 → 이미지 업로드 또는 URL 붙여넣기 → 시각적으로 유사한 이미지나 해당 이미지가 사용된 웹 페이지 검색 결과 확인
  • 장점: 대상의 이름을 모르거나 설명하기 어려울 때 매우 유용하며, 빠르고 직관적으로 시각 정보를 탐색할 수 있습니다.
  • 이미지에서 고유한 시각적 특징(Visual Fingerprint)을 추출하고, 방대한 이미지 데이터베이스 내에서 유사한 특징을 가진 다른 이미지를 검색하는 내용 기반 이미지 검색(Content-Based Image Retrieval, CBIR) 기술이 활용됩니다.

아래 화면은 구글 제미나이의 사용예입니다. 구글 어시스턴트를 실행하면 제미나이로 업그레이드 할수 있습니다. 첫번째 화면에서 1을 탭하면 두번째 화면이 나타고, 2를 탭하면 음성으로 검색어를 입력할 수 있고, 3을 탭하면 실시간으로 AI와 대화를 할 수 있습니다. 

첫번째 화면에서 1을 탭하고 두번째 화면에서 1카메라, 갤러리, 첨부파일, 드라이브에서 AI에게 질문할 파일을 선택해 질문을 할수 있습니다. 카메라를 탭해서 사진을 찍으면 3번째 화면이 나타나고 질문을 입력하고 실행하면 네번째 화면처럼 처럼 결과가 나타납니다. 
멀티모달 검색1 멀티모달 검색2
멀티모달 검색3 멀티모달 검색4


3. 음성 + 텍스트/맥락 검색: "말로 물어보면 알아서 찾아준다"

  • 핵심: 음성 명령을 통해 검색을 수행하는 방식으로, 스마트폰의 AI 비서(구글 어시스턴트, 시리 등)나 스마트 스피커에서 흔히 사용됩니다. 사용자의 현재 위치, 시간, 이전 대화 등의 암묵적인 맥락(Implicit Context) 정보가 함께 활용될 수 있습니다.
  • 사용 방법:
    • 스마트폰 AI 비서 호출: "Ok Google", "시리야" 등 호출 명령 → 음성으로 질문 (예: "오늘 서울 날씨 어때?", "집까지 가는 길 알려줘") → AI가 음성을 텍스트로 변환(STT)하고, 질문 의도 파악 및 필요시 위치 등 맥락 정보 활용하여 답변 생성 및 음성 안내(TTS)
    • 검색 앱의 마이크 아이콘: 검색 앱 실행 → 검색창의 마이크 아이콘 클릭 → 음성으로 검색어 말하기 → 텍스트 변환 및 검색 결과 표시
  • 장점: 손을 사용하기 어려울 때 편리하며, 빠르고 자연스러운 방식으로 정보를 얻을 수 있습니다. 맥락 정보를 활용하여 더욱 개인화된 결과를 제공할 수 있습니다.
  • STT(음성인식), NLU(자연어이해), TTS(음성합성) 기술이 복합적으로 사용되며, 사용자의 발화 내용뿐만 아니라 대화 기록, 위치 정보 등 다양한 컨텍스트 정보를 통합하여 응답을 생성하는 대화형 AI(Conversational AI) 기술이 중요합니다.

4. (미래) 비디오 + 텍스트/음성 검색: "영상 속 그 장면, 찾아줘!"

  • 핵심: 정적인 이미지를 넘어 동적인 비디오 콘텐츠를 분석하고 검색하는 방식으로, 아직 초기 단계이지만 빠르게 발전하고 있습니다.
  • 사용 방법 (예상):
    • 유튜브 또는 다른 비디오 플랫폼에서 영상 재생 중 → 특정 장면이나 객체에 대해 음성 또는 텍스트로 질문 (예: "영상 3분 10초에 나오는 저 배우 이름 뭐야?", "이 요리 레시피에서 사용된 소스 브랜드 알려줘") → AI가 영상의 시각 정보(프레임 분석)와 오디오 정보(대사, 효과음)를 함께 분석하여 답변 제공
  • 장점: 방대한 비디오 콘텐츠 속에서 원하는 정보를 효율적으로 찾고, 영상의 내용을 더욱 깊이 있게 이해할 수 있습니다.
  • 비디오는 시간적 흐름을 가진 연속된 이미지와 오디오의 결합이므로, 시공간 특징(Spatio-temporal Features)을 추출하고 이해하는 기술, 비디오 내 객체 추적(Object Tracking), 행동 인식(Action Recognition), 비디오-텍스트 정렬(Video-Text Alignment) 등 더욱 복잡하고 고도화된 멀티모달 기술이 요구됩니다. (참고문헌 4)

 


멀티모달 검색 시대, 기대와 과제

구글의 AI 모드 업데이트는 멀티모달 검색이 더 이상 미래 기술이 아닌 현실임을 보여줍니다. 이러한 변화는 우리에게 다음과 같은 혜택을 가져다줄 것입니다.

  • 더욱 직관적이고 편리한 검색: 언어의 장벽이나 표현의 한계를 넘어 누구나 쉽게 원하는 정보를 찾을 수 있습니다.
  • 풍부하고 깊이 있는 정보 탐색: 단편적인 정보가 아닌, 맥락과 관계까지 고려한 입체적인 정보를 얻을 수 있습니다.
  • 새로운 검색 경험: 쇼핑, 학습, 여행 등 다양한 분야에서 이전에는 불가능했던 새로운 방식의 정보 탐색과 문제 해결이 가능해집니다.

하지만 동시에 해결해야 할 과제들도 있습니다.

  • 정확성 및 신뢰성: AI가 이미지나 음성을 잘못 인식하거나 맥락을 오해하여 부정확한 정보를 제공할 수 있습니다.
  • 프라이버시 문제: 사용자의 이미지, 음성 등 민감한 데이터를 수집하고 처리하는 과정에서 개인 정보 보호 문제가 발생할 수 있습니다.
  • 기술 접근성 및 격차: 최신 기술이 모든 사용자에게 공평하게 제공되고 활용될 수 있도록 노력해야 합니다.
  • 결과의 편향성: AI 학습 데이터에 내재된 편향이 멀티모달 분석 과정에서 증폭될 수 있으므로, 공정성 확보를 위한 지속적인 노력이 필요합니다. (참고문헌 5)

 


검색의 '감각'이 깨어나는 시대

구글 AI 모드의 멀티모달 기능 추가는 검색 엔진이 텍스트의 세계를 넘어 시각, 청각 등 다양한 '감각'을 통해 세상을 이해하기 시작했음을 알리는 중요한 이정표입니다. 마치 눈과 귀가 열린 것처럼, AI는 이제 우리가 보고 듣는 세상을 직접 경험하며 더욱 스마트하고 인간적인 방식으로 우리와 소통할 준비를 하고 있습니다.

물론 기술적인 완성도와 윤리적인 고민은 계속되어야 할 과제입니다. 하지만 멀티모달 AI 검색이 열어갈 미래는 분명 우리의 정보 탐색 방식을 혁신하고, 세상을 이해하는 창을 더욱 넓혀줄 것입니다. 



참고문헌 (References):

  1. Baltrušaitis, T., Ahuja, C., & Morency, L. P. (2018). Multimodal machine learning: A survey and taxonomy. IEEE transactions on pattern analysis and machine intelligence, 41(2), 423-443. (멀티모달 머신러닝 분야의 포괄적인 서베이)
  2. Li, J., Li, D., Xiong, C., & Hoi, S. (2020). Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. arXiv preprint arXiv:2201.12086. (Vision-Language 모델 연구, 이미지와 텍스트 통합 이해)
  3. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PMLR. (CLIP 모델, 이미지-텍스트 임베딩 정렬)
  4. Sun, C., Myers, A., Vondrick, C., Murphy, K., & Schmid, C. (2019). Videobert: A joint model for video and language representation learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 7464-7473). (비디오와 언어 통합 표현 학습 연구)
  5. Buolamwini, J., & Gebru, T. (2018, January). Gender shades: Intersectional accuracy disparities in commercial gender classification. In Conference on fairness, accountability and transparency (pp. 77-91). PMLR. (AI 시스템의 편향성 문제 연구)

 


 

다음 이전