[AI에게 '현장'을 맡길 수 있을까?] Agentic AI와 3D Scene Understanding으로 보는 오픈 월드 탐색

재난이 발생했습니다. 무너진 건물 안에 생존자가 있을 수 있습니다. 사람 대신 로봇을 투입하기로 했습니다.
로봇은 어디서부터 탐색을 시작해야 할까요? 잔해 위의 낯선 물체를 보면 어떻게 해야 할까요? 사전에 학습한 공간과 전혀 다른 구조라면? 이 질문들 앞에서 오늘날 AI는 생각보다 훨씬 불완전합니다.

우리는 AI가 이미지에서 고양이를 찾고, 언어로 대화하며, 바둑에서 사람을 이기는 시대에 살고 있습니다. 그런데 정작 '처음 들어가는 낯선 공간'을 자율적으로 탐색하는 일은 아직도 AI에게 매우 어려운 과제입니다. 왜일까요? 그리고 그 문제를 풀기 위해 연구자들은 어떤 방향으로 나아가고 있을까요?

이 글에서는 AI가 공간을 인식하는 방식에서 출발해, '처음 보는 것을 이해할 수 있는가'라는 문제의 본질, 그리고 스스로 판단하고 행동하는 AI가 이 한계를 어떻게 돌파하려 하는지를 살펴봅니다.

센서와 조명을 장착한 4족 보행 로봇 한 대가 사전 지도 없이 어두운 지하 동굴로 들어가고 있다.
헤드라이트가 비추는 몇 미터 앞을 제외하면 완전한 어둠 이것이 Open-World AI 문제의 현실이다.

(출처: 나노바나나 2 AI 생성)

AI는 공간을 어떻게 이해할까?

AI가 현실 세계를 인식하기 위해서는 먼저 3차원 공간 데이터가 필요합니다. 우리가 사진 한 장으로는 물체까지의 거리나 뒷면의 모양을 알 수 없듯이, 평면 이미지만으로는 로봇이 공간 속에서 판단하고 움직이기 어렵습니다. 그래서 AI에게는 깊이와 입체 정보가 담긴 3D 데이터가 필요합니다.

포인트 클라우드: AI가 보는 3D 세계

3D 공간을 포인트 클라우드로 재현한 결과. 점 하나당 x, y, z의 위치정보를 기록하고 점들이 모여 면을 구성한다.

(출처: 나노바나나 2 AI 생성)

AI가 3D 공간을 이해할 때 가장 기본이 되는 데이터 형태가 포인트 클라우드(point cloud)입니다. 이름 그대로 '점(point)들의 구름(cloud)'입니다. 공간 속 물체의 표면 위에 수만~수십만 개의 점을 빽빽하게 찍어 놓은 것으로 생각하면 됩니다. 마치 어두운 방에서 손전등을 들고 벽과 가구 표면에 수천 개의 형광 스티커를 붙여 놓은 뒤, 불을 끈 상태에서 그 스티커들만 본다면 방의 윤곽, 가구의 형태, 물체의 위치가 점들의 배치만으로도 드러날 것입니다. 이것이 포인트 클라우드입니다. 각 점은 3D 좌표(x, y, z)를 갖고, 때에 따라 색상(RGB) 정보도 함께 담깁니다.

LiDAR로 스캔한 샌프란시스코 교차로의 포인트 클라우드.
건물, 도로, 자동차, 횡단보도, 나무가 모두 색이 입혀진 점들의 집합으로 표현되어 있다. 사진이 아니라 수십만 개의 3D 좌표 점이 모여 만든 '점의 구름'이다. (출처: Ouster OS1-64 lidar point cloud of intersection of Folsom and Dore St, San Francisco.png by Daniel L. Lu, via Wikimedia Commons, CC BY 4.0 / 링크)

포인트 클라우드: AI가 보는 3D 세계

그렇다면 이 포인트 클라우드는 어떻게 얻을까요? 같은 포인트 클라우드라도 어떤 센서로 만드느냐에 따라 정밀도, 비용, 적합한 환경이 달라집니다.

- LiDAR (라이다): 박쥐의 초음파 탐지와 비슷한 원리입니다. 레이저 빛을 사방으로 쏘고, 되돌아오는 시간을 재서 고밀도 포인트 클라우드를 만듭니다. 정밀도가 높아 자율주행차에 주로 쓰이지만, 장비가 고가입니다.

- RGB-D 센서(깊이 카메라): 스마트폰 Face ID의 원리와 같습니다. 컬러 사진에 픽셀별 거리 정보를 함께 기록해, 색상까지 입혀진 포인트 클라우드를 만듭니다. 저렴하고 간편해서 실내 로봇이나 AR 기기에 많이 활용됩니다.

- MVS (Multi-View Stereo, 다중 시점 스테레오): 우리 눈이 입체감을 느끼는 원리의 확장판입니다. 여러 각도에서 찍은 일반 사진들을 컴퓨터가 비교·대조해서 포인트 클라우드를 생성합니다. 특수 센서 없이 일반 카메라만으로 가능해, 드론 측량이나 야외 환경 조사에서 특히 각광받고 있습니다. 최근에는 NeRF·Gaussian Splatting 같은 AI 기반 3D 복원 기술이 MVS를 빠르게 대체·보완하며 이 과정을 혁신하고 있습니다.

그런데 이 '3D를 이해하는 능력'이 곧바로 '3D 공간을 자율적으로 탐색하는 능력'으로 이어지지는 않습니다.

공간을 이해하는 것과 탐색하는 것은 다르다

주어진 포인트 클라우드에서 물체를 분류해 내는 것과, 미지의 공간에 들어가 목표 물체를 스스로 찾아내는 것. 이 두 가지는 본질적으로 다른 문제입니다.

포인트 클라우드 분할(segmentation)은 수만~수십만 개의 점으로 이루어진 3D 데이터에서 '이 점들은 벽이고, 저 점들은 의자'처럼 의미 있는 영역을 구분하는 작업입니다. 색칠 공부에서 영역별로 색을 채우는 것과 비슷합니다. 입력 데이터가 미리 주어져 있고, 무엇을 찾아야 하는지도 정해져 있습니다. 반면 공간 탐색(exploration)은 데이터가 실시간으로 들어오고, 목표가 바뀌며, 처음 보는 상황에 즉각 대응해야 합니다.

2025년 12월 공개된 논문 "What Is The Best 3D Scene Representation for Robotics?"는 이 간극을 정면으로 짚습니다. 다양한 3D 표현 방식을 망라하며, 각각이 '정적 이해'에는 강하지만 '동적 탐색'으로 전환할 때 생기는 병목을 분석합니다.

이 차이를 가장 극명하게 보여준 사례가 DARPA 지하 챌린지(Subterranean Challenge)입니다. 미국 방위고등연구계획국(DARPA)이 주관한 이 대회에서 로봇 팀들은 터널, 도시형 지하 구조물, 자연 동굴이 뒤섞인 미지의 지하 환경을 시간 안에 자율 탐색해야 했습니다. 지도도 없고, 사전 답사도 없이 말 그대로 '처음 들어가는 공간'이었습니다. 최종 우승 팀 CERBERUS는 40개 탐색 대상 중 23개를 찾아내는 데 그쳤습니다. 절반 이상은 찾았지만, 나머지는 놓쳤습니다. 이 대회가 남긴 질문은 지금도 유효합니다. "완전히 낯선 공간에서 AI는 얼마나 믿을 수 있는가?"

DARPA SubT Challenge가 펼쳐진 지하 환경의 규모.
터널, 도시형 지하 구조물, 자연 동굴이 뒤섞인 거대한 공간에서 로봇 한 대가 자체 조명에 의지해 탐색하고 있다. 사전 지도 없이 이 전체를 60분 안에 탐색해야 했다.

(출처: 나노바나나 2 AI 생성)

로봇이 실제로 '보는' 화면. 칠흑 같은 동굴 바닥에 형광 조끼를 입은 마네킹(생존자 역할)이 쓰러져 있고, AI가 "Survivor 94.2%"로 감지했다.
이런 물체 40개가 지하 공간 곳곳에 숨겨져 있었고, 우승 팀조차 23개만 찾아냈다.

(출처: 나노바나나 2 AI 생성)

Open-World 환경의 진짜 문제

기존 AI 모델의 대부분은 '닫힌 세계(Closed-World)' 가정 위에 서 있습니다. 쉽게 말해, 시험 범위 안에서만 답을 맞히는 학생과 같습니다. 훈련 데이터에 등장한 카테고리와 상황만 인식하고, 그 범위 밖의 것은 처리하지 못하거나 오류를 일으킵니다. 예를 들어, 의자와 책상만 학습한 모델에게 소파를 보여주면 '의자도 아니고 책상도 아닌' 것이 아니라, 무리하게 의자로 분류하거나 완전히 엉뚱한 답을 내놓습니다.

현실 세계는 이와 정반대입니다. 새로운 물체가 예고 없이 등장하고, 같은 물체도 조명이나 날씨에 따라 전혀 다르게 보입니다. 이것이 Open-World 문제의 핵심입니다. "시험 범위 밖의 문제도 풀 수 있는가?" 다시 말해, "보지 못한 것을 이해할 수 있는가?"

이 한계를 3D 공간에서 정면 돌파한 연구가 2025년 4월 발표된 CAGS(Context-Aware Gaussian Splatting)입니다. 핵심 아이디어는 간단합니다. 3D로 복원된 장면의 각 부분에 '이것은 컵이다', '이것은 책상이다' 같은 언어 의미 정보를 함께 입히는 것입니다. 그 결과 "루빅스 큐브는 어디 있지?", "유리잔을 찾아 줘" 같은 자연어 질의만으로 3D 장면 속 임의의 물체를 찾아낼 수 있게 됩니다. 사전에 정의된 카테고리 목록이 필요 없습니다. 어떤 물체든 말로 물으면 됩니다.

같은 방향의 연구가 빠르게 뒤따르고 있습니다. 파노라마 이미지와 포인트 클라우드를 동시에 처리하는 JOPP-3D, 단 하나의 이미지만으로 본 적 없는 물체가 섞인 3D 장면 전체를 복원하는 SceneComplete, 등 방법은 다르지만, 그 목표는 같습니다.
AI가 사전 정의가 없어도 무엇이든 인식할 수 있게 하는 것.

거실 테이블 위 여러 물체 중 "루빅스 큐브"를 검색하자 해당 물체만 선명하게 강조된다.
마치 현실 세계에 Ctrl+F를 쓰는 것처럼, CAGS는 사전 정의된 목록 없이 자연어만으로 3D 장면 속 어떤 물체든 찾아낸다.

(출처: 나노바나나 2 AI 생성)

여기서 등장한 Agentic AI

Open-World 인식이 가능해진다 해도, 인식된 정보를 바탕으로 '무엇을 할지 결정하고 실행하는' 능력은 별개의 문제입니다. 이 지점에서 Agentic AI가 주목받기 시작했습니다. Agentic AI는 단순히 질문에 답하는 LLM을 넘어, 목표가 주어지면 스스로 계획을 세우고, 행동하고, 결과를 평가해 다음 단계를 결정하는 구조입니다. 낯선 도시에서 식당을 찾는 상황을 떠올려 보면 이해하기 쉽습니다. 주변을 둘러보고(인식), '저 골목이 번화가 같으니 가보자'라고 판단하고(추론), 실제로 걸어가 보고(행동), 막다른 길이면 되돌아와 다른 길을 시도합니다(피드백).

이 인식(Perception) → 추론(Reasoning) → 행동(Action) → 피드백(Feedback) 루프가 반복되며 목표를 향해 나아가는 것이 Agentic AI의 핵심입니다.

이 흐름에서 최전선에 있는 연구가 2026년 2월 공개된 MoMa-SG입니다. 독일 프라이부르크 대학 연구팀이 발표한 이 시스템은 서랍, 문, 선반처럼 열고 닫을 수 있는 물체들이 있는 실내 환경을 깊이 카메라로 스캔해, 공간의 '관계 지도'를 자동으로 만들어 냅니다. 예를 들어 '냉장고 안에 우유가 있고, 냉장고 문은 당겨서 여는 방식'이라는 식으로 물체 간의 위치 관계와 작동 방식까지 구조화한 것이 '3D 장면 그래프'입니다.

3D 장면 내 물체들이 서로 상호작용 가능하며, 이를 그래프로 표현하는 것이 3D 장면 그래프이다.
우유는 냉장고 안에 있고, 냉장고를 열어서 우유를 꺼내야 한다.

(출처: 나노바나나 2 AI 생성)

이 그래프를 LLM에 전달하면 "냉장고 문을 열고 음료를 꺼내 책상 위에 올려라" 같은 장기 과제를 단계별로 실행합니다. 4족 보행 로봇과 모바일 매니퓰레이터 양쪽에서 실험해 관절 유형과 환경에 걸쳐 80% 이상의 작업 성공률을 기록했습니다.

냉장고에서 우유를 꺼내 줘." 사람이 말로 지시하면, 로봇은 냉장고 위치와 문 여는 방식을 파악하고, 작업 목록을 만들어 단계별로 실행한다.
MoMa-SG(2026)는 이처럼 공간 속 물체의 관계와 작동 방식을 이해한 뒤 행동으로 옮기는 시스템이다.

(출처: 나노바나나 2 AI 생성)

그런데 주방 하나를 탐색하는 것과, 건물 전체를 돌아다니며 장기 과제를 수행하는 것은 또 다른 문제입니다. 이를 위해서는 공간에 대한 기억이 필요합니다. 처음 들어간 방에서 발견한 정보를, 나중에 다른 방에서 결정을 내릴 때 활용할 수 있어야 합니다. 2025년 11월 발표된 연구("Open-World 3D Scene Graph Generation")는 탐색 중 수집된 공간 정보를 3D 장면 그래프로 누적하고, 에이전트가 필요한 정보를 '기억에서 검색'하듯 꺼내 쓰는 구조를 제안합니다.
인식하고, 행동하고, 기억하는 AI 이것이 바로 Agentic AI가 향하는 방향입니다.

그래서 AI에게 '현장'을 맡길 수 있을까

이론적 진전은 분명하지만, 실제 현장에서는 어떨까요?

Boston Dynamics는 2025년 Orbit 5.0 업데이트를 통해 Spot에 AI 기반 이상 탐지 기능을 대폭 강화했습니다. Spot이 자율적으로 시설을 순찰하며 촬영한 이미지를, AI에게 '이 사진에서 누출이나 부식을 찾아라'하고 텍스트로 지시하면 즉시 분석해 이상을 자동 탐지합니다. 2025년 11월에는 IFS와의 파트너십을 통해 Spot의 점검 데이터를 Agentic AI가 실시간 해석해 유지보수 작업 지시를 자동 생성하는 단계까지 도달했습니다. 카길(Cargill) 네덜란드 시설이 이 설루션을 실제 배치한 첫 사례입니다.

휴머노이드 영역도 빠르게 움직이고 있습니다. 2025년 10월 공개된 Figure 03은 자체 이미지-자연어 언어모델을 탑재해 학습한 적 없는 물체까지 다루는 가정용 휴머노이드를 표방합니다. 두 대의 Figure 03이 함께 장기 과제를 해결하는 협업 데모를 공개했고, 이 모델이 저전력 온보드 GPU에서 그대로 작동한다는 점도 상용화 측면에서 의미가 큽니다. 테슬라 Optimus Gen 3는 2026년 하반기 Fremont 공장의 기존 생산 라인을 전환해 양산에 돌입할 예정이며, 현재는 Gen 2 모델들이 테슬라 내부 공장에 실전 배치되어 데이터 수집과 자율 작업 학습을 병행하고 있습니다. 자동차와 마찬가지로 LiDAR 없이 AI5 칩 기반의 '비전 온리' 접근을 고수하며, 이를 통해 복잡한 Open-World 인식과 스스로 판단하고 행동하는 Agentic AI의 기술적 난제를 현장에서 해결해 나가고 있습니다.

그러나 한계도 명확합니다. 첫째, 실시간성의 벽이 있습니다. 자율주행은 초당 30 프레임 이상(≈ 33ms 이내) 반응이 필요하고, 로봇 조작도 수백 ms 이내의 판단이 요구됩니다. 그런데 Open-World 3D 인식과 LLM 추론을 동시에 돌리면 한 번의 판단에도 수 초가 걸리는 경우가 흔합니다. 인식–추론–행동 루프를 사람의 속도로 돌리기에는 계산이 너무 무겁다는 것이 현재의 벽입니다. 둘째, 처음 보는 물체 앞에서 여전히 실패합니다. 앞서 소개한 CAGS처럼 자연어로 물체를 찾는 모델도, 훈련 분포와 극단적으로 다른 물체에는 오답을 냅니다. 조명 변화, 배경의 복잡도, 처음 보는 질감의 물체가 나타나면 모델이 '환각(Hallucination)'을 일으켜 엉뚱한 물체를 집거나 허공을 잡는 실수가 잦습니다. 즉, "글자 그대로 이해는 하지만, 물리적 실체와 매칭하는 정밀도"는 아직 완성되지 않았습니다. 셋째, 행동의 신뢰성 문제가 있습니다. LLM이 계획을 세워도, 실제 물리 환경에서 그 계획이 실패하면 회복하려는 요령이 아직 취약합니다. "컵을 집어 옮기기"라는 계획 중 컵이 미끄러져 떨어졌을 때, 이를 즉각 인식하고 '다시 줍기'로 전환하는 유연성이 부족합니다. LLM이 세운 계획 사이의 피드백 속도가 느려, 상황이 꼬이면 로봇이 동작을 멈추거나 무한 루프에 빠지는 사례가 빈번합니다.

Frontiers in Robotics and AI(2025)에 발표된 리뷰 논문은 "Agentic AI 기반 로봇 시스템은 구조화된 환경에서는 실용 수준에 도달했지만, 완전히 예측 불가능한 오픈 월드 환경에서는 아직 연구 단계"라고 정리합니다. 2026년은 AI가 실험실을 벗어나 실제로 증명하는 첫해가 될 것이라는 전망이 많습니다.

4족 보행 로봇이 파이프라인과 계기판이 가득한 산업 시설을 홀로 순찰하고 있다.
사람 없이 로봇만으로 시설을 점검하고, AI가 이상 징후를 자동으로 판단해 유지보수 지시까지 생성하는 시대가 이미 시작되었다.

(출처: 나노바나나 2 AI 생성)

정리: AI는 데이터에서 공간으로 확장되고 있다

이 글은 하나의 질문에서 출발했습니다. "처음 들어가는 낯선 공간에서 AI는 얼마나 믿을 수 있는가?"
그 답을 찾아가는 과정에서, AI가 3D 공간을 이해하는 방식(포인트 클라우드)에서 출발해, 이해와 탐색의 차이를 확인하고(DARPA SubT), 보지 못한 것도 인식하는 Open-World 기술을 살펴보았습니다. 그리고 인식을 넘어 스스로 판단하고 행동하며 기억까지 하는 Agentic AI가 이 조각들을 하나로 엮고 있음을 확인했습니다.

물론 AI가 현장의 모든 일을 완벽히 책임지는 시대는 아직 오지 않았습니다. 진정한 도약은 단순히 인공지능의 수치적 성능을 높이는 것을 넘어, 불확실한 공간에서의 안전을 확보하고 예외 상황에 기민하게 대처하며, 인간 및 사회 시스템 속에서 역할을 분담해 나가는 '책임 있는 구성원'으로 거듭나는 과정에 있기 때문입니다. 그럼에도 불구하고 2025년과 2026년을 기점으로 AI는 실험실의 차가운 서버를 벗어나 우리가 숨 쉬는 뜨거운 현실 속으로 그 어느 때보다 빠르게 걸어 들어오고 있습니다.

참고자료

Comprehensive review on 3D point cloud segmentation in plants, 2026년 3월 27일 접속, https://www.sciencedirect.com/science/article/pii/S2589721725000066
What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models, 2026년 3월 27일 접속, https://arxiv.org/abs/2512.03422
DARPA Subterranean Challenge Final Event, 2026년 3월 27일 접속, https://www.darpa.mil/program/darpa-subterranean-challenge
CERBERUS in the DARPA Subterranean Challenge, 2026년 3월 27일 접속, https://www.science.org/doi/10.1126/scirobotics.abp9742
CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting, 2026년 3월 27일 접속, https://arxiv.org/abs/2504.11893
JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas, 2026년 3월 27일 접속, https://arxiv.org/html/2603.06168
SceneComplete: Open-World 3D Scene Completion in Cluttered Real World Environments for Robot Manipulation, 2026년 3월 27일 접속, https://arxiv.org/abs/2410.23643
Articulated 3D Scene Graphs for Open-World Mobile Manipulation (MoMa-SG), 2026년 3월 27일 접속, https://arxiv.org/abs/2602.16356
IFS and Boston Dynamics combine Spot robots with agentic AI for autonomous field operations, 2026년 3월 27일 접속, https://roboticsandautomationnews.com/2025/11/17/ifs-and-boston-dynamics-combine-spot-robots-with-agentic-ai-for-autonomous-field-operations/96655/
Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning, 2026년 3월 27일 접속, https://arxiv.org/abs/2511.05894
Agentic LLM-based robotic systems for real-world applications: a review on their agenticness and ethics, 2026년 3월 27일 접속, https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2025.1605405/full
The Next Step in Robotic Inspection — Boston Dynamics Orbit 5.0, 2026년 3월 27일 접속, https://bostondynamics.com/blog/the-next-step-in-safe-autonomous-robotic-inspection/
3D Gaussian Splatting in Robotics: A Survey, 2026년 3월 27일 접속, https://arxiv.org/html/2410.12262v2

EDITOR

이동훈

Business Development Dept. · Junior Researcher

저작자표시 비영리 변경금지 (새창열림)

'STORAGE' 카테고리의 다른 글

[Lab Story] 아주대학교 우현구 교수님 편 (0)	2026.05.11
왜 자꾸 새치가 나는 거야! 새치가 나는 원인, 모낭 속을 파헤쳐보자 (0)	2026.04.13
[Power User Interview] 11년 파워 유저가 말하는 IPA - 차의과학대학교 박준호 교수님 (0)	2026.04.01
노트와 펜 대신 목소리를 담다: 육종가의 눈과 입이 되는 ibreeder v2.0 (0)	2026.03.23
[ibreeder AX 리포트] 현장 데이터 수집을 가속하는 작은 실험 기록 (0)	2026.03.09

[AI에게 '현장'을 맡길 수 있을까?] Agentic AI와 3D Scene Understanding으로 보는 오픈 월드 탐색

AI는 공간을 어떻게 이해할까?

포인트 클라우드: AI가 보는 3D 세계

포인트 클라우드: AI가 보는 3D 세계

공간을 이해하는 것과 탐색하는 것은 다르다

Open-World 환경의 진짜 문제

여기서 등장한 Agentic AI

그래서 AI에게 '현장'을 맡길 수 있을까

정리: AI는 데이터에서 공간으로 확장되고 있다

참고자료

'STORAGE' 카테고리의 다른 글

댓글

티스토리툴바

[AI에게 '현장'을 맡길 수 있을까?] Agentic AI와 3D Scene Understanding으로 보는 오픈 월드 탐색

AI는 공간을 어떻게 이해할까?

포인트 클라우드: AI가 보는 3D 세계

포인트 클라우드: AI가 보는 3D 세계

공간을 이해하는 것과 탐색하는 것은 다르다

Open-World 환경의 진짜 문제

여기서 등장한 Agentic AI

그래서 AI에게 '현장'을 맡길 수 있을까

정리: AI는 데이터에서 공간으로 확장되고 있다

참고자료

'STORAGE' 카테고리의 다른 글

관련글

댓글

티스토리툴바