Post

STAR-MOOC - DNA 기반의 X+AI 실증 강의 요약 (7주차)

창의자율프로젝트 STAR-MOOC 7주차 내용 정리

STAR-MOOC - DNA 기반의 X+AI 실증 강의 요약 (7주차)

 이 포스팅은 26년 1학기 광주과학기술원(GIST) AI대학원에서 수강한 창의자율 프로젝트 과목에 대한 정리글입니다.


📝 강의 요약 노트: 7-1. 커넥티드 데이터 레이크와 데이터 아키텍처

1. 강의 주제 및 핵심 키워드

  • 주제: AI 활용을 위한 커넥티드 데이터 레이크의 3계층 구조와 데이터 메쉬/패브릭 아키텍처
  • 핵심 키워드: 커넥티드 데이터 레이크(Connected Data Lake), ETL vs ELT, 오픈 테이블 포맷(Open Table Format, Iceberg/Delta), 메타데이터 카탈로그(Metadata Catalog), 데이터 메쉬(Data Mesh), 데이터 패브릭(Data Fabric)

2. 주요 내용 요약

  • 커넥티드 데이터 레이크의 3계층 (3 Layers of Connected Data):
    1. Storage (Ponds & Lakes): 엣지 클라우드에 위치한 작은 ‘데이터 폰드(Pond)’들이 코어 클라우드의 거대한 ‘데이터 레이크(Lake)’로 유기적으로 흘러들어와 원시 데이터(Raw Data)를 안전하게 저장함.
    2. Pipeline (ETL vs ELT): 과거에는 데이터를 다듬어서 넣는 ETL(추출-변환-적재)이 주류였으나, 다각도의 의미 추출이 필요한 AI 환경에서는 원시 데이터를 먼저 적재(Load)하고 분석 목적에 맞춰 유연하게 변환(Transform)하는 ELT 방식이 각광받고 있음.
    3. Utilization (Mesh & Fabric): 저장되고 파이프라인을 탄 데이터들을 거미줄처럼 엮어 분석과 AI 연계에 활용하는 계층임.
  • 오픈 테이블 포맷과 개방형 카탈로그:
    • 특정 플랫폼에 종속되지 않고 이기종 시스템 간 데이터를 호환하기 위해, 데이터 저장 규칙을 표준화한 오픈 테이블 포맷(Iceberg, Delta, Hudi)이 사용됨.
    • 흩어진 데이터의 위치와 속성을 기록한 ‘메타데이터’를 통합 관리하기 위해 Databricks의 Unity Catalog나 Snowflake의 Polaris Catalog와 같은 개방형 카탈로그 생태계가 구축되고 있음.
  • 데이터 메쉬(Data Mesh) vs 데이터 패브릭(Data Fabric):
    • 데이터 메쉬: ‘도메인(사용 목적)’ 중심의 접근법. 흩어진 데이터 소스들을 논리적인 거미줄처럼 엮어 사용자가 AI 분석 가치를 쉽게 창출하도록 돕는 유연한 아키텍처임.
    • 데이터 패브릭: ‘인프라(기계적)’ 중심의 접근법. 데이터 간의 물리적, 시스템적 연결성을 매우 단단하게 짜 맞춰(직물처럼) 인프라 레벨의 통합을 이뤄내는 아키텍처임.
  • 안전한 고속 데이터 공유: 군사망과 같은 보안 필수 환경을 위해 엔드투엔드 보호 파이프라인(Network Isolation, Tunneling)이 적용됨. 또한, 대규모 데이터의 병목 없는 수송을 위해 DTN(Data Transfer Node)과 앞서 다룬 RDMA(Zero-copy) 기술이 활용됨.

3. 핵심 개념 및 용어 정리

  • ELT (Extract, Load, Transform): 데이터를 먼저 데이터 레이크에 적재(Load)한 뒤, 필요할 때마다 컴퓨팅 파워를 활용해 목적에 맞게 변환(Transform)하는 최신 데이터 파이프라인 기법.
  • Open Table Format (오픈 테이블 포맷): 오브젝트 스토리지에 저장된 대규모 파케이(Parquet) 파일 위에서, 관계형 DB처럼 트랜잭션(ACID) 처리와 시간여행(Time Travel) 기능을 가능하게 해주는 데이터 아키텍처 규격. (대표적으로 Apache Iceberg)
  • 메타데이터 카탈로그 (Metadata Catalog): 흩어진 데이터가 어디에, 어떤 구조(스키마)와 권한 규칙으로 존재하는지 설명해 주는 ‘데이터를 위한 데이터’의 중앙 도서관 역할.

4. 한 줄 결론

  • AI 시대를 지탱하는 데이터 생태계는 단순히 거대한 레이크에 데이터를 쌓아두는 것을 넘어, ELT 파이프라인과 개방형 포맷(Iceberg 등)을 기반으로 데이터를 안전하고 유연하게 엮어내는 ‘데이터 메쉬와 패브릭’ 구조로 고도화되고 있음.

📝 강의 요약 노트: 7-2. 커넥티드 데이터 레이크의 공동 활용과 실무 적용

1. 강의 주제 및 핵심 키워드

  • 주제: 고비용 초거대 AI 인프라의 한계 극복을 위한 연합 클라우드와 데이터/자원 공동 활용 전략
  • 핵심 키워드: 연합 클라우드(Federated Cloud), 인프라 공동 활용(Joint Utilization), 오픈소스 생태계, DTN(Data Transfer Node), XDP(Express Data Path) & BPF, 망 분리(Network Isolation)

2. 주요 내용 요약

  • Smart X 도메인과 연합 클라우드: 스마트 팩토리, 병원, 항만 등(Smart X) 다양한 도메인에서 생성된 데이터는 레이크로 모임. 이 과정에서 민간, 공공, 글로벌 클라우드 등 흩어진 자원들이 논리적으로 결합하여 거대한 ‘연합 클라우드(Federated Cloud)’ 형태로 작동하게 됨.
  • 초고비용 AI 인프라의 현실과 공동 활용: 최신 AI 학습을 위한 GPU 서버 랙(Rack)의 가격이 수억 원에서 최근 40억 원대까지 폭등하며 국가 간 ‘군비 경쟁(Arms Race)’ 양상을 띠고 있음. 개별 기관이 이를 모두 구축하는 것은 불가능에 가까우므로, 커넥티드 데이터 레이크를 기반으로 고가의 컴퓨팅 자원을 공유하는 체계가 필수적임.
  • 라이선스 병목 해소와 오픈소스 생태계: 상용 소프트웨어의 라이선스 비용은 협업의 큰 장벽(Bottleneck)이 됨. 이를 해결하기 위해 PyTorch와 같은 오픈소스 프레임워크와 클라우드 네이티브 기반의 컨테이너 환경을 적극 활용하여 개방형 협업 생태계를 구축하고 있음.
  • 데이터 고속 수송과 소프트웨어 네트워킹 가속:
    • 대규모 데이터를 지연 없이 직배송하기 위해 DTN(Data Transfer Node)과 RDMA(Zero-copy) 기술이 활용됨.
    • 특히 OS의 오버헤드를 줄이고 하드웨어(NIC) 성능을 직접 끌어내기 위해 XDP(Express Data Path)BPF(Berkeley Packet Filter) 같은 커널 친화적인 소프트웨어 네트워킹 기술이 적용되어 고속 전송을 뒷받침함.
  • 강력한 보안과 망 분리(Network Isolation): 데이터를 개방하고 공유하되, 허가된 사용자만 안전하게 접근할 수 있도록 가상 네트워크망 분리와 터널링이 결합된 ‘보호된 파이프라인(Protected-Pipeline)’이 핵심 요소로 작용함.

3. 핵심 개념 및 용어 정리

  • 연합 클라우드 (Federated Cloud): 퍼블릭, 프라이빗, 지역 클라우드 등 서로 다른 클라우드 환경을 연결하여, 마치 하나의 거대한 자원 풀(Pool)처럼 통합 관리하고 상호 운용할 수 있게 해주는 클라우드 아키텍처.
  • XDP (Express Data Path) & BPF (Berkeley Packet Filter): 리눅스 OS 커널의 복잡한 네트워크 스택을 거치지 않고, 네트워크 인터페이스 카드(NIC) 단계에서 패킷을 직접 필터링하고 고속 처리하여 CPU 오버헤드를 극단적으로 줄이는 고성능 패킷 처리 기술.
  • DTN (Data Transfer Node): 방화벽이나 일반적인 병목 구간을 우회하여, 오직 대규모 데이터 전송만을 위해 최적화된 전용 고속 서버 노드.

4. 한 줄 결론

  • 막대한 비용이 드는 AI 컴퓨팅(GPU) 자원의 현실적 한계를 극복하기 위해, OS 커널 오버헤드를 없앤 고속 네트워크(XDP/RDMA)와 오픈소스 생태계를 결합하여 ‘국가 및 기관 간 인프라 공동 활용 체계’를 구축하는 것이 현대 AI 인프라의 핵심 전략임.

This post is licensed under CC BY 4.0 by the author.