Post

STAR-MOOC - DNA 기반의 X+AI 실증 강의 요약 (6주차)

창의자율프로젝트 STAR-MOOC 6주차 내용 정리

STAR-MOOC - DNA 기반의 X+AI 실증 강의 요약 (6주차)

 이 포스팅은 26년 1학기 광주과학기술원(GIST) AI대학원에서 수강한 창의자율 프로젝트 과목에 대한 정리글입니다.


📝 강의 요약 노트: 6-1. 데이터의 이해와 데이터 엔지니어링

1. 강의 주제 및 핵심 키워드

  • 주제: 디지털 데이터의 생성 원리와 활용을 위한 데이터 엔지니어링 생태계 이해
  • 핵심 키워드: Connected Data Lake(연결된 데이터 레이크), 데이터 그래비티(Data Gravity), 멀티모달(Multi-modal), 데이터 웨어하우스/레이크하우스(Data Warehouse/Lakehouse), ETL/ELT (데이터 엔지니어링)

2. 주요 내용 요약

  • 디지털 데이터의 생성 (Sensing & ADC): 현실 세계의 아날로그 물리량(소리, 빛, 온도 등)을 센서로 감지하고, 노이즈를 제거(Signal Conditioning)한 뒤, 컴퓨터가 이해할 수 있는 0과 1의 디지털 값으로 변환(ADC, Quantization)하는 과정을 거쳐 데이터가 생성됨.
  • 데이터의 진화 (DB → Big Data → Dark Data): 과거 정형화된 데이터베이스(RDB) 형태에서 벗어나, 이미지, 영상 등 비정형 데이터를 포함하는 거대한 ‘빅데이터(Big Data)’로 확장됨. 또한 생성되었으나 저장/활용되지 못하고 버려지는 ‘다크 데이터(Dark Data)’를 어떻게 유의미하게 확보할 것인지도 중요한 과제임.
  • 데이터 저장 패러다임의 변화:
    • Data Warehouse: 구조화되고 정제된 데이터를 저장하여 빠르게 분석/추출하기 좋은 형태.
    • Data Lake: 가공되지 않은 원시 데이터(Raw Data)를 거대한 호수처럼 대규모로 저장하는 형태.
    • Data Lakehouse: 위 두 가지의 장점을 융합하여 정형/비정형 데이터를 모두 효율적으로 저장하고 분석하는 최신 트렌드.
  • 멀티모달 (Multi-modal) 데이터: 텍스트, 이미지, 오디오, 3D 그래픽, 센서 값 등 다양한 형태(Modality)의 데이터를 단편적으로 보지 않고 종합적으로 연결하여 분석하는 방식임. 인간이 오감을 통해 상황을 파악하듯, AI도 멀티모달 센싱과 데이터 융합(Data Fusion)을 통해 상황 인지 능력을 높이고 있음.
  • 데이터 그래비티 (Data Gravity): 데이터의 규모가 커질수록 무게가 무거워져 이동(네트워크 전송) 비용이 커짐. 따라서 데이터를 움직이는 대신, 데이터가 모여 있는 곳으로 컴퓨팅 파워(분석 인프라)를 가져가서 처리하는 것이 현대 AI 인프라의 중요한 원칙이 됨.
  • 데이터 엔지니어링과 데이터 사이언스:
    • Data Engineering: 다양한 소스에서 데이터를 추출(Extract), 변환(Transform), 적재(Load)하여 분석 가능한 상태로 파이프라인(ETL/ELT)을 구축하는 과정.
    • Data Science / AI: 엔지니어링을 통해 준비된 데이터를 바탕으로 분석, 모델링, 추론(Machine Learning)을 수행하여 인사이트와 지혜를 도출하는 과정.

3. 핵심 개념 및 용어 정리

  • ADC (Analog-to-Digital Converter): 연속적인 아날로그 신호를 일정한 간격으로 샘플링하고 양자화하여 이산적인 디지털 데이터로 변환하는 장치 또는 과정.
  • NoSQL (Not Only SQL): 전통적인 관계형 데이터베이스(RDB)의 한계를 극복하기 위해 등장한 비관계형 데이터베이스. Key-Value, Graph, Document 등 다양한 구조의 빅데이터를 처리하는 데 적합. (Hadoop 생태계 등과 연계됨)
  • ETL / ELT: 데이터 엔지니어링의 핵심 프로세스. 데이터를 추출(Extract)하고, 분석하기 좋게 변환(Transform)하여, 저장소에 적재(Load)하는 일련의 과정. 최근에는 클라우드 환경의 발전으로 적재 후 변환하는 ELT 방식도 많이 쓰임.

4. 한 줄 결론

  • AI 시대의 데이터는 단순한 텍스트를 넘어 오감을 아우르는 멀티모달 형태로 진화하고 있으며, 이를 가치 있게 활용하기 위해서는 막대한 데이터를 효율적으로 수집, 저장(레이크하우스), 처리하는 체계적인 데이터 엔지니어링(ETL/ELT 파이프라인)이 필수적임.

📝 강의 요약 노트: 6-2. AI 인프라를 위한 초고속 스토리지 시스템

1. 강의 주제 및 핵심 키워드

  • 주제: 초거대 AI 데이터 처리를 위한 스토리지 하드웨어의 진화와 분산/병렬 아키텍처
  • 핵심 키워드: Block/File/Object Storage, NVMe(Non-Volatile Memory Express), EDSFF 폼팩터, HCI(Hyper-Converged Infrastructure), RoCE(RDMA over Converged Ethernet), 병렬 파일 시스템(Parallel File System)

2. 주요 내용 요약

  • 메모리와 스토리지의 본질적 차이: 메모리는 전원이 꺼지면 지워지는 ‘작업대(Workspace)’이며, 스토리지는 원본 데이터를 안전하게 보관하고 필요할 때 복사해서 꺼내 쓰는 ‘창고(Warehouse)’ 역할을 함.
  • 스토리지 접근 방식 3가지:
    • File: 경로 기반의 전통적 트리 구조 (지정된 주차 구역을 찾아가는 방식).
    • Block: 데이터를 일정한 청크(Chunk) 단위로 쪼개어 고속 I/O를 지원 (빠른 속도가 필요한 워크로드에 적합).
    • Object: 메타데이터와 고유 라벨 기반 (발렛 파킹 영수증). 속도는 상대적으로 느리나 무한한 확장이 가능.
  • 저장 매체의 진화와 초고밀도 하드웨어 구성: 테이프(콜드 데이터 아카이빙용)와 HDD(30TB~60TB 고용량 저비용)가 여전히 쓰이지만, AI 연산 등 고속 데이터 피딩이 필요한 곳은 플래시 기반 SSD가 주도하고 있음. 특히 PCIe 버스에 직접 연결되는 NVMe 인터페이스와 E1.S, E3.S, Ruler(E3.L) 같은 데이터센터용 최신 폼팩터(EDSFF)를 도입하여, 2U 서버 한 대에 1PB(1,000TB) 이상을 집적하고 발열을 제어하는 초고밀도 스토리지 환경이 구축되고 있음.
  • 네트워크 기반 스토리지와 HCI: 스토리지를 단일 서버에 종속시키지 않고 NAS, SAN 형태로 네트워크(Ethernet, InfiniBand 등)를 통해 묶어 사용함. 최근에는 컴퓨팅, 스토리지, 네트워킹을 하나의 표준화된 박스에 담아 소프트웨어로 유연하게 제어 및 확장(Scale-out)하는 HCI(초융합 인프라) 형태로 발전하고 있음.
  • 초거대 AI를 위한 스토리지 지원 구조: GPU(특히 HBM이 탑재된 고성능 장비)가 연산 유휴 시간 없이 작동하려면 막대한 양의 데이터를 끊임없이 밀어 넣어주어야 함. 이를 위해 All-Flash 스토리지, GPFS나 Lustre 같은 병렬 파일 시스템(Parallel File System), 그리고 CPU 개입 없이 메모리에 직접 접근하는 고속 네트워크(RDMA)가 결합하여 클러스터 단위의 성능을 극대화함.

3. 핵심 개념 및 용어 정리

  • NVMe (Non-Volatile Memory Express): 기존 SCSI 인터페이스의 한계를 벗어나, 플래시 메모리를 PCIe 대역폭에 직접 연결해 압도적인 I/O 속도와 병렬 처리를 지원하는 프로토콜.
  • EDSFF (Enterprise and Datacenter Standard Form Factor): 기존 U.2 등을 대체하기 위해 설계된 서버용 고성능 SSD 폼팩터. 용량 집적도를 높이고 공기 흐름(Airflow)을 최적화하여 냉각 효율을 극대화함.
  • RoCE (RDMA over Converged Ethernet): 고가의 전용망(InfiniBand) 대신, 널리 쓰이는 이더넷 환경 위에서 RDMA(원격 직접 메모리 접근) 기술을 구현하여 데이터 전송의 지연 시간(Latency)을 최소화하는 기술.

4. 한 줄 결론

  • 현대의 스토리지 시스템은 단순한 보관함을 넘어, NVMe 기반의 초고밀도 플래시 하드웨어와 병렬 네트워크 아키텍처를 결합하여 AI 모델의 막대한 파라미터와 데이터를 GPU로 즉각 수송하는 강력한 데이터 엔진 역할을 수행하고 있음.

This post is licensed under CC BY 4.0 by the author.