Post

졸업 연구 소개 - 스마트 홈/오피스 HAR을 위한 태스크 그룹핑 기반 다중과제 시멘틱 학습 프레임워크

활동 인식(HAR)을 중심으로, 태스크 그룹핑과 공유 시멘틱 인코더를 활용해 학습·추론·통신 비용을 절감하는 프레임워크 연구를 소개합니다.

졸업 연구 소개 - 스마트 홈/오피스 HAR을 위한 태스크 그룹핑 기반 다중과제 시멘틱 학습 프레임워크

 이 포스팅은 25년도 광주과학기술원(GIST) 석사과정을 진행하는 제 연구 주제와 관련된 소개글입니다.


연구 배경: HAR은 “하나의 태스크”가 아니다

스마트 홈이나 오피스 환경에서 사람의 활동을 인식하는 기술, 활동 인식(Human Activity Recognition, HAR)은 흔히 “지금 어떤 활동을 하고 있는가?”를 분류하는 단순한 문제처럼 보인다. 그러나 실제 서비스 관점에서는 이야기가 달라진다.

현실적인 HAR 서비스가 동시에 요구하는 것들을 나열해보면:

  • 활동 분류: 현재 어떤 활동 중인가?
  • 활동 구간 검출: 활동이 언제 시작되고 끝나는가?
  • 재실/점유(Occupancy) 탐지: 공간에 사람이 있는가?
  • 위치 추정: 어느 방, 어느 구역에 있는가?
  • 이상 탐지: 평소와 다른 비정상 패턴이 발생했는가?

이처럼 HAR은 본질적으로 복수 태스크의 묶음이다. 문제는 지금까지 이런 태스크들을 “각자 독립적인 모델, 독립적인 통신 파이프라인”으로 처리해왔다는 점이다. 센서 데이터가 서비스마다 따로 수집되고, 모델도 따로 학습되며, 결과도 따로 전송된다. 유지비가 급증하고 인프라가 낭비될 수밖에 없다.

이 비효율을 해소하는 것이 내 연구의 출발점이다.


연구 목표: 공통 시멘틱 정보로 여러 태스크를 한번에

내가 제안하는 프레임워크의 핵심 아이디어는 간단하다.

비슷한 “의미 정보(Semantic)”를 필요로 하는 태스크끼리 묶어(태스크 그룹핑), 그룹 내에서는 하나의 공유 시멘틱 인코더로 표현을 추출하고, 태스크별 헤드(Head)만 분기한다.

이 구조는 시멘틱 통신(Semantic Communication) 관점에서도 자연스러운 해답이다. 어차피 전송해야 할 정보는 “서비스를 수행하는 데 필요한 의미”이므로, 태스크 간에 요구 시멘틱이 겹친다면 하나의 압축된 표현으로 여러 서비스를 동시에 지원할 수 있다.

전체 흐름을 정리하면:

1
2
3
4
5
6
7
[멀티모달 센서 데이터]
       ↓
[태스크 유사도 추정 → 태스크 그룹핑]
       ↓
[그룹별 공유 시멘틱 인코더 학습]
       ↓
[태스크별 헤드 분기 → 다중 HAR 서비스 동시 수행]

목표는 성능 저하 없이(또는 개선하면서) 학습, 추론, 통신 비용을 줄이는 것이다.


왜 스마트 홈/오피스인가

프라이버시 문제로 카메라 기반 접근법을 항상 쓸 수 없는 환경에서, 결국 핵심은 환경 센서(Ambient Sensor) 기반 인식이다. 모션 센서, 스마트 플러그, 키보드·마우스 입력 등 비침습적 센서들로 사람의 활동을 파악해야 하는 상황이 늘어나고 있다.

특히 스마트 오피스는 공개 데이터가 매우 희소하다. 연구실 환경에서 직접 수집하고 라벨링하는 작업 자체가 연구 기여(데이터셋, 벤치마크)로 이어질 수 있다는 점도 이 도메인을 선택한 이유 중 하나다.


주요 도전 과제

이 연구를 진행하면서 맞닥뜨리는 세 가지 핵심적인 문제가 있다.

Challenge 1. 어떤 태스크를 묶을 것인가 — Multi-Task 선정 및 그룹핑

HAR 생태계에는 수많은 하위 태스크가 존재한다. 문제는 이 태스크들을 어떤 기준으로 묶어야 “공유 인코더”가 실질적인 이득을 줄 수 있냐는 것이다.

단순히 아무 태스크나 하나의 모델로 합치면(All-in-one hard sharing) 오히려 서로 다른 태스크가 간섭해 부정적 전이(Negative Transfer)가 발생한다. 반대로 태스크마다 독립 모델을 두면 공유의 이점이 사라진다.

따라서 “요구 시멘틱이 유사한 태스크”를 정량적으로 찾아내는 방법이 필요하다. 현재 연구에서는 (1) 태스크 메타데이터 기반 의미적 사전(prior)(2) 그래디언트 기반 친화도(affinity) 측정을 결합하는 2단 구조를 채택하고 있다. 태스크들 간의 유사도 행렬을 추정한 후, 스펙트럴 클러스터링이나 계층적 클러스터링으로 그룹을 확정한다.

그룹 수 $K$를 몇으로 설정하느냐, 그룹이 데이터 분할이나 모델 크기 변화에도 안정적으로 재현되느냐 등의 세부 문제도 남아 있다.


Challenge 2. 불규칙하게 발생하는 센서 이벤트를 어떻게 처리할 것인가 — Irregular Time Series 모델링

스마트 홈/오피스의 센서 데이터는 균일한 형태가 아니다.

  • 모션 센서: 사람이 움직일 때만 이벤트가 발생한다. $(시각\ t_i,\ 위치,\ \text{ON/OFF})$ 형태의 비등간격 이벤트 스트림이다. 이벤트 사이 간격이 수 초에서 수 시간까지 불규칙하게 달라진다.
  • 스마트 플러그, 키보드/마우스: 1시간 단위로 집계된 정규 격자 시계열이다.

이 두 가지를 하나의 인코더로 처리하려면, 기존의 “시퀀스 번호 기반 Positional Encoding”만으로는 부족하다. 이벤트 사이의 시간 간격($\Delta t$) 자체가 중요한 의미를 담고 있기 때문이다. 예를 들어, 5분 만에 다시 주방 모션이 감지되는 것과 3시간 후에 감지되는 것은 전혀 다른 맥락이다.

이를 위해 연구에서는 Time-Aware Transformer 인코더를 핵심 모델로 채택한다. $\Delta t$ 임베딩, 상대 시간 바이어스(Relative Time Bias), 시간 감쇠(Temporal Decay) 등의 구성요소를 실험적으로 조합하며, 비등간격 이벤트에서도 HAR 성능을 안정적으로 끌어올리는 인코더 설계를 목표로 한다. 비교군으로는 연속 시간 미분방정식을 이용하는 Neural CDE도 함께 검토한다.


Challenge 3. “시멘틱”을 어떻게 정의하고 추출할 것인가 — Semantic의 정의와 추출 방법

이 연구에서 “시멘틱(Semantic)”이란 단어는 두 가지 맥락에서 사용된다.

첫 번째는 태스크 그룹핑에서의 시멘틱이다. 각 태스크가 요구하는 “의미 정보”가 얼마나 겹치는지를 정량화해야 한다. 예를 들어 “활동 분류”와 “위치 추정”은 동선 정보를 공유하므로 시멘틱이 유사할 수 있지만, “활동 분류”와 “이상 탐지”는 요구하는 표현이 다를 수 있다.

이 유사도를 추정하기 위해, 센서 이벤트 임베딩과 자연어 텍스트 임베딩 간의 정렬(Alignment)을 활용하는 방법을 탐색한다. MuRAL 데이터셋처럼 센서 이벤트에 자연어 설명이 붙은 데이터를 활용해, InfoNCE 손실 기반 대조 학습으로 센서 인코더를 텍스트 임베딩 공간에 정렬하는 실험을 진행 중이다. 이렇게 추출된 임베딩을 태스크 친화도 신호로 활용할 수 있는지 검증하는 것이 목표다.

두 번째는 시멘틱 통신 관점에서의 시멘틱이다. 공유 인코더가 추출하는 표현 자체가 “태스크 수행에 필요한 최소한의 의미”를 담아야 한다. 표현 크기(차원), 전송 토큰 수, 추론 비용 등이 함께 최적화되어야 진정한 의미의 시멘틱 통신 프레임워크가 완성된다.


앞으로의 방향

현재 MuRAL, CASAS, ARAS 등의 공개 스마트홈 데이터셋을 기반으로 기초 실험을 진행하면서, 병렬로 스마트 오피스 환경의 직접 데이터 수집을 준비하고 있다. 단계적으로:

  1. 단일 태스크 → 다중 태스크 학습 기반 구축
  2. 태스크 유사도 추정 및 그룹핑 알고리즘 검증
  3. 그룹별 공유 인코더와 All-in-one, 개별 단일 모델의 3-way 비교
  4. 실제 오피스 환경 수집 데이터로 최종 검증

본 포스팅은 이 연구 시리즈의 첫 번째 글로, 이후 각 단계의 실험 결과와 인사이트를 추가로 정리해 나갈 예정이다.


This post is licensed under CC BY 4.0 by the author.