AI 시대를 위한 나만의 데이터베이스, 블로그를 시작하며
LLM에게 나를 기억시키기 위한 첫걸음
첫 포스팅입니다.
왜 지금, 블로그를 시작하는가?
chatGPT가 세상에 공개되고, 졸업을 앞둔 여느 컴공생들처럼 GPT 사용을 삶의 일부로 받아들이고 있던 나는, 어느 순간 개인 블로그 개설의 필요성을 강하게 느끼기 시작했다.
개발자가 테크 블로그를 운영하는 것은 사실상 필수에 가까운 일이다. 개발자는 평생 공부하는 직업이고, 블로그를 타 플랫폼을 쓰지 않고 직접 개발과 운영까지 한다면 이보다 더 완벽한 공부가 없으니까.
하지만 당시 나는 전역 후 9개월간 체험한 부트캠프에서 웹 개발에 대한 환상은 모조리 다 박살난 상황이었다.
22년도 말 코로나 끝물이었던 당시 컴공생의 진로는 90퍼센트가 웹 개발 직군 취업이라고 할 정도로 불균형한 상태였고, 나머지 10퍼센트를 차지하는 임베디드, 네트워크 인프라, 빅데이터 분석 직무는 스페셜리스트들이 넘쳐나는 고인물 직군이었다. 나는 자연스럽게 웹개발에 발을 담궜지만, 공사판 노가다라고 불러도 좋을 부캠식 속성 SpringBoot 기반 개발 워크플로우 학습 방식은 나를 금방 질리게 만들었다.
그렇다면 웹 개발에 뜻도 없고, 무엇을 공부할지조차 정해지지 않은 내가 왜 갑자기, 그것도 platform-free하게 직접 블로그를 시작하게 된걸까?
GPT야 날 기억해줘
모든 것은 GPT를 사용하면서 느낀 귀찮음에 있었다. 이제는 모두가 알다시피, LLM(거대 언어 모델)의 성능은 어떤 ‘입력(Input)’을 제공하느냐에 따라 극적으로 달라진다.
LLM의 근간인 ‘다음 토큰 예측(Next-token-prediction)’ 원리는 주어진 컨텍스트의 중요성을 명확히 보여주었고, ‘AI에게 효과적으로 질문하는 능력’은 새로운 시대의 핵심 역량으로 떠올랐다.
나 또한 LLM에게 요청할 때 나에게 주어진 상황을 최대한 자세히 설명하는 버릇이 생겼다. 최대한 많은 context를 GPT에게 제공해주기 위해 나는, 작성한 코드, 에러 메세지, 출력 결과, 넣은 입력, 개발 환경, 디렉토리 구조 등등… 도움이 될까 싶은 것들은 다 때려박기 시작했다.
이렇게 GPT를 이용해 보고서와 발표 자료를 만들고, 코드를 작성하다보니 가장 먼저 이런 생각이 들었다.
‘이걸 언제까지 복붙하고 있어야 돼?’
RAG - LLM의 Knowledgebase Reference
아니나 다를까 이 문제는 나뿐만 아니라 전세계 모든 사람들이 겪는 문제였고, 엔지니어들은 이를 해결하기 위한 기술들을 내놓기 시작했다.
오히려, 이 문제를 해결하는데에 너무 집착하는 것 아닌가하는 의문이 들 정도로 과하게 집착하더라. 인간의 언어를 그럴싸하게 구사하는 것이 적잖이 큰 충격이었는지, 세상은 LLM hype에 빠지기 시작했다. 모델 구조를 제시할 생각은 안하고, 죄다 LLM 융합 연구에 몰입하더라.
RAG의 등장으로 LLM 서비스는 어떻게 정보를 RAG로 연결하느냐의 싸움이 되었다. RAG의 아이디어는 텍스트 덩어리를 가져오는 것에 불과했지만, ‘정보를 가져온다’는 아이디어의 강력함이 대두되어 graphRAG, toolRAG, 이제는 아예 MCP로 확대되어 LLM을 나날이 강력하게 만들고 있다.
내 블로그는 LLM의 Vector DB
결국 결론은 그거다. LLM 서비스를 위한 개인화된 텍스트 데이터베이스 구축.
사실 LLM 서비스 구축 프로젝트를 개인적으로 해보고 싶었는데, 테스트를 위한 벡터DB가 필요해서 만드는 것도 있다. 앞으로 이 블로그의 모든 포스팅은 github PAGES의 스크립트에 의해, 개인 Pinecone DB에 문서 chunk 형태로 저장된다.
이제 이 블로그는 단순히 지식을 기록하는 공간을 넘어, 내 개인 AI 비서를 위한 두뇌가 될 것이다. 앞으로 프로젝트를 위해 열심히 포스트를 작성하고자 한다.
