Data Centric AI 학습 회고

2024. 12. 15. 00:42Upstage AI Lab

Data Centric AI 등장 배경

기존 AI는 모델 개발에 초점이 맞춰졌지만 모델의 성능 향상이 점차 둔화되고 데이터 품질 문제가 AI 성능에 큰 영향을 미쳤다.

편형된 데이터와 레이블 오류가 모델의 성능을 저하시켰다. 하지만 고품질 데이터는 소량이라도 큰 성능 향상을 가져왔다.

 

엔드류 응 교수가 이런 주장을 했다.

데이터를 개선하는 것이 더 효과적일 때가 많다.
데이터 정제와 품질 관리가 AI 발전의 핵심이다.

이렇게 Data Centric model을 통해 성능을 높이는 방향의 새로운 분야가 등장하게 되었다.

 

음...🤔 듣고 보면 당연한 이야기다. 내 차가 아무리 좋은 스포츠카라고 해도 차에 들어가는 기름이 고급유가 아니면...

차 본래의 성능을 잘 못내니...

 

학습 내용

이 챕터에서는 데이터 구축 프로세스에 대해 배웠다.

데이터 수집, 데이터 전처리, 데이터 라벨링, 데이터 클랜징, 데이터 스플릿, 데이터 릴리즈.

총 6개의 단계로 구성된 데이터 구축 파이프라인을 중심으로 간단한 실습과 어떻게 데이터를 구축하는지에 대해 배우는 시간이었다.

 

자세한 내용들은 다 적지 않고 기억에 남는 내용 중심으로 적어보겠다.

크라우드 소싱

데이터를 수집하는 단계에서 필수적으로 필요한 것이 데이터를 모으고 정답을 라벨링하는게 필요하다.

그러면 여기에서 산업이 생기게 되는데 올바른 라벨을 붙여줘야 하는 라벨러, 또 여러 라벨러들이 붙인 라벨들이 일관적인지 봐야하는 사람 등등 할 일이 많이 늘어난다.

 

이런 일들을 몰아서 한 번에 해주는 업체가 크라우드 소싱 업체다.

 

여러 업체들이 있었다.

DeepNatural, SELECTSTAR, Crowdworks, TEXTNET, Amazon Mechanical Turk(MTurk)등 여러 국내 업체와 해외 업체들이 소개되어있었다.

 

강의 들으면서 심심하면 시간 있을때 라벨링해도 좋겠다는 생각을 했다. 많이 벌진 못하겠지만 소소한 일거리로는 나쁘지 않다는 생각을 했다.

 

만약 이런 라벨링을 AI가 하도록 하고 나는 자동으로 돈을 번다면...?

-> 생각 잘해야 한다. API비용이 라벨링 비용보다 더 나오면 돈을 그냥 땅에 쏱아붙는거다.

 

근데 이런 일이 실제 현업에서도 일어나고 있다는 것을 이번 강의를 통해서도 알았다. (야... 사람이 할 일이 점점...)

심지어... 이젠 AI가 실 환경에서 일어날 법한 데이터를 합성해서 그걸로 다시 학습을 한다.

 

이걸 합성 데이터라고 하는데 AI가 점점 스스로 발전하는 것도 가능하겠다는 생각을 했다.

근데 문득 궁금해진게, AI의 생성 능력과 질에는 제한이 있는데

아무리 학습을 많이해도 어느순간 그 한계에 갇혀버리지 않을까?라는 생각이 들었다.

(마치 사람도 자기 생각과 자기 범위에만 갇혀서 살면 더이상 성장이 없는 것처럼...)

전반적 내용

Data Centric AI 강좌의 전반적인 내용은 대회할 때가 많이 생각난다.

데이터 수집 -> 데이터 전처리 -> 데이터 라벨링 -> 데이터 클랜징 -> 데이터 스플릿 -> 데이터 릴리즈

 

대회를 진행하면 데이터 수집을 하지는 않는다. 엄밀히 말하면 데이터 전처리, 라벨링도 거의 안한다.

EDA를 진행하다가 이상이 있는 일부 데이터만을 대상으로 라벨링까지하지, 그게 아니라면 보통은 EDA를 통해 데이터 클랜징부터 한다.

 

그리고 학습을 하기위해 데이터 스플릿을 하고 그걸로 모델을 학습힌다.

(kaggle, HuggingFace에 만든 데이터를 릴리즈 하지 않기에... 릴리즈도 거의 안 한다.)

 

클랜징, 스플릿 내용은 대회를 진행하면서 내가 조금더 체계적으로 해야겠다고 생각한 부분들을 하나씩 풀어서 이야기해주어서 좋았다.

특해 내가 대회를 진행하면서 거의 필수인 EDA를 하기 싫어하는데 좀 고쳐야겠다는 생각을 한다.

 

이번 강좌는 데이터를 다루는 것이 왜 중요한지 업무에서는 체계적으로 어떻게 다루는지 알 수 있어서 좋았다.

특강

과정 중간에 특강을 통해 Data Manager직무에 대한 이야기를 들을 수 있는 시간이 있었다.

저번 캐글 행사도 그렇고 이번 특강을 통해서 Enginnering의 영역과 Managing의 영역은 또 다른 영역이라는 것을 간접적으로 느꼈다.

 

확실한 건 Enginnering을 하려면 이것저것 해보기를 좋아해야 하고, 약간의 변태같은 취향이 있어야 한다.

정말 사소한 것조차 집중하고 그게 해결 되었을때 기뻐할 수 있는 것.

사소하다는 건 남들이 중요하게 여기지 않아도 내가 정말 그 분야에 대해 파고 들 수 있어야 한다는 의미다.

 

그런 의미에서 나에게 Enginnering이 맞나?라는 생각을 해본다.

가끔 그런거 하다보면은 현타가 와서... '이런거 하고 있는게 맞나...?'

 

사실 나는 시간만 많으면 물리를 좀 제대로 배워보고 싶다.

정확히는 모르지만 양자 중력, 양자 역학에 대한 내용을 처음 접했을때 그 감동을 잊지 못한다.

특히 양자 중력.

 

잠깐 이야기가 다른 곳으로 흘렀는데, 이번 특강에서 강사님께서 중요하게 말씀해주셨던 것은 Data를 다루는 직군이라고 해도 Model에 대한 이해는 있어야 한다고 알려주셨다. 강사님도 AI Researcher 직무를 생각하셨었는데 거기가 너무 래드 오션이다보니 이쪽으로 틀었다고 말씀해주시기도 했다.

 

강의를 들어보니 실제로 모델에 적합한 Dataset으로 학습을 해야 모델이 좋은 성능을 내지,

그러지 않으면 점수가 팍 깎이는 연구 자료도 보았다.

과정 총평

애초에 강사님께서 이번 코스는 교양 강의 듣듯이 들었으면 좋겠다고 하셔서 부담없이 들었고, 생각보다 내용들이 괜찮았다.

작업자간 라벨의 일관성을 평가할 때 쓰이는 지표로, IAA내용도 기억에 남는다.

 

라벨링에 대한 이야기를 들으면서 궁금하기도 하고, 최근 질문을 받았던 내용이기도 한데 '라벨러 사이에서 라벨링이 규칙적이지 않으면 어떻게 해요?'라는 질문이다.

 

이번 강의를 통해서 IAA을 통해 그것이 가능하다는 것을 알았다.

 

대회를 진행하면서 Data를 다룰때 조금 더 체계적이여야 겠다라는 생각을 했는데 이번 강의가 어떻게 접근해야 할지 알려준 조그마한 시작이었던 것 같다. 이제 앞으로 배웠으니 실전에서 쓰면서 실무에 맞고 나에게 편한 EDA방법을 키워나가야겠다는 생각이 든다.

 

Data Manager직무 그렇게 나빠보이진 않았는데 아직 막 그렇게 땅기진 않았다.

그래도 나중에 돌아보고 고려해볼만한 직무라는 생각이 들었다.

 

끝!

'Upstage AI Lab' 카테고리의 다른 글

IR 경진대회 회고  (0) 2024.12.21
LM to LLM 학습 일지 + Kaggle 연말 행사 회고  (4) 2024.12.09
NLP 경진대회 회고  (3) 2024.12.02
CV 경진대회 회고  (1) 2024.11.10
Pytorch, DL 공부  (3) 2024.11.09