LM to LLM 학습 일지 + Kaggle 연말 행사 회고

2024. 12. 9. 14:40Upstage AI Lab

LM to LLM

단어 임베딩 하는 것부터 시작해서 많은 것을 배우고 있다.

카운트 기반, 의미 기반, 문맥 기반, PT(Pre-Training) 기반 언어모델, LLM동향과 Data-Centric, Model-Centric, Evaluation-Centric, Prompt engineering, Multimodal, Cross Lingual, Multilingual LLM등 다양한 것을 배운다.

 

논문들이 엄청 많이 나오는데 정말 간단하게 내용 정리되어 있어서 전반적인 내용을 간단하게 보기는 좋았지만 여러 논문들이 주장하는 내용들을 한 눈에 정리해서 보기에는 어려웠던 것 같다.

 

그래도 이번에 만들어진 팀의 경우에 각자 공부한 내용들 공유하는 시간이 있어서 그냥 빠르게 강의 듣고 넘어가는 일은 없는 것 같아서 좋은 것 같다. IR강좌도 빠르게 잘 들을 수 있도록 해야 할 것 같다...

 

공부한 내용을 여기에 다 작성하기에는 너무 많아서... 따로 작성하지는 않을 예정이다.

슬라이드 수만 981페이지...

 

Kaggle 연말 행사 회고

24년 모각케

실력자분들의 이야기를 듣고 네트워킹 하는 시간을 가졌다.

 

도움이 많이 되었다. 이제 부트캠프 끝나갈 시간이 점점 다가오고 있는데 고민이 있다.

어떻게 하면 여기에서 더 실력을 키울 수 있을까.

부트캠프를 하다보면 머리에 집어넣는 지식의 양이 많다보니 소화하기가 어렵다.

 

그래서 25년에는 부트캠프에서 배운 내용을 소화하는 시간을 보내려고 한다.

그리고 그렇게 공부하는 중에도 여전히 실제 세계에 대한 감각은 중요하기 때문에 어떻게하면 그런 감각을 유지할 수 있을까?라는 고민을 가지고 갔다.

 

내년에는 쌓아둔 자료로 공부하고 캐글이나 데이콘을 통해 실력을 유지하면 되겠다는 생각을 했다.

(가능하면 캐글 중심으로... 영어 공부도 하고 처음부터 큰 무대에서 놀아보면 좋지 않을까...라는 생각)

 

그래서 캐글 행사에 참여했다.

 

추가로, 내년부터는 학과 동아리를 운영해야 하는데 지금 생각해둔 커리큘럼이 맞나라는 고민을 가지고 가능하면 상담도 받고 싶어서 행사에 참여했다. 이제 각각에 대해 작성해보겠다.

1. BootCamp x Competition: 출제자의 의도 — Dable, 강천성

지금 캐글 코리아 운영하고 계시는 분께서 발표를 해주셨다.

본인이 지금까지 걸어온 커리어에 대한 간단한 설명을 해주시면서 실패에서 성장한다는 말씀을 해주셨다.

(주변에서 현업자가 없다보니 이런 이야기를 듣기가 어려운데 들을 수 있는 좋은 시간이었다)

 

DL, LLM 보다는 주로 ML쪽 집중하셔서 일을 하고 계시는 것 같았다.

강사 생활도 하셨었는데 도움을 주고 싶어서 시작하셨다고 했다.

 

어느 순간 강사 생활이 돈벌이로만 인식이 된다면 강의를 그만하겠다는 생각을 하셨다고 했는데 얼마전에 그렇게 하셨다고 한다.

(원래 직업이 전업 강사가 아니시니... 그렇게 하셨다고 한다. 좋은 태도인듯...)

 

이쪽 분야에서 열심히 노력하시고 이것 저것 해보시는게 보였다.

캐글 행사에 참여하며 내가 가지고 있는 고민을 가지고 이야기를 할 수 있을 것 같아서 네트워킹 행사에서 대화를 나누어보았는데 이건 이후 순서에서 더 적도록 하겠다...

 

이 세션에서 얻은 인사이트!

1. 새로운 기술을 배우고 적용하는 것은 연구가 아니다.

-> 진로에 대해 다시 한 번더 고민하게 만드는 말이었음.

2. Data-Centric AI시대가 등장하며 Engineering이 중요해졌다.

-> Engineering에 대한 개념을 정확하게 이해하는게 중요할 듯.

3. 강의는 남을 가르치기도 하지만 내가 배우면서 성장할 수 있는 기회이다.

-> 추후 네트워킹 내용과 연결

4. 전반적인 실력을 키울 수 있는 가장 빠른 방법이자, 정석적인 방법은 삽질 많이 해보면 된다.

(Input이 많아야 Output이 뭐라도 나오지 않겠어요? feat. 현우진T)

 

2. 캐글 경험을 책으로 써보자: 비하인드 스토리 — 두들린, 김태진

'캐글 메달리스트가 알려주는 캐글 노하우'의 대표 저자이자, 캐글 코리아 운영진 중 한 분이셨다.

신입 3개월차인가(?) 책 써보자고 제안을 받으셨다가 여러 인생의 풍파로 얼떨결에 책임자가 되시고 그렇게 어렵게 어렵게 책을 작성하신 이야기를 해주셨다.

 

들으면서 한 생각은 역시 어려운 조별과제... '어떻게 해야 같이하는 팀원들을 하나로 만들어서 원하는 결과를 만들어낼 수 있을까...'라는 고민을 하게 되는 시간이었다.

 

이 세션에서 얻은 인사이트!

 

자신이 공감할 수 있는 문제를 **스스로** 설정할 수 있고,
이를 설명하고 **코드로 표현**하는 데 자유로우며,
새로운 데이터셋과 도메인을 마주하더라도 지금까지 **배운 것을 활용**해
**스스로** 결과물을 만들어낼 수 있도록 자신의 능력을 가꾸는 일입니다.

 

위와 같은 생각을 가지고 공부를 해야 겠다는 생각을 했다.

3. 자연어처리 대회를 Even하게 준비하는 방법 — Naver AI Tech, 서동해

내용을 이해하는게 그렇게 어렵지 않았다.

부캠에서 공부한 내용들로 충분히 이해할 수 있었고 시도한 방법론들을 들으면서 나도 충분히 하겠는데...?라는 생각이 들었다.

 

그리고 발표해주신 분도 대학교 졸업 유예하시고 취업하신 분이셨다.

그러면 나랑 나이도 비슷하실 것 같다는 생각이 들었고, 열심히 사시는 모습을 보고 동기 부여가 되었다.

 

발표 끝나고 몇가지 궁금한 것 질문했는데 대화를 할 수 있어서 좋았다.

대화가 어느 정도 할 수 있을 정도로 지식이 올라오고 있다는 생각이 들어서 좋았다.

물론, 아직도 부족하다. 열심히 해보자.

4. Kaggle Competition 상위권 진입을 위한 안내서 — Kaggle Competition Master, 김승윤

실제적으로 가장 도움이 많이 되었던 강의다.

대회를 진행하면서 나의 부족한 부분들을 고쳐야 결국 실력을 키울 수 있다는 것을 확실히 알 수 있는 강의였다.

캐글 마스터 분을 만나서 이야기하는게 인생에 있어서 쉬운 기회가 아닌데 이야기 할 수 있어서 좋았다.

이 세션에서 얻은 인사이트!

1. 캐글 대회에 참여할 때는 진심 모드로 하자. 그리고 끝나고 좋은 솔루션에 대한 내용을 찾아보는 것과 대회 회고는 필수다!

2. 대회 선택은 잘하는 거 아니면 관심 있는 대회를 선택하자.

3. 체계적인 실험 관리가 중요하다.

4. EDA 열심히 하자. 때로는 중요하지 않을 수 있지만 기본기가 중요하다.

5. CV 세팅이 중요하다. LB를 너무 신뢰하지 말자.

6. 말로 설명할 수 없는 노하우라는게 있다. 이건 대회에 참여하고 많이 깨져봐야 알 수 있다.

5. 나야.. Dacon: 대회 초기 접근 방법과 아주 조그마한 팁 — Dacon Competition Champion, 장준보

캐글 행사에서 Dacon 정보도 알 수 있는게 정말 좋았다.

이건 뭐... 일석이조...

 

데이콘에서는 결과가 좋으면 결과를 가지고 기업에게 발표하는 경우도 있다는 것을 알았다. 이분은 발표에서 좋은 점수를 많이 받았다고 하셨는데 그런만큼 스토리 탤링이 중요하다고 하셨다.

 

잠깐 여담이지만 실력자, 현업자 분들이 하는 내용이 다 비슷하다. 좋은 현상이다.

방향성에 대해서 한 곳으로 수렴하고 있다는 뜻이니까.

열심히 실제 세계에서 깨져보고, EDA열심히하고, 커뮤니티(논문, 허깅페이스, 캐글 등)를 통해 지식 쌓고, 그리고 어떤 공동체에 들어가서 일을 하려면 함께하고 싶도록 내가 한 일들에 대해서 스토리텔링을 잘해야 한다는 것...

 

다시 돌아오면, 이분은 Dacon에서 상금 얻고 상금을 재투자 하셔서 개인 서버를 구축하셨다고 한다.

원래는 노트북도 없었는데 코랩으로 대회하시고 상금 얻어서 좋은 결과를 얻으셨다고 했다...🫢

 

열심히 하시는 모습이 도전이 많이 된다.

이 세션에서 얻은 인사이트!

데이콘은 캐글보다 코드공유 문화가 잘 안되어 있고, 이로인해 캐글 처럼 열심히 했는데 등수가 쭉쭉 떨어지는 일은 상대적으로 적다!

스폰서 세션

Upstage세션을 약간 기대했는데 취소되어서 아쉬웠다.

그리고 MINA 관련한 세션도 있었는데 WEB 2.0, WEB 3.0등 생소한 개념이 나와서 더 공부를 해봐야겠다고 생각이 들었다.

네트워킹

두가지 고민을 안고 질문을 하러 갔다.

1. 내년에 진행할 만학도 동아리

먼저 기존 우리 만학도 동아리 커리큘럼에 대한 고민이 있다.

논문 리뷰 + 논문 내용 코드 구현 내용으로 커리큘럼을 진행하려고 했는데 이렇게 하기 전에 몇가지 중요한 질문들에 대답을 해야 한다.

  • 어떤 대상을 동아리원으로 받을 것인가?
  • 그리고 그 사람들의 특징은 어떠한가?
  • 동아리 원들이 충분히 따라올 수 있는 내용으로 커리큘럼이 구성되어 있는가?

내가 개인적으로 내린 결론은, 대부분 우리 학과 학생들을 대상으로 동아리원을 받을 예정인데 이들 대부분은 

2. AI Resercher 관련된 직무

NLP쪽에 그나마 관심이 있어서 그쪽으로 AI Resercher하고 싶다고 이야기하니까 아주 빨간 레드 오션이라고 하셨다.

그리고 흥미에 대해서 다시 이야기해주셨다.

 

진짜로 너가 거기에 관심이 있고 재미있어하느냐고 질문하셨는데... 정곡을 찔렀다. 유튜브 알고리즘, 인스타 등 알고리즘을 지배할 정도로 흥미가 있느냐 질문하셨을 때 아직 그 정도까지는 아니라서...

 

근데 그래도 이쪽 관련된 지식을 가지고 꼭 하고 싶은 것은 있기에... 그래도 관심을 가져서 해보려고 한다.

사실 궁극적인 목적은 취업이 아닌 창업이기 때문에...

 

그리고 나는 기술 자체를 파면서 연구하는 것도 하면 하겠지만 더 관심있는 것은 기술을 현실 세계에 적용하고 현실의 문제를 해결하는 것에 더 관심이 있다. 그러니까 기술보다는 기술을 통해 현실의 문제를 해결하고 싶은거지! 그리고 해결을 할 때 전문적인 지식이 있고 직접적으로 시도하면서 해결하고 싶으니 기술을 배우는거다.

 

앞으로 AI 분야가 아니더라도 문제를 해결하고 싶은 분야가 있으면 그쪽 분야에 대해서 배우고 해결하는 자세를 취하면서 인생을 살고 싶다.

그러니 낭만이 중요하지 않을까...

(코드 깎는 노인이 되기는 싫어요...)

잡담

좋은 기회의 시간이었다고 생각한다.

주변에서 쉽게 들을 수 없는 이야기를 들을 수 있었고, 현실에 대해 조금더 잘 알게 되는 시간들이었다.

 

사람 만나는 것을 별로 좋아하지는 않는데 이런 면에서 다양한 사람을 만나는게 중요하다는 생각이 들었다.

단, 의지적으로 누군가를 만날때는 정말 나에게 필요한 만남인가? 고민하면서 만나는게 중요하다는 생각이 들었다.

 

지방에서는 이런 기회가 없다는 것에 아쉬움을 느꼈지만 이번 모각캐로 여기저기 다녀오고 Refresh하는 시간이었다고 생각한다.

 

아! 그리고 영어는 그냥 중요하다... 뭐 좀하려고 하다보면 다 영어로 되어 있어서... 독해도 중요하고 나중에는 글쓰기... 그리고 말하기 중요하다..

앞에 놓인 과제

지금까지 배운 내용들 잘 다지기 중요하다. 특히 체계적인 실험 설계, 코딩 실력 키우기 매우 중요하다.

그리고 동아리... 커리큘럼에 대해 다시 이야기할 필요가 있고, 자칫하면 내년에 강사를 할 수도 있겠다는 생각이 든다...

 

끝!

'Upstage AI Lab' 카테고리의 다른 글

IR 경진대회 회고  (0) 2024.12.21
Data Centric AI 학습 회고  (5) 2024.12.15
NLP 경진대회 회고  (3) 2024.12.02
CV 경진대회 회고  (1) 2024.11.10
Pytorch, DL 공부  (3) 2024.11.09