국비지원(13)
-
IR 경진대회 회고
프로젝트 진행 기간 (12월 16일 - 12월 19일)프로젝트 주제주제 : 과학 질문과 이전 대화 히스토리를 보고 참고할 문서를 검색엔진에서 추출 후 이를 활용하여 질문에 적합한 대답을 생성하는 태스크(RAG)목표 : MAP, MRR 점수 최적화대화 메시지가 과학 상식에 대한 질문일 수도 있고 아닐수도 있기 때문에 과학 상식 질문이 아닌 경우는 문서를 추출할 필요가 없음.검색이 필요없는 ground truth 항목에 대해서는 검색 결과가 없는 경우를 1점으로 주고 그렇지 않는 경우는 0점으로 계산하게 로직이 추가 됨. 학습과 평가시 사용한 데이터documents.jsonl : 과학 상식 정보를 담고 있는 순수 색인 대상 문서 4200여개(Open Ko LLM Leaderboard에 들어가는 Ko-H4 데..
2024.12.21 -
LM to LLM 학습 일지 + Kaggle 연말 행사 회고
LM to LLM단어 임베딩 하는 것부터 시작해서 많은 것을 배우고 있다.카운트 기반, 의미 기반, 문맥 기반, PT(Pre-Training) 기반 언어모델, LLM동향과 Data-Centric, Model-Centric, Evaluation-Centric, Prompt engineering, Multimodal, Cross Lingual, Multilingual LLM등 다양한 것을 배운다. 논문들이 엄청 많이 나오는데 정말 간단하게 내용 정리되어 있어서 전반적인 내용을 간단하게 보기는 좋았지만 여러 논문들이 주장하는 내용들을 한 눈에 정리해서 보기에는 어려웠던 것 같다. 그래도 이번에 만들어진 팀의 경우에 각자 공부한 내용들 공유하는 시간이 있어서 그냥 빠르게 강의 듣고 넘어가는 일은 없는 것 같아서..
2024.12.09 -
NLP 경진대회 회고
프로젝트 진행 기간 (11월 11일 - 11월 29일)프로젝트 주제주제 : 주어진 일상 대화를 바탕으로 요약문 생성하기목표 : Rouge-1, Rouge-2, Rouge-l 점수 최적화최소2턴, 최대 60턴으로 대화가 구성되어 있습니다. 대화(*dialogue)를 보고 이에 대한 요약(*summary) 를 예측하는 것이 최종 목표 학습시 사용한 데이터train : 12457dev : 499test : 250hidden-test : 249fname : 대화 고유번호 입니다. 중복되는 번호가 없습니다.dialogue : 최소 2명에서 최대 7명이 등장하여 나누는 대화 내용입니다. 각각의 발화자를 구분하기 위해#Person”N”#: 을 사용하며, 발화자의 대화가 끝나면 \n 으로 구분합니다. 이 구분자를 기준..
2024.12.02 -
CV 경진대회 회고
프로젝트 진행 기간 (10월 29일 - 11월 08일)프로젝트 주제주제 : 17개의 class 문서 타입 분류목표 : 최근 기업에서 디지털, 전산화가 많이 이루어지다보니 그 초기 작업으로 이 문서가 어떤 문서인지 판별하는게 매우 중요하다. 현업에서도 문서분류 Task가 원활하도록 CV Model을 만들어보자. 학습시 사용한 데이터Upstage 내부 데이터셋 (비공개 원칙)팀 개발 문화나뿐만 아니라 다른 팀원 분도 이전 프로젝트를 진행하며 밀린 강의가 좀 있어서 각자 공부하고 최종 마지막 한 주에 모여서 개발하는 문화로 갔다. 그리고 이번엔 처음으로 팀장을 해보았다. 그렇게 어렵지는 않았다. 근데 조금 아쉬운 것은 팀장인데 좀 더 열심히 하면 어땠을까 생각해본다. 그래도 주어진 환경에서 최선을 다했고, 결..
2024.11.10 -
Pytorch, DL 공부
후후 원래 이 블로그는 3주 전에 작성되어야 하는게 맞지만 경진대회+현생이 바빴던 이유로 지금 작성합니다...다음 블로그는 CV 경진대회 블로그로 찾아오겠습니다:) Pytorch란?딥러닝을 위한 framework다.framework가 뭐냐? 공구 상자라고 생각하면 된다. 어떤 걸 고치기 위해서 드라이버, 벤치가 한 번에 다 있으면 좋듯이 Pytorch는 딥러닝을 하기 위해 필요한 도구가 한 번에 모여 있다고 생각하면 된다. 예전에 Tenserflow로 입문하려고 했는데 트렌드를 보니까 Pytorch가 더 많이 사용되고 있다고 해서 빠르게 바꾼 기억이... 학습 하며이번 강의는 Pytorch를 전문적으로 알려준다기보다 기본적인 내용을 포괄적으로 다루었다.그리고 좋았던 건 딥러닝에서 자주 쓰이는 말들에 대한..
2024.11.09 -
MLOps Project 회고
프로젝트 진행 기간 (9월 26일 - 10월 11일)실질적 프로젝트 기간은 위에 적어 놓은 기간과 같다.프로젝트를 진행함에 있어서 필요한 지식들은 사전에 이미 다 교육을 했다.프로젝트 주제주제 : 배운 MLOps를 적용하기 위한 프로젝트목표 : 시각 장애인들에게 손쉽게 OTP인식이 가능하도록 MLOps 진행. 시각 장애인이 손글씨로 비밀번호를 입력하면 이를 인식하여 음성으로 인식된 숫자를 읽어주는 기능, 인식된 숫자는 모델 재학습에 이용. 학습시 사용한 데이터MNIST datasetEMNIST dataset주제 선정 접근 방식이번 프로젝트에서 함께하는 팀원들의 참여도가 좋지 않았다.나를 포함한 5명 중 2명은 취업, 대학원 면접이 수시로 있어서 집중해서 회의하기도 어려웠고,다들 ML경진 대회 이후라서 그..
2024.10.12