느린 일지/부스트캠프 AI Tech 4기

[학습 일지 / day 41] 기대면 안되!

neulvo 2022. 11. 18. 01:36

아 오늘 중간에 한 시간 정도

의자에 기댔다가 끔뻑 졸아버렸다.

한 시간 잠들지 않았으면

오늘 할일 다했을듯... 그런데 또

그 후에 친구들이랑 오랜만에 롤 한판하고

또 유투브 보면서 뒹굴거렸으니까 딱히 아쉬워할 일은 아닌가?

내일 마무리 지으면 되겠지 뭐.

 

오늘은 미션을 하나 하나 돌려보고

또 팀 회의 살짝 진행하고

오피스 아워에서 베이스라인 코드 해설 듣고

프로젝트 계획이나 일정 관리, 실험 관리 등에 필요한

안건을 만들거나 또 문서를 정리하거나 하며

시간을 보냈다. 강의는 다 들었다!

 

피어세션 때는 미션 4,5의 내용에 대해

발표하는 시간을 가졌었다.

한번 노래 부르고 나니까 달라졌나 나?

이제 발표가 그렇게 어렵지 않은 느낌이다.

 

다만, 설명하려는 내용이 복잡한 경우에는

아직까지도 듣고 있는 사람들이

이 내용을 다 이해한 건지 확신이 들지는 않는다.

근데 이게 또 어려운 분야고 내용이니까

다 이해시킨다는 건 욕심 아닐까?

익숙해져야 하는 부분인 것 같다.

 

내일은 오프라인 미팅의 날!

팀원들과 직접 만나서 프로젝트 위주로 얘기하고 또

작업을 진행할 것 같다.

그 외에는 오늘 마무리 못 지은 미션 6의 내용과

또 그 컴퍼니 데이 질문을 해결해야 한다.

-> 컴퍼니 데이 질문 : 캠퍼들을 대상으로 면접을 보신다고 가정한다면 어떤 점이 궁금하신가요?

(그냥 바로 해결했다.)

그리고 저녁에는 친구들 만날듯.

또 할일이 있었나 싶은데 아마 없는듯.

내일은 일단 오프라인 미팅이 중요하다.

그럼 이만 학습 정리하고 마무리 짓겠다. 감사하다:)

 

tokenizer에 add_special_tokens에 special tokens를 명시적으로 알려줘야 한다.

block size / model.resize_token_embeddings(tokenizer.vocab_size + added_token_num)

office hour

일종의 multiclass classification이라고 볼 수 있다.
klue/bert-base 모델.

XLNet
- Relative positional encoding / 상대적 거리 표현법을 사용, sequence 길이 제한 없어짐
- Permutation Language Modeling / MLM 사용 안함, 순열 조합을 통해 문장 학습

RoBERTa
- Model 학습 시간 증가 + Batch Size 증가 + Train data 증가
- NSP 제거 / fine-tuning과 관련 없음, 쉬운 문제라 성능 하락
- Longer Sentence 추가
- Dynamic Masking / 똑같은 텍스트 데이터에 대해 masking을 10번 다르게 적용하여 학습

문제를 어렵게 만들자

BART
- Transformer Encoder-Decoder 통합 LM
- Token Masking / Token Deletion / Sentence Permutation / Document Rotation / Text Infilling
- 다양한 Task에 대해 Pretrain

T-5
- Transformer Encoder-Decoder 통합 LM
- 다양한 Task에 대해 Pretrain
- Masking / 의미를 가진 다양한 어절들을 하나의 mask 토큰으로 masking, 동시 복원

Meena
- 대화 모델을 위한 LM
- Transformer Encoder(1) + Transformer Decoder(n)
- SSA(Sensible and Specificity Average)

Plug and Play Language Model (PPLM)
- 다음에 등장할 단어 -> 확률 분포를 통해 선택
- 내가 원하는 단어들의 확률이 최대가 되도록 이전 상태의 vector를 수정, 수정된 vector를 통해 다음 단어 예측

Multi-Modal
- LXMERT
- ViLBERT

728x90