느린 일지/부스트캠프 AI Tech 4기

[학습 일지 / day 23] 보폭 맞추기

neulvo 2022. 10. 19. 22:50

오늘은 어제 생각한 대로 유휴 시간을 많이 두고

학습 및 기타 활동을 진행했다.

다시 말해, 중간 중간 많이 쉬었다.

무리하지 않기 위해 적당히 속도를 낮췄다.

 

애초에 BERT 논문을 읽는 것밖에

욕심이 없었기도 했고

어제까지 무리한 덕에 눈이 피로해

욕심내서 많이 하고 싶은 생각이 전혀 들지 않기도 했다.

 

그래도 천천히 읽어서 그런가

BERT 논문 내용은

놓친 것 없이 잘 보고 잘 이해한 것 같다.

 

요즘은 강의 듣는 거 외에

자료 정리나 스터디 진행 등에

많은 주의를 기울이고 있다 보니까

내 장점이 알고 보니 아카이빙과 커뮤니케이션이었는지도?

라는 생각이 자주 들고 있다.

나의 다른 면도 알게 되고 또 내가 발전하고 있다는 느낌도 들어서

그게 사실이든 아니든 간에 상관없이 좋은 것 같다.

 

오늘 트위터도 가입(?)했달까 들어가서 팔로우하며

글들을 조금 살펴봤는데 내 세계가 조금씩 넓어지고 있는 것 같다.

이전에는 겁이 많았던 걸까

그랬을 수도 있긴 한데 비교해봤자 남는 게 없으니 깊게 생각 안하기로 했다.

 

사실 지금 BERT 논문 정리를 할까 싶기도 한데

뭐 일단은 그림을 또 그려야 하니까

할지 안할지 모르지만 뒤로 미뤄두자.

그때 가서 정 못하겠으면 안 하면 되지 뭐.

 

최근에는 감사한 마음을 많이 느끼고 있고

또 감사한 마음을 많이 표현하려고 노력하고 있다.

다른 사람에게 조금이나마라도 힘이 되었으면 하는 바람이 있다.

 

부스트캠프 시작한지도 한 달이 이미 넘었는데

앞으로도 계속 노력해봐야지.

할 게 많다 보니 우선 순위 정하고 또 스케줄 관리하는 게

더 없이 중요해진 것 같다.

할 수 있는 한 열심히 해보자.

오늘도 수고했고 또 감사하다.

 

아래는 오늘의 메모장 필기

Transformer 관련 내용이다.

 

embedding + positional 'encoding'

Q,K,V 만들고 head를 나눔

각 head의 representation 끼리만 연산
각 head의 representation이 다를 수밖에 없음

Attention Distribution * Value

self attention 의 input output의 shape는 같다.
각각의 토큰이 다른 토큰들로부터 자기 자신에게 관련된 정보를 가져와 취합

FF - 차원을 4배 늘렸다가 Relu 통과시키고 다시 4배 줄임
    - 토큰 끼리 서로를 보지 않음, 개별적으로 계산
    - 비선형성을 추가

728x90