느린 일지/부스트캠프 AI Tech 4기
[학습 일지 / day 54] 다시 공부!
neulvo
2022. 12. 8. 09:47
오늘은 ddpm 논문 정리를 마무리하였고
또 데이터 제작 강의를 이어서 들은 하루였다.
익일에 예정된 오프라인 미팅을 위해서
강의를 열심히 듣고자 하였고
다 듣지는 못하였지만 8강까지 수강을 완료하였다.
코어 타임 이후의 저녁에는 수학 스터디를 준비하고 또 하였다.
회고 쓰는 게 점점 미뤄지는데 앞으로는 주의해야겠다.
데이터 관련 용어 정리
텍스트 : 주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문
말뭉치 : 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치(한 저작자의 저작 전부, 특정 분야 저작 전체)
데이터 : 정보-통신 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보
말뭉치 데이터 : 말뭉치 자체
말뭉치의 데이터 : 용례 색인 결과, 언어 추출 결과, 통계 분석 결과
토큰 : 언어를 다루는 가장 작은 기본 단위, 단어 word, 형태소 morpheme, 서브워드 subword
타입 : 토큰의 대표 형태
표상 : 대표로 삼을 만큼 상징적인 것
이 이상의 내용을 정리하는 건 또 강의 내용을 다 가져오는 것이 될 것 같아 더 하지 않겠다.
728x90