Data 49

[논문 번역 / 정리] Language Models are Few-Shot Learners

Language Models are Few-Shot LearnersRecent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fiarxiv.orgAbstractLanguage model의 사이즈를 키우는 것(scaling up)이 과제에 유연한 few-shot 성능을 크게 상승시킴gradient update나 fin..

Data/논문 읽기 2024.06.19

[Google Colab] error: invalid zip file with overlapped components (possible zip bomb)

코랩 사용 시 zip 파일을 직접 업로드하고 unzip하려고 할 때 발생하는 에러이다. (windows 환경에서 zip 파일을 다운받고 올릴 때, Colab의 Linux와 환경이 달라 문제가 생긴 듯하다.) 이럴 때는 코랩에 내장된 gdown 모듈을 사용하면 문제가 해결된다. 위의 보기와 같이 gdown으로 데이터를 받고 나서 unzip 해주면 된다. 아래 코드를 참고하길 바란다. !gdown [데이터 URL] !unzip -qq "/content/[파일 이름]" # 특정 경로에 unzip하고 싶을 시에는 아래와 같이 사용하면 된다. # !unzip -qq "/content/[파일 이름]" -d "[경로]"

Data/Errors 2023.10.02

ImportError: No module named sqlalchemy

GCP 예제를 따라하고 있는 중이라면 해당 프로젝트 폴더에서 requirments.txt가 있는지 확인하고 설치해주자. 설치 코드는 아래와 같다. pip install -r requirements.txt requirements.txt가 따로 없다면 아래 코드를 사용해보자. functions-framework==3.* cloud-sql-python-connector==1.2.0 SQLAlchemy==2.0.21 sqlalchemy-pytds==1.0.0 sqlalchemy-stubs==0.4 PyMySQL==1.1.0 혹시 몰라 requirements.txt 전체를 첨부한다. pytest==7.4.2 mock==5.1.0 pytest-cov==4.1.0 pytest-asyncio==0.21.1 SQLAlc..

Data/Errors 2023.09.26

[밑러닝 3] 제 5고지, Dezero의 도전

52. GPU 지원 53. 모델 저장 및 불러오기 p452. 앞의 코드에서 파일을 저장할 때 try 구문을 사용했습니다. 사용자에 의해 발생하는 'Ctrl + C' 등의 키보드 인터럽트에 대비한 보호 코드입니다. 이 try 구문 덕분에 저장 도중 인터럽트가 발생하면 파일은 삭제됩니다. 불완전한 상태의 파일이 만들어지는 일을, 그리고 나중에 그런 파일을 읽어오는 일을 사전에 방지하는 것이죠. 54. 드롭아웃과 테스트 모드 p455. 신경망 학습에서는 과대적합이 자주 문제가 됩니다. 다음은 과재적합이 일어나는 주요 원인입니다. 1. 훈련 데이터가 적음 2. 모델의 표현력이 지나치게 높음 첫 번째 원인 때문이라면 데이터를 더 확보하거나 데이터 수를 인위적으로 늘리는 데이터 확장(data augmentation..

Data/개념 정리 2023.02.22

[밑러닝 3] 제 4고지, 신경망 만들기 개념 정리

37. 텐서를 다루다 p300. 한편 넘파이에는 브로드캐스트(broadcast)라는 기능이 있습니다. 만약 x와 c의 형상이 다르면 자동으로 데이터를 복사하여 같은 형상의 텐서로 변환해주는 기능입니다. p301. 머신러닝 문제에서는 텐서를 입력받아 스칼라를 출력하는 함수(손실 함수 loss function)을 설정하는 것이 일반적입니다. p303. 텐서의 미분을 머신러닝에서는 '기울기'라고 합니다. 야코비안 - 나무위키 사상 x:D(⊆R2)→R3{\bf x}: D(\subseteq\mathbb R^2)\to\mathbb R^3x:D(⊆R2)→R3가 다음과 같이 정의되어 있다고 하자.x(u, v)=(x(u, v), y(u, v), z(u, v)){\bf x}(u,\,v)=(x(u,\,v),\,y(u,\,v..

Data/개념 정리 2023.01.28

[밑러닝 3] 제 3고지, 고차 미분 계산 개념 정리

25. 계산 그래프 시각화(1) Graphviz Graph Visualization Software graphviz.org 26. 계산 그래프 시각화(2) 27. 테일러 급수 미분 미적분학에서 테일러 급수(Taylor級數, 영어: Taylor series)는 도함수들의 한 점에서의 값으로 계산된 항의 무한합으로 해석함수를 나타내는 방법이다. 테일러 급수 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 사인 함수의 테일러 급수의 수렴. 검은 선은 사인 함수의 그래프이며, 색이 있는 선들은 테일러 급수를 각각 1차(빨강), 3차(주황), 5차(노랑), 7차(초록), 9차(파랑 ko.wikipedia.org 28. 함수 최적화 p.233 최적화란 어떤 함수가 주어졌을 때 그 최솟값(또는 ..

Data/개념 정리 2023.01.08

[논문 같이 읽기] How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings

논문 링크 : How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings Replacing static word embeddings with contextualized word representations has yielded significant improvements on many NLP tasks. However, just how contextual are the contextualized representations produced by models such as ELMo and BERT? Are there infini arxiv.org 그러나, ELM..

Data/논문 읽기 2023.01.01

[논문 요약] Should We Rely on Entity Mentions for Relation Extraction? Debiasing Relation Extraction with Counterfactual Analysis

논문 링크 : Should We Rely on Entity Mentions for Relation Extraction? Debiasing Relation Extraction with Counterfactual Analysis Recent literature focuses on utilizing the entity information in the sentence-level relation extraction (RE), but this risks leaking superficial and spurious clues of relations. As a result, RE still suffers from unintended entity bias, i.e., the spurious arxiv.org Github..

Data/논문 읽기 2022.12.25

[밑러닝 3] 제 2고지, 자연스러운 코드로 개념 정리

11. 가변 길이 인수(순전파 편) p106. 파이썬의 리스트와 튜플은 여러 개의 데이터를 한 줄로 저장합니다. 리스트는 [1,2,3]과 같이 []로 묶고 튜플은 (1,2,3)과 같이 ()로 묶습니다. 리스트와 튜플의 주요 차이는 원소를 변경할 수 있는지 여부입니다. 튜플의 경우 한 번 생성되면 원소를 변경할 수 없습니다. 예를 들어 x = (1, 2, 3)으로 튜플을 생성한 후에는 x[0] = 4 등으로 덮어 쓸 수 없는 것이죠. 반면 리스트는 원소를 변경할 수 있습니다. 12. 가변 길이 인수(개선 편) p110. 함수를 정의할 때 인수 앞에 별표(*)를 붙였습니다. 이렇게 하면 리스트를 사용하는 대신 임의 개수의 인수(가변 길이 인수)를 건네 함수를 호출할 수 있습니다. p112. self.forw..

Data/개념 정리 2022.12.10

[논문 같이 읽기] Denoising Diffusion Probabilistic Models

논문 링크 : Denoising Diffusion Probabilistic Models We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound arxiv.org 유투브 설명 링크 : 수식 설명 링크 : [논문공부] Denoising Diffusion Probabilistic Models (DDPM) 설명 ─..

Data/논문 읽기 2022.12.06