전체 글 45

Efficient Estimation of Word Representations in Vector Space

논문 Efficient Estimation of Word Representations in Vector Space We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best per arxiv.org 저자: Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean Introductio..

DIFFUSEQ: Sequence To Sequence Text Generation with Diffusion Models

논문 저자: Shansan Gong, Mukai Li, Jiangtao Feng, Zhiyong Wu, Lingpeng Kong Introduction 기존의 생성모델인 GAN, VAE, Flow-based models는 다양한 분야에서 우수한 성능을 보이고 있긴 하지만 여전히 한계가 존재한다. GAN은 adversarial learning으로 인한 훈련의 불안정성이 존재하고, mode collapse(generator가 다양한 data를 생성해내지 못하고, 반복해서 비슷한 data만 계속 생성하는 문제)와 같은 문제도 존재한다. VAE는 surrogate loss에 의존한다. Flow-based models는 reversible transform을 위해서 특수한 architecture를 사용해야만 한다..

Attention Is All You Need

설명에 사용될 직접 그린 그림 중 파란색으로 표시된 것은 이전 설명에 없던 새로운 부분임을 나타내는 것이지 다른 의미는 x Introduction 목적: 이 논문이 쓰였을 당시의 transduction model(기계번역으로 대표되는 sequence 변환 모델)은 encoder, decoder를 포함하는 복잡한 RNN이나 CNN구조를 가진 모델들이 지배적이었다. 그 중에서 몇 모델들은 attention mechanism을 채택하여 사용 중이었다. 해당 논문을 통해 저자들은 RNN이나 CNN구조를 아예 배제하고 오직 attention mechansim에만 기반한 비교적 단순한 구조의 모델인 Transformer를 소개한다. 기존 모델들의 단점: Recurrent한 모델들은 시퀀스에 포함돼있는 순서에 대한 ..

Long Short-Term Memory

Introduction 목적: Sequential data를 학습하기 위해 기존의 RNN 구조는 시간이 오래 걸리거나 vanishing gradient, exploding gradient 때문에 학습이 정상적으로 진행되지 않는 문제들을 보완한 모델인 LSTM을 소개하고자 함 선행 연구들 Gradient-descent variants: time step이 커지면서 vanishing/exploding gradient 발생 Time-delays: long term에 대해서는 효과적이지 않음 Time constants: long term에 대해서는 효과적이지 않고, 별도의 tuning을 요구함 Ring’s approach: time step이 늘어날 때마다 그만큼 unit의 수도 늘어나고, generalize가..

Latent Dirichlet Allocation

Introduction 목적: Classification, Novelty Detection, Summarization 등의 task를 수행하는데에 있어 필요한 통계적인 관계들은 보존하면서 말뭉치의 효율적인 연산을 가능하게 하는 short description(주로 topic)을 찾겠다. 선행 연구들 tf-idf: tf와 idf를 이용하여 document term matrix내의 각 단어들마다 중요도를 가중치로 주는 방법 모든 문서에서 등장하는 단어는 중요도(tf-idf값)가 낮게 책정되고, 특정 문서에서만 자주 등장하는 단어는 중요도(tf-idf값)가 높게 책정된다. tf(d, t): 문서 d에서 단어 t의 등장 횟수 df(t): 단어 t가 등장한 문서의 수 idf(d, t): df(t)에 반비례하는 어..

Probabilistic Latent Semantic Analysis

Introduction 인간의 언어를 이해하는데에 있어서 machine learning system이 직면하는 근본적인 문제는 특정 데이터에서 단순히 사용된 언어와 실제로 언어가 어떠한 의미를 담고있는가를 구별하는 문제이다. 이러한 문제의 원인은 크게 2개로 분류될 수 있는데, Synonymy: 똑같은 개념을 표현할 수 있는 다양한 단어들이 존재 Polysemy: 한 단어에도 다양한 의미가 존재 이다. 이러한 문제를 해결하기 위한 방법으로 잘 알려진 방법이 Latent Semantic Analysis(LSA, 잠재의미구조분석)이다. 이름에서 알 수 있듯이 LSA의 목표는 단순한 단어의 수준을 뛰어 넘는 정보를 제공하고 사용자가 실제로 관심을 가지고 있는 토픽과의 의미 관계를 나타내는 데이터 매핑을 찾는 ..

Indexing By Latent Semantic Analysis

Introduction 목적: 기존(해당 논문 이전)의 검색 기법들에 만연한 문제인 query에 존재하는 단어들과 document에 존재하는 단어들을 match하려는 문제를 해결하기 위한 새로운 접근, 방법을 소개하기 위함 문제는 사용자들은 의미에 기반하여 검색을 하지만 문서에 존재하는 각 단어는 문서의 개념적 주제나 의미와 매치하지 않거나 무관하기 때문에 발생 Synonymy: 똑같은 개념을 표현할 수 있는 다양한 단어들이 존재하기 때문에 user가 제공한 query에 존재하는 단어가 document에는 존재하지 않는 현상 Polysemy: 한 단어에 다양한 의미가 존재하기 때문에 user가 제공한 query에 존재하는 단어가 실제로 document에 존재해 match가 되기는 하나, user의 의도와..

RNN II (Classification)

방학동안 학회에서 김성훈 교수님의 PyTorch Zero To All 강의로 공부를 하게 된 김에 스스로 정리해보려고 합니다. 좋은 강의 공유해주신 김성훈 교수님께 감사드립니다. 강의링크: https://www.youtube.com/playlist?list=PLlMkM4tgfjnJ3I-dbhO9JTw7gNty6o_2m PyTorchZeroToAll (in English) Basic ML/DL lectures using PyTorch in English. www.youtube.com 일반적인 RNN 모델은 아래와 같은 구조를 지닙니다. Input X가 Embedding Layer(수치화되어 있지 않은 자연어를 수치화, 벡터화 해주는 Layer)를 거친 후 RNN의 input으로 들어가게 되고, 그로 인해 ..