목록AI Learner (16)
Adore__

Source - [Attention is All you Need, NLPs, 2017] 논문 - [BoostCourse, '딥러닝 기초다지기'] Transformer RNN은 하나의 입력이 들어가고 또 다른 입력이 들어올 때, 이전 RNN에서 갖고있던 cell state가 반복해서 돌아가는 재귀적인 구조였다. 반면, Transformer는 재귀적인 구조가 아닌 Attention 구조를 활용한다. Attention 구조가 무엇인지는 차근차근 알아보자. 먼저 Transformer는 sequential data를 처리하고 encoding 하는 구조이기때문에 NLP 뿐만 아니라 이미지 분류, detection, 등 에서도 효과적으로 활용된다. 우리의 목적은 어떤 문장이 주어지면 다른 sequence로 바꾸는 것..

Source : [BoostCourse 딥러닝 기초 다지기]의 자료를 사용하였습니다. CNN은 입력 이미지를 내가 원하는 형태로 바꿔주는 것이었다. - classification: one-hot vector - detection : 각각의 영역에 있는 bounding box - semantic segmentation : 이미지의 픽셀별로 속하는 class 찾기 하지만 RNN은 입력 자체가 sequential data이다. sequential data를 처리함에 있어서 가장 큰 어려움은, 하나의 라벨로 정의될 수 없다는 것이다. 글자가 입력으로 들어올 때, 그 길이가 언제 끝날지 모른다. 내가 받아들여야 하는 입력의 차원을 알 수 없기때문에 CNN을 사용할 수 없다. 즉, 몇개의 입력이 들어오든 이 모델을..

Source: Boost Course 'DL기초 다지기' Computer Vision에서 주로 사용하는 모델은 CNN이다. CNN은 정말 다양하게 사용되는데, 그 중 Sementic Segmentation과 Object Detection에 대해 알아보자 Semantic Segmentation Semantic Segmentation은 dense classification이라고도 불리지만, 정확히는 classification과는 다르다. 보통 일반적인 분류 문제는 이미지 1장이 주어질 때, 이게 강아지인지 고양이인지 labeling 하는 것을 말한다. 하지만 Semantic Segmentation은 한 이미지 안에서 '모든' pixel마다 분류한다. 위 사진에서 보면 각 pixel별로 '도로'인지, '사람'..

Source: Boost Course 'Computer Vision의 모든 것' ▪️ What is Classifier? 입력이 '영상'으로 들어오면 출력이 그 영상에 해당하는 'class'로 나오게 만든다. 즉, 영상 속에 어떤 물체가 들어있는지 분류해주는 mapping을 말한다. ▪️ 구현 방법? 가상 이상적인 분류 모델? 이 세상의 모든 데이터를 다 갖고 있다고 가정하면, 입력으로 들어온 이미지와 가장 비슷한 사진을 찾으면 된다. 이 상황에 가장 적합한 방법은 k-NN이 될 것이다. 하지만 데이터가 너무 많아지면 Time complexity와 Memory complextiy 문제가 있기때문에 현실적이지 않다. 또한 knn을 사용하려면 영상간의 유사도를 정의해야 하는데, 그 기준이 모호해서 쉬운 일이..

Source: Boost Course 'Computer Vision의 모든 것' Course Overview 유아시절 인간을 자세히 관찰해 보면, 지능 습득에 있어서 지각능력획득이 첫번째이자 가장 중요한 것을 알 수 있다. 이 중, 시각 지각 능력이 가장 중요하다고 생각한다. 우리는 비교적 시각에 더 많이 의존하여 살아가고, 뇌에서 대부분 처리하는 정보가 시각정보라는 주장도 있다. 따라서 인공지능에 있어서도 시각 지각 능력 구현이 매우 중요하다고 말할 수 있다. 인간의 뇌가 시각정보를 인지하고 뇌에서 처리하는 과정을 컴퓨터에 적용해보자. 우선 카메라로 영상을 찍어서 이미지를 인지한다. 이후 어떤 알고리즘을 통해 GPU에 올려서 장면에 대한 분석이 이루어진다. 이 출력문은 컴퓨터가 다루기 쉬우면서도 사람..

Source: Boost Course 'DL 기초다지기' Convolution ▪️ convolution 연산 convolution filter를 적용하고자 하는 image에 도장을 찍는 다고 생각하면 된다. 해당 위치에 있는 convolution filter 값과 image pixel 값을 곱해서 나온 전체 9개 값을 더해주면, 하나의 output이 나오게 된다. ▪️ 2D convolution 적용하고자 하는 filter에 따라서 해당 이미지가 blur가 될 수 있고, emboss나 outline이 될 수 있다. 만약 3x3 filter에서 각 값이 모두 1/9로 채워져 있다면, 이미지 한 pixel의 평균값이 output으로 나오기때문에 blur효과를 줄 수 있다. ▪️ RGB Image Convo..