딥러닝

딥러닝 공부 책 추천 [Easy 딥러닝] Self-Attention이란

내 코딩 2025. 2. 16. 00:06
반응형

최근 인공지능 발전에 큰 도움을 준 트랜스포머의 핵심이라고 할 수 있는 Self-Attention에 대하여 알아보겠습니다.

Easy 딥러닝 책을 기반으로 attention의 내용을 공부했으며, 자연어처리에서 처음 나온 개념이고, 해당 책에 구체적인 설명과 그림을 통해서 이해하기 쉽도록 나와있기 때문에 추천드리는 책입니다.

공부한 내용과 이해한 부분을 그림으로 표현해봤습니다.

 

Attention은 입력 데이터에서 모델이 중요한 부분에 “주의”를 집중할 수 있도록 하는 방법입니다.

이러한 과정은 사람이 긴 글이나 그림을 볼 때 중요한 부분에 집중하는 것과 유사합니다.

기존에 사용되던 RNN 방식의 Attention의 문제점 중 하나는 '멀수록 잊혀진다'는 RNN의 근본적인 문제가 여전히 존재한다는 것이고, Attention이 적용되어도 멀수록 잊혀지기 때문에 '의미를 제대로 담지 못한 워드 임베딩 벡터에 attention을 적용한다'는 문제가 있습니다.

트랜스포머의 등장으로 RNN의 두 가지 주요 문제를 동시에 해결하면서 구조적 한계를 극복했습니다.

트랜스포머는 워드 임베딩 벡터를 점진적으로 쇄신해 나가는 방식을 채택합니다.

이를 위해 도입된 메커니즘이 Self-Attention이며 인코더와 디코더 각각이 자신이 가진 임베딩 벡터에 대해 Attention을 수행하는 과정을 말하고 있습니다.

Self-Attention은 전체 시점의 토큰들을 모두 참조하며 거리에 영향을 받지 않아 멀리 있는 거리의 정보도 모두 활용할 수 있습니다.

 

구체적인 수식적 내용과, 학습과 테스트에서 다르게 사용되는 불일치 문제를 해결하기 위한 마스킹 기법 등 다양한 방법은 책에서 이해하기 쉽도록 확인할 수 있습니다.

 

self-attention의 과정은

그림처럼 표현할 수 있으며, 입력데이터를 Query, Key, Value로 나누어서 들어가게 됩니다.

 

Query와 Key를 통해서 attention score를 구한 후 Value와 곱하여 중요한 부분의 값이 크게 반영되어 attention이 적용되게 됩니다.

self-attention은 자연어처리에서 처음 나온 개념으로, 수식적인 부분, 해당 과정의 의미를 알기 어려웠습니다.

책을 통해 공부한 후 자연어 처리 분야에서 근본적인 방법들을 알고 난 후 이미지 처리 분야나 다른 분야에서도 self-attention을 이해할 때 전혀 어려움이 없었고, 알고나니 너무 간단하고 쉬운 과정이였습니다.

 

attention 뿐만 아니라 딥러닝의 어려운 이론들을 그림과 함께 보여주고 있어 쉽게 이해할 수 있고, 필수적인 수학 지식들이 함께 나와있어 딥러닝을 공부할 때 입문서로 가장 좋은 책인 것 같아 추천드립니다.

다양한 딥러닝 책을 찾아보며 공부해봤지만, 수식적인 내용도 어렵고 무엇보다 해당 수식이 가지는 의미를 같이 설명해주어서 이해하기 너무 좋더라고요. 인터넷으로도 공부할 수 있고 다양한 방법이 많지만 책을 통해서 기본적인 내용들을 모두 알고가면 좋을 것 같아 강추하는 딥러닝 책 공유드립니다~

 

 

본 게시글은 혁펜하임의 <Easy! 딥러닝> 책의 리뷰어 활동으로 작성되었습니다.
도서 구매 링크 1 (교보문고): https://product.kyobobook.co.kr/detail/S000214848175
도서 구매 링크 2 (출판사 자사몰): https://shorturl.at/yqZpW