일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AI역사
- 딥러닝
- 델이란?
- 신도시투자기초반
- 런웨이 애니메이션
- 모델 함수
- 런웨이 영상
- 신투기
- 라마 2
- 딥러닝 자연어 처리 모델
- 펑빈
- 런웨이영화
- 다운스트림
- 챗gpt와 구글
- 챗gpt구조
- AI
- ai정보
- 인공지능
- 기계학습
- 구글 생성형ai
- 자연어처리모델
- 태스크
- ai애니메이션
- 트랜스퍼러닝
- ai런웨이
- 실전지식
- AI일자리
- AI작가
- 자연어처리
- 챗gpt
- Today
- Total
도보다모 | 멀리서 바라보는 AI 세계 탐구일지
자연어 처리. 다운스트림 태스크 알아보기 본문
AI의 똑똑함은 어디까지 도달했을까요?
최근 미국 스탠퍼드대에서 열린 경제 포럼에서 젠슨 황 엔비디아 최고경영자(CEO)가 AI가 5년 내로 인간이 치르는 모든 시험을 통과할 수 있을 것이라 이야기했어요.
'인간처럼 생각할 수 있는 컴퓨터를 만드는 데 얼마나 걸릴지'에 대한 질문의 답이었는데요.
황 CEO는 덧붙여 '인간처럼 생각하는 것'을 '인간의 시험을 통과할 수 있는 능력'으로 정의할 경우 5년 안에 가능하며, 곧 인간과 비슷하게 지능 할 수 있는 '범용 인공지능'(AGI)도 등장할 거라 말했어요.
오늘은 이렇듯 날마다 더 똑똑해지고 있는 AI의 '다운스트림'에 대해 이야기해 보려 해요.
앞선 포스팅에서 업스트림 태스크, 다운스트림 태스크에 대해 설명했으니 내용이 궁금하신 분은 참고 부탁드려요.
자연어 처리의 진짜 과제 | 다운스트림 태스크
다운스트림은 모델이 해결하고자 하는 과제와 같아요.
텍스트 분류(Text Classification)를 예로 들자면 이메일이 스팸인지 아닌지 분류하고 싶을 때, 그걸 분류하는 것이 '모델의 목적'이 되는 것이고 이것이 다운스트림 태스크가 돼요.
또 어떤 영화를 개봉해 그 영화의 리뷰 게시물들이 긍정적인지 부정적인지 알고 싶다면 그것이 '모델의 목적'이 되고 마찬가지로 다운스트림 태스크가 된답니다.
사전 훈련된 모델을 위와 같은 다양한 데이터셋에 파인튜닝하여 과제를 해결해요.
물론, 기계 번역(Machine Translation)이나 질문 응답(Question Answering) 등 다양한 과제를 해결할 수 도 있어요.
여기서 파인튜닝이 무엇인지 궁금하실 수 있는데요.
자연어 처리의 다운스트림 태스크를 학습하는 방식은 여러 가지가 있어요.
총 6가지의 모델 훈련 방법을 살펴보도록 할게요.
1. 파인튜닝(Fine-tuning)
다운스트림 태스크 데이터 전체(사전 훈련된)를 사용해 모델 전체를 업데이트해요.
사전 훈련된 모델을 특정 다운스트림 태스크에 맞게 조정하는 건데요.
이때 모델의 가중치를 특정 태스크의 데이터셋을 사용해 추가로 조정해, 태스크에 대해 더 좋은 성능을 내야 해요.
2. 프롬프트 튜닝(Prompt Tuning)
다운스트림 태스크 데이터 전체를 사용해요.
다운스트림 데이터에 맞게 모델 일부만 업데이트 해요.
예를 들어 GPT-3에 "The cat is on the mat. 문장 뒤에 "The dog is on the OOO."라는 문장을 제공하며, 빈칸을 채우도록 요청해요.
모델은 제공된 컨텍스트를 바탕으로 "log"와 같은 단어를 생성하여 빈칸을 채울 수 있죠.
3. 인컨텍스트 러닝(In-context Learning)
모델에 특정 태스크의 예시를 입력으로 주어, 그 맥락 안에서 태스크를 해결하도록 하는 방법이에요.
다운스트림 태스크 데이터의 일부만 사용해요.
이 방법은 모델이 입력된 예시들로부터 태스크를 이해하고, 그에 맞는 답을 생성해요.
예를 들어 GPT-3에 "The cat is on the mat. 문장 뒤에 "The dog is on the OOO."라는 문장을 제공하며, 빈칸을 채우도록 요청하면, 모델은 제공된 콘텍스트를 바탕으로 "log"와 같은 단어를 생성하여 빈칸을 채운답니다.
4. 제로샷 러닝 (Zero-shot Learning)
모델이 특정 태스크에 대한 사전 훈련이나 예시 없이도 해당 태스크를 수행할 수 있는 능력이에요.
다운스트램 태스크를 전혀 사용하지 않아요.
이는 모델이 다양한 태스크에 대해 범용적인 이해를 가지고 있음을 의미해요.
예를 들어 사전 훈련된 BERT 모델을 사용하여, 본 적 없는 카테고리의 텍스트 데이터를 분류해요.
예를 들어, "스포츠"와 "정치" 카테고리 없이 훈련된 모델이 이러한 카테고리의 텍스트를 정확하게 분류하죠.
5. 원샷 러닝 (One-shot Learning)
모델이 단 한 개의 예시만 보고도 특정 태스크를 수행할 수 있는 능력이에요.
다운스트림 태스크 데이터를 1건만 사용하는데요.
모델은 1건의 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행해요.
예를 들어 GPT-3에 "판다는 검은색과 흰색입니다. 코끼리는 OO 색입니다."라는 문장을 제공해요.
여기서, GPT-3는 단 하나의 예시를 바탕으로 "회색"이라는 단어를 적절히 채워 넣어요.
6. 퓨샷 러닝 (Few-shot Learning)
모델이 몇 개의 예시만을 사용하여 특정 태스크를 수행할 수 있는 능력이에요.
다운스트림 태스크 데이터를 몇 건만 사용해요.
모델은 몇 건의 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행해요.
예를 들어 GPT-3에 몇 개의 문장 쌍(예: "The cat is small." -> "The dog is big.")과 함께 새로운 문장을 제공하며, 이에 해당하는 변형된 문장을 생성하도록 요청해요.
이 경우, GPT-3는 제공된 몇 개의 예시를 통해 문장의 구조를 학습하고, 새로운 문장에 대한 적절한 변형을 생성해요.
파인튜닝 이외의 방식이 주목받는 이유는 비용과 성능 때문이에요.
최근 언어 모델의 크기가 너무 커지고 있어서 파인튜닝 방식으로 모델 전체를 업데이트하려면 큰 비용이 드는데요.
뿐만 아니라 프롬프트 튜닝, 인컨텍스트 러닝으로 학습한 모델이 경쟁력 있는 태스크 수행 성능을 보일 때가 많아요.
인컨텍스트 러닝에는 다운스트림 태스크 데이터를 몇 건 참고하느냐 아니냐의 차이가 있을 뿐 모두 모델을 업데이트하지 않는다는 공통점이 있어요
업데이트 없이 다운스트림 태스크를 바로 수행할 수 있다는 것이 무척 매력 있다고 생각해요.
'AI | 역사와 기술' 카테고리의 다른 글
AI로 애니메이션 영화 제작하기 | 런웨이(Runway) (0) | 2024.03.05 |
---|---|
AI 시대에 맞설 중요한 실전 지식! 스캠퍼 7단계에 대해 (0) | 2024.03.03 |
트랜스퍼 러닝? 업스트림과 다운스트림에 대하여 (0) | 2024.03.02 |
챗GPT 자연어 처리 모델, 자비스와 같을까? (0) | 2024.03.02 |
구글 AI, 바드(Bard)와 제미나이(Gemini) 챗GPT와 차별점 (1) | 2024.03.02 |