GPU 4

[GPU 기초] AI 시대를 지배하는 하드웨어, NVIDIA GPU의 모든 것

최근 AI 기술의 폭발적인 성장과 함께 하드웨어 인프라에 대한 관심이 뜨겁습니다. NVIDIA가 시장을 독점하는 이유와 아키텍처별 진화 과정, 그리고 규제 속에서 등장한 '800 시리즈'의 기술적 디테일을 완벽 정리해 드립니다.1. AMD vs NVIDIA: 왜 모두가 NVIDIA를 선택할까?하드웨어 스펙 시트상으로는 AMD도 강력한 경쟁자이지만, AI 실무 현장에서 NVIDIA가 압도적인 이유는 단순한 칩 성능 그 이상에 있습니다.CUDA 생태계 (The Software Moat): 2006년부터 구축된 CUDA는 모든 AI 프레임워크와 완벽히 호환되며, 전 세계 개발자들이 가장 선호하는 표준입니다.연산 효율의 차이: NVIDIA는 일찍부터 AI 전용 Tensor Core를 도입하여 행렬 연산 속도를 ..

CS Fundamentals/CS 2026.01.15

[Fine-Tuning] LLM 파인튜닝 솔루션 - Unsloth

LLM을 클라우드 환경이나 Google Colab에서 파인튜닝하는 과정에서 종종 라이브러리 간 의존성 충돌로 인해 실행 오류가 발생하고, 높은 메모리 사용량과 긴 학습 시간이 문제가 되곤 합니다. 이러한 문제를 해결할 수 있는 보다 효율적인 방법을 찾던 중, 단일 GPU 환경에서도 최적의 성능을 제공하는 "Unsloth"를 접하게 되어 소개해 보겠습니다.1. Unsloth란 무엇인가?Unsloth는 LLM(대형 언어 모델) 파인튜닝을 보다 효율적으로 수행할 수 있도록 설계된 혁신적인 도구입니다. Michael과 Daniel Han 형제가 개발한 이 프로젝트는 적은 자원으로도 강력한 성능을 발휘할 수 있도록 최적화되어 있으며, 학습 속도 향상과 메모리 사용량 절감을 주요 목표로 하고 있습니다.Unsloth..

[Fine-Tuning] LLM fine-tuning (/w Elice Cloud) (1)

Dacon에서 진행하는 "난독화된 한글 리뷰 복원 AI 경진대회"를 뒤늦게 접하게 되어 LLM을 활용한 문제해결능력을 기르고자 경진대회에 참여하기로 하였습니다. 핵심 주제는 "식별하기 어렵게 쓴 한글 리뷰를 원래 한글 리뷰로 복원하는 AI 알고리즘 개발" 이었습니다. 데이터셋과 샘플 코드를 모두 제공해주었기에 이를 먼저 실행해보았습니다. import pandas as pdimport torchfrom transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, pipelinetrain = pd.read_csv('./drive/MyDrive/data_set/open/train.csv', encoding = 'utf-8-sig')t..

[DeepLearning] 언어 모델 최적화 개념 정리

언어 모델을 효과적으로 활용하려면 모델을 최적화하고 경량화하는 과정이 중요합니다. 이번 포스트에서는 모델의 추론 과정, KV 캐시, 양자화, 지식 증류 등의 개념을 직관적으로 정리해보겠습니다.1. 언어 모델이 텍스트를 생성하는 방식1.1 언어 모델이 텍스트 생성을 마치는 이유EOS(End of Sequence) 토큰 생성문장이 끝났음을 알리는 특수 토큰을 생성할 경우 텍스트 생성을 종료합니다.최대 길이 도달사용자가 설정한 최대 토큰 길이에 도달하면 텍스트 생성을 종료합니다.1.2 자기 회귀적(Auto-Regressive) 모델언어 모델은 입력된 텍스트를 기반으로 다음 토큰을 하나씩 순차적으로 예측합니다. 즉, 이전에 생성된 토큰들을 다시 모델 입력으로 넣어 다음 토큰을 예측하는 과정을 반복합니다.2. 중..

AI/DeepLearning 2025.02.14
반응형