LLM 6

[LLM 평가]LLM 및 RAG 평가 프레임워크 비교 분석

LLM(Large Language Model)과 RAG(Retrieval-Augmented Generation) 시스템의 성능을 평가하는 것은 AI 애플리케이션 개발에서 중요한 과정입니다. 다양한 평가 프레임워크들이 각자 독특한 특징과 접근 방식을 제공합니다. 이 글에서는 주요 평가 프레임워크들을 비교하고 각각의 장단점을 살펴보겠습니다. 1. LLM-as-a-judge1) 개념LLM이 평가자 역할을 수행하여 다른 모델이나 시스템의 성능을 평가인간 평가자 대신 LLM을 활용하여 대규모 평가 가능프롬프트 엔지니어링을 통해 평가 기준과 방법 설정2) 장점인간 평가보다 비용 효율적일관된 평가 기준 적용 가능대규모 평가에 적합3) 한계LLM 자체의 편향이 평가에 영향을 줄 수 있음특정 언어나 도메인에 따라 성능 ..

LLMops 2025.04.18

[LLMops] Opik으로 LLM 평가하기

이전 포스팅에서 소개한 Opik 프레임워크를 활용하여 실제 LLM 응답을 평가하는 방법에 대해 알아보겠습니다. Opik은 다양한 메트릭을 통해 LLM 출력물의 품질을 체계적으로 평가할 수 있는 프레임워크를 제공합니다. 1. Opik 평가의 주요 구성 요소Opik에서 평가를 진행하기 위해서는 다음 세 가지 핵심 구성요소가 필요합니다: 1) 데이터 세트- LLM 응용 프로그램에 대한 입력과 선택적으로 예상 출력을 나타내는 샘플의 컬렉션- 각 샘플에 대한 입력 및 예상 출력만 저장하며, LLM 지원서의 출력은 평가 프로세스 중에 계산되고 점수가 매겨집니다.2) 평가 과제- 데이터 세트에 저장된 입력을 점수를 매기고 싶은 출력에 매핑합니다. 평가 과제는 일반적으로 프롬프트 템플릿 또는 빌드 중인 LLM 애플리케..

LLMops 2025.03.28

[LLM] context 기반 답변 비교

이전에 재무제표 데이터로 DB를 구축했으니 이 데이터를 이용해 사용자 쿼리에 대해 답변을 생성해 보도록하겠습니다. 1. DB 조회해서 데이터 가져오기psycopg2.connect()을 사용해 디비에 연결된 상황고 query 변수로 사용자가 원하는 해외 기업이 input으로 들어왔다고 가정하고 진행하도록 하겠습니다. def get_company_financial_data(conn, ticker): """특정 기업의 모든 재무 데이터 조회""" cursor = conn.cursor() # 기업 정보 확인 cursor.execute( "SELECT ticker, company_name FROM companies WHERE ticker = %s", (ticker,) ) ..

FinAgent Lab 2025.03.27

[Fine-Tuning] LLM 파인튜닝 솔루션 - Unsloth

LLM을 클라우드 환경이나 Google Colab에서 파인튜닝하는 과정에서 종종 라이브러리 간 의존성 충돌로 인해 실행 오류가 발생하고, 높은 메모리 사용량과 긴 학습 시간이 문제가 되곤 합니다. 이러한 문제를 해결할 수 있는 보다 효율적인 방법을 찾던 중, 단일 GPU 환경에서도 최적의 성능을 제공하는 "Unsloth"를 접하게 되어 소개해 보겠습니다.1. Unsloth란 무엇인가?Unsloth는 LLM(대형 언어 모델) 파인튜닝을 보다 효율적으로 수행할 수 있도록 설계된 혁신적인 도구입니다. Michael과 Daniel Han 형제가 개발한 이 프로젝트는 적은 자원으로도 강력한 성능을 발휘할 수 있도록 최적화되어 있으며, 학습 속도 향상과 메모리 사용량 절감을 주요 목표로 하고 있습니다.Unsloth..

Fine-Tuning 2025.02.26

[Fine-Tuning] LLM fine-tuning (/w Elice Cloud) (2)

저번 글에 이어서 이번엔 파인 튜닝을 통해 추론 성능을 상승시켜보도록 하겠습니다. 어떻게 접근할지 고민하다가 누가 Dacon에 "Gemma-2-2B-it Full Finetuning 모델"을 공유 해주어서 이 코드를 먼저 실행 해 보았습니다. !pip install transformers==4.40.1 accelerate==0.30.0 bitsandbytes==0.43.1 auto-gptq==0.7.1 autoawq==0.2.5 optimum==1.19.1 -qqq !pip uninstall -y torch torchvision torchaudio!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu..

Fine-Tuning 2025.02.24

[RAG] RAG (Retrieval-Augmented Generation)

1. LLM2. RAG3. Better RAG 1. LLM1) 정의LLM 은 Large Language Models 의 약자로 방대한 양의 데이터를 기반으로 사전 학습된 초대형 딥 러닝 모델입니다. LLM은 완벽하지는 않지만 비교적 적은 수의 프롬프트 또는 입력을 기반으로 예측하는 놀라운 능력을 보여주고 있습니다. 하나의 모델은 질문에 답하고, 문서를 요약하고, 언어를 번역하고, 문장을 완성하는 등 완전히 다른 작업을 수행 할 수 있습니다. 또한 입력 프롬프트를 기반으로 콘텐츠를 생성하는 생성형 AI에 사용될 수 있습니다. 2) 문제점LLM 훈련 데이터는 정적이며 보유한 지식에 대한 마감일을 도입답변이 없을 때 허위 정보를 제공신뢰할 수 없는 출처로부터 응답을 생성사용자가 구체적이고 최신의 응답을 기대할..

RAG 2024.03.25
728x90