Growth Diary

  • 홈
  • 태그
  • 방명록

2025/04/18 1

[LLM 평가]LLM 및 RAG 평가 프레임워크 비교 분석

LLM(Large Language Model)과 RAG(Retrieval-Augmented Generation) 시스템의 성능을 평가하는 것은 AI 애플리케이션 개발에서 중요한 과정입니다. 다양한 평가 프레임워크들이 각자 독특한 특징과 접근 방식을 제공합니다. 이 글에서는 주요 평가 프레임워크들을 비교하고 각각의 장단점을 살펴보겠습니다. 1. LLM-as-a-judge1) 개념LLM이 평가자 역할을 수행하여 다른 모델이나 시스템의 성능을 평가인간 평가자 대신 LLM을 활용하여 대규모 평가 가능프롬프트 엔지니어링을 통해 평가 기준과 방법 설정2) 장점인간 평가보다 비용 효율적일관된 평가 기준 적용 가능대규모 평가에 적합3) 한계LLM 자체의 편향이 평가에 영향을 줄 수 있음특정 언어나 도메인에 따라 성능 ..

LLMops 2025.04.18
이전
1
다음
더보기
프로필사진

Growth Diary

개발에 관련된 다양한 IT 지식을 공유하고 최신 트렌드 기술을 배워나갑니다.

  • 분류 전체보기 (88)
    • Spring (4)
    • Git&GitHub (7)
    • Flutter (11)
    • Docker (2)
    • Algorithm (3)
    • 자료구조 (2)
    • Langchain (0)
    • CS (5)
    • Streamlit (1)
    • Backend (2)
    • CampusMeet (12)
    • AWS (1)
    • FastAPI (2)
    • RAG (2)
    • DeepLearning (11)
    • Fine-Tuning (4)
    • LLMops (10)
    • FinAgent Lab (5)
    • LangGraph (0)

Tag

Flutter, NKS, unsloth, Get, MCP, model context protocol, mcp client, GPU, git, github, llm 평가, spring, transformer, Rag, 트랜스포머, AWS, LLM, 양자화, 어텐션, mcp server,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/04   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바