Rag 2

[LLM 평가]LLM 및 RAG 평가 프레임워크 비교 분석

LLM(Large Language Model)과 RAG(Retrieval-Augmented Generation) 시스템의 성능을 평가하는 것은 AI 애플리케이션 개발에서 중요한 과정입니다. 다양한 평가 프레임워크들이 각자 독특한 특징과 접근 방식을 제공합니다. 이 글에서는 주요 평가 프레임워크들을 비교하고 각각의 장단점을 살펴보겠습니다. 1. LLM-as-a-judge1) 개념LLM이 평가자 역할을 수행하여 다른 모델이나 시스템의 성능을 평가인간 평가자 대신 LLM을 활용하여 대규모 평가 가능프롬프트 엔지니어링을 통해 평가 기준과 방법 설정2) 장점인간 평가보다 비용 효율적일관된 평가 기준 적용 가능대규모 평가에 적합3) 한계LLM 자체의 편향이 평가에 영향을 줄 수 있음특정 언어나 도메인에 따라 성능 ..

LLMops 2025.04.18

[RAG] RAG (Retrieval-Augmented Generation)

1. LLM2. RAG3. Better RAG 1. LLM1) 정의LLM 은 Large Language Models 의 약자로 방대한 양의 데이터를 기반으로 사전 학습된 초대형 딥 러닝 모델입니다. LLM은 완벽하지는 않지만 비교적 적은 수의 프롬프트 또는 입력을 기반으로 예측하는 놀라운 능력을 보여주고 있습니다. 하나의 모델은 질문에 답하고, 문서를 요약하고, 언어를 번역하고, 문장을 완성하는 등 완전히 다른 작업을 수행 할 수 있습니다. 또한 입력 프롬프트를 기반으로 콘텐츠를 생성하는 생성형 AI에 사용될 수 있습니다. 2) 문제점LLM 훈련 데이터는 정적이며 보유한 지식에 대한 마감일을 도입답변이 없을 때 허위 정보를 제공신뢰할 수 없는 출처로부터 응답을 생성사용자가 구체적이고 최신의 응답을 기대할..

RAG 2024.03.25