반응형

llm 평가 2

[LLM evaluation] LLM 모델 자체 평가

평소 LLM 애플리케이션을 개발하였지만, 의도대로 답변인 나오는지를 눈대중으로만 확인하다가 신뢰성 확보 및 객관적인 지표를 통한 성능 고도화를 위해 LLM의 성능을 평가해야겠다는 생각이 들었고, 이에 LLM의 성능 평가에 대한 내용을 정리해보고자 합니다.1. LLM 평가 배경LLM평가는 모델 자체의 전반적인 성능을 객관적으로 측정하고, 이를 통해 실제 환경에서의 효용성을 예측하는 데 초점을 둡니다. 신뢰할 수 있는 평가 체계를 갖추는 것은 LLM 개발과 응용에서 필수적인 과정입니다. 이러한 LLM 평가는 크게 모델 자체를 평가하는 것과 LLM 애플리케이션을 평가하는 두 가지로 구분됩니다. 이번 글에서는 모델 자체 평가에 대해 다뤄보도록 하겠습니다. 1) LLM 평가의 주요 접근법LLM 평가는 크게 세 가..

LLMops 2025.04.07

[LLMops] Opik으로 LLM 평가하기

이전 포스팅에서 소개한 Opik 프레임워크를 활용하여 실제 LLM 응답을 평가하는 방법에 대해 알아보겠습니다. Opik은 다양한 메트릭을 통해 LLM 출력물의 품질을 체계적으로 평가할 수 있는 프레임워크를 제공합니다. 1. Opik 평가의 주요 구성 요소Opik에서 평가를 진행하기 위해서는 다음 세 가지 핵심 구성요소가 필요합니다: 1) 데이터 세트- LLM 응용 프로그램에 대한 입력과 선택적으로 예상 출력을 나타내는 샘플의 컬렉션- 각 샘플에 대한 입력 및 예상 출력만 저장하며, LLM 지원서의 출력은 평가 프로세스 중에 계산되고 점수가 매겨집니다.2) 평가 과제- 데이터 세트에 저장된 입력을 점수를 매기고 싶은 출력에 매핑합니다. 평가 과제는 일반적으로 프롬프트 템플릿 또는 빌드 중인 LLM 애플리케..

LLMops 2025.03.28
728x90
반응형