opik 2

[LLMops] Opik으로 LLM 평가하기

이전 포스팅에서 소개한 Opik 프레임워크를 활용하여 실제 LLM 응답을 평가하는 방법에 대해 알아보겠습니다. Opik은 다양한 메트릭을 통해 LLM 출력물의 품질을 체계적으로 평가할 수 있는 프레임워크를 제공합니다. 1. Opik 평가의 주요 구성 요소Opik에서 평가를 진행하기 위해서는 다음 세 가지 핵심 구성요소가 필요합니다: 1) 데이터 세트- LLM 응용 프로그램에 대한 입력과 선택적으로 예상 출력을 나타내는 샘플의 컬렉션- 각 샘플에 대한 입력 및 예상 출력만 저장하며, LLM 지원서의 출력은 평가 프로세스 중에 계산되고 점수가 매겨집니다.2) 평가 과제- 데이터 세트에 저장된 입력을 점수를 매기고 싶은 출력에 매핑합니다. 평가 과제는 일반적으로 프롬프트 템플릿 또는 빌드 중인 LLM 애플리케..

LLMops 2025.03.28

[LLMops] 오픈소스 LLM 평가 프레임워크 opik

오늘은 오픈소스로 제공되는 LLM 평가 프레임워크인 opik을 처음 접하게 되어 간단한 설명과 활용방법에 대해 얘기해보겠습니다. opik은 LLM 애플리케이션을 평가, 테스트 및 모니터링하기 위한 오픈소스 플랫폼입니다. 저는 보통 RAG 파이프라인을 구성한후 추적을 하는 용도로 Langsmith를 많이 사용했는데, opik에서 좀 더 직관적인 ui와 LLM 성능을 자동으로 평가하는 기능도 제공한다고해서 사용해보게 되었습니다.  로그인하고 볼 수 있는 메인 화면인데 상당히 깔끔한 구조입니다.  하단의 Quickstart guide를 보면 사용하는 프레임워크별로 LLM을 추적할 수 있게끔 샘플 코드가 작성되어있습니다. from langchain_openai import ChatOpenAIfrom common..

LLMops 2025.03.12