반응형

LLMops 4

[LLM evaluation] LLM 모델 자체 평가

평소 LLM 애플리케이션을 개발하였지만, 의도대로 답변인 나오는지를 눈대중으로만 확인하다가 신뢰성 확보 및 객관적인 지표를 통한 성능 고도화를 위해 LLM의 성능을 평가해야겠다는 생각이 들었고, 이에 LLM의 성능 평가에 대한 내용을 정리해보고자 합니다.1. LLM 평가 배경LLM평가는 모델 자체의 전반적인 성능을 객관적으로 측정하고, 이를 통해 실제 환경에서의 효용성을 예측하는 데 초점을 둡니다. 신뢰할 수 있는 평가 체계를 갖추는 것은 LLM 개발과 응용에서 필수적인 과정입니다. 이러한 LLM 평가는 크게 모델 자체를 평가하는 것과 LLM 애플리케이션을 평가하는 두 가지로 구분됩니다. 이번 글에서는 모델 자체 평가에 대해 다뤄보도록 하겠습니다. 1) LLM 평가의 주요 접근법LLM 평가는 크게 세 가..

LLMops 2025.04.07

[LLM 서빙] vLLM vs sglang

대규모 언어 모델의 효율적인 서빙을 위해서는 메모리 관리와 병렬 처리 같은 최적화 기술이 필수적입니다. LLM 서빙이란 동일한 연산을 수행하면서도 성능 하락 없이 추론 능력을 향상시키는 방안을 통해 모델 서빙을 수행하는 것을 말합니다. 다양한 프레임워크들이 개발되었지만, 현재 가장 널리 사용되고 자주 언급되는 vLLM과 SGLang에 대해 간단히 설명하고 비교해보는 시간을 가지겠습니다. 1. vLLMvLLM은 LLM 추론 및 제공을 위한 빠르고 사용하기 쉬운 라이브러리입니다. UC 버클리의 스카이 컴퓨팅 랩에서 개발되었으며, 학계와 산업계의 기여를 통해 커뮤니티 중심 프로젝트로 발전했습니다.  주요 기능1) 고성능 서빙PagedAttention 기술을 사용한 메모리 관리와 처리 성능 극대화대기중인 요청 ..

LLMops 2025.04.04

[LLMops] Opik으로 LLM 평가하기

이전 포스팅에서 소개한 Opik 프레임워크를 활용하여 실제 LLM 응답을 평가하는 방법에 대해 알아보겠습니다. Opik은 다양한 메트릭을 통해 LLM 출력물의 품질을 체계적으로 평가할 수 있는 프레임워크를 제공합니다. 1. Opik 평가의 주요 구성 요소Opik에서 평가를 진행하기 위해서는 다음 세 가지 핵심 구성요소가 필요합니다: 1) 데이터 세트- LLM 응용 프로그램에 대한 입력과 선택적으로 예상 출력을 나타내는 샘플의 컬렉션- 각 샘플에 대한 입력 및 예상 출력만 저장하며, LLM 지원서의 출력은 평가 프로세스 중에 계산되고 점수가 매겨집니다.2) 평가 과제- 데이터 세트에 저장된 입력을 점수를 매기고 싶은 출력에 매핑합니다. 평가 과제는 일반적으로 프롬프트 템플릿 또는 빌드 중인 LLM 애플리케..

LLMops 2025.03.28

[LLMops] 오픈소스 LLM 평가 프레임워크 opik

오늘은 오픈소스로 제공되는 LLM 평가 프레임워크인 opik을 처음 접하게 되어 간단한 설명과 활용방법에 대해 얘기해보겠습니다. opik은 LLM 애플리케이션을 평가, 테스트 및 모니터링하기 위한 오픈소스 플랫폼입니다. 저는 보통 RAG 파이프라인을 구성한후 추적을 하는 용도로 Langsmith를 많이 사용했는데, opik에서 좀 더 직관적인 ui와 LLM 성능을 자동으로 평가하는 기능도 제공한다고해서 사용해보게 되었습니다.  로그인하고 볼 수 있는 메인 화면인데 상당히 깔끔한 구조입니다.  하단의 Quickstart guide를 보면 사용하는 프레임워크별로 LLM을 추적할 수 있게끔 샘플 코드가 작성되어있습니다. from langchain_openai import ChatOpenAIfrom common..

LLMops 2025.03.12
728x90
반응형