LLM Engineering/Data Preprocessing 2

[정규표현식] 데이터 전처리를 위한 정규표현식

데이터를 파싱하고 정제하는 과정에서 정규표현식을 통해 원하는 내용의 값들만 추출하고, 변경하는 작업을 할 수 있습니다. 파이썬의 re 모듈을 활용한 정규표현식의 개념과 사용 예제에 대해 간략하게 살펴보겠습니다. 1. 정규표현식의 기초 : 패턴을 만드는 규칙정규표현식은 특정 규칙을 가진 문자열의 집합을 표현하는 데 사용됩니다. 몇 가지 기본 특수 문자(패턴)만 알면 금방 익숙해질 수 있습니다. . (마침표): 줄바꿈 문자(\n)를 제외한 모든 문자와 매치됩니다.\d: 숫자를 의미합니다. [0-9]와 같습니다.\s: 공백 문자(스페이스, 탭, 줄바꿈 등)를 의미합니다.\w: 알파벳, 숫자, 언더스코어(_)를 포함하는 문자입니다. [a-zA-Z0-9_]와 같습니다.* (애스터리스크): 바로 앞의 문자가 0번 ..

[DataFrame] 전처리를 위한 DataFrame 함수들

데이터 전처리과정에서 DataFrame을 많이 다루게 돼서 이참에 기본적이고 핵심적인 함수들을 한번 정리하고 가보도록 하겠습니다. 예제 데이터 준비하기import pandas as pdimport numpy as np# 예제용 샘플 데이터프레임df = pd.DataFrame({ '제품명': ['A-1', 'B-1', 'A-1', 'C-1', 'B-2', 'D-1'], '카테고리': ['가전', '가구', '가전', '가전', '가구', '주방'], '가격': [100, 150, 100, 120, 180, np.nan], '태그': [['신상', '인기'], '할인', ['신상', '인기'], '추천', '할인', np.nan]}, index=['p1', 'p2', 'p3', 'p4'..

반응형