-
Dify.ai(dify.ai)의 데이터셋 ETL(Extract, Transform, Load) 처리를 하는 방법AI 2025. 4. 16. 12:02
Dify.ai(dify.ai)의 데이터셋 ETL(Extract, Transform, Load) 처리를 하는 방법을 단계별로 정리하면 다음과 같습니다.
1. Dify 접속 및 로그인
- www.dify.ai에 접속해 회원가입 또는 로그인을 진행합니다.
- 오픈소스 버전은 직접 배포하거나, SaaS(클라우드) 버전은 웹에서 바로 사용할 수 있습니다
2. 데이터셋(지식베이스) 생성
- 대시보드에서 "Knowledge" 또는 "지식베이스" 메뉴로 이동합니다.
- "Create Knowledge" 버튼을 클릭해 새 데이터셋을 만듭니다
3. 데이터 업로드
- 로컬 파일(txt, pdf, docx, xlsx, csv 등) 또는 온라인 데이터(예: Notion 연동)를 선택해 업로드합니다.
- SaaS 버전은 Unstructured ETL, 커뮤니티 버전은 Dify ETL이 기본 적용됩니다. 각 ETL은 지원하는 파일 포맷에 차이가 있습니다(아래 표 참고)
ETL 종류지원 파일 포맷 예시Dify ETL txt, markdown, pdf, html, xlsx, xls, docx, csv Unstructured ETL 위 모든 포맷 + eml, msg, pptx, ppt, xml, epub 등 4. 데이터 전처리(추출·분할·정제)
- 업로드한 문서는 "청크(chunk)" 단위로 분할됩니다. 이때 분할 방식(청크 크기, 중첩 등)을 설정할 수 있습니다.
- 예: 줄바꿈(\n) 기준, 최대 글자수, 중첩 길이(10~25%) 등
- 불필요한 공백, 특수문자, URL, 이메일 등은 자동으로 제거(클린징)됩니다
- 분할 및 정제 설정은 자동 모드(간편) 또는 커스텀 모드(세부 설정)로 선택할 수 있습니다.
5. 임베딩(Embedding) 및 인덱싱
- 분할된 청크는 임베딩 모델을 통해 벡터로 변환되어 인덱싱됩니다.
- 이 과정이 완료되면, 데이터셋이 검색·질의에 활용될 준비가 됩니다
6. 데이터셋 연결 및 활용
- 완성된 데이터셋(지식베이스)을 원하는 AI 앱(예: 챗봇)에 연결합니다.
- 앱에서 데이터셋을 기반으로 Q&A, 검색, 요약 등 다양한 LLM 기능을 구현할 수 있습니다
7. 추가 관리 및 수정
- 필요시 데이터셋을 추가로 업로드, 수정, 삭제하거나 메타데이터를 관리할 수 있습니다.
- 데이터셋의 인덱싱 방식, 검색 설정 등도 변경 가능합니다
이 과정을 통해 다양한 비정형/반정형 데이터를 Dify.ai의 LLM 기반 AI 서비스에 손쉽게 활용할 수 있습니다
솔루션 문의, (주)코세나 이승훈 실장, 010-9338-6400, admin@kosena.kr
'AI' 카테고리의 다른 글
Dify.ai에서 에이전트 워크플로우 처리 방식 (0) 2025.04.16 Dify.ai에서 RAG 파이프라인 처리 방식 (1) 2025.04.16 생성형 AI 구축 플랫폼, Dify.ai의 활용 사례 (1) 2025.04.16 온프레미스 생성형 AI 구축 플랫폼, dify.ai 4월 웨비나 안내의 건 (1) 2025.04.03 2025년 3월 생성형AI 트렌드와 자료를 공유하고자 합니다. (0) 2025.03.22