ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Dify.ai(dify.ai)의 데이터셋 ETL(Extract, Transform, Load) 처리를 하는 방법
    AI 2025. 4. 16. 12:02

    Dify.ai(dify.ai)의 데이터셋 ETL(Extract, Transform, Load) 처리를 하는 방법을 단계별로 정리하면 다음과 같습니다.

    1. Dify 접속 및 로그인

    • www.dify.ai에 접속해 회원가입 또는 로그인을 진행합니다.
    • 오픈소스 버전은 직접 배포하거나, SaaS(클라우드) 버전은 웹에서 바로 사용할 수 있습니다

    2. 데이터셋(지식베이스) 생성

    • 대시보드에서 "Knowledge" 또는 "지식베이스" 메뉴로 이동합니다.
    • "Create Knowledge" 버튼을 클릭해 새 데이터셋을 만듭니다

    3. 데이터 업로드

    • 로컬 파일(txt, pdf, docx, xlsx, csv 등) 또는 온라인 데이터(예: Notion 연동)를 선택해 업로드합니다.
    • SaaS 버전은 Unstructured ETL, 커뮤니티 버전은 Dify ETL이 기본 적용됩니다. 각 ETL은 지원하는 파일 포맷에 차이가 있습니다(아래 표 참고)
    ETL 종류지원 파일 포맷 예시
    Dify ETL txt, markdown, pdf, html, xlsx, xls, docx, csv
    Unstructured ETL 위 모든 포맷 + eml, msg, pptx, ppt, xml, epub 등
     

    4. 데이터 전처리(추출·분할·정제)

    • 업로드한 문서는 "청크(chunk)" 단위로 분할됩니다. 이때 분할 방식(청크 크기, 중첩 등)을 설정할 수 있습니다.
      • 예: 줄바꿈(\n) 기준, 최대 글자수, 중첩 길이(10~25%) 등
    • 불필요한 공백, 특수문자, URL, 이메일 등은 자동으로 제거(클린징)됩니다
    • 분할 및 정제 설정은 자동 모드(간편) 또는 커스텀 모드(세부 설정)로 선택할 수 있습니다.

    5. 임베딩(Embedding) 및 인덱싱

    • 분할된 청크는 임베딩 모델을 통해 벡터로 변환되어 인덱싱됩니다.
    • 이 과정이 완료되면, 데이터셋이 검색·질의에 활용될 준비가 됩니다

    6. 데이터셋 연결 및 활용

    • 완성된 데이터셋(지식베이스)을 원하는 AI 앱(예: 챗봇)에 연결합니다.
    • 앱에서 데이터셋을 기반으로 Q&A, 검색, 요약 등 다양한 LLM 기능을 구현할 수 있습니다

    7. 추가 관리 및 수정

    • 필요시 데이터셋을 추가로 업로드, 수정, 삭제하거나 메타데이터를 관리할 수 있습니다.
    • 데이터셋의 인덱싱 방식, 검색 설정 등도 변경 가능합니다

    이 과정을 통해 다양한 비정형/반정형 데이터를 Dify.ai의 LLM 기반 AI 서비스에 손쉽게 활용할 수 있습니다

     

    솔루션 문의, (주)코세나 이승훈 실장, 010-9338-6400, admin@kosena.kr

Designed by Tistory.