OpenAI API를 이용한 개발과 실험에서 일관되고 재현 가능한 결과를 도출하기 위해서는 테스트에 사용할 수 있는 샘플 데이터셋이 필요합니다. 이 부록에서는 본 도서의 주요 예제 및 실습에 활용할 수 있는 다섯 가지 범주의 샘플 데이터셋을 설명하고 제공합니다. 각 데이터셋은 JSON, CSV 또는 텍스트 형식으로 제공되며, 실제 엔터프라이즈 환경 또는 서비스 모듈을 모델링할 수 있도록 구성되어 있습니다.
데이터는 책의 GitHub 저장소에서 다운로드하여 사용할 수 있습니다:
https://github.com/your-name/openai-api-book-resources
C.1 문서 요약 및 임베딩 실습용 데이터셋
문서 요약, 임베딩(Embedding), 검색 시스템 구축 실습 등에서 사용할 수 있는 실제 기업 문서와 뉴스 기사 기반의 데이터셋입니다.
파일명: documents_corpus.jsonl
형식: JSON Lines
필드 구조:
id (문서 고유 식별자)
title (문서 제목)
content (전체 텍스트 내용)
category (분류: HR, Tech, Legal, Sales 등)
예시:
{"id":"doc_001","title":"사내 보안 정책 변경 안내","content":"모든 임직원은 이번 달부터 2단계 인증을 필수로 설정해야 합니다...","category":"IT 정책"}
활용 예:
Embedding API로 벡터화 후 FAISS 인덱싱
ChatGPT를 이용한 문서 요약
사용자 질문과 관련된 문서 검색 (RAG)
C.2 대화 프롬프트 테스트용 Chat 로그 샘플
Chat Completions API 및 Assistant API 실습에 사용할 수 있는 실제 채팅 패턴 기반의 데이터셋입니다. 고객지원, 상담, 안내 챗봇을 모방한 대화 시나리오로 구성되어 있습니다.
ko_text,en_text
"오늘 서울은 맑겠지만 오후부터는 흐려지겠습니다.","Today, Seoul will be clear, but it will become cloudy in the afternoon."
"회사 내부 지침이 내일부터 변경됩니다.","The company's internal policy will be revised starting tomorrow."
{
"user_input": "이번 주말 서울 날씨 알려줘",
"function_name": "get_weather",
"parameters_schema": {
"location": "Seoul",
"date": "2024-06-15"
}
}