<- 2주차 허브로 돌아가기
KITECH 2주차 — 데이터 확보

데이터 확보 체크리스트

좁힌 태스크 옆에 두고 4단계 진행

팀(소속)

4단계 점검

1. 식별필요한 자료 이름과 보관 위치를 적습니다.
2. 수집엑셀, PDF, HWPX, 메일, 웹페이지 중 무엇인지 확인합니다.
3. 변환CSV, TXT, MD처럼 처리하기 쉬운 형태로 바꿀 수 있는지 봅니다.
4. 정리컬럼명, 파일명, 샘플 범위, 민감정보 제거 기준을 정합니다.

작성 예시

문제 좁히기에서 정한 첫 스킬을 실제로 실행하기 위한 자료 점검 예시입니다.

정답 사례 · 뉴스 선별 자료
처음부터 전체 데이터셋을 만들지 않고, 검증 가능한 샘플만 고릅니다
1. 식별오늘 오전 기관명·R&D 예산·출연연 키워드로 검색된 뉴스 URL 20개
2. 수집URL, 매체명, 제목, 본문 일부, 발행일을 스프레드시트로 정리
3. 변환엑셀 원본은 보관하고, 테스트용으로 CSV 20행을 별도 저장
4. 정리중복 기사 제거, 출처 불명 URL 제외, 정치 쟁점 기사는 "보류" 컬럼으로 표시
정답 사례 · HWPX 회의록 자료
문서 포맷은 본문 처리와 최종 서식 반영을 분리해서 봅니다
필요 자료회의록 HWPX 원본 1개, 회의 녹취 요약 텍스트 1개, 기존 회의록 양식
첫 테스트HWPX 전체 자동화가 아니라 제목·안건·결정사항 부분만 텍스트로 추출
포맷 제약서식 보존은 별도 검토. 첫 실습에서는 MD 초안까지를 성공 기준으로 둠
민감정보실명, 전화번호, 외부기관 연락처는 샘플에서 비식별 처리

파일 포맷 체크

자료 유형먼저 확인할 것권장 첫 테스트
엑셀컬럼명, 병합셀, 빈 행샘플 20행 CSV로 저장
PDF텍스트 추출 가능 여부첫 2페이지 복사 테스트
HWPX본문과 표 추출, 서식 재반영텍스트 추출 후 MD 변환
웹/뉴스출처, 날짜, 중복 기사URL 목록 10개로 시작

점검 프롬프트

아래 문제정의에 필요한 데이터를 점검해줘.

문제정의:
필요하다고 생각하는 자료:
현재 가지고 있는 파일:
파일 포맷:
민감정보 포함 여부:

1. 바로 쓸 수 있는 자료
2. 변환이 필요한 자료
3. 추가로 확인해야 할 자료
4. 오늘 첫 테스트에 쓸 최소 샘플
로 나눠서 정리해줘.