산림청(임산물 생산조사), 농림축산식품부(재배면적 및 농가 현황), 기상청(월간 기후 데이터) 등 다기관으로 분산된 데이터를 확보
데이터 간 일관성과 시간축 통일을 위해 연도별-지역별-품목별 기준으로 병합 구조를 설계
시계열 불균형 문제는 지역별 혹은 특정 품목의 데이터가 단기간만 존재하거나, 누락된 기간이 존재하는 경우 발생
이를 해결하기 위해표준 기준선(예: 전국 평균 생산량 비율)을 적용하고, 보간 알고리즘(선형 보간, 시계열 기반 KNN 등)을 활용하여 결측 데이터 보완
API 자동 수집 체계 구축
데이터 수집의 반복성과 정기성을 고려하여, Representational State Transfer API(REST API) 기반 수집 로직을 구축하고 Airflow를 이용한 파이프라인을 운영
단발성 수집이 아닌, 주기적인 데이터 갱신을 위한 스케줄링 설계
2단계: 다변량 기반 예측 모형 설계
모형 구성 전략
단순 시계열 모델(AutoRegressive Integrated Moving Average, ARIMA / Seasonal ARIMA, SARIMA)과 비선형 및 다변수 처리를 위한 Long Short-Term Memory(LSTM), Gated Recurrent Unit(GRU) 등의 딥러닝 기반 모델을 병렬적으로 설계. 단변량 모델은 해석 중심의 정책 모델에, 딥러닝 모델은 정밀 예측에 특화
데이터 차원의 과다 문제는 모델 복잡도를 증가시켜 과적합을 유발할 수 있으며, 이를 해결하기 위해 정규화 및 중요도 기반 필터링 전략을 적용
모델 튜닝 과정에서는 Bayesian Optimization 등 자동 하이퍼파라미터 최적화 기법을 적용하여 예측 성능을 극대화
변수 조합 예시
입력 변수: 월, 품목, 지역, 경작면적, 재배 방식, 농가 수, 평균기온, 강수량, 일조시간, 전월 생산량 등
이들 변수 간 상관관계를 분석하고, 유사한 변수 간 중복을 방지하며 예측력을 높이기 위해 Shapley Additive Explanations(SHAP), 피어슨 상관계수, PCA 기반 차원 축소 기법을 적용
3단계: 예측 시각화 대시보드 구현
Streamlit 기반 인터페이스 설계
모델의 예측 결과를 실시간으로 시각화할 수 있도록, Streamlit으로 구축된 웹 기반 대시보드를 설계. 대시보드는 다음과 같은 기능을 포함
필터 패널: 품목, 지역, 기간 선택
시계열 그래프: 실제 생산량 vs 예측값
모델 비교 테이블: RMSE, MAE, MAPE 지표 비교
지도 시각화: 지역별 생산량 차이 확인 (Folium or Pydeck 활용)
예측 결과 해석이 어려운 경우를 대비해 책 입안자를 위한 해설 문구, 설명용 텍스트, 변수별 영향 시각화 그래프(SHAP Plot 등)을 함께 제공
나아가, 결과 요약 리포트를 PDF 또는 Excel로 자동 출력할 수 있도록 연계하여 실무 활용도를 높임