서 론
기후변화는 농업시스템 전반에 걸쳐 영향을 미치고 있 으며, 국내외에서는 기후변화가 농업에 미치는 영향을 평 가하기 위해 모형 개발 및 시뮬레이션 연구들이 활발히 이 루어지고 있다 (Hatfield et al. 2020). GIS 기반 공간모델링 은 가장 흔히 활용되는 모델링 기법으로, 작물수량 변동, 해충 분포 변화, 농경지 온실가스배출량 변화 예측 등 농 업시스템을 구성하는 구성성분들에 대한 기후변화의 시 공간적 영향예측 및 평가에 활용되고 있다 (Moore et al. 2017;Tonnang et al. 2017;Zhang et al. 2020). 기후변화 공 간모델링은 일반적으로 대량의 자료를 필요로 한다. 높 은 해상도의 시공간적 자료의 이용은 공간예측모형의 예 측 범위와 수준을 넓히고, 모형의 예측 정확도 및 정밀도 를 향상시킬 수 있으며, 고성능 모형 개발을 가능하게 한 다 (Folberth et al. 2012). 하지만, 고해상도 자료 기반 공간 모델링은 모형의 시뮬레이션 또는 구축 과정에서 많은 계 산 시간과 자원이 소요된다는 문제가 있다 (Hijmans et al. 2005). 특히, 전지구적 또는 지역적 범위의 기후변화 영향 공간모델링의 경우, 이러한 이유로 인해 고해상도 자료의 활용이 극히 제한적인 실정이다.
기후변화 영향 모델링 시 공간정보의 효과적인 활용을 위해서 공간샘플링 (Spatial sampling) 기술이 사용될 수 있 다. 공간샘플링이란 공간자료에서 모집단의 특성치를 대 변하는 표본을 추출하는 일로, 샘플링 기법의 한 영역이 다 (Wang et al. 2012). 공간샘플링은 공간모델링 연구에 활 용되어 샘플링의 비용을 감소시키고 모형의 효율성을 향 상시키는 역할을 할 수 있다. 최근 GIS 기술의 발전 및 빅 데이터 시대의 도래와 함께 고해상도의 시공간적 자료의 축적이 급격히 증가하고 있으며, 이에 대한 연구적 수요 와 활용 또한 증가하고 있는 추세이다 (Metzger et al. 2013;Goyal et al. 2017). 이에 따라 고해상도 자료 이용의 비용 및 시간 문제 극복 측면에서 공간샘플링 기법의 중요성과 필요성이 강조되고 있다 (Wang et al. 2012).
샘플링 기법으로는 일반적으로 랜덤샘플링, 규칙샘플 링, 층화샘플링 등이 있으며, 공간샘플링에서는 층화랜덤 샘플링 (Stratified random sampling)이 가장 흔히 사용되 고 있다. 층화랜덤샘플링이란 자료를 계층화하고 각 계층 에서 일정 수의 샘플을 랜덤샘플링하는 기법으로 공간자 기상관성을 가지는 공간자료의 경우 랜덤샘플링에 비해 샘플링의 정확도와 효율성을 향상시킬 수 있다 (Aoyama 1954). 이외에도 다양한 공간샘플링 기법들이 연구되어 왔으며, 예측대상 또는 연구목적에 따른 적절한 공간샘플 링의 설계는 공간예측모형의 효율성을 제고하고 성능을 향상시킬 수 있다 (Stein and Ettema 2003). 한편, 공간샘플 링의 샘플 수는 샘플링의 시간과 비용에 중요한 영향을 미 친다. 최적의 샘플 수 결정은 공간샘플링의 비용 효율을 극대화시킬 수 있으며 뿐만 아니라 모형의 성능을 개선시 키는 데에도 역할을 한다는 점에서 공간샘플링 영역에서 중요시되고 있다 (Gonzalez and Eltinge 2010). 공간샘플링 은 수학의 통계적 기법의 영역을 넘어 현재 여러 학문분 야에서 다양한 목적으로 활용되고 있다 (Wang et al. 2012;Metzger et al. 2013). 농업분야에서는 기후변화에 따른 작 물수량 예측을 위한 농지 계층화, 온실가스 메타모형 구축 등을 목적으로 기후변화 공간모델링 연구 시 공간샘플링 기법이 일부 활용된 바 있다 (McCallion 1992;Perlman et al. 2014;Bussel et al. 2016;Zhao et al. 2016). 국내에서 공간 샘플링 기법을 공간모델링 연구에 활용한 사례는 현재까 지 알려지지 않았다. 공간적 계층화와 관련하여 공간적 기 상자료에 대한 클러스터 분석 연구가 일부 수행된 바 있지 만, 이는 공간적 기상자료에 대한 일차적인 분석에 그치며 기후변화 공간모델링 연구를 위한 공간샘플링 연구로 확 장되지는 않고 있는 실정이다 ( Joo et al. 2009;Yeo 2011).
국내 기상청에서는 다양한 공간해상도 (135 km, 12.5 km, 1 km)의 미래 기후 전망자료를 배포하고 있다. 특히, 1 km 해상도 남한상세 기후전망자료는 파편화된 국내 농지의 특성을 고려하였을 때 농업분야 공간모델링 연구에 활용 되기에 적절한 자료라고 할 수 있다. 기초자료제공 측면에 서 국내 농업시스템 공간모델링 연구분야는 기후변화 연 구의 우수한 연구기반을 갖추고 있다고 할 수 있다. 하지 만, 실제 고해상도 공간자료 활용 시 발생하는 시뮬레이션 시간 소요 및 비용 문제로 인해 이러한 자료들에 대한 적 극적인 활용은 어려운 실정이다. 따라서, 국내의 농업분야 기후변화 공간모델링 연구 활성화 및 고해상도 공간자료 의 효과적인 활용을 위해서는 농업시스템 공간샘플링 연 구가 선행될 필요가 있다.
본 연구는 국내 농지 모집단의 공간샘플링 연구를 통해 농업분야 기후변화연구의 공간자료 활용의 효율성을 제 고하고자 하였다. 이에 따라, 본 연구는 국내 농지를 기상 및 토양 특성에 따라 계층화하였으며, 층화랜덤샘플링을 기반으로 공간샘플링의 비용 효율을 극대화하기 위해 최 적 층화 및 샘플 배정 및 샘플 수 최적화를 수행하였다.
재료 및 방법
1. 공간샘플링 설계 및 공간자료 수집
기상 및 토양인자들은 농업의 결과물 (e.g., 작물수량, 농 지 온실가스 배출)에 영향을 미치는 주요 영향인자들이 다. 유사한 기상 및 토양 특성을 가지는 농지 공간격자들 에서는 유사한 농업의 결과물들이 산출될 것으로 기대할 수 있다. 이에 따라, 국내 농지를 기상 및 토양 특성에 따라 계층화하고 농업의 결과물에 대한 예측이 가능하도록 공 간샘플링을 설계하였다.
1 km 공간해상도의 국내 농지 모집단 공간격자자료에 대해, 층화랜덤샘플링을 기반으로 하는 공간샘플링을 설 계하였다. 국내 농지는 1 km 공간해상도 수준에서 11,386 개 격자 (내륙지역)로 이루어졌다. 단, 제주, 울릉, 독도를 포함한 도서지역들은 1 km 공간해상도 수준에서 농지를 포함하지 않으므로 본 연구에서 제외되었다. 기초 공간자 료로서 1 km 해상도의 기상 (최고기온, 최저기온, 평균기 온, 강수량, 일사량), 토양 (토양유기물, 토양산성도, 용적밀 도, 점토함량), 및 농업의 결과물 자료 (i.e., 작물 (작물수량, 필요관개용수량, 증발산량), 농지 온실가스 배출 (CO2 배 출량, CH4 배출량, N2O 배출량), 해충 (벼멸구 (p01), 애멸 구 (p02), 이화명나방 (p03), 배줄기굴파리 (p04), 혹명나방 (p05)의 분포확률 및 발생 세대 수))를 수집하였다 (Table 1). 기상자료는 기상청에서 제공하는 RCP (Representative Concentration Pathways, 대표농도경로) 시나리오 1 km 해 상도 남한상세 자료 (2026~2035/2046~2055/2076~2085 년)를 활용하였으며, 본 연구에서는 온실가스 저감정책이 상당히 실현되는 RCP 4.5 및 현재 추세대로 온실가스가 배출되는 RCP 8.5 자료를 활용하였다 (data from Web site of the Korea Meteorological Administration, http://www. climate.go.kr/). 일사량의 경우, 12.5 km 한반도 자료를 이 중선형보간법을 통해 1 km 자료로 변환하여 사용하였으 며, 전체 기상자료들은 작물생육시기별 자료로 재구성하 여 사용하였다 (Table 1). 토양자료는 농촌진흥청 “흙토람” 에서 제공하는 토양통 자료를 받아 1 km 격자형 자료로 변 환하여 사용하였다 (data from Web site of the Korean Soil Information System, http://soil.rda.go.kr/) (Table 1). 농업 의 결과물 자료들은 수집된 기상 및 토양자료를 기반으 로 작물생산성 모형 (DSSAT; Decision Support System for Agrotechnology Transfer), 토양 온실가스 모형 (DNDC; Denitrification and Decomposition), 해충 모형 (MaxEnt; Maximum Entropy model)을 구동하여 얻은 모형 예측 결 과 자료를 활용하였다 (Table 2).
기후변화는 장기적 현상으로 기후변화 하에서의 기상 및 토양 특성에 따른 농지 특성화 역시 장기적으로 형성 되는 특성으로 볼 수 있다. 이에 따라, 농지 특성화는 매년 시시각각 변하지 않고 수십 년 단위 (또는 연대 수준)에서 장기적으로 변화하는 것으로 가정하였으며, 2030, 2050, 2080년대에 대한 연대별 공간샘플링을 설계하였다. 기후 시나리오별로 각 연대의 기상 및 토양 특성에 따른 농지 계층화 및 샘플 수 최적화를 수행하였으며, 연대 자료는 Bussel et al. (2016)의 방식과 유사하게 각 연대의 10년 자 료 (2026~2035/2046~2055/2076~2085년)를 평균하여 사용하였다.
2. 최적 층화 및 샘플 배정 및 샘플 수 최적화
층화랜덤샘플링의 최적 층화 및 샘플 배정 최적화는 목 표 변수들에 대한 주어진 정밀도 제한 내에서 샘플링 비 용을 최소화하는 방향으로 진행된다 (Ballin and Barcaroli 2013). 층화 변수로는 총 29가지 기상 및 토양인자들이 사 용되었으며 (Table 1), 목표 변수로는 총 16가지 농업 결과 물 인자들이 사용되었다 (Table 2).
초기 계층에서 시작하여 최적화의 각 단계별로 층화랜 덤샘플링을 수행하여 총 분산 (Eq. 1)과 샘플링 비용 (Eq. 2)을 계산한다. 계층화의 초기값 (단위 격자들이 속하는 초기 계층)은 층화 변수들에 대한 K-means 클러스터링을 수행하여 결정하였다.
h는 계층 (h=1, ..., H), g는 목표 변수, Nh, S2hg, nh는 각각 각 계층에서의 모집단, 분산, 샘플링 수를 나타낸다.
h는 계층 (h=1, ..., H), C0는 고정상수, nh는 각 계층에서의 샘플링 수, Ch는 샘플당 인터뷰 비용을 나타낸다.
최적화 과정은 유전적 알고리즘 (genetic algorithm)에 따라 다음 세대의 적합도 (fitness)를 높여가는 방향, 즉, 목 적 함수 (objective function)인 샘플링 비용 (sampling cost; Eq. 2)을 최소화하는 방향으로 진행되었다 (Schmitt 2001;Ballin and Barcaroli 2013) (Eq. 3). 최적화가 진행되는 동 안 각 반복 (iteration)단계에서 각 개체 (individual) (i.e., stratification)의 적합도를 계산하며, 적합도가 높은 (샘플 링 비용이 낮은) 유전체 (genome) (i.e., atomic strata)는 다 음 세대에 전달, 적합도가 낮은 유전체는 교배 (Crossover), 돌연변이 (Mutation) 과정을 거쳐 다음 세대에 전달되었 다. 목표 변수별로 기대되는 샘플링 분산의 상한선 (샘플 링 정밀도 제한)을 설정한 후, 베델 알고리즘 (Bethel 1989) 에 따라 층화된 농지에 대해 샘플링의 비용을 최소로 하는 최적 샘플 배정을 구해 나간다 (Eq. 3). 이때, 기대되는 샘 플링 분산의 상한선 설정은 목표 변수들의 척도에 의존하 지 않도록 변동계수를 기반으로 한다.
h는 계층 (h=1, ..., H), C0는 고정상수, nh는 각 계층에서의 샘플링 수, Ch는 샘플당 인터뷰 비용, G는 목표 변수, UG는 샘플링의 정밀도 제한, CV (Coefficient of variation)는 변동 계수를 나타낸다.
본 연구에서는 모든 목표 변수들에 대해서 정밀도 제한 은 변동계수 0.05 수준으로 설정하였다.
3. 공간샘플링 평가
공간샘플링의 정밀도와 정확도는 각각 변동계수와 상 대적 편향 (Relative bias=(distribution mean- true value)/ true value)을 기반으로 평가되었다 (Ballin and Barcaroli 2013). 평가를 위해 기후시나리오별, 연대별 최적 층화 및 샘플 배정 최적화 결과에 대해 100번, 10번의 두 가지 층 화랜덤샘플링 시뮬레이션을 수행하였으며, 각각에 대해 평가를 수행하였다. 전체 목표변수들에 대해 기후시나리 오별, 연대별로 변동계수와 상대적 편향을 계산하였으며 (Tables S1~4), 기후시나리오별로 각 연대의 평가값을 평 균내어 정밀도 (상대적 편향의 절대값의 평균값을 사용) 와 정확도를 평가하였다. 본 연구의 전체 과정은 R version 3.5.3 (R Core Team 2018) 및 RStudio version 1.4.1717 (RStudio Team 2021)를 이용하여 이루어졌다.
결과 및 고찰
국내 농지 공간격자 모집단 (11,386개 격자)에 대한 기 후시나리오 및 연대별 계층화 및 샘플 배정 및 샘플 수 최 적화 결과, 전체 농지는 평균적으로 약 10개 계층 (범위: 5~21), 59개 샘플 (범위: 46~69) 수준에서 최적화되었다 (Table 3, Figs. 1, 2).
계층 수는 RCP 8.5 시나리오 (연대 평균 약 13계층)에서 가 RCP 4.5 시나리오 (연대 평균 약 6계층)에서보다 약 2 배 정도 더 많았다 (Table 3, Fig. 1a, d, and g, and Fig. 2a, d, and g). 많은 수의 계층은 농지 특성 구분의 세분화를 의미 하며, 계층화 결과들은 RCP 8.5 시나리오에서 국내 농지가 RCP 4.5 시나리오에서보다 기후 및 토양 특성에 따른 구 분이 더 세분화되는 경향이 있음을 보여주었다. 시간에 따 라서는 2080년대로 갈수록 RCP 8.5 시나리오에서는 계층 수가 증가, RCP 4.5 시나리오에서는 계층 수가 감소하는 경향이 있었다 (Table 3, Fig. 1a, d, and g, and Fig. 2a, d, and g).
온실가스 배출이 현재 추세대로 진행될 경우 국내 농지 특성화는 더 다양해질 것으로 예상되며, 온실가스 저감정 책이 상당히 실현될 경우 반대로 농지 특성화가 더 단순화 될 것으로 예상된다. 본 연구에서는 시간에 따라 토양 조 건은 일정하게 유지되는 것으로 가정하였다. 따라서, 시간 에 따른 계층 수 변화는 기후인자들의 영향으로 해석될 수 있다. 계층 수 증가는 기상인자들이 더 넓은 범위를 갖게 되거나 패턴이 다양해지면서 나타날 수 있다 (Ballin and Barcaroli 2013). 본 연구에서 계층 수 증가는 내륙 지방의 계층 세분화에 의해 일어났으며, 경기 및 강원 북부 지역의 계층화는 비교적 일정하게 유지되는 경향이 있었다 (Fig. 2a, d, and g). 이에 따라, RCP 8.5 시나리오에서 시간에 따 라 농지 계층화가 세분화되는 현상은 내륙 지방의 기후인 자들의 범위 확대 및 패턴 다양화에 따른 영향으로 해석될 수 있다. 추후 연구들에서는 각 계층의 기상 및 토양 특성 에 대한 추가 분석을 수행함으로써 계층 세분화에 영향을 준 주요 특성 인자들이 무엇인지를 파악할 필요가 있다.
샘플 배정 및 샘플 수 최적화 결과, 국내 농지에 대한 공 간샘플링은 모집단 (11,386개 격자)의 0.6% 이하 샘플 수 (46~69개) 수준에서 최적화되었다 (Table 1, Fig. 1c, f, and i, and Fig. 2c, f, and i). 공간샘플링의 정밀도 및 정확도는 각각 100번, 10번의 층화랜덤샘플링을 수행하여 평가하 였으며 (Fig. 3, Tables S1~4), 정밀도 평가 결과 작물수량 을 제외한 전체 목표변수들은 정밀도 제한 범위 (변동계수 0.05) 내의 값을 가졌다 (Fig. 3a, c, Tables S1, 3). 또한, 100 번 및 10번의 샘플링을 기반으로 한 각각의 평가결과는 서로 유사한 경향을 보여주었다 (Fig. 3a, c). 이는 10번 정 도의 낮은 횟수 샘플링에 대해서도 100번 샘플링한 것과 유사하게 충분히 높은 정밀도를 가질 수 있음을 나타낸다. 전체 목표변수들에 대한 샘플링의 정확도 평가 결과, 상대 적 편향은 100번 및 10번의 샘플링에 대해 각각 약 0.004 (0.4%), 0.03 (3%) 이하의 값들을 가졌다 (Fig. 3b, d, Tables S2, 4). 정밀도와 달리 정확도는 100번 정도의 높은 횟수의 샘플링 시 낮은 횟수 샘플링에 비해 약 10배 정도 더 높은 정확도를 가질 수 있는 것을 확인할 수 있었다. 한편, 10번 의 샘플링에서 대부분의 목표 변수들은 기후시나리오에 관계없이 상대적 편향 0.01 (1%) 이하 수준의 높은 정확 도를 나타냈으나, 일부 목표 변수들 (i.e., y1 (작물수량), y6 (N2O 배출량), y7 (벼멸구 분포확률))은 RCP 8.5 시나리오 에서 샘플추정량의 모집단 평균에 대한 예측력이 상대적 으로 낮은 것으로 나타났다 (Fig. 3d). 하지만, 이들 목표 변 수들 역시 100번의 샘플링에서는 기후시나리오에 관계없 이 모두 0.003 (0.03%) 이하로 낮은 수준의 상대적 편향을 갖는 것으로 확인되었다 (Fig. 3b). 이에 따라, y1, y6, y7에 대한 특히 높은 정확도를 요구하는 샘플링이 필요한 경우 에는, 샘플링 횟수를 증가시킴으로써 원하는 수준의 정확 도를 얻을 수 있을 것으로 사료된다.
농지 공간샘플링에 관한 기존 연구들에서는 적절한 샘 플 수를 결정하기 위해 샘플링 수를 변경해가며 샘플링의 정확도를 평가하고, 정확도 평가 결과에 따라 최적의 샘플 수를 결정하는 방식을 사용해왔다 (van Bussel et al. 2016;Zhao et al. 2016). 본 연구에서는 최적화 알고리즘을 통해 최적의 샘플 수를 결정하는 방식을 사용함으로써 수동으 로 샘플 수를 결정해야 하는 번거로움을 덜 수 있었다. 한 편, 공간샘플링 결과들은 추후 활용 목적에 따라 더 많은 비용 절감이 필요할 경우 최적화 과정의 반복 (Iteration) 수 증가를 통해 샘플 수를 감소시켜 활용할 수 있으며 또는 더 높은 정확도가 필요할 경우에는 샘플 수 조정 (Adjustment)을 통해 샘플 수를 증가시켜 활용하는 것이 가능하다 (Ballin and Barcaroli 2013). 최적화 기반의 공간 샘플링은 유동성 및 효율성이 높으며, 따라서 많은 연구들 에서 공간샘플링 설계 시 효과적으로 활용될 수 있을 것으 로 생각된다.
많은 통계조사연구들에서 샘플 수의 결정은 샘플링 비 용 절감 측면에서 최대의 관심사였다 (Cochran 1977). 최근 에는 GIS 기술의 발전에 따라 공간자료를 활용한 연구들이 증가하고 있으며, 이에 따라 공간모델링 분야에서 역시 비 용 절감을 위한 공간샘플링의 설계 및 샘플 수 최적화 문 제가 주요 관심사로 떠오르고 있다 (Wang et al. 2010). 더욱 이, 4차 산업혁명 및 빅데이터 시대가 도래하면서, 축적된 공간자료의 효과적·효율적 활용을 위한 적절한 공간샘플 링의 설계는 필수적으로 요구되고 있다 (Goyal et al. 2017). 본 연구의 국내 고해상도 농지 공간격자자료의 공간적 계 층화 및 샘플 수 최적화 결과는 농업분야 내 기후변화 공 간예측모형 연구들에 활용되어 시뮬레이션 비용 절감 및 계산 시간 단축에 기여할 수 있을 것으로 기대된다. 뿐만 아니라 모형 개발에 활용될 경우, 개발모형의 구축 효율 및 성능 향상에도 기여할 수 있을 것으로 기대된다.
본 연구의 공간샘플링 설계 시 농업시스템 내 작물, 해 충, 온실가스 분야 대표 모형들의 입출력변수들을 활용하 여 층화 변수와 목표 변수를 구성하였으며, 이로써 샘플 링 격자를 활용한 농업시스템의 결과물들에 대한 전반적 인 예측이 가능하도록 하였다. 기존 농업연구들에서 공간 샘플링은 주로 단일 목표 변수에 대한 예측을 목적으로 하 는 공간모델링 연구들에서 활용되어 왔으며, 특히 작물수 량 예측을 위한 공간모델링이 주를 이루어 왔다 (Bussel et al. 2016;Zhao et al. 2016). 기존 연구들에서의 샘플링 격자 들은 해당 변수에 대한 예측 능력만을 가졌기 때문에 여러 분야에서 활용되기에는 어려움이 있었다. 하지만, 실제 농 업시스템은 작물생산 이외에도 다양한 결과물과 부산물 을 동반하며 농업 분야에서의 공간샘플링 결과의 폭넓은 연구적 활용을 위해서는 농업 내 다양한 부문에서 보편적 활용이 가능한 공간샘플링을 설계할 필요가 있다. 이러한 관점에서 본 연구의 결과물들은 국내 농지를 두루 대변하 는 공간샘플링으로써 농업 내 다양한 분야의 공간모델링 연구들에서 대표 샘플 격자로서의 폭넓은 활용이 가능할 것으로 기대된다.
적 요
공간 샘플링은 공간모델링 연구에 활용되어 샘플링 비 용을 줄이면서 모델링의 효율성을 높이는 역할을 한다. 농 업분야에서는 기후변화 영향을 예측하고 평가하기 위한 고해상도 공간자료 기반 모델링에 대한 연구 수요가 빠르 게 증가하고 있으며, 이에 따라 공간 샘플링의 필요성과 중요성이 증가하고 있다. 본 연구는 국내 농지 공간샘플링 연구를 통해 농업분야 기후변화연구의 공간자료 활용의 효율성을 제고하고자 하였다. 본 연구는 층화랜덤샘플링 을 기반으로 하였으며, 1 km 해상도의 농지 공간격자자료 모집단 (11,386개 격자)에 대해서 RCP 시나리오별 (RCP 4.5/8.5) 연대별 (2030/2050/2080년대) 공간샘플링을 설 계하였다. 국내 농지는 기상 및 토양 특성에 따라 계층화 되었으며, 샘플링 효율 극대화를 위해 최적 층화 및 샘플 배정 최적화를 수행하였다. 최적화는 작물수량, 온실가스 배출량, 해충 분포 확률을 포함하는 16개 목표 변수에 대 해 주어진 정밀도 제한 내에서 샘플 수를 최소화하는 방향 으로 진행되었다. 샘플링의 정밀도와 정확도 평가는 각각 변동계수 (CV)와 상대적 편향을 기반으로 하였다. 국내 농 지 공간격자 모집단 계층화 및 샘플 배정 및 샘플 수 최적 화 결과, 전체 농지는 5~21개 계층, 46~69개 샘플 수 수준 에서 최적화되었다. 본 연구결과물들은 국내 농업시스템 대표 공간격자로써 널리 활용될 수 있을 것으로 기대된다. 또한, 기후변화 영향예측 공간모델링 연구들에 활용되어 샘플링 비용 및 계산 시간을 줄이면서도 모델의 효율성을 높이는 데에 기여할 수 있다.