1. 서 론
담수생태계는 사회, 경제적으로 중요한 기능을 수행하는 동시에 다양한 생물의 서식처로서 생물다양성 보전에 핵심적인 역할을 한다(Liu et al. 2023;Sayer et al. 2025). 그러나, 담수생태계는 다른 생태계에 비해 개발, 수질오염, 서식지 파괴 및 기후변화 등의 위협에 취약하며 (Reid et al. 2019), 이에 따라 전 세계적으로 수생태계의 건강성을 평가하고 이를 바탕으로 생태계를 관리·보전하려는 노력이 활발히 이루어지고 있다 (Wiegand et al. 2010;You et al. 2021;An et al. 2023).
국내에서는 환경정책기본법과 물환경보전법에 따라 물환경 현황을 파악하고 분석하기 위해 물환경정보시스템 (Water Environment Information System, WEI System)을 운영하고 있다. 특히, 환경부에 의해 운영되는 물환경정보 시스템은 생물측정망, 수질측정망을 비롯한 8개의 세부 측정망으로 구성되어 있으며, 전국 단위의 수생태계에 대해 장기적이고 일관된 방식으로 모니터링을 수행하여 생태계 건강성 평가 및 정책 수립을 위한 근거자료를 제공한다. 그중 생물측정망은 부착돌말류, 저서성대형무척추동물, 어류 등 약 1천 700여 종의 생물지표종을 중심으로 모니터링을 수행하고 있으며, 수질측정망은 수온, 용존산소량 (Dissolved Oxygen, DO), 생화학적산소요구량 (Biochemical Oxygen Demand, BOD) 등 55개의 이화학지표를 통해 물리·화학적 상태를 정량적으로 측정한다. 이 두 측정망은 정기적이고 장기적인 자료를 축적하여 수생태계 보전을 위한 기초자료로 활용되고 있다.
이와 같이 생물측정망 및 수질측정망의 각 지표는 생태계의 상태를 이해하는 데 고유한 해석적 가치를 지닌다. 생물지표는 장기적인 환경 변화의 영향을 누적적으로 반영하는 반면, 수질측정망의 이화학지표는 특정 시점의 수질 상태를 정량적으로 측정하는 데 적합하다 (Blasco and Picó 2009;López-López and Sedeño-Díaz 2015;Lee et al. 2022). 그러나, 담수생태계는 다양한 생물종과 물리·화학적 요소가 복합적으로 작용하므로 총체적인 건강성을 정밀하게 평가하기 위해선 이러한 이질적인 모니터링 데이터의 통합적인 분석이 필요하다 (Na et al. 2019;Liu et al. 2023).
현재 생물측정망과 수질측정망은 조사 목적, 방식, 대상 등의 차이로 인해 여러 측면에서 상이하게 운영되었으며, 이에 따른 시기와 공간의 불일치로 인해 동일 조건에서의 통합 분석을 어렵게 하는 구조적 제약이 존재한다 (NIER 2006;KEI 2022). 운영상의 차이 외에도 데이터 자체가 지니는 복잡성과 이질성 역시 통합 분석을 어렵게 만드는 요인 중 하나이다. 물환경정보시스템으로부터 수집된 생물 및 이화학지표 데이터는 지표 수가 도합 수천 개에 달하고, 각 지표는 서로 다른 단위, 분포, 수치 범위 및 결측 특성을 가지며, 비선형적이고 이질적인 다차원 구조를 띠고 있다 (KEI 2022). 이러한 제약으로 인해 기존 연구들은 특정 수계 혹은 분류군으로 대상을 제한하고 있으며, 연구의 목적이 생태적 연관성보다는 지표의 예측에 중점을 두었다 (Lee et al. 2021;KEI 2022). 따라서 다양한 분류군을 대상으로 두 측정망의 데이터를 전국적으로 분석하고자 하는 연구는 부족하며, 두 측정망의 데이터를 이용하여 지표 간 관계와 생태적 연관성을 해석하고자 하는 시도는 미진한 실정이다. 이에 따라 다양한 지표 간의 관계를 효과적으로 탐색하고 해석하기 위해 데이터의 구조 및 특성을 반영할 수 있는 분석 기법이 요구된다.
데이터의 구조에 기반한 방법인 비지도학습 기반의 클러스터링은 사전에 정의된 패턴 없이도 유사한 특성을 가진 그룹으로 자동적으로 분류하는 분석 기법으로 (Giordani et al. 2020), 생물 및 이화학지표 데이터의 분석에 유용하게 이용될 수 있다. Lee et al. (2019)은 C-means 클러스터링을 이용하여 다양한 오염원과 지구화학적인 과정으로 인해 이질적이고 복잡한 서울의 지하수 수질의 공간적 패턴을 규명하였다. 또한, Marín Celestino et al. (2018)은 차원축소를 위해 Principal Coordinates Analysis (PCoA)를 수행하고 K-means 알고리즘으로 클러스터링을 수행하여 이화학 요소의 자연적·인위적 변화를 성공적으로 분석하였다. 이처럼 클러스터링 기법을 통해 복잡하고 방대한 데이터 속에서 유의미한 패턴과 구조를 탐지하여 변수 간 상호작용을 효과적으로 파악할 수 있다. 특히, 클러스터링 알고리즘 중 Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN)은 밀도 기반 알고리즘으로, 클러스터 수를 사전에 지정하지 않고 데이터 구조에 따라 유연하게 그룹을 식별할 수 있으며, 노이즈를 제거하는 기능을 갖추고 있어 복잡한 환경 데이터 분석에 적합한 도구로 평가된다 (Lee et al. 2023).
따라서, 본 연구에서는 운영 목적과 방식이 상이한 물환경정보시스템 생물측정망 및 수질측정망 데이터를 기반으로 유사한 지표를 그룹화하고 노이즈를 제거하여 복잡한 환경 데이터를 해석하기 위해 HDBSCAN 클러스터링을 수행하였다. 또한, 변수 간의 단순 선형 및 비선형 관계를 포함하여 순위 기반의 상관관계를 평가하는 Spearman 및 복잡한 비선형 관계까지 포착 가능한 Maximal Information Coefficient (MIC) 분석을 통해 변수 간의 연관성을 분석하였다. 이러한 결과를 기반으로 생물지표 및 이화학지표 간의 유의한 상관관계를 구명하고자 하였다.
2. 재료 및 방법
2.1. 데이터 수집
본 연구의 전체 연구 단계를 요약한 모식도는 Fig. 1에 제시하였다. 분석을 위해 환경부의 물환경정보시스템 (https://water.nier.go.kr/)의 생물측정망 및 수질측정망 데이터를 수집하였다. 생물측정망은 「수생태계 현황 조사 및 건강성 평가 방법 등에 관한 지침」 (국립환경과학원 고시 제2024- 01호)에 따라 부착돌말류, 저서성대형무척추동물, 어류 등 주요 생물지표종의 모니터링을 수행하여 결과를 공개하고 있으며, 수질측정망은 수질오염공정시험기준 (국립환경과학원 고시 제2024-72호)에 따라 수온, pH, 용존산소량 (DO) 등 55개의 이화학적 지표를 측정하여 결과를 공개하고 있다.
2025년 현재 수질측정망 자료는 하천, 산단하천, 도시관류, 호소, 농업용수에 대해 1997년부터 2024년까지의 자료가 공개되어 있으며, 생물측정망 자료는 하천, 하구에 대해 2011년부터 2023년까지의 자료가 공개되어 있으므로 두 측정망의 통합 분석을 위해 2011년부터 2023년 사이의 모니터링 자료를 이용하였다. 수집한 생물측정망 데이터는 부착돌말류, 저서성대형무척추동물, 어류 등 3개 분류군의 3년 주기 연 2회 채집된 모니터링 데이터로 구성되었다. 모니터링 데이터에는 부착돌말류의 세포밀도, 저서성대형무 척추동물의 개체밀도, 어류의 개체 수 및 검출된 종 정보와 부착돌말류평가지수 (Trophic Diatom Index, TDI), 저서성대형무척추동물평가지수 (Benthic Macroinvertebrate Index, BMI), 어류평가지수 (Fish Assessment Index, FAI)가 포함되었다. 수질측정망 데이터는 모든 지점에서 공통적으로 측정된 pH, DO, BOD 등 19개 이화학지표의 월 주기 측정 데이터 및 Cd, CN, Pb 등 8개 지표의 3개월 주기 측정 데이터로 구성되었다.
2.2. 데이터 전처리
생물측정망과 수질측정망의 조사 지점 및 주기는 「물환 경측정망 설치·운영 계획」 (환경부고시 제2024-816호)에 따라 정기적으로 관리되고 있다. 두 측정망은 측정 대상, 운영 목적 등의 차이로 인해 서로 독립적으로 운영되고 있으며, 이로 인해 시공간적으로 일치하는 조사 지점이 제한적이다. 특히, 생물측정망은 주로 3년 주기로 2회 계절별 (봄: 4~5월, 가을: 9~10월)로 조사하고, 수질측정망은 조사 지점 및 지표에 따라 연 1회에서부터 48회에 이르기까지 시기 및 주기에 차이가 있다.
본 연구에서는 이와 같은 측정망 간 구조적 차이를 고려하여, 시공간적으로 유사한 모니터링 데이터 간 통합 분석이 가능하도록 전처리 과정을 수행하였다. 이 과정은 R Studio version 4.4.1을 이용하여 수행되었다. 두 측정망의 각 조사 지점의 위도 및 경도 정보를 기반으로 R geosphere 패키지 (Hijmans et al. 2017)를 이용해 반경 50 m 내에서 중첩되는 측정 지점 쌍을 추출하였다 (KEI 2022). 선정된 지점은 ggplot2 version 3.5.1, sf version 1.0.16 (Pebesma 2018), rnaturalearth version 1.0.1 (Massicotte and South 2024), rnaturalearthdata version 1.0.0 (South et al. 2017) 패키지를 이용하여 지도상에 표시하였다. 두 측정망에서 유사한 시기에 수행된 모니터링 데이터를 수합하기 위해 tidyverse version 2.0.0 (Wickham et al. 2019)을 이용하여 생물측정망의 데이터와 수질측정망의 데이터를 수합하였다. 이때 수질측정망의 분기별 측정 데이터를 활용하기 위해 수질측정망의 3월, 9월 데이터와 생물측정망의 1회차 (봄: 4~5월), 2회차 (가을: 9~10월) 데이터를 대응시켜 통합하였다. 이 과정에서 데이터를 수치형으로 변환하기 위해 생물측정망의 건강성평가지수에 대해 A~E 등급을 각각 5~1점으로 치환하였다. 수질측정망에서 정량한계 미만으로 측정된 값은 0으로 처리하였으며, 전체의 절반 이상이 결측값인 지표 및 결측값을 포함한 모니터링 데이터는 분석에서 제외하였다.
2.3. 비지도 클러스터링
본 연구에서는 통합된 생물측정망 및 수질측정망 데이터를 기반으로 유사한 특성을 갖는 지표들을 그룹화하고, 노이즈를 제거하여 후속 분석의 정확도를 높이기 위해 HDBSCAN 알고리즘을 기반으로 지표 간 클러스터링을 수행하였다. 분석은 R의 dbscan 패키지 version 1.2.2 (Hahsler et al. 2019)를 이용하여 진행하였으며, 클러스터 형성을 위한 최소 이웃 포인트 수 (minimum points, minPts) 파라미터의 값을 3부터 20까지 변경하며 최적 조건을 탐색하였다. 클러스터링 품질 평가는 Silhouette score를 활용하여 수행하였다. Silhouette score는 각 지표가 속한 클러스터의 응집도와 다른 클러스터와의 분리도를 기반으로 클러스터링의 적절성을 평가하는 지표로, 점수가 1에 가까울수록 뚜렷한 클러스터 구조를 나타낸다 (Rousseeuw 1987). 임의의 데이터 i가 할당된 클러스터를 A라고 할 때 클러스터 A에 속하는 다른 데이터와의 평균 거리는 a(i)라고 하고, 가장 가까운 클러스터 B에 속하는 데이터와의 평균 거리는 b(i)라고 한다. 이때, i에 대한 Silhouette score의 수식은 Equation 1과 같이 나타낼 수 있다.
클러스터링 결과는 umap version 0.2.10.0을 이용하여 Uniform Manifold Approximation and Projection (UMAP) (McInnes et al. 2018)으로 시각화하였다. 동일한 클러스터로 그룹화된 지표 간 이질성을 확인하기 위해 R 의 dplyr 패키지 version 1.1.4 (Wickham et al. 2023)를 이용하여 클러스터별 내부 지표 사이의 유클리드 거리 기반의 평균 pairwise distance를 산출하였다. 평균 pairwise distance는 값이 작을수록 클러스터가 조밀하게 응집되었음을 의미한다.
2.4. 상관관계 및 비선형 관계 분석
생물측정망 및 생물측정망 지표 간 상관관계를 확인하기 위해 R cor.test() function을 이용하여 클러스터 내부 지표 간 Spearman’s rank correlation coefficient 분석 (이하 Spearman 분석)을 수행하였다. Spearman 분석은 변수 간 순위 기반의 상관관계를 평가할 수 있어 다양한 유형의 데이터에 적용 가능하다 (Mukaka 2012). 통계적으로 강한 상관성을 지니는 지표 간의 비교를 위해 Al-Hameed (2022)를 참고하여 Spearman 지수 (ρ) 0.7 이상을 강한 상관관계로 간주하였으며, 또한 통계적 유의성을 확보하기 위해 이 중 P-value 0.001 미만의 지표들을 pheatmap version 1.0.12 (Kolde and Kolde 2015)를 이용하여 heatmap으로 시각화하였다.
지표 간 비선형적 관계를 확인하기 위해 MIC 분석을 수행하였다. MIC 분석은 비선형적이고 다양한 관계의 상호 작용을 탐지하는 데 적합한 분석 기법으로, 보다 복잡한 비선형 관계까지 포착 가능하다 (Reshef et al. 2011;Liu et al. 2024). MIC 분석은 minerva version 1.5.10 (Albanese et al. 2013)을 이용하여 수행하였고, 강한 연관성을 지니는 지표들 간 비교를 위해 Li et al. (2020)에서 유의하다고 알려진 MIC 지수 0.3 이상의 지표들에 대해 pheatmap version 1.0.12 (Kolde and Kolde 2015)를 이용하여 heatmap으로 시각화하였다. 지표에 따른 모니터링 데이터의 분포 양상을 확인하기 위해 ggplot2 version 3.5.1을 이용하여 산포도를 작성하고, LOcally Estimated Scatterplot Smoothing (LOESS) 방식으로 추세선을 표시하였다.
3. 결과 및 고찰
3.1. 모니터링 데이터 전처리
환경부 물환경정보시스템으로부터 수집된 모니터링 데이터는 2011년부터 2023년까지 총 3,035개 지점에서 수행된 27,247회의 생물 모니터링 (1,696종 및 건강성평가지수 3종류)과, 1,302개 지점에서 수행된 391,245회의 수질 모니터링 (27개 이화학지표)으로 구성되었다. 본 연구에서는 이질적인 두 측정망 자료를 동일한 기준에서 비교하기 위해 조사 시기 (3월, 9월)와 지리 좌표 (반경 50 m 이내)를 기준으로 일치하는 134개 지점을 선별하였다 (Fig. 2). 또한, 데이터 품질을 보장하고 분석 결과의 해석력을 높이기 위해 결측값을 포함하는 지표 또는 결측값을 포함하는 모니터링 데이터를 분석에서 제외하였다 (Table 1). 최종적으로 1,130개의 생물지표종, 3개의 생물 건강성평가지수, 24개의 이화학지표에 대한 총 1,358회의 통합 모니터링 데이터 셋을 구축하였다.
3.2. 지표 간 HDBSCAN 클러스터링 결과
앞서 통합한 물환경정보센터 데이터를 이용하여 노이즈를 제거하고 지표 간의 유사성을 기반으로 보다 정밀한 분석을 위해 HDBSCAN 알고리즘을 이용해 지표 간 클러스터링을 수행하였다. 데이터의 구조를 반영한 최적의 클러스터링 결과를 얻기 위해 minPts를 조정하였으며, 이에 따른 클러스터링 결과는 UMAP을 통해 시각적으로 비교하였다 (Fig. 3A). UMAP 시각화 결과에서는 minPts가 최소 값인 3부터 16까지일 때 두 개의 클러스터로 분리되어 클러스터 간의 분포가 뚜렷하게 구분되었으나, 17 이상인 경우 클러스터가 분리되지 않았다. 노이즈로 분류된 지표의 수는 minPts=3일 때의 34개에 비해 minPts=4일때 279 개로 증가하였다. 이후 minPts가 증가하여도 노이즈의 수는 290개 이내에서 나타났는데, 이는 클러스터 형성을 위한 최소 데이터 수를 지정하는 minPts 파라미터의 증가에 따라 일부 지표가 클러스터를 형성하지 못해 노이즈로 분류된 것으로 판단된다 (Malzer and Baum 2020). Silhouette score는 minPts가 최소값인 3일때 0.93으로 가장 높았으며, minPts=4일때 0.79였고, minPts가 증가하여도 약 0.81 미만 수준으로 나타났다 (Fig. 3B). Silhouette score는 클러스터 내부 응집도와 외부 분리도를 반영하는 지표로, 값이 높을수록 우수한 클러스터링 품질을 의미한다. 따라서 높은 Silhouette score와 함께 적절한 노이즈 수를 보인 minPts=3 조건이 본 연구에서의 최적의 클러스터링 조건으로 판단되어 이후 분석에 활용하였다.
클러스터링 결과, 3개의 지표가 클러스터 1로, 1,119개의 지표가 클러스터 2로 그룹화되었으며, 34개의 지표가 노이즈로 그룹화되었다. 클러스터 1으로 그룹화된 지표는 모두 부착돌말류 생물지표종으로서 땅콩돌말 (Achnanthes minutissima var. saprophila), 낱알돌말 (Cocconeis placentula var. lineata), 반달돌말 (Cymbella (other)) 등 호소 및 하천 환경에 흔히 분포하는 종들로 구성되었다. 이들은 출현 양상과 환경반응이 유사하여 독립적인 클러스터를 형성한 것으로 사료된다. 클러스터 2는 수질측정망의 이화학지표 26개와 생물측정망 생물지표종 1,093종을 포함한 대규모 클러스터로, 다양한 지표 간 전반적인 유사성이 존재하는 것으로 보인다. 노이즈로 그룹화된 지표 중 33개는 부착돌말류 생물지표종이며, 1개는 수질측정망의 총대장균군 지표였다.
동일한 클러스터로 그룹화된 지표 간 이질성을 확인하기 위한 pairwise distance 분석 결과, 클러스터 1과 2의 pairwise distance는 각각 488,489 및 58,196으로 측정되었다. 클러스터 2의 경우 비교적 많은 지표 수에도 불구하고 낮은 pairwise distance를 나타내어 통계적으로 유사한 지표들로 구성되었음을 보였다. 한편, 노이즈 그룹의 pairwise distance는 3,096,824로 나타나 지표 간 이질성이 큼을 확인하였다. 본 연구에서는 클러스터 내 유사한 양상을 가진 지표 간 관계에 초점을 맞추고자 노이즈로 분류된 지표는 이후 분석에서 제외하였다.
3.3. 지표 간 상관관계 분석 결과
지표 간 상관관계를 확인하기 위한 Spearman 분석 결과 클러스터 1에서는 0.7 이상의 강한 상관관계가 나타난 지표가 없었으며, 클러스터 2에서는 강한 상관관계를 보이는 75개의 지표 쌍을 확인하였다 (Fig. 4). 이 중 65개 지표 쌍은 생물지표로 구성되었으며, 분류군별로 각각 부착돌말류 96종, 저서성대형무척추동물 25종, 어류 9종이 포함되었다. 생물지표로 구성된 65개 지표 쌍 중 53개 지표 쌍은 각각의 분류군 내에서 강한 상관관계를 보인 반면, 나머지 12개 지표 쌍은 분류군 간 강한 상관관계를 보였다. 각각의 분류군 내에서 강한 상관관계를 보인 경우가 많은 것은 동일한 분류군 내 종들이 분류학적 유사성과 더불어 일부 유사한 생태적 특성을 공유하고 있기 때문일 수 있다. 특히, 부착돌말류는 강한 연관성을 보인 96개의 지표 쌍을 포함하여 생물지표종 중 가장 많은 연관성을 나타낸 분류군으로, 쪽배돌말속 (Navicula), 등침돌말속 (Nitzschia), 땅콩돌말속 (Achnanthes), 쪽잎돌말속 (Frustulia), 그리고 오이돌말속 (Caloneis)의 종들은 다수의 조합에서 0.7 이상의 강한 상관관계를 보였다. 이러한 돌말류의 증식은 수온, 빛, 영양염류 등 다양한 요인들에 의해 복합적으로 영향을 받는다 (Hutchinson 1957;Reynolds et al. 1987). 일반적으로 돌말류는 가을에 우점하는데, 이는 돌말류가 녹조류, 남조류 등에 비해 영양염류 공급과 수중의 빛 투과도 감소 등 계절적 변화에 잘 적응하기 때문이다 (Kim et al. 1999). 이러한 환경 조건의 계절적 변화에 따라 여러 종이 동시에 증식할 수 있으며, 이처럼 유사한 생태적 지위를 점유하거나, 유사한 수질 조건에서 공존하는 동일한 분류군 내 간에 높은 상관관계가 나타난 것으로 사료된다.
또한, 대부분의 어류지표종은 다른 분류군과 뚜렷한 연관성을 나타내지 않았으나, 어류와 부착돌말류 간 강한 상관관계를 보이는 예외적인 경우를 확인하였다. 무지개송어 (Oncorhynchus mykiss)와 피각돌말류 (Epithemia turgida var. granulate) 간 1.0의 강한 상관관계가 나타났으며, 이는 두 종의 서식처 환경에 기인한 것으로 보인다. 질소고정능력을 지닌 Epithemia속은 질산성질소 농도가 낮은 수계에서 우점하는 것으로 알려져 있다 (Stancheva et al. 2013). 무지개송어의 경우 수온이 낮고 유속이 빠른 상류 수계에서 출현율이 높으며 (Montgomery and Bernstein 2008), 이러한 상류 수역은 일반적으로 질산성질소를 포함한 영양염의 농도가 낮은 경향을 보인다 (Shin et al. 2013). 따라서 두 종이 공통적으로 선호하는 환경 조건에서 함께 서식하여 높은 상관관계로 나타났을 가능성이 있다.
클러스터 2에서 강한 상관관계를 보인 나머지 10개의 지표 쌍은 수질측정망의 이화학지표로, 질산성질소 (Nitrate Nitrogen, NO3--N)와 용존총질소 (Dissolved Total Nitrogen, DTN), 총질소 (Total Nitrogen, TN)가 각각 0.89 이상의 강한 상관관계를 보였으며, 인산염인 (Phosphate Phosphorus, PO43--P)과 총인 (Total Phosphorus, TP), 용존 총인 (Dissolved Total Phosphorus, DTP) 사이에서 0.77 이상의 강한 상관관계를 보였다. 화학적산소요구량 (Chemical Oxygen Demand, COD)은 생물화학적산소요구량 (Biochemical Oxygen Demand, BOD), 엽록소-a, 총유기 탄소 (Total Organic Carbon, TOC)와 각각 0.7 이상의 강한 상관관계를 보였다. 반면, 수온과 용존산소량 (Dissolved Oxygen, DO) 사이에는 -0.73의 강한 음의 상관관계가 나타났다.
강한 상관관계를 보인 NO3--N, DTN, TN의 경우 모두 질소와 관련된 지표로, 이 중 수환경에서 TN의 대부분은 용존성인 DTN이 차지하는 것으로 알려졌으며, 이로 인해 두 지표 간 높은 상관관계를 나타낸 것으로 보인다 (Park et al. 2014). 또한 NO3--N은 수용성으로 물에 잘 녹으며, 수중 호기성 조건 시 활발한 질산화 작용으로 인해 쉽게 생성되므로 DTN의 대부분을 차지하는 것으로 알려졌다 (Horne and Goldman 1994;Lee et al. 2010). 이러한 관계로 인해 NO3--N, DTN, TN 지표 간의 강한 상관관계가 나타난 것으로 사료된다. 이와 유사하게 인과 관련된 지표인 TP, DTP, PPO43--P 또한 강한 상관관계를 보였다. TP는 수중에 존재하는 모든 형태의 인을 포함하며, 크게 DTP와 입자 성인 (particulate phosphate, PP)으로 나뉜다. DTP 수환경에서 TP 중 높은 비중을 차지하는 것으로 알려졌으며, 이로 인해 두 지표 간 강한 상관관계가 나타난 것으로 보인다 (Lee et al. 2012). DTP는 PO43--P와 용존유기인 (dissolved organic phosphorus, DOP)으로 구성되어 있으며, PO43- -P는 무기인이 물에 용해된 주요한 형태로써 DTP 중 차지하는 비율이 큰 것으로 알려졌다. 이와 같은 관계로 인해 세 지표 간 강한 상관관계를 보인 것으로 사료된다.
3.4. 지표 간 비선형 관계 분석 결과
지표 간 비선형적 관계를 파악하기 위한 MIC 분석 결과 클러스터 1의 지표 간 MIC 값은 0.1 미만으로 나타나 연관성이 낮았던 반면, 클러스터 2에서는 MIC≥0.3의 연관성을 보이는 총 20개의 지표 쌍을 확인하였다 (Fig. 5). 이 중 절반은 앞선 Spearman 분석에서도 강한 상관관계를 보였고, 나머지 10개는 Spearman 분석에서 0.7 미만의 상관관계를 나타내었다. 특히, MIC 분석으로 추가적인 연관성이 확인된 10개의 지표 쌍 중 2개는 생물지표종 간의 조합으로, 저서성대형무척추동물인 줄날도래 (Hydropsyche kozhantschikovi)는 흰점줄날도래 (Hydropsyche valvata), 등줄하루살이 (Teloganopsis punctisetae)와 각각 0.32, 0.31의 연관성을 보였다. 이들 세 종은 EPT 군집 (Ephemeroptera, Plecoptera, Trichoptera)에 속하며, 수질이 비교적 청정한 하천에서 주로 출현하는 것으로 알려졌다 (NIER 2016). 줄날도래와 흰점줄날도래는 빠른 유속 및 낮은 온도의 산지 하천 환경을 선호하는 공통된 생태적 특성을 가지며 (Kim et al. 2024), 등줄하루살이 또한 상대적으로 청정하며 유속이 있는 중산간 하천 환경에서 출현하는 등 선호하는 서식지 특성이 유사하다 (NIER 2016). 이와 같은 특성으로 인해 특정 환경 조건에서 유사한 출현 양상이 나타날 수 있으며, 이러한 비선형적 관계가 MIC 분석을 통해 확인된 것으로 사료된다 (Fig. 6).
또한, MIC 분석에서는 건강성평가지수 (BMI, FAI)와 특정 생물지표종 간의 연관성도 추가적으로 탐지되었다. BMI 평가지수는 저서성대형무척추동물인 세갈래하루살이 (Choroterpes (Euthraulus) altioculus), 등줄하루살이와 각각 0.34, 0.30의 연관성을 보였으며, FAI 평가지수는 어류 중 참갈겨니 (Zacco koreanus)와 0.38의 연관성을 나타냈다 (Fig. 5). 산포도 분석 결과, BMI와 하루살이류 두 종 간에는 BMI가 낮은 구간에서는 해당 종의 출현 빈도가 매우 낮거나 부재하고, 일정 수준 이상의 BMI 구간에서 출현율이 증가하는 비선형적 관계를 보였다 (Fig. 6). 이는 세갈래하루살이와 등줄하루살이 모두 상대적으로 청정한 하천 환경을 선호하는 생물지표종이므로 건강성이 낮은 구간에서는 거의 나타나지 않고, 특정 수준 이상의 BMI 지수에서만 출현하는 것으로 해석된다. 이와 유사하게 참갈겨니는 주로 유속이 빠르고 청정한 하천 환경에서 출현하므로 (Hur and Seo 2011), FAI가 낮은 구간에서는 거의 출현하지 않아 관련성이 낮고, FAI가 일정 수준 이상일 경우에만 뚜렷한 관계가 나타난 것으로 사료된다. 이처럼 BMI와 FAI는 종다양성, 종 조성, 섭식형, 내성도 등 다양한 생물학적 정보를 종합적으로 반영한 지수이므로 개별 지표종과의 관계는 복잡한 비선형적 특성을 보일 수 있다.
이화학지표 간에서도 MIC 분석을 통해 추가적인 연관성을 확인하였다. 엽록소-a는 BOD, TOC, 부유물질 (Suspended Solids, SS)과 각각 0.35, 0.34, 0.33의 연관성을 보였고, COD는 SS, TP와 각각 0.35, 0.32의 연관성을 보였다. 엽록소-a와 BOD, TOC 그리고 SS 간 연관성은 부영양화 과정과 관련이 있는 것으로 사료된다. 엽록소-a는 광합성 생물에서 발견되는 색소로써 조류 바이오매스의 풍부함을 나타내는 지표이며, 조류의 증식에 따라 조류를 측정하는 지표인 엽록소-a가 함께 증가할 수 있다 (Alemayehu and Hackett 2016). 이 과정에서 조류는 다양한 형태와 농도의 폴리사카라이드, 단백질, 지질, 핵산 및 기타 용해된 유기물을 합성할 수 있으며, 이는 TOC를 증가시킬 수 있다 (Fogg 1983;Myklestad 1995). 또한 조류의 증식 이후 사멸에 따른 분해 과정에서 미생물이 산소를 소비하여 BOD가 증가하는 것으로 보고되었다 (Cohen 1990).
앞선 Spearman 분석에서 확인한 생물지표종 간 강한 상관관계는 유사한 서식지 조건이나 환경 요인에 대한 생태적 반응이 유사한 종들이 함께 서식할 가능성에서 기인한 것으로 해석된다. 또한, 이화학지표 간의 높은 상관관계는 질산성질소, 인산염 인 등과 같이 수계 내에서 전환, 축적 및 공존하는 물질 간의 물리화학적 연속성으로 설명할 수 있다. 한편, MIC 분석을 통해 추가적으로 포착된 지표 간 비선형적 관계는 수생태계에서 발생하는 생물학적·화학적 상호작용의 특성을 보다 정밀하게 이해하는 데 기여하였다. 예를 들어, EPT 군집 내 일부 종들 간의 연관성은 이들이 비슷한 유속, 수온, 수질 등 특정 환경 조건을 선호한다는 점에서 공통된 서식처 선호도를 반영하는 것으로 보인다. 또한, 건강성평가지수 (BMI, FAI)와 특정 생물종 간에는 생물다양성 지수의 일정 수준 이상에서만 종이 출현하는 양상을 보였으며, 이는 수생생물이 환경 변화에 민감하게 반응하며 특정 환경 조건을 선호한다는 점을 시사한다. 이화학지표 간 연관성 분석에서는 엽록소-a, BOD, TOC 등의 유기물 관련 지표들이 함께 증가하는 경향이 확인되었으며, 이는 부영양화와 조류 번식, 유기물 축적이 복합적으로 작용하는 생태계 내 이화학적 연쇄 반응을 반영하는 것으로 추정된다. 이처럼 비선형적 지표 구조와 복잡한 반응 양상을 고려할 때 다양한 상관 분석을 병행하는 것이 지표 간 관계 해석에 유용함을 확인하였다.
3.5. 시사점 및 제언
기존 연구에서 생물지표는 대부분의 값이 0에 치중되고 소수의 관측치가 존재하는 불균형 분포를 가지고 있는 것으로 보고되었으며 (KEI 2022), 본 연구에서도 이러한 분포가 관찰되었다. 이러한 데이터의 분포는 잠재적으로 Spearman 분석의 결과를 왜곡시킬 가능성이 존재한다 (Pimentel 2009). 반면, MIC 분석은 다양한 형태의 비선형 관계를 탐지하는 데 강점을 보이며 (Reshef et al. 2011), 이러한 강점은 MIC 분석이 값의 분포가 치우친 생물지표에 대해 보완적인 분석 도구로 유용하게 활용될 수 있음을 시사한다.
그러나, 본 연구에서는 몇 가지 한계점이 존재하였다. 본 연구에서는 생물지표와 이화학지표 각각의 상관관계는 확인하였으나, 두 측정망 간의 뚜렷한 연관성은 관찰되지 않았다. 상이한 운영 목적과 조사 방식을 지닌 두 측정망은 독립적으로 운영되며 각각의 목적에 부합하는 정밀한 자료를 장기간 축적해오고 있으나, 조사 시기 및 지점에 차이가 존재하므로 두 측정망 간 유사한 시기, 지점의 모니터링 데이터를 선별하였다 (KEI 2022). 이 과정에서 일부 데이터가 제외되었으며, 전체 데이터에서의 지표 간 연관성을 충분히 반영하지 못했을 가능성이 존재한다. 향후 연구에서는 이와 같은 데이터 선별 과정에서의 한계를 보완하기 위한 접근이 필요하다. 예를 들어, 비선형 회귀 기반 예측 모형 또는 생성형 모델 (generative model)을 통해 결측값을 보간할 수 있으며, 최근에는 생성형 모델 중 Variational Autoencoder (VAE), Generative Adversarial Network (GAN) 기반 기법이 환경 모니터링 자료에 적용되고 있다 (Lee et al. 2021). 또한, Graph Neural Network (GNN) 기반 기법의 경우 결측값을 포함한 조사 지점에 대해 이웃한 지점의 정보를 기반으로 간접적으로 분석에 활용함으로써 데이터 손실을 최소화하고 유의미한 경향을 파악하는 데 유용하게 활용될 것으로 보인다 (Li et al. 2024).
나아가 지역적 특성과 시계열성 또한 고려할 필요가 있다. 본 연구에서는 모든 지점을 통합하여 지표 간 전체적인 연관성을 파악하고자 하였으나, 수계 특성, 하상재질, 유속, 강우 등 지역 고유의 특성 또한 생물 및 이화학지표 간의 관계에 중요한 영향을 줄 수 있다 (Heath et al. 2015;Szałkiewicz et al. 2022). 특히, 여름철 장마기와 같은 계절성 강우는 수계 내 환경 조건 및 생물 군집 구성에 영향을 미치는 주요 요인으로 작용하며 (Kang and An 2006), 이러한 시공간적 특성을 고려한 장기 모니터링 기반의 분석은 지표 간 상호작용의 원인을 보다 명확히 규명하는 데 도움을 줄 수 있다.
본 연구에서는 복잡한 환경 데이터의 해석 가능성을 높이기 위해 비지도학습 기반의 클러스터링을 통해 이질적인 지표를 제거하고 통계적으로 유사한 양상을 가진 지표를 선정하였다. 이를 기반으로 Spearman 분석 및 MIC 분석을 수행하여 수환경 모니터링 지표 간의 유의한 상관관계를 확인하였다. 그러나 클러스터로 그룹화되거나 노이즈로 분류되는 것은 분포 양상 및 밀도의 이질성에 기반한 것으로 생태학적 중요도와 다를 수 있다. 따라서 해석 가능성을 높이며 생태적으로 핵심적인 지표의 배제를 최소화하기 위해 클러스터링을 포함한 분석 과정에서 섭식 유형, 기능적 특징, 섭식-포식 관계, 서식지 선호 등 생태학적 정보를 기반으로 최적의 분석 기법을 개발할 필요가 있다 (Na et al. 2019;Choi et al. 2021;Choi et al. 2024;Lee et al. 2024). 이를 통해, 분석 과정에서 보다 향상된 생태학적 타당성을 확보하고 수생태계에서 생물과 환경의 상호작용을 이해할 수 있을 것이다. 이처럼 생태학적 타당성에 기반한 클러스터링 기법은 생물과 환경의 상호작용을 종합적으로 이해하고 수생태계 보전을 위한 대응 방안을 마련하는 데 유용하게 활용될 것으로 기대된다.
4. 결 론
본 연구는 환경부 물환경정보시스템의 생물측정망과 수질측정망 데이터를 통합하여 수환경 모니터링 지표 간의 연관성을 파악하고자 하였다. 이를 위해 조사 시기 및 지점 기준에 따른 데이터 전처리를 통해 두 측정망 데이터를 통합하였으며, HDBSCAN 클러스터링, Spearman 상관분석, 그리고 MIC 분석을 적용하였다. 이를 통해 생물지표 및 이 화학지표 각각의 연관성을 규명하고 통합 분석의 적용 가능성을 확인하였다. 본 연구는 현재 측정망의 목적과 기능을 유지하면서도 축적된 데이터를 종합적으로 분석할 수 있는 틀을 제시하였으며, 향후 결측값 보완 및 시공간적 요인과 생태학적 특성을 고려한 분석 고도화를 통해 수생태계 건강성 통합 진단 및 예측 생물다양성 보전에 기여할 수 있을 것이다.
적 요
담수생태계는 생물다양성을 유지하고 필수적인 생태계 서비스를 제공한다. 국내에서는 물환경정보시스템 (Water Environment Information System, WEI System)을 통해 생물 및 이화학지표를 개별적으로 모니터링하고 있다. 다양한 생물 분류군과 물리·화학적 조건 간의 복합적인 상호 작용으로 인해, 총체적인 수생태계 건강성 평가를 위해서는 모니터링 데이터를 통합적으로 분석할 필요가 있다. 그러나 지표 간 데이터 특성의 차이로 인해 통합 분석에 어려움이 존재한다. 또한, 모니터링 데이터는 규모가 크고 이질적 특성을 가지므로 변수 간 상호작용을 탐지하기 위해 다른 분석 기법이 요구된다. 본 연구는 Hierarchical Density- Based Spatial Clustering of Applications with Noise (HDB SCAN) 알고리즘을 이용해 유사한 변수를 클러스터링하고 노이즈를 제거한 뒤, Spearman’s rank correlation coefficient 및 Maximal Information Coefficient (MIC) 분석을 통해 생물 및 이화학지표 간 주요 상관관계를 규명하고자 하였다. HDBSCAN 분석을 통해 노이즈 지표가 효과적으로 제거되었으며, 생물 및 이화학 지표가 특성에 따라 클러스터로 구분되어 상관관계 분석의 해석 가능성이 향상되었다. Spearman 분석에서는 특히 유사한 생태적 특성을 공유하는 생물종 간에서 강한 상관관계가 확인되었다. 또한 MIC 분석을 통해 건강성평가지수와 특정 생물지표종 간의 비선형적 연관성이 추가로 규명되었으며, 이는 생물지표종 간의 유사한 생태적 특성을 반영하는 것으로 해석된다. 이러한 결과는 현재 측정망의 목적과 기능을 유지하면서도 축적된 데이터의 종합적인 분석을 통해 생물 및 이화학지표 각각의 연관성을 규명하고 통합 분석의 적용 가능성을 제시하였다는 점에서 의의가 있다. 본 연구는 수환경 모니터링 및 관리 전략 수립을 위한 기초자료로 활용될 것으로 기대된다.















