Journal Search Engine

Download PDF Export Citation Korean Bibliography
ISSN : 1226-9999(Print)
ISSN : 2287-7851(Online)
Korean J. Environ. Biol. Vol.41 No.4 pp.413-426
DOI : https://doi.org/10.11626/KJEB.2023.41.4.413

Trends identification of species distribution modeling study in Korea using text-mining technique

Dong-Joo Kim1, Yong Sung Kwon1,2, Na-Yeon Han3, Do-Hun Lee1,*
1Division of Ecological Assessment, National Institute of Ecology, Seocheon 33657, Republic of Korea
2Department of Environmental Engineering, Kunsan National University, Gunsan 54150, Republic of Korea
3Environmental Policy Department, Seongnam City, Seongnam 13437, Republic of Korea
* Corresponding author Do-Hun Lee Tel. 041-950-5434 E-mail. dhl0407@gmail.com

Contribution to Environmental Biology


▪ This research offers insights to enhance the utility of SDM in the field of environmental biology.
▪ This research provides basic data on biodiversity conservation and climate change research.
11/09/2023 12/10/2023 08/11/2023

Abstract


Species distribution model (SDM) is used to preserve biodiversity and climate change impact. To evaluate biodiversity, various studies are being conducted to utilize and apply SDM. However, there is insufficient research to provide useful information by identifying the current status and recent trends of SDM research and discussing implications for future research. This study analyzed the trends and flow of academic papers, in the use of SDM, published in academic journals in South Korea and provides basic information that can be used for related research in the future. The current state and trends of SDM research were presented using philological methods and text-mining. The papers on SDM have been published 148 times between 1998 and 2023 with 115 (77.7%) papers published since 2015. MaxEnt model was the most widely used, and plant was the main target species. Most of the publications were related to species distribution and evaluation, and climate change. In text mining, the term ‘Climate change’ emerged as the most frequent keyword and most studies seem to consider biodiversity changes caused by climate change as a topic. In the future, the use of SDM requires several considerations such as selecting the models that are most suitable for various conditions, ensemble models, development of quantitative input variables, and improving the collection system of field survey data. Promoting these methods could help SDM serve as valuable scientific tools for addressing national policy issues like biodiversity conservation and climate change.



텍스트마이닝을 활용한 종분포모형의 국내 연구 동향 파악

김동주1, 권용성1,2, 한나연3, 이도훈1,*
1국립생태원 환경영향평가팀
2군산대학교 환경공학과
3성남시청 환경정책과

초록


    1. 서 론

    생물다양성은 인간의 삶과 지구 공동체의 번영 및 지속 에 있어 다양한 혜택을 주는 필수적인 부분이지만, 최근 급 속한 산업 발전에 따른 지구 환경의 변화는 생물다양성 보 전과 인류의 안정적인 영속, 지속가능한 미래 구현에 있어 부정적인 영향을 불러오고 있다 (An et al. 2016;Isbell et al. 2017). 산업과 기술의 발달은 개발의 확대, 기후변화의 가 속, 외래생물의 침입 증가 등을 불러왔으며, 이에 따른 지구 환경 변화는 생물종의 멸종, 생태계의 교란 등 생물다양성 의 심각한 위협으로 인식되어 전 지구적인 차원에서 생태 계 건강성 회복을 위한 노력이 이어지고 있다 (Hardy 2003;Lee et al. 2016).

    인류는 지난 수 세기 동안 생물종의 분포와 물리적 환 경 사이의 관계를 관찰하고 기록해 왔다. 초기에는 정성 적인 방법을 활용한 연구가 대부분이었으나 (Grinnell 1904), 최근에는 종분포모형 (Species distribution model, SDM)을 비롯한 다양한 수치 모형을 사용해 데이터의 추 세를 설명하고 예측하는 방법이 널리 활용되고 있다. 종 분포모형의 생태학적 이용은 지리적, 환경적 변화와의 관 계를 설명하는 연구에서 기원하였다 (Grinnell 1904;Elith and Leathwick 2009). 초기에는 다중선형회귀분석과 판 별함수 분석에 의존한 연구들이 주로 이루어졌고 (Capen 1981;Stauffer 2002), 이후 데이터를 출현자료와 비출현 자료로 분류하여 분포 데이터의 오류를 수정하는 GLM (Generalized linear model)과 같은 새로운 회귀 분석 방법 이 등장함과 동시에 지리정보시스템 (Geographic Information System, GIS)의 발전을 기반으로 GIS 기반 환경 데이 터가 구축되며 오늘날의 종분포모형이 등장하였다 (Elith and Leathwick 2009).

    종분포모형은 출현자료, 비출현자료, 환경변수, 모형 알 고리즘으로 구성되며, 모형의 가장 큰 장점은 연구자가 원 하는 데이터를 구축해 생물종의 분포를 예측 또는 예후 할 수 있는 부분에 있다 (Lee-Yaw et al. 2022). 1999년부 터 2019년까지 지난 20년간 출판된 약 6,000건의 종분포 모델과 관련된 문헌의 약 50% 이상은 생물다양성을 평가 하기 위한 시도였으며 (Araújo et al. 2019), 해당 연구들은 종분포모델을 활용한 침입 외래생물의 잠재적인 분포 예 측 (Kim et al. 2018), 기후변화에 따른 종 풍부도 변화 예측 (Shin et al. 2018) 등 생물종 분포 변화와 그 영향 요인에 대 한 객관적인 규명을 위한 노력으로 생물다양성 보전을 위 한 다양한 정책 개발에 기여해 왔다 (Trisurat et al. 2012).

    국내의 생물종 분포 관련 연구는 멧돼지 서식지 적합성 분석 모형 개발 (Kim et al. 1998), GAP 모델을 활용한 어 류 분포와 종 다양성 예측 (Park and Hong 1998), GIS와 로 지스틱 회귀분석을 활용한 멧돼지 서식지 모형 개발 (Seo 2000) 등을 기점으로 종분포모형을 이용한 다양한 연구가 수행되어 왔지만, 정확도 높은 결과를 얻기 위한 기초데이 터의 확보와 연구 목적에 적합한 모델을 선정하는 부분에 어려움을 겪고 있다 (Li and Wang 2013). 아울러, 종분포모 형은 예측 대상 생물종의 위치정보뿐만 아니라, 다양한 매 개변수의 고려를 필요로 하지만, 생물종 관련 자료의 부족, 모형의 기술적인 한계, 자료의 불확실성 등은 관련 연구의 정밀한 수행의 어려움을 가중시킨다 (Li and Wang 2013). 이에 그간 국내에서는 모형 입력 자료의 부족을 보완하기 위한 연구, 적용 범위를 고려한 모형 선정 연구, 불확실성 을 최소화하기 위한 연구 등 다양한 연구가 시도되어 왔으 나 (Seo et al. 2008;Kim et al. 2012;Kwon 2014), 종분포 모형의 활용 현황 및 연구 동향과 관련된 구체적인 연구가 수행된 바 없어 생물다양성 평가 도구로써 가치 있는 종분 포모형의 적용성을 개선하고 활용성을 증진하는 측면에서 유용한 기초적인 자료가 부족한 실정이다.

    특정 분야의 연구 현황과 그 동향을 정량적으로 파악하 는 측면에 있어 문헌정보학적 분석과 텍스트마이닝 (Textmining) 기법은 매우 유용한 방법 중 하나이다 (Do et al. 2015;Kim and Kwon 2022). 텍스트마이닝의 동시출현 (Cooccurrence) 분석은 보고서나 논문 등 단일 문헌에서 주제, 초록 등을 추출한 후 공통으로 발생하는 주요 핵심어를 분 석하고 이를 기반으로 집단화 (Cluster)하여 연구 동향을 파악하는 동시에 시각화하는 데 있어 적절한 도구이다 (He 1999). 또한 연도별, 주제별 연구 동향을 파악하고 향후 연 구 방향을 도출하는 측면에 있어 의미 있는 정보를 제공할 수 있다.

    본 연구에서는 문헌학적 접근을 통해 종분포모형을 활 용한 연구의 흐름과 주요 연구 분야를 확인하고 텍스트마 이닝을 이용해 종분포모형의 활용 동향을 정량적으로 파 악하여 미래 연구 방향의 설정과 적절한 모형 선정 측면에 유용한 기초적인 자료를 제공하고자 하였다. 이를 통해 국 가 생태계 관리와 생물다양성 보전 정책 수립 시 유용하게 활용할 수 있는 과학적 도구로써 종분포모형의 활용 가치 를 제고하는 데 기여하고자 한다.

    2. 재료 및 방법

    2.1. 분석대상 선정

    본 연구에서는 최대한 넓은 범위의 문헌을 수집하기 위 해 종분포모형과 관련된 키워드를 선정하였고 이음동의어 가 많은 종분포모형 관련 연구의 특성을 고려하였다. 국내 에서 출판된 종분포모형 관련 연구 문헌의 일반검색어는 “종분포모형”, “종분포모델”, “서식지 예측”, “서식지 적합”, “잠재 서식지”, “SDM” 등 6개 검색어를 키워드로 선정하 였고 학술검색 DB인 DBpia, KCI, eArticle, KISS에서 검색 한 후 사이트 내 문헌 정보 페이지 URL 웹스크래핑 (Web scrapping)을 활용하여 데이터를 수집하였다. 또한 종분포 모형은 번역어이며 상의어에 해당하므로 일반적으로 문헌 에 기술할 경우에는 하의어로 표기한다. 국내 학술 논문의 국문 초록을 대상으로 텍스트 전처리 시 영문으로 표기된 종분포모형 관련 단어가 제외되는 문제가 발생할 수 있어 영문 초록이 제공되는 학술논문을 분석 대상으로 하였다.

    2.2. 국내 종분포모형 문헌 수집

    문헌 데이터의 수집은 Python 3.9.9 (Python Software Foundation 2021)에서 제공하는 Beautifulsoup4 (PyPI 2023) 패키지를 이용해 웹스크래핑 방식으로 하였고 최대 한 넓은 범위에서 종분포모형 관련 문헌을 수집하기 위해 각 검색어와 키워드가 포함된 모든 분야의 학술논문을 추 출하였다. 종분포모형 등 6개의 키워드를 포함하는 모든 학 술논문의 영문 제목, 영문 초록, 발행 연도, 학술지명을 웹 스크래핑 방식을 이용해 추출하였고 총 1,422편의 학술논 문 데이터를 수집하였다. 확보한 1,422개의 학술논문 데이 터 가운데 중복되거나 생물 생태와 관련이 없는 분야, 영 문 초록이 누락된 문헌 등 종분포모형과 관련이 없거나 분 석이 불가능한 데이터는 전처리 과정에서 제외하여 최종 적으로 148편의 학술논문 데이터를 텍스트로 이루어진 Corpus로 재구성하였다.

    2.3. 텍스트 전처리 및 사전제작

    비정형 텍스트의 자연어 처리 과정에서는 토큰화 (tokeization), 불용어 (stopword) 등을 통해 중복된 단어를 정규 화하였고 노이즈 데이터를 제거했다. 토큰화와 불용어 처 리는 원자료를 대상으로 NLTK 3.8.1 (NLTK 2023) 라이브 러리를 활용해 처리하였다. NTLK 라이브러리는 기본적인 영문 불용어 사전을 제공하지만, 종명 (specific name)에 대 한 사전을 제공하지는 않는다. 종명의 경우 한 번 이상 출 현하기가 어렵고 통상적으로 사용하는 단어에 해당하지 않으므로 일반적인 전처리 과정에서 의미 없는 단어로 변 형되거나 삭제될 수 있다. 이에 각 생물종을 생물 분류군 단위로 그룹화할 수 있도록 종명 사전과 논문 주제에 적합 한 동의어와 불용어 사전을 추가 제작하여 이차적인 전처 리 과정을 수행하였다 (Table 1).

    2.4. 종분포모형 활용 논문의 문헌학적 분석

    종분포모형 관련 학술논문 발표 동향 파악을 위해 파악 형 문헌검토 (Mapping and scoping reviews)를 수행하였 고 연도별, 학술지별 출판 논문 수를 비교했다. 또한 종분 포모형이 활용된 학술논문을 인위적으로 생물종 분포 및 평가, 기후변화, 모형 비교 및 평가 등 3가지 주제 유형으로 구분하여 연구 주제에 따른 학술논문 수를 비교하였다.

    2.5. 종분포모형 활용 동향 분석

    종분포모형 활용 동향을 파악하기 위해 각 생물 분류군 별 학술논문 비율과 모형별 활용 점유율, 생물 분류군별 모 형 활용 수를 비교하였다. 생물 분류군별 학술논문의 비율 은 각각의 논문에 제시된 생물종을 확인하여 하나의 대표 생물 분류군으로 표현했고 생물종을 집단으로 분석하여 개별적인 생물종을 명시하지 않거나 1개 이상의 분류군이 제시된 논문은 기타로 분류하였다. 모형별 활용 점유율은 단일 모형의 사용 및 모형 간 비교를 위해 사용된 모형들을 각각 1회 사용한 것으로 산정하였고 모형을 비교하고 그 결과를 토대로 앙상블 모형을 활용한 경우는 개별적인 1회 사용, 앙상블 1회 활용으로 산정하였다. 2개 이상의 모형을 앙상블한 모형도 1회로 산정했다.

    2.6. 텍스트마이닝

    핵심어 간 네트워크 관계와 핵심어의 밀도 및 중요도를 분석하기 위해 오픈소스 소프트웨어인 VOSViewer를 활 용해 핵심 단어 간 관계를 구성하였고 이를 시각화했다. VOSViewer는 텍스트의 동시출현 분석을 통해 단어 간 연 관성을 시각화한다 (Van Eck et al. 2010). 핵심어의 빈도수 는 VOSViewer를 이용해 추출하였고 python에서 제공하 는 Collections와 Wordcloud 1.8.2.2 라이브러리를 이용해 빈도수가 높은 단어일수록 크게 나타나도록 하였다.

    본 연구에서 수집한 학술논문 148편의 영문 초록을 텍스 트 전처리 후 VOSViewer 활용에 최적화된 형식의 분석 데 이터 (Corpus)로 재구성하였고, 분석 대상에 적합한 동의 어, 불용어, 종명 사전을 제작하여 매개변수로 활용하였다. 이후 VOSViewer에서 제공하는 텍스트마이닝 방법의 하 나인 동시출현 분석을 통해 148편의 학술논문에서 출현하 는 핵심어들을 파악하였고 단어 밀도 지도 (Density map), 네트워크 관계도 (Network visualization), 클러스터링 맵 (Clustering map), 오버레이 시각화 (Overlay visualization) 등의 분석 도구를 이용해 시각화하였다.

    단어 밀도 지도는 핵심어의 출현 빈도에 따라 결정되며, 높은 밀도를 가진 핵심어는 붉은색에 가깝게 표현되고 낮 은 밀도는 초록색에 가깝게 표현된다. Wordcloud를 이용 한 단어의 빈도 분석과는 달리 자료 전체에서 각 핵심어 의 연관성과 출현 밀도를 확인하는 데 있어 유용하다. 네 트워크 관계도는 핵심어들의 동시 출현 빈도를 기초로 Kullback-Leibler 거리를 활용하여 연관성을 평가하고 이 를 공간적으로 나타낸다. 연관성이 높은 핵심어는 같은 연 구를 의미하는 Cluster로 집단화되며, 이 집단 내에서 동 시 출현 빈도가 높은 핵심어는 근접하고 동시 출현 빈도가 낮은 핵심어는 분산하여 위치한다 (Van Eck and Waltman 2011). 클러스터링 맵은 단어 밀도 지도와 유사하지만, 각 집단별 밀도가 표시되며 각 집단 간 인접한 구간의 경우에 는 핵심어 개수에 의해 혼합되어 나타난다. 오버레이 시각 화는 핵심어 색상이 다르게 지정되는 부분을 제외하면 네 트워크 관계도와 동일하며, 분석 결과를 시각화하는 도구 로 유용하다 (Van Eck and Waltman 2023).

    3. 결과 및 고찰

    3.1. 종분포모형 문헌학적 특성

    국내 종분포모형 관련 학술논문은 1998년부터 2023년 7 월까지 총 148편이 출판되었다. 연도별 논문 수는 2015년 22편 (14.9%)으로 가장 많은 것으로 확인되었다. 관련 학술 논문의 첫 출판 이래 2014년 이전까지는 총 33편 (22.3%) 이 출판되었으나, 2015년 이후부터 2023년 7월까지 115 편 (77.7%)으로 나타나 2015년을 기점으로 학술논문 수의 뚜렷한 증가 경향을 확인하였다 (Fig. 1a). 이는 최근의 종 분포모형은 통계적 모형 (Statistical model)과 기계학습 모 형 (Machine learning model)으로 구분되어 다양한 방법론 이 연구되고 있으며, GAM (Generalized additive model), ANN (Artificial neural network), MaxEnt (Maximum entropy) 등 사용량이 많은 다양한 종분포모형의 장단점 을 분석하거나 적용 분야를 확대하기 위한 노력이 활발 히 이어지고 있는 국제적인 연구 흐름이 (Franklin 2010;Li and Wang 2013) 국내 연구 현실에 그대로 반영된 결과로 보인다.

    종분포모형의 예측 정확도를 향상하기 위해서는 다양한 종분포모형의 예측 성능 평가와 안정성 평가가 필수적이 지만, 이러한 부분은 최적의 모형을 선정하는 측면의 제약 으로 작용할 수 있다 (Duan et al. 2014). 아울러, 생물다양 성을 평가하고 예측하기 위한 모델링 연구는 모형의 선정 과 연구의 설계 과정에 따라 동일한 생물종과 서식 환경을 대상으로 상이한 예측 결과를 도출할 수 있으므로 정밀한 기초자료의 구성과 적절한 모형 및 변수의 선정에 있어 심 도 있는 검토가 우선적으로 고려될 필요가 있다 (Guisan et al. 2013).

    1998년부터 2023년 7월까지 각 연구 주제를 기준으로 구분한 연평균 논문 출판 수는 생물종 분포 및 평가에 관한 논문이 연평균 2.77편으로 총 72편 출판되었으며, 기후변 화 관련 논문은 연평균 2.42편으로 총 63편, 모형 비교 및 평가에 관한 논문이 연평균 0.5편으로 총 13편 출판된 것 으로 나타났다. 생물종 분포 및 평가 관련 논문과 기후변화 와 관련된 논문의 출판 수는 유사하였고 모형 비교 및 평가 에 관한 논문의 출판 수는 타 연구 주제와 비교하여 낮은 수준으로 확인되었다 (Fig. 1b).

    학술지별 연구 논문 수를 살펴보면, 총 34개의 학술지에 서 종분포모형에 대한 연구 논문이 발표되었다 (Fig. 1c). 한국환경복원기술학회지에서 20편 (13.5%)으로 가장 많 은 종분포모형 관련 논문을 발표하였고, 한국환경생태학회 지에서 16편 (10.8%), 한국환경영향평가학회지에서 16편 (10.8%), 대한공간정보학회지에서 10편 (8.1%)으로 나타 나 생물, 생태, 환경 분야의 범위를 다루는 학회지에서 종 분포모형 관련 논문이 출판되는 경향을 확인하였다.

    국내 생물 생태 분야에서 종분포모델은 생물종 분포 및 평가와 관련된 주제와 기후변화 관련 주제를 중심으로 활 발히 활용되고 있다. 이는 급격한 기후변화에 대응하기 위 한 적응 대책의 마련, 생물다양성 보전과 지속가능한 생태 계 조성 부분에 대한 최근의 정책적인 수요가 반영된 결과 로 판단된다. 최근 국내외 종분포모형 활용 연구에서는 기 후변화에 따른 생물종 영향, 생태계교란에 따른 생물다양 성 변화, 지속가능한 환경 조성에 관한 연구가 활발히 이루 어지고 있다 (Hardy 2003;Kudo et al. 2004;Song and Lee 2014;An et al. 2016;Kim et al. 2022). 향후 생물종의 분 포 변화, 생물 서식지 현황 파악 및 예측, 기후변화에 따른 생물 서식 공간과 생물종 간 상호관계의 변화, 다양한 환 경 요인에 따른 생태계 교란의 정량 평가, 생물종 취약성 평가 등 연구 수요가 높은 다양한 주제를 대상으로 정확 성과 정밀성을 확보한 종분포모형을 활용하면 생물다양 성 보전을 위한 과학 기반 정책 개발과 정책 이행 측면의 실효적 지원이 가능할 것으로 예상된다. 이를 위해서는 종 분포모형의 기술적인 진보, 정밀한 생물 데이터의 확보, 모 델 성능의 객관적 평가 등의 노력이 수반되어야 할 것으로 판단된다.

    3.2. 종분포모형의 활용 동향

    종분포모형의 활용 동향을 알아보기 위해 관련 학술논 문을 식물, 포유류, 조류, 양서·파충류, 어류, 곤충류, 저서 성 대형무척추류 7개 생물 분류군으로 구분하였고 정확 한 종명이 제시되지 않은 논문은 기타로 분류했다. 총 148 편의 종분포모형 활용 학술논문은 식물과 관련된 주제 가 67편 (45.3%)으로 가장 많았으며, 포유류 29편 (19.6%), 양서·파충류 16편 (10.8%) 순으로 나타났다 (Fig. 2a). 국 내에서의 종분포모형 활용은 포유류, 어류 등 척추동물을 대상으로 시작되었으나 (Kim et al. 1998;Park and Hong 1998), 본 연구에서는 식물을 대상으로 종분포모형의 활 용도가 비교적 높게 나타나고 있음을 확인할 수 있었다. 이러한 경향은 국내 보고된 식물이 4,609종에 이르며, 타 생물 분류군과 비교하여 다량의 현장 조사 자료가 확보 된 부분, 기후변화 취약성 등과 관련해 활발한 연구가 진 행 중인 부분에 기인하는 것으로 추정된다 (Lee et al. 2015;National List of Species of Korea 2022;National Institute of Ecology 2023). 또한 기후변화 생물지표 (Climate-sensitive Biological Indicator Species; CBIS) 100종 중 39종 이 식물에 해당하며, 기후변화에 직접적인 영향이 뚜렷 하고 (Kwon et al. 2012;National Institute of Biological Resources 2023), 다른 생물 분류군에 비해 접근성이 비교 적 용이하므로 국가 수준에서 다양한 연구가 진행되고 있 다 (Chae et al. 2022). 유럽과 아시아 등에서도 종분포모형 을 활용하여 식물 서식지 변화, 기후변화 취약성, 기후 위 기 대응 등과 관련된 연구가 활발히 이루어지고 있음을 확 인할 수 있다 (Fassou et al. 2020;Zhou et al. 2021).

    한편, 최근에는 인간 생활 전반에 영향을 주는 생물다양 성이 강조되고 있으며, 사회적, 경제적인 부분을 비롯해 인 류의 안정과 존속에 영향을 미칠 수 있는 기후변화의 심 각성과 기후 행동의 시급성이 활발하게 논의되는 상황에 서 식물을 비롯하여 다양한 생물 분류군을 대상으로 이루 어지는 종분포모형 활용 연구가 점차 확산하는 경향을 보 인다. 본 연구에서 수집한 148편의 논문에서는 총 30개 의 종분포모형이 활용되었다 (Fig. 2c). 각각의 학술논문에 서 활용된 개별적인 종분포모형 가운데 MaxEnt 모형 (81 회, 44.5%)이 가장 활발하게 이용되었으며, 다음으로 HSI (Habitat suitability Index) 모형 (18회, 9.9%), Ensemble 모 형 (14회, 7.7%) 순으로 나타났다. 각각의 개별적인 종분포 모형 가운데 MaxEnt 모형은 양적인 활용 빈도뿐 아니라, 다양한 생물분류군에서 고르게 활용되고 있었으며, HSI 모 형은 식물, 포유류, 양서·파충류, 무척추동물에서 주로 활 용되었고 Ensemble 모형은 대부분 식물 관련 연구에서 활 용되었다 (Fig. 2b).

    국내에서 가장 많이 활용되는 종분포모형은 MaxEnt 모 형이며, 현재 다양한 분류군에서 다루고 있다. MaxEnt 모 형은 기계학습을 통해 생물종의 분포를 예측하며, 출현 데이터만을 사용할 수 있는 특성을 지닌다 (Li and Wang 2013). MaxEnt 모형을 이용한 예측 방법은 데이터 수집의 오류를 최소화하고 충분한 예측 변수를 확보할 경우 생물 종의 자연 분포 범위를 정밀하게 예측할 수 있는 장점을 가 진다 (Elith and Leathwick 2009). 국내 생태 분야의 기초 조사자료는 야생생물의 출현 정보가 대부분이므로 출현 정보만을 활용하거나 임의의 비출현 정보를 생성하여 활 용하는 방법이 주로 이용되어 왔으며 (Seo et al. 2008), 출 현 정보를 이용하는 부분에 있어 최적화된 Maxent 모형 등 이 활발히 사용되고 있다 (Phillips et al. 2006;Phillips and Dudík 2008).

    Hernandez et al. (2006)은 출현 데이터만을 사용하는 모형인 MaxEnt, GARP (Genetic Algorithm for Rule set Production), Bioclim, Domain의 예측 성능을 비교하여 평가한 결과, MaxEnt 모형이 가장 높은 성능을 보이는 것 으로 보고하였지만, 비출현 데이터를 필요로 하지 않는 MaxEnt 모형과 GARP 모형은 출현 데이터와 비출현 데 이터를 모두 필요로 하는 모형과 비교하여 분포 예측 적합 성이 낮게 나타날 수 있다 (Pearson et al. 2006;Seo et al. 2008). 또한, 사용되는 출현자료가 해당 생물종의 전체 분 포를 대표할 수 없으므로 인해 나타날 수 있는 오류도 모 형의 한계로 제기되고 있다 (Pulliam 2000;Loiselle et al. 2008;Svenning et al. 2008;Pagel et al. 2020;Lee-Yaw et al. 2022).

    일반적으로는 기계학습과 같은 복잡한 알고리즘을 사용 하는 모형은 GAM 모형과 같이 간단한 회귀모형과 비교 해 우수한 성능을 보일 수 있지만 (Prasad et al. 2006;Meynard and Quinn 2007;Olden et al. 2008;Phillips and Dudík 2008), 제한적인 조건과 활용 목적 등에 따라서는 간단한 모형이 우수한 성능을 나타내는 경우도 있으므로 모든 조 건에서 최적인 모형을 제안하는 것은 어려운 일이다 (Marmion et al. 2009;Li and Wang 2013). 향후 종분포모형을 활용하는 데 있어 다양한 조건을 고려한 최적의 모형 선정 과 이를 보완하기 위한 모형 간 연계, 정량적인 입력 변수 의 개발, 현지 조사 자료의 체계적 수집 방안 등을 개선하 면 생물다양성 보전과 기후 대응 수요 등과 관련된 국가 정 책 수립 측면의 기여가 가능할 것으로 보인다.

    본 연구에서는 국내의 모든 학술지에서 출판된 논문을 대상으로 종분포모형의 활용 동향과 흐름을 파악하고 향 후 관련 연구에서 유용하게 논의될 수 있는 시사점을 제시 하고자 하였으나, 국내 환경을 대상으로 한 국제 학술논문 이 포함되지 않은 한계를 지닌다. 이어지는 연구에서는 국 내에서 연구된 국내외 학술지의 학술 논문을 대상으로 통 합적인 연구를 수행하고 그 결과에 대한 다양한 논의를 추 가하면 미래 연구 방향 설정 등에 있어 합리적인 고찰과 유 용한 기여가 가능할 것으로 사료된다.

    3.3. 텍스트마이닝 기법을 활용한 종분포모형 활용 동향

    Wordcloud에 기초한 전체 학술논문의 핵심어 빈도수는 “Climate change”가 151회로 가장 많았고 “RCP (Representative concentration pathways)”가 81회로 나타나 전반 적으로 기후변화와 관련된 핵심어가 높은 빈도로 사용되었 으며, “Distribution” (104회), “Habitat” (77회), “s.plant” (88 회) 등 종분포와 관련된 핵심어의 빈도수도 비교적 높게 나 타났다. 반면, “Altitude” (41회), “Environmental variable” (36회), AUC (26회) 등 모형 및 변수와 관련된 핵심어의 출 현 빈도는 낮게 나타났다 (Fig. 3).

    연관성에 따른 핵심어의 빈도수를 나타내는 단어 밀 도지도에서는 “Habitat”이 가장 높은 밀도로 확인되었고 “Distribution”, “Climate change” 순으로 높은 밀도를 보였 다 (Fig. 4a). 단어 밀도지도와 Wordcloud 분석 결과를 종 합하면, 기후변화를 고려한 생물종 분포 관련 학술논문이 생물종 분포 관련 학술논문과 비교해 낮은 빈도를 보였지 만, 기후변화를 주요 주제로 다루지 않는 다양한 학술논문 에서는 “Climate change”를 비교적 높은 빈도로 언급하고 있음을 확인하였다.

    핵심어 네트워크 관계를 분석한 결과에서는 전체 분 석 대상 논문 148편에서 총 3,681개의 핵심어가 확인되었 고 클러스터링 맵을 이용해 최소 6번 이상 사용된 핵심어 를 선별 분석하여 3개의 집단으로 구분하였다 (Fig. 4b). Cluster 1 (붉은색)에서는 생물종 분포, 서식 환경 요소와 관련 있는 핵심어가 많았으며, Cluster 2 (녹색)에서는 기 후변화, 기후변화에 따른 미래 예측 관련 핵심어가 주로 나 타났고 Cluster 3 (파란색)에서는 개별 모형, 환경 변수 등 과 관련된 핵심어가 주로 확인되어 본 연구의 문헌학적 특 성에서 연구 주제에 따라 구분한 생물종 분포 및 평가, 기 후변화, 모형 비교 및 평가와 일치하여 그룹화되는 경향을 확인할 수 있었으며, 각 핵심어 간 연결된 노드를 통해 3개 의 그룹이 서로 연관성 있음이 확인되었다 (Fig. 5a). 또한, 텍스트마이닝 결과를 토대로 연구 목적에 따라 구분할 경 우 모형 비교 및 평가 관련 논문의 비율이 낮게 나타났지만 (Fig. 1c), 본 연구에서 수집한 모든 분석 대상 논문에서는 모형의 정확성 및 변수에 대한 부분을 고려하는 것으로 보 인다 (Table 2).

    핵심어의 시계열적 변화를 시각화한 결과, 초기 포유류 를 시작으로 식물, 양서·파충류 등 생물 분류군에 포함된 생물종을 핵심어로 언급한 학술논문이 출판되었고 2016 년 이후부터 최근까지의 학술논문에서는 기후변화와 관련 된 핵심어가 가장 많이 사용된 것으로 나타났다 (Fig. 5b). 또한 2010년대를 전후하여 토지피복, 수계, 고도 등 지리적 환경 변수와 관련된 핵심어가 많이 사용되었고 2014년 이 후로는 가장 따뜻한 지역, 가장 건조한 달, 기후변화 등 기 후 환경 변수에 관한 핵심어가 주로 등장하였다. 이러한 경 향은 국내에서 수행하는 종분포모형 활용 연구가 과거 생 물종의 서식 환경을 고려한 연구에서 최근 기후변화 영향 을 반영한 연구로 확장되고 있음을 시사하며, 핵심어 집단 간 거리가 가까운 것으로 보아 세분된 연구 주제가 높은 연 관성을 바탕으로 유사하거나 동일한 목적으로 진행되고 있음을 추정할 수 있다.

    본 연구에서는 텍스트마이닝 기법을 활용해 종분포모형 의 활용 동향을 세부적으로 파악하고자 했다. 학술논문의 초록을 대상으로 분석한 본 연구에서는 종분포모형의 거 시적인 활용 동향의 파악이 가능하였으나, 생물종에 따른 변수 선정 과정과 모형의 선정 과정 등 세밀한 연구 동향을 구체적으로 파악하는 부분에 있어서는 일정 부분 한계가 존재하므로 학술논문 전문을 포함해 분석하는 과정이 추 가되어야 종분포모형의 활용 동향에 대한 보다 심도 높은 논의가 가능할 것으로 판단된다.

    적 요

    종분포모형은 생물다양성 보전 및 기후변화 영향평가 등을 위해 활발히 이용되는 방법론이며, 국내에서도 다양 한 연구가 진행되고 있으나, 관련 연구 현황과 최근의 동향 을 파악하고 시사점을 논의하여 미래 연구에 유용한 정보 를 제공하는 연구는 부족한 실정이다. 본 연구에서는 국내 의 학술지에서 출판된 학술논문을 대상으로 종분포모형의 활용 동향과 흐름을 파악하여 향후 관련 연구에서 활용될 수 있는 기초적인 정보를 제공하고자 하였다. 우리는 국내 의 관련 학술논문을 수집하여 문헌학적 방법과 텍스트마 이닝을 통해 분석했고 이를 토대로 종분포모형 관련 연구 현황과 최근의 동향을 파악하였다. 국내 종분포모형 관련 학술논문은 1998년부터 2023년까지 총 148편이 출판되었 으며, 그중 115편 (77.7%)은 2015년 이후 출판된 것으로 나 타났다. 다양한 알고리즘 중 MaxEnt 모델이 가장 많이 활 용되었으며 (44.5%), 식물을 대상으로 한 연구와 생물종 분 포 및 평가, 기후변화와 관련된 주제가 주요 주제로 다루어 졌다. 텍스트마이닝 분석에서 가장 많이 출현한 핵심어는 “Climate change”로 다양한 연구 주제에서 기후변화로 인 한 생물다양성 변화를 고려하였다. 향후 종분포모형의 활 용에는 다양한 조건에 따른 최적의 모형 선택, 모형 간 연 계, 정량적인 입력 변수의 개발 등을 고려할 필요가 있으 며, 현지 조사 자료의 수집 체계 개선 등을 도모하면 생물 다양성 보전과 기후 대응 등 국가 정책 수요에 유용하게 활 용될 수 있는 과학적 도구로써 기여가 가능할 것으로 판단 된다.

    사 사

    본 연구는 환경부 국립생태원 육상풍력발전 생태분야 모니터링 및 환류체계 구축 연구 (II) (NIE-C-2023-90) 및 한국환경산업기술원 기후변화 적응을 위한 의사결 정형 통합 영향평가 플랫폼 기반 구축 및 활용기술개발 (2022003570007) 의 지원으로 수행되었습니다.

    CRediT authorship contribution statement

    DJ Kim: Investigation, Methodology, Data Curation, Data analysis, Writing - Original draft. YS Kwon: Investigation, Writing - Review & editing. NY Han: Data Curation, Visualization. DH Lee: Writing - Review & editing, Conceptualization, Resource, Supervision.

    Declaration of Competing Interest

    The authors declare no conflicts of interest.

    Figure

    KJEB-41-4-413_F1.gif

    (a) Yearly variation in the number of research papers on species distribution models in South Korea, (b) average count of research papers on species distribution models in South Korea categorized under species distribution & evaluation, climate change, and model comparison & evaluation, and (c) fluctuations in the number of academic articles on species distribution models within South Korea. The abbreviations for the publication societies and institutes in figure 1 (c) have been indicated in Supplementary Table A1.

    KJEB-41-4-413_F2.gif

    (a) Proportions of published articles by taxonomic group, (b) number of models applied by taxonomic group, and (c) proportion of model utilization frequency in the entire articles.

    KJEB-41-4-413_F3.gif

    Visualization of key terms frequency in species distribution modeling research in South Korea using a word cloud.

    KJEB-41-4-413_F4.gif

    Visualization of key terms in species distribution modeling research in South Korea using co-occurrence analysis: (a) Word density map and (b) cluster density map.

    KJEB-41-4-413_F5.gif

    Visualization of key terms in species distribution modeling research in South Korea using co-occurrence analysis: (a) Word network map and (b) time -based overlay visualization map.

    Table

    Synonym and stopword dictionary production examples

    Abbreviation (Abbrev.) of publication societies and institutes of figure 1

    Top occurring species distribution model keywords in different clusters

    Reference

    1. An JH , CH Lim, SH Jung, AR Kim and CS Lee.2016. Effects of climate change on biodiversity and measures for them. J. Wet. Res. 18:474-480.
    2. Araújo MB , RP Anderson, A Márcia Barbosa, CM Beale, CF Dormann, R Early, RA Garcia, A Guisan, L Maiorano, B Naimi, RB O’Hara, N Zimmermann and C Rahbek.2019. Standards for distribution models in biodiversity assessments. Sci. Adv. 5:eaat4858.
    3. Capen DE. 1981. The Use of Multivariate Statistics in Studies of Wildlife Habitat. United States Department of Agriculture General Technical Report RM-87. United States Department of Agriculture, Forest Service, Rocky Mountain Research Station. Fort Collins, Colorado, USA.
    4. Chae HH , YC Kim and SW Son.2022. Korean and worldwide research trends on rare plant and endemic plant in Korea. Korean J. Environ. Ecol. 36:257-276.
    5. Do Y , EJ Ko, YM Kim, HG Kim, GJ Joo, JY Kim and HW Kim.2015. Using text-mining method to identify research trends of freshwater exotic species in Korea. Korean J. Ecol. Environ. 48: 195-202.
    6. Duan RY , XQ Kong, MY Huang, WY Fan and ZG Wang.2014. The predictive performance and stability of six species distribution models. PLoS One 9:e112764.
    7. Elith J and JR Leathwick.2009. Species distribution models: ecological explanation and prediction across space and time. Annu. Rev. Ecol. Evol. Syst. 40:677-697.
    8. Fassou G , K Kougioumoutzis, G Iatrou, P Trigas and V Papasotiropoulos.2020. Genetic diversity and range dynamics of Helleborus odorus subsp. cyclophyllus under different climate change scenarios. Forests 11:620.
    9. Franklin J. 2010. Mapping Species Distributions: Spatial Inference and Prediction. Cambridge University Press. Cambridge, UK.
    10. Grinnell J. 1904. The origin and distribution of the chest-nutbacked chickadee. The Auk 21:364-382.
    11. Guisan A , R Tingley, JB Baumgartner, I Naujokaitis-Lewis, PR Sutcliffe, AI Tulloch, TJ Regan, L Brotons, E McDonald-Madden C Mantyka-Pringle, TG Martin, JR Rhodes, R Maggini, SA Setterfield, J Elith, MW Schwartz, BA Wintle, O Broennimann, M Austin, S Ferrier, MR Kearney, HP Possingham and YM Buckley.2013. Predicting species distributions for conservation decisions. Ecol. Lett. 16:1424-1435.
    12. Hardy JT. 2003. Climate change: Causes, Effects, and Solutions. John Wiley & Sons. West Sussex, England.
    13. He Q. 1999. Knowledge discovery through co-word analysis. Libr. Trends 48:133-159.
    14. Hernandez PA , CH Graham, LL Master and DL Albert.2006. The effect of sample size and species characteristics on performance of different species distribution modeling methods. Ecography 29:773-785.
    15. Isbell F , A Gonzlez, M Loreau, J Cowles, S Díaz, A Hector, GM Mace, DA Wardle, MI O’Connor and JE Duffy.2017. Linking the influence and dependence of people on biodiversity across scales. Nature 546:65-72.
    16. Kim A , YC Kim and DH Lee.2018. A management plan according to the estimation of nutria (Myocastor coypus) distribution density and potential suitable habitat. J. Environ. Impact Assess. 27:203-214.
    17. Kim J , C Seo, H Kown, J Ryu and M Kim.2012. A study on the species distribution modeling using national ecosystem survey data. J. Environ. Impact Assess. 21:593-607.
    18. Kim M and S Kwon.2022. Analysis of research trends in the hydrogen energy field using co-occurrence keyword analysis. Explos. Blast. 40:1-18.
    19. Kim MH , SK Choi, J Cho, MK Kim, J Eo, SJ Yeob and JH Bang.2022. Predicting the suitable habitat distribution of Conyza sumatrensis under RCP scenarios. Korean J. Environ. Biol. 40:1-10.
    20. Kim WJ , CH Park and WM Kim.1998. Development of habitat suitability analysis models for wild boar (Sus scrofa): A case study of Mt. Sulak and Mt. Jumbong. J. GIS Assoc. Korea 6:247-256.
    21. Kudo G , Y Nishikawa, T Kasagi and S Kosuge.2004. Does seed production of spring ephemerals decrease when spring comes early? Ecol. Res. 19:255-259.
    22. Kwon H , JE Ryu, C Seo, J Kim, DO Lim and MH Suh.2012. A study on distribution characteristics of Corylopsis coreana using SDM. J. Environ. Impact Assess. 21:735-743.
    23. Kwon HS. 2014. Applying ensemble model for identifying uncertainty in the species distribution models. J. Korean Soc. GIS 22:47-52.
    24. Lee DH , YC Kim, MH Chang, S Kim, D Kim and J Kil.2016. Current status and management of alien turtles in Korea. J. Environ. Impact Assess. 25:319-332.
    25. Lee-Yaw JA , JL McCune, S Pironon and SN Sheth.2022. Species distribution models rarely predict the biology of real populations. Ecography 2022:e05877.
    26. Lee YH , YJ Oh, SH Hong, CS Na, YE Na, CS Kim and SI Sohn.2015. Predicting the suitable habitat of invasive alien plan Conyza bonariensis based on climate change scenarios. J. Climate Change Res. 6:243-248.
    27. Li X and Y Wang.2013. Applying ensemble model for identifying uncertainty in the species distribution models. Integr. Zool. 8:124-135.
    28. Loiselle BA , PM Jørgensen, T Consiglio, I Jiménez, JG Blake, LG Lohmann and OM Montiel.2008. Predicting species distributions from herbarium collections: Does climate bias in collection sampling influence model outcomes? J. Biogeogr. 35:105-116.
    29. Marmion M , M Luoto, RK Heikkinen and W Thuiller.2009. The performance of state-of-the-art modelling techniques depends on geographical distribution of species. Ecol. Model. 220:3512-3520.
    30. Meynard CN and JF Quinn.2007. Predicting species distributions: A critical comparison of the most common statistical models using artificial species. J. Biogeogr. 34:1455-1469.
    31. National Institute of Biological Resources.2023. Biodiversity in Korean Peninsula. National Institute of Biological Resources. Incheon, Korea. https://species.nibr.go.kr/home/mainHome.do?cont_link=011&subMenu=011017&contCd=011017. Accessed October 12, 2023.
    32. National Institute of Ecology.2023. Ecobank. National Institute of Ecology. Seocheon, Korea. https://www.nie-ecobank.kr/rdm/rsrchdoi/selectRsrchDtaListVw.do. Accessed September 4, 2023.
    33. National List of Species of Korea.2022. National Institute of Biological Resources. Incheon, Korea. https://kbr.go.kr. Accessed October 12, 2023.
    34. NLTK.2023. NLTK::Natural Language Toolkit. https://www.nltk.org/. Accessed October 12, 2023.
    35. Olden JD , JJ Lawler and NL Poff.2008. Machine learning methods without tears: a primer for ecologists. Q. Rev. Biol. 83:171- 193.
    36. Pagel J , M Treurnicht, WJ Bond, T Kraaij, H Nottebrock, A Schutte- Vlok, J Tonnabel, KJ Esler and FM Schurr.2020. Mismatches between demographic niches and geographic distributions are strongest in poorly dispersed and highly persistent plant species. Proc. Natl. Acad. Sci. U. S. A. 117:3663-3669.
    37. Park CH and SH Hong.1998. Estimation of fish species diversity of small and medium rivers of Korea with fish species-habitat relationship models of gap. J. GIS Assoc. Korea 6:91-102.
    38. Pearson RG , W Thuiller, MB Araújo, E Martinez-Meyer, L Brotons, C McClean, L Miles, P Segurado, TP Dawson and DC Lees.2006. Model-based uncertainty in species range prediction. J. Biogeogr. 33:1704-1711.
    39. Phillips SJ and M Dudík.2008. Modeling of species distributions with Maxent: New extensions and comprehensive evaluation. Ecography 31:161-175.
    40. Phillips SJ , RP Anderson and RE Schapire.2006. Maximum entropy modeling of species geographic distributions. Ecol. Model. 190:231-259.
    41. Prasad AM , LR Iverson and A Liaw.2006. Newer classification and regression tree techniques: bagging and random forests for ecological prediction. Ecosystems 9:181-199.
    42. Pulliam HR. 2000. On the relationship between niche and distribution. Ecol. Lett. 3:349-361.
    43. PyPI.2023. Beautifulsoup4·PyPI. https://pypi.org/project/beautifulsoup4. Accessed October 12, 2023.
    44. Python Software Foundation.2021. Python (3.9.9). https://www.python.org. Accessed October 12, 2023.
    45. Seo CW. 2000. Wild boar (Sus scrofa coreanus Heude) habitat modeling using GIS and logistic regression. Ph.D. dissertation. Seoul University. Seoul, Korea.
    46. Seo CW , YR Park and YS Choi.2008. Comparison of species distribution models according to location data. J. Korean Soc. GIS 16:59-64.
    47. Shin MS , C Seo, M Lee, JY Kim, JY Jeon, A Pradeep and SB Hong.2018. Prediction of potential species richness of plants adaptable to climate change in the Korean Peninsula. J. Environ. Impact Assess. 27:562-581.
    48. Song HG and CS Lee.2014. Diagnosis on climate change: Climate change based on the flowering response of cherry tree. pp. 60-74. In: Climate Change and Ecology. Series of Long Term Ecological Research 7 (Lee CS, ed.). National Institute of Ecology. Seocheon, Korea.
    49. Stauffer DF. 2002. Linking populations and habitats: where have we been? Where are we going? pp. 53-62. In: Predicting Species Occurrences: Issues of Accuracy and Scale (Scott JM, PJ Heglund, ML Morrison, JB Haufler, MG Raphael, WA Wall and FB Samson, eds.). Island Press. Washington, D.C., USA.
    50. Svenning JC , S Normand and F Skov.2008. Postglacial dispersal limitation of widespread forest plant species in nemoral Europe. Ecography 31:316-326.
    51. Trisurat Y , N Bhumpakphan, DH Reed and B Kanchanasaka.2012. Using species distribution modeling to set management priorities for mammals in northern Thailand. J. Nat. Conserv. 20:264-273.
    52. Van Eck NJ , L Waltman, R Dekker and J van Den Berg.2010. A comparison of two techniques for bibliometric mapping: multidimensional scaling and VOS. J. Am. Soc. Inf. Sci. Technol. 61:2405-2416.
    53. Van Eck NJ and L Waltman.2011. Text mining and visualization using. VOSviewer. ISSI Newsletter 7:50-54.
    54. Van Eck NJ and L Waltman.2023. VOSviewer manual. Manual for VOSviewer version, 1.6.19.
    55. Zhou Y , Z Zhang, B Zhu, X Cheng, L Yang, M Gao and R Kong.2021. MaxEnt modeling based on CMIP6 models to project potential suitable zones for Cunninghamia lanceolata in China. Forests 12:752.

    Vol. 40 No. 4 (2022.12)

    Journal Abbreviation 'Korean J. Environ. Biol.'
    Frequency quarterly
    Doi Prefix 10.11626/KJEB.
    Year of Launching 1983
    Publisher Korean Society of Environmental Biology
    Indexed/Tracked/Covered By

    Contact info

    Any inquiries concerning Journal (all manuscripts, reviews, and notes) should be addressed to the managing editor of the Korean Society of Environmental Biology. Yongeun Kim,
    Korea University, Seoul 02841, Korea.
    E-mail: kyezzz@korea.ac.kr /
    Tel: +82-2-3290-3496 / +82-10-9516-1611