서 론
메꽃과 식물은 전 세계적으로 55속 1,600여 종이 알려 져 있으며, 국내에는 7속 20여 종이 분포하고 있는 것으로 보고되고 있다. 이 중에 9종은 국내 유입된 외래종으로서 밭, 밭둑, 도로변, 초지 등에 자생하며, 비교적 높은 온도에 서 잘 자라며 햇빛이 잘 들고 비옥한 곳까지 광범위하게 자 라는 잡초로 분류된다. 전 세계적으로는 온대지방부터 열 대지방까지 폭넓게 분포하며 종내 잡종화가 많이 이루어 져 형태학적으로 구분이 매우 어려운 식물 중의 하나이다 ( Judd et al. 2008). 국내 유입된 메꽃과 식물 중 미국나팔꽃, 둥근잎미국나팔꽃, 둥근잎나팔꽃, 별나팔꽃, 애기나팔꽃은 열대 아메리카나 북아메리카 원산으로 국내에서는 전국의 농경지, 농경지 주변, 하천변, 나출지, 도로변 등에 광범위 하게 분포하고 있다 (Park 2009). 이들 식물은 주변에서 흔 히 관찰되지만 구별이 쉽지 않고 덩굴성으로 농작물이나 경관지역, 도로 및 하천변 등 다양한 환경에 분포하고 있기 때문에 관리가 어려운 식물이고 이들 종의 특성에 맞은 관 리를 위해서는 신속한 분류의 기법이 필요하다.
최근에는 전 세계적으로 식물종을 신속하게 분류하기 위한 연구 개발이 활성화되고 있다. Isoenzymes 또는 DNA 유연관계 분석에 기초하여 식물분류에 적용하고 있지만 이와 같은 방법들은 노동집약적이며 시간이 많이 소비되 기 때문에 야외 조사 시에는 수행될 수 없다. 근적외선 분 광기술 (Vis-NIR, visible-near infrared spectroscopy)은 비 파괴적이며, 전처리 과정이 간단하고, 빠른 시간 내에 데이 터를 획득할 수 있다는 장점 때문에 성분 검출 및 인증 목 적 등 여러 가지 방면에서 농업 부문에 적용이 가능한 분 석 방법이다. 이는 식물의 특정 작용기가 Vis-NIR 광선에 노출되면 분자 진동을 일으켜 특정 파장의 빛을 흡수한다 는 Lambert Beer 법칙에 근거한 정량적 방법이다. 최근에 는 Vis-NIR 분광기술을 제약, 식품 및 농업 산업에서 중요 한 화학 성분들을 정밀하게 식별하고, 식물들을 정확하게 동정하는 데 사용하고 있다 (Durgante et al. 2013;Lang et al. 2015;Hadlich et al. 2018). 근적외선 분광기술을 사용한 분 류기술은 유사한 스펙트럼 파장을 가진 시료들이 물리·화 학 및 생화학적 특성에서 유사하다는 사실에 근거한 것이 다 (Porker et al. 2017). 최근의 많은 연구에서 근적외선 분 광기술이 많은 화합물의 화학적 특성을 확인하고 구별하 기 위해 사용되어 왔다 (Luz and Crowley 2007;Ullah et al. 2014;Meerdink et al. 2016). 이와 같은 스펙트럼의 특징은 분석물질의 특정 구성요소를 정의할 수 있는 고유한 종에 대응되는 유일한 ‘fingerprint’ 스펙트럼을 생성한다는 방법 을 응용하고 있다 (Harrison et al. 2018).
Vis-NIR 스펙트럼의 변화는 육안으로 확인하기에는 너 무 작기 때문에 Vis-NIR 분광기술을 활용하기 위해서는 스 펙트럼 데이터의 통계 및 수학적 조작을 기반으로 적용할 수 있다. Vis-NIR 분광기술을 적용하기 위해서는 스펙트럼 의 수집 시 발생할 수 있는 환경적 조건도 스펙트럼의 오차 에 영향을 미칠 수 있다. 따라서, Vis-NIR 분광법의 최적화 된 결과를 위한 스펙트럼 데이터 분석의 초기 단계 중 하나 로서 전처리 기술이 제안되었다. Vis-NIR 분광기술을 이용 하기 위한 적절한 접근방식으로 전처리 및 머신러닝 모델 의 조합은 다양한 과학의 측면에서 사용되었고, 특히 이 방 식은 열대 우림에서 식물 조직 (잎, 목재, 나무 껍질)의 근적 외선 스펙트럼을 측정하여 식물종 식별에 탁월한 결과를 보여주었다. Durgante et al. (2013)은 중앙 아마존의 건조 된 잎에서 측정한 스펙트럼 데이터를 분석하여 Eschweilera 와 Corythophora (Lecythidaceae)의 두 식물 사이의 높은 유 연관계에 대한 결과를 보여주었다. Soares et al. (2017)은 휴 대용 NIRS 기기를 사용하여 서로 유사한 형태의 아마존 에 분포하는 마호가니 나무 6종을 성공적으로 분류하였다. Buitrago et al. (2017)은 19종의 잎을 대상으로 적외선 스펙 트럼을 적용하여 가장 효과적으로 구별하는 파장 (SWIR, MWIR 및 LWIR)을 선발하였고, Hadlich et al. (2018)은 아 마존 산림에서 휴대용 분광기를 사용하여 나무의 외부 또 는 내부 껍질을 측정한 스펙트럼을 사용하여 11종의 식물 을 구별하였다.
이와는 대조적으로 현재까지 국내에서는 Vis-NIR 분광 법을 활용하여 다양한 전처리 및 머신러닝 모델을 기반으 로 한 메꽃과의 분류 모델의 개발에 대한 연구는 없는 실정 이다. 따라서, 본 연구는 메꽃과 식물의 잎으로부터 얻은 대 량의 Vis-NIR 스펙트럼에 대해 다양한 전처리 및 머신러닝 모델을 적용하여 최적의 분류 모델을 선발하는 데 있다.
재료 및 방법
1. 식물재료
메꽃과의 식물 6종 둥근잎미국나팔꽃 (Ipomoea hederacea var. hederacea A. Gray), 둥근잎나팔꽃 (Ipomoea purpurea (L.) Roth), 미국나팔꽃 (Ipomoea hederacea Jacq.), 둥근잎유홍초 (Quamoclit coccinea Moench), 별나팔꽃 (Ipomoea triloba L.), 애기나팔꽃 (Ipomoea lacunosa L.)을 대상으로 스펙트럼 정 보를 2019년~2021년 5월에서 7월 사이에 수집하였다. 스 펙트럼 측정을 위해 경기도 44지점, 강원도 1지점, 충청북 도 25지점, 충청남도 3지점, 경상북도 3지점, 전라북도 3지 점, 제주도 17지점의 총 96지점의 현장조사를 하였다. 각 식물체는 3엽기 이상의 생육기 식물로서 서로 다른 위치의 5개 잎의 표면을 사선으로 측정하였다. Vis-NIR 장치의 광 학 창은 잎의 표면과 직접 근접하여 센서에 다른 빛이 들어 오는 것을 차단하였다. 식물의 잎은 병이나 얼룩이 없는 깨 끗한 잎을 대상으로 측정하였다. 각각의 종에 대해서 측정 된 전체 스펙트럼 데이터는 Table 1과 같다.
2. 스펙트럼 측정
가시광선과 근적외선을 이용한 스펙트럼 측정을 위해 질병이나 곤충에 의한 손상이 없는 완전히 성장한 잎을 대 상으로 325~1,075 nm 범위의 스펙트럼 파장을 측정하는 휴대용 가시광선과 근적외선 (Vis-NIR) 스펙트럼 분광기 (FieldSpec® HandHeld 2, ASD Inc. Longmont, CO, USA)를 사용하여 1.5 nm 간격으로 측정하였다. 스펙트럼은 선량을 최대로 감지할 수 있도록 잎의 표면에서 각 잎의 서로 다른 지점으로부터 3-point 방식으로 스펙트럼을 직접 측정하였 다. 스펙트럼 획득과정에서 Vis-NIR 장비의 광학 센서 부위 가 잎의 표면과 인접하여 간섭을 최소화하였고, 스펙트럼 을 획득하긴 전에는 측정장비의 Calibration을 실시하여 측 정값의 오차를 최소화하였다.
3. 스펙트럼 데이터 전처리
초기 수집된 스펙트럼은 측정된 정보와 더불어 다양한 변수에 의해 생성된 노이즈 신호로 구성되어 스펙트럼 정 보에 간섭을 주게 된다. 따라서 노이즈가 심한 325~399 nm 범위의 스펙트럼은 제거하여 분석에 적용하였다. 또한 스 펙트럼을 이용한 머신러닝 모델의 예측에서 오차의 발생 을 유도하는 노이즈를 최소화하여 최상의 판별 모델을 얻 기 위해 다음과 같은 4가지 유형의 스펙트럼 전처리 기법 이 사용되었다. 스펙트럼 데이터에서 최적의 전처리 방법 을 판단하기 위해 무처리 (RAW), Normalization (average), Savitzky-Golay Derivateves (1st), 그리고 Standard Normal Variate (SNV)을 수행하였으며, 모든 연산은 Unscrambler® X 소프트웨어 버전 10.5.1 (CAMO ASA, Oslo, Norway)을 이용하여 결과를 생성하였다.
4. 모델링 및 통계 분석
Vis-NIR 스펙트럼 분광기에서 추출한 데이터를 분석 하기 위해 다양한 머신러닝 모델을 적용하였다. 머신러 닝에 적용된 모델은 RapidMiner 스튜디오 버전 9.0.002 (Rapidminer, Inc., Boston, MA, USA)을 이용하여 수행하 였다. 머신러닝 모델은 Deep Learning, Generalized Linear Model (GLM), Random Forest, Support Vector Machine (SVM) 4가지 모델을 적용하여 분석하였으며, 이 중에서 높은 판별 정확도를 나타내는 최적의 모델을 선택하였다. 각 모델에 대한 입력은 스펙트럼 (파장 400~1,075 nm, 1.5 nm 간격)의 데이터를 이용하여 분석하였다.
결과 및 고찰
1. 스펙트럼 데이터와 전처리
메꽃과 식물 6 종에서 수집한 스펙트럼 데이터는 400~1,075 nm의 파장대의 범위에서 스펙트럼을 측정하 였다 (Fig. 1). 가시광선 파장대 영역인 400~700 nm에서는 둥근잎유홍초와 별나팔꽃의 흡광도가 조금 높게 나온 것 을 제외하고는 각 종마다 큰 차이를 보이지 않았다. VNIR 영역인 700~1,075 nm에서는 각 종별로 다양한 스펙트럼 을 보여주었고 스펙트럼의 편차가 크기 때문에 단순한 비 교만으로는 판정하기 어려운 데이터임을 확인할 수 있었 다. 이러한 종별 차이를 통계적으로 판단하기 위해 주성분 분석 (PCA)를 통해 확인해 보았고 분석한 결과 1축에서는 93.8%, 2축에서는 4.4%로 누적기여율은 98.2%로 분석되었 다 (Fig. 2). 1축에서는 종내 스펙트럼의 분포가 확인되었고 2축에서는 종간 스펙트럼의 분포가 확인되었다. 스펙트럼 이 겹쳐지는 부분도 있었지만 어느 정도 종간 스펙트럼이 차이가 있는 것으로 분석되었다. 스펙트럼의 이상치를 검 출하고 보다 신뢰할 수 있는 데이터 분석을 위하여 데이터 의 전처리를 수행하였다.
Fernández-Cabanás et al. (2006)이 통계적으로 적절한 전 처리 방법을 선택하기 어렵기 때문에 몇 가지 전처리 방법 을 비교하는 것이 좋다고 보고한 바 있어 메꽃과 식물의 스 펙트럼 5,378개를 대상으로 normalization, Savitzky-Golay, standard normal variate의 3가지의 전처리 기법과 raw 데이 터를 이용하여 분석하였다. 메꽃과 6종에 대한 평균 스펙 트럼과 각 전처리별 평균 스펙트럼을 비교하여 스펙트럼 의 단순 차이를 비교하였다 (Fig. 3). 종별 스펙트럼의 차이 는 주로 VNIR 영역인 700~1,075 nm에서 나타나는 것을 확인할 수 있었다.
2. 종 분류를 위한 머신러닝 분석
스펙트럼 데이터 분석을 위한 전처리의 선택은 통계적 으로 또는 예측모델에서 최적을 분류를 수행할 수 있다 (Delwiche et al. 2004). 따라서 메꽃과 식물의 정확한 판별 을 위해서 전처리 방법과 머신러닝을 이용한 판별 모델 을 조합하여 분류의 정확도를 산출하였다 (Table 2). 다양 한 전처리와 판별 모델을 적용하여 분석한 결과 정확도가 43.4~99.6%의 범위에서 판별결과가 나타났다. 머신러닝 방법의 하나인 support vector machine 모델에서 standard normal variate (SNV) 전처리를 하였을 경우 98.6%의 신뢰 도를 나타내며 가장 좋은 판별력을 보여주었다 (Table 2). 반면, support vector machine 모델에서도 Savitzky-Golay, normalization 전처리와 raw 스펙트럼에서는 81.5%, 63.5%, 58.5%로 낮은 판별력으로 분석되었다. Support vector machine은 각 데이터 속성의 제한이 없이 적용이 가능한 장점을 가지고 있어 (Gaye et al. 2021), 목화 잎의 분류에 적용하였고 토마토나 무아과의 식물병을 판단하는 데 이 용된 바 있다 (Patil et al. 2014;Jayanthi et al. 2020;Perumal et al. 2021). Deep learning은 SNV와 Savitzky-Golay, normalization 전처리와 raw 스펙트럼에서 97.1%, 96.2%, 95.0%, 84.6%로 raw 스펙트럼을 이용한 것을 제외하고는 모두 높은 판별력을 보여주었고 generalized linear model은 Savitzky-Golay 전처리에서 81.6%, SNV, normalization 전 처리와 raw 스펙트럼에서 62.7%, 52.3%, 51.1%로 분석되었 다. 머신러닝 모델 중의 random forest는 SNV 전처리에서 62.3%, normalization, Savitzky-Golay 전처리와 raw 스펙트 럼에서 54.5%, 54.2%, 43.4%로 가장 낮은 판별율을 보여주 었다. 스펙트럼을 수집할 때 주변환경의 밝기조건이나 스 펙트럼 수집장비의 상태와 같이 영향을 줄 수 있는 여러 요 인들이 있어서, Vis-NIR 분광기술을 활용하여 다른 식물의 식별 또는 분류에 적용할 수 있는지 여부는 확실하지 않았 다. 그러나 이 연구를 통해 휴대용 Vis-NIR 분광기를 사용 하여 적절한 전처리 및 머신러닝을 이용한다면 식물의 종 분류가 가능함을 확인할 수 있었다. 뿐만 아니라 같은 종 의 식물이라도 서로 다른 성장단계에서는 스펙트럼 차이 가 종종 있지만 식물종간의 스펙트럼 차이가 충분히 크면 식물종을 구별할 수 있을 것으로 판단되었다 (Meerdink et al. 2016). 또한 이렇게 식물 잎에서의 반사광을 측정하여 판별하는 연구는 식물 잎의 표피와 세포벽이 스펙트럼 특 징을 결정할 수 있다는 것을 확인할 수 있었다 (Bergo et al. 2016).
3. 최적의 식물분류 모델 선발
메꽃과 6종의 식물을 분류하기 위해 스펙트럼 데이터의 전처리와 다양한 머신러닝 모델의 적용을 기반으로 한 통 계적 최적 모델을 선발을 하였다. Table 2에서 메꽃과 식물 을 분류하기 위한 오류를 확인하였고 가장 높은 판별 정확 도를 나타내어 최적의 머신러닝 모델로 선발된 standard normal variate 전처리와 support vector machine (SVM) 모 델을 적용하였을 때의 정확도를 confusion matrix를 통 해 확인하였다. 메꽃과 6종의 판별 정확도는 둥근잎미국 나팔꽃 96.6%에서 별나팔꽃 99.7%의 범위로 판별 정확도 가 높게 분석되었다 (Table 3). SVM 모델에서 다른 전처리 를 적용했을 때의 결과는 raw 스펙트럼을 적용하면 둥근잎 유홍초 30.1%의 가장 낮은 판별 정확도를 보여주었고 애 기나팔꽃에서 99.5%의 높은 판별 정확도를 나타내었다. Normalized 전처리에서는 둥근잎나팔꽃 50.7%에서 둥근 잎유홍초 71.4%로 비교적 낮은 판별 정확도로 분석되었고, Savitzky-Golay 전처리에서는 둥근잎유홍초 62.9%에서 별 나팔꽃이 98.8%까지 판별 정확도가 분석되었다. 본 연구 에서 메꽃과 식물의 잎으로부터 수집된 스펙트럼은 식물 의 성장단계, 측정위치의 차이 등에 의해 높은 편차를 가진 데이터임에도 불구하고 데이터의 전처리 기법과 머신러닝 모델들을 적용하면 메꽃과 식물의 분류를 위한 모델 정확 도는 43.4~98.6%의 범위에서 확인되었고, 이 중 98.6%의 SVM 판별 모델을 확인할 수 있었다. 식물은 발달과정에서 병이나 해충, 기타 먼지 등과 같은 다양한 오염이 축적되기 때문에 어린 식물일수록 판별의 정확도는 더욱 높아질 것 으로 판단되었다. 그러나 식물종의 발달단계에 따라 스펙 트럼의 차이를 보이는 반면 큰 차이를 나타내지 않는 경우 도 있을 것으로 판단되었다 (Lang et al. 2015). 스펙트럼과 같이 비파괴적으로 적용 가능한 분류 기법은 식물의 발달 단계에 따른 형태적 혹은 생리적 변화에 의해서 발생되는 차이가 있는지에 대한 더 많은 연구가 필요할 것이다.
적 요
본 연구는 메꽃과 6종의 식물에 대해 신속하고 비파괴적 으로 분류하기 위해 근적외선 (Vis-NIR) 스펙트럼을 이용 하였고 데이터의 전처리와 머신러닝 기술을 적용하였다. 전국적으로 분포하는 메꽃과 6종에 대해 야외에서 휴대 용 분광기를 이용하여 판별하였다. 식물의 잎의 표면에서 400~1,075 nm의 근적외선 스펙트럼 (1.5 nm)을 수집하였 다. 수집된 스펙트럼 데이터는 3가지의 전처리와 raw데이 터를 이용하였고 4종류의 머신러닝 모델을 적용하여 높은 판별 정확도를 확인하였다. 전처리와 머신러닝 모델의 조 합을 통해 분석된 판별의 정확도는 43~99%의 범위로 분 석되었고, standard normal variate 전처리와 support vector machine 머신러닝 모델의 조합에서 판별 정확도가 98.6% 로 가장 높게 나타났다. 본 연구에서 수집된 스펙트럼은 식 물의 성장단계, 다양한 측정 지역 및 잎에서의 측정 위치 등과 같은 요인과 더불어 데이터 분석을 위한 조건으로 최 적의 전처리와 머신러닝 기술을 적용한다면 메꽃과 식물 의 야외에서의 정확한 분류가 가능하고 이들 식물의 효과 적인 관리와 모니터링에 활용할 수 있을 것으로 판단되었 다.