1. 서 론
Collembola와 같은 미소 절지동물에서 개체군의 크기는 주로 해당 개체군 내 개체 수로 정의하는 경우가 대부분이다 (Vegter et al. 1988;Abbas and Parwez 2019a). 그리고 동일 서식처에서 특정 개체군의 크기는 많은 연구에서 그 개체군의 서식처에 대한 적합도 (fitness)를 대표 한다 (Abbas and Parwez 2019b;Lee et al. 2023). 따라서 토양 생태계에서 풍부하고 중요한 생태적 지위를 가지는 Collembola 개체군을 이용한 토양 생태계 독성평가에서는 지표생물의 성충 및 생산된 유충의 개체수가 독성평가의 가장 중요한 종말점으로 사용된다 (Van Gestel 2012;Lee et al. 2019;Wee et al. 2019).
기존의 Collembola를 이용한 독성평가 방법에서 개체 수 계수와 크기 측정은 연구자가 현미경이나 육안으로 수작업 계수하는 방식으로 이루어져 왔다 (Wee et al. 2017;Son et al. 2019;Kim et al. 2024). 이러한 수동 계수 방법은 시간이 많이 소요될 뿐만 아니라, 연구자의 경험과 숙 련도에 따라 결과의 일관성과 정확도가 달라질 수 있다는 한계점을 가지고 있다 (Sys et al. 2022). 특히 대규모 실험이나 다수의 반복 처리가 필요한 경우, 수작업 계수는 실험의 효율성을 크게 저하시키는 요인이 된다. 최근 인공지능 기술의 발전으로 다양한 분야에서 이미지 인식 및 객체 탐지 기술이 적용되고 있으며, 생태독성학 분야에서도 이러한 기술의 도입 가능성이 주목받고 있다 (Caridade et al. 2011). 특히 딥러닝 기반의 컴퓨터 비전 기술은 생물학적 샘플 내 개체를 자동으로 탐지하고 계수하는 데 높은 정확도를 보여주고 있으며, 이는 독성평가 과정을 획기적으로 개선할 잠재력을 가지고 있다 (Sys et al. 2022;Chen et al. 2023;Reveco et al. 2023).
본 연구에서는 김어리톡토기 (Allonychiurus kimi)를 이용한 독성평가에 적용 가능한 인공지능 기반 통합 계수법을 개발하고자 한다. 이 방법은 단순한 개체수 계수뿐만 아니라 개체의 크기 측정까지 자동화하여, 독성평가의 효율성과 정확성을 향상시키는 것을 목표로 한다. 또한 본 연구에서 개발된 계수법의 정확도와 신뢰성을 검증하기 위해 기존의 수동 계수 방법과의 비교 분석을 수행하였다. 본 연구는 김어리톡토기를 이용한 독성평가의 종말점 생성을 위한 예비 연구로서, 개발된 인공지능 기반 계수법의 신뢰성이 확보된 수준에서 이를 학계에 보고하고자 한다. 이는 추후 더 광범위한 독성평가 연구의 기초 자료로 활용될 수 있을 것이다.
2. 재료 및 방법
2.1. 실험 생물
실험에 사용된 김어리톡토기 (A. kimi)는 1996년 경기도 이천의 논에서 채집된 후, 고려대학교 생태독성학 실험실에서 누대 사육되어 왔으며, 현재 부산대학교 환경생태학 실험실에서 유지되고 있다 (https://sites.google.com/ view/ee-lab, yunsiklee@pusan.ac.kr, specimen accession number: PNUCOL001). 사육은 석고, 챠콜, 물을 4 : 1 : 4 (부피)로 혼합하여 건조시킨 배지에서 진행하였고, 20± 1°C 항온기 암조건을 유지해주었다. 매주 증류수를 이용하여 배지를 습윤시키고, 먹이로 Brewers’ yeast를 제공하였다. 동일한 연령의 성충들을 얻기 위해, 매주 동일한 시점에서 성충이 낳은 알들을 선별하여 새로운 배지에 옮겨 주었고, 부화 후 얻어진 동일연령 개체들 중 특정 연령의 개체들을 선별하여 실험에 이용하였다.
2.2. 인공지능 모델 학습 및 검증용 데이터셋 구축
인공지능 모델은 학습을 위한 훈련 데이터셋 (Training set)을 이용하여 학습시키고, 검증용 데이터셋 (Validation set)으로 평가되었다. 성충, 유충을 포함하고 있는 이미지의 촬영을 수행하여, 인공지능 모델의 학습용, 검증용 데이터셋을 구축하였으며, 계수를 원하는 처리군을 석고, 차콜, 물을 4 : 1 : 4 (부피)로 혼합하여 건조시킨 배지를 기질로 하는 Petri dish (90 mm 지름, 15 mm 높이)에 접종하여 촬영을 위한 처리구를 인위적으로 제조하였다 (Fig. 1A).
학습을 위한 훈련 데이터셋의 경우 성충과 유충의 수를 달리한 총 10 그룹을 접종하였으며 (Appendix Table A1), 검증 데이터셋의 경우 개체수를 무작위적으로 선별하여 총 5그룹을 접종하였다 (Appendix Table A2).
성충의 경우 Training set과 Validation set 모두 부화 후 28~30일이 지난 개체를 이용하였다. Training set의 이미지 구축을 위한 유충의 접종에서는 서로 다른 크기의 개체를 학습시키기 위해 부화 후 11일, 17일, 21일, 28일이 지난 크기가 다른 4그룹의 코호트를 일정 비율 (Appendix Table A3)로 접종하였다. Validation set 이미지를 위한 유충은 부화 후 28일, 21일, 17일, 11일이 지난 4그룹의 코호트 (Cohort)를 무작위적으로 선별하여 접종하였다 (Appendix Table A2). 추가적으로 물과 먹이는 공급하지 않았으며, 이후 인공지능 모델이 측정한 픽셀값을 통하여 접종된 A. kimi 성충의 면적을 계산하기 위하여 배지 위 5 mm×5 mm의 흰색, 붉은색의 사각형의 조각을 위치하였다 (Fig. 1A). 이미지는 수직 촬영 거치대 (Fig. 1B)를 24 cm 높이로 고정하고, 12.5 cm 높이의 받침대 위에 플레이트 배지를 올려 촬영되었다 (Fig. 1C). 거치대와 받침대의 높이는 카메라의 프레임에 배지가 명확히 들어오는 환경으로 고려되었다. 촬영은 휴대가 가능한 사진 촬영 장비 (Galaxy S22; Samsung, Korea)의 기본 카메라 (50MP, f/1.8)를 이용하여 수행되었다. Training set의 사진은 한 플레이트당 총 4번의 반복 사진을 5분 간격으로 촬영하여 총 40개의 이미지를 모델의 학습에 이용하였으며, 검증용 사진은 플레이트당 1번을 촬영하여 총 5개의 이미지를 모델의 성능 평가에 사용하였다.
인공지능 모델의 학습/검증용 데이터셋 구축을 위해, Roboflow (https://roboflow.com/) 도구를 활용하여 각 촬영된 이미지에 대해 수작업으로 성충과 유충에 대한 영역 표시 및 레이블링을 진행하였다. 구체적으로, (i) Roboflow 에 이미지 데이터 업로드 후, (ii) 각 성충 및 유충 개체마다 직사각형의 영역 표시를 수행하고, (iii) 각 사각형별로 해당 개체의 성충/유충 여부에 대한 레이블링을 수행하였다.
2.3. 개체 탐지 인공지능 모델
성충/유충의 계수를 위해, 본 연구에서는 이미지 인식 (혹은 객체 탐지, Object detection)에서 전반적으로 높은 성능을 보이는 YOLOv8 (Varghese and Sambath 2024) 모델을 활용하였다. YOLOv8 모델은 주어진 이미지에 대해 사전에 학습된 클래스 (Class)의 객체를 탐지하여 탐지된 객체의 위치를 반환해주는 인공지능 모델로, 자율주행 자동차, 글씨 인식 등 다양한 이미지 인식 분야에서 활용되고 있는 모델이다. 구축된 학습용 데이터셋 (section 2.2.)을 기반으로 YOLOv8 모델의 학습을 수행하였으며, 검증용 데이터셋으로 탐지된 개체의 수와 수작업으로 계수한 개체수를 비교하여 평가를 진행하였다 (Appendix Fig. A1). 모델의 훈련 및 평가는 Intel (R) Core (TM) i9-10920X CPU, RAM 64GB, 2-way RTX 3090서버에서 진행되었으며, Python 3.12, Pytorch 2.5.1+cu124, Ultralytics 8.3.100 패키지를 활용하여 모델 구현을 수행하였다. 모델 학습 시 정의한 초매개변수 (Hyperparameters)는 다음과 같다: 배치크기=4, 에포크 (Epoch)=100, 이미지크기=1280.
탐지된 개체들의 크기 계산을 위해, 탐지된 영역 (Detection region)의 이미지 내부에 보로노이-옷수 분할 (Voronoi-Otsu segmentation) 기법을 활용하였다. 해당 기법은 주어진 이미지를 (i) 회색조 (Gray-scle)형태로 변환한 후, (ii) 변환된 이미지 내에 존재하는 명도 분포에 기반하여, 평균 이하이면 모두 흑색으로, 평균 이상이면 모두 백색으로 분리하고, (iii) 클러스터링 방법을 통해 백색 세그먼트들 (Segments)로 구분해내는 방법이다. 본 연구에서는 이 기법을 사용한 후, 탐지 영역 이미지의 중심 점에 가장 가까운 세그먼트를 탐지된 성충/유충으로 간주하고 해당 성충/유충의 픽셀 수를 계산하였다. 이후, 5 mm×5 mm의 흰색 사각형 조각의 픽셀 수와 비례하여 크기를 추산하였다.
2.4. 통계분석 및 모델 성능평가지표
톡토기를 수동으로 계수한 값 (Manual)과 인공지능 모델이 자동으로 계수한 값 (Automatic) 간의 계수 값의 차이가 통계적으로 유의한 차이인지 아닌지를 검정하기 위하여 Validation Set의 각 처리구의 수동 계수값과 인공지능 모델 계수값을 paired t-test로 분석하였다. 분석은 R 프로그램 (R core team 2020)을 이용하여 실시하였다.
추가적으로 인공지능 모델의 성능 평가를 위해 정밀도 (Precision), 재현율 (Recall), mAP50, mAP50-95, F1- score 지표를 사용하였다. 정밀도는 모델이 예측한 객체 중 실제로 올바르게 예측한 객체의 비율로, 모델이 톡토기로 탐지한 객체 중 실제 톡토기인 개체의 비율을 의미한다. 정밀도는 아래의 Eq. 1을 이용하여 계산되었다.
여기서 TP는 참양성 (True positive)의 수로, 모델이 탐지한 객체 영역과 실제 레이블링된 객체 영역이 66.6% 초과로 겹치면서, 모델이 분류한 클래스와 동일한 클래스를 가지는 경우를 의미한다. FP는 거짓양성 (False positive)의 수로, 탐지된 영역이 정답 영역과 66.6% 이하로 겹치거나, 탐지한 객체의 클래스가 정답 클래스와 다른 경우 (즉, 성충을 유충으로 분류하였거나, 반대의 경우)를 의미한다.
재현율 (Recall)은 실제 객체 중 모델이 올바르게 예측한 객체의 비율로, 실제 존재하는 톡토기 중 모델이 톡토기라고 예측한 개체의 비율을 의미한다. 재현율은 Eq. 2를 이용하여 계산되었다.
여기서 FN은 가짜 음성 (False negative)의 수로, 실제 존재하는 개체를 탐지하지 못하였거나, 탐지는 되었으나 분류가 잘못된 경우를 말한다.
mAP50는 각 클래스별로 IoU (Intersection over Union, 정답 영역과 탐지 영역에 대한 자카드 계수) 값이 0.5 이상인 경우 (즉, 66.6% 이상의 영역이 겹치는 경우)에 대해서 평균 정밀도 (AP)를 계산한 후, 모든 클래스에 대해 평균을 구한 값으로 계산된다. 본 실험의 결과에서는 평균 정밀도 (AP)는 정밀도와 동일하게 취급한다. mAP50은 Eq. 3을 이용하여 계산되었다.
mAP50-95 (IoU 범위 0.50:0.95에서의 평균 평균 정밀도)는 mAP50의 확장된 버전으로, 각 클래스별로 0.50부터 0.95까지 0.05 간격으로 IoU 임계값을 상승시켜 각각 평균 정밀도를 구한 뒤, 모든 클래스에 대해 평균을 구하는 방식으로 계산한다. 일반적으로 더 엄격한 기준에서의 평가지표이며, 모델이 객체의 위치까지 얼마나 동일하게 찾았는지를 나타낸다. mAP50-95은 Eq. 4를 이용하여 계산되었다.
F1-score는 정밀도와 재현율의 조화 평균으로, 모델의 성능을 종합적으로 평가할 수 있는 지표이다. F1-score는 Eq. 5를 이용하여 계산되었다.
3. 결 과
3.1. 성충/유충 계수
Training set의 이미지를 통하여 학습된 인공지능 탐지 모델을 통하여 Validation Set의 이미지 내의 성충과 유충을 계수하였으며 이를 수동으로 계수한 값 (Manual)과 비교하였다 (Fig. 2). 성충의 경우 V1, V3, V4는 수동 계수값과 모델의 계수값이 동일하였으며 V2, V5는 수동 계수값 보다 약간 높은 값으로 계수하였다 (Fig. 2A). 유충의 경우 V1은 수동과 모델의 계수값이 동일하였으며, V2를 제외하고 전반적으로 모델의 계수값이 실제 수동 계수값보다 약간 적은 값으로 결과가 나타났다. 하지만 성충, 유충 모두 통계적으로 계수값에서 유의한 차이를 보이지는 않았다. 성충의 경우 수동 계수값과 모델 계수값 간의 paired t-test 결과, 두 방법 간 평균 차이는 - 0.6 (95% 신뢰구간: -1.71, 0.51)으로 나타났으며, 통계적으로 유의미한 차이는 없는 것으로 확인되었다 (t(4)= - 1.5, p=0.208). 유충의 경우, paired t-test 결과 두 방법 간의 평균 차이는 1.0 (95% 신뢰구간: - 3.21, 5.21)으로 나타났으며, 통계적으로 유의미한 차이가 없는 것으로 확인되었다 (t(4)=0.659, p=0.546).
3.2. 개체 크기 측정
탐지되어 계수된 성충들은 사진의 pixel 값을 통하여 mm2 단위의 면적으로 한번에 측정이 가능하였다. 각 validation set에 대한 성충의 body area는 Table 1에서 확인이 가능하다.
3.3. 성충/유충 탐지 성능
성충 (Adult)의 경우, 5개의 이미지에서 총 23개의 instance를 탐지하였으며, 성능 평가 결과 Precision (정밀도): 1, Recall (재현율): 0.950, mAP50: 0.990, mAP50-95: 0.672, F1-score: 0.974로 나타났다 (Table 2). 유충 (Larva) 의 경우, 5개의 이미지에서 총 275개의 Instance를 탐지 하였으며, 성능 평가 결과 Precision: 0.950, Recall: 0.830, mAP50: 0.929, mAP50-95: 0.523, F1-score: 0.886로 나타났다 (Table 2).
전반적으로, 성충과 유충 모두 높은 Precision과 mAP50 값을 보이며, 특히 성충의 경우 Precision이 1로 완벽한 탐지 성능을 보였다. 유충의 경우 Recall 값이 성충보다 낮았지만, 탐지 정확도 (Precision)가 높게 관찰되었다.
4. 고 찰
본 연구에서는 김어리톡토기 (A. kimi)의 독성평가를 위한 인공지능 기반 통합 계수법을 개발하고 검증하였다. 연구 결과, YOLOv8 모델을 기반으로한 본 시스템은 성충 과 유충의 탐지 및 계수에서 높은 정확도를 보여주었으며, 특히 성충의 경우 정밀도 1.0, 재현율 0.95로 매우 우수한 성능을 나타냈다 (Table 2). 수동 계수법과의 비교 분석 결과, 두 방법 간에 통계적으로 유의한 차이가 없음이 확인 되었으며, 이는 개발된 AI 모델이 기존의 수동 계수 방법을 효과적으로 대체할 수 있음을 시사한다.
모델의 개체 인식 오차를 줄이려는 노력에도 불구하고, 처리구 Petri dish의 가장자리 개체 탐지가 부족한 문제를 확인하였다. 이는 가장자리 영역의 빛 반사로 인한 것으로 추정되며, 추후 사진의 프로그램적 처리 과정의 조절을 통해 해결할 수 있을 것으로 생각된다 (Caridade et al. 2011).
최근 독성평가에서는 생존율 이외의 요소들이 평가지 표로 활용되고 있는 추세이다 (Lee et al. 2018;Wang et al. 2019). 톡토기 독성평가에서 성충의 성장 (Growth)과 발달 (Development)은 토양 오염의 유용한 지표로서 활용 될 수 있으며 (Gruss et al. 2022, 2024), Collembola를 이용한 독성평가 연구에서 개체의 크기나 면적은 이들의 독 성영향으로 인한 발달 저해와 관련된 종말점으로 많이 사용되어 왔다 (Giordano et al. 2010). 기존의 연구에서는 각 개체를 현미경 아래나 이미지 분석 소프트웨어를 이용하여 개체단위로 측정하므로 이는 매우 번거롭고 개체의 구분에 있어서 실험오차가 발생할 확률이 높다 (Krogh et al. 1998;Oriol et al. 2024). 따라서, 본 연구에서는 개체의 크기를 자동으로 측정할 수 있는 방법을 개발하여, 실험의 객관성과 정확성을 향상시키고, 해당 종말점을 더 정확하고 빠르게 측정 가능한 도구로 사용이 가능할 것으로 기대된다 (Bánszegi et al. 2014). 또한 이를 통해 톡토기의 성장과 발달에 대한 독성 영향을 더욱 세밀하게 평가할 수 있는 장점을 제공한다 (Gruss et al. 2024). 이러한 자동화된 계수 및 측정 시스템은 대규모 독성평가 실험의 효율성을 크게 향상시키고, 연구자의 주관적 판단에 따른 오차를 최소화하는 데 기여할 것으로 기대된다 (Sys et al. 2022;Chen et al. 2023;Reveco et al. 2023).
현재 모델은 톡토기의 개체수 및 크기를 자동으로 측정할 수 있는 기능을 갖추고 있지만, 여전히 성능과 평가에 있어 개선이 필요한 상황이다. 그럼에도 불구하고, 본 연구는 인공지능 기반의 자동화된 톡토기 개체수 계수 및 크기 측정 기법을 개발하여, 실험의 효율성과 객관성을 향상 시킬 수 있는 방법을 제시하였다는 점에서 중요한 의의를 가진다. 따라서 향후 연구에서는 더 다양한 환경 조건과 독성물질에 대한 검증을 통해 시스템의 적용 범위를 확장하고, 모델의 정확도를 더욱 향상시키는 방향으로 발전시켜 나갈 필요가 있다.
적 요
톡토기 (Collembola)는 토양 생태계에서 중요한 역할을 하며, 토양 독성평가에서 주로 사용되는 표준종이다. 국제 표준화 기구 (ISO)의 ISO 11267 가이드라인에 따라 Allonychiurus kimi는 성충 생존율과 유충 생산량을 주요 독성평가 종말점 (endpoint)으로 사용한다. 기존의 독성평가 방법은 실험 종료 후 현미경을 통해 성충과 유충의 수를 수동으로 계수하는 방식으로, 많은 시간과 인력이 소요되는 단점이 있다. 본 연구에서는 YOLOv8을 사용하여 김어리톡토기 (Allonychiurus kimi)의 성충과 유충을 탐지하고 계수할 수 있는 모델을 개발하여 기존의 수작업 계수를 대체하여 전반적인 실험의 효율성을 증진시키고자 한다. 인공지능 모델은 학습을 위한 훈련 데이터셋 (Training set)을 이용하여 학습시키고, 검증용 데이터셋 (Validation set)으로 평가되었다. 성충, 유충을 포함하고 있는 이미지의 촬영을 수행하여, 인공지능 모델의 학습용, 검증용 데이터셋을 구축하였다. 검증용 데이터셋의 수동 계수값과 모델이 자동으로 탐지한 값을 통계적으로 비교한 결과, 수동 계수와 자동 계수 간 유의미한 차이가 없음을 확인했다. 또한, 모델이 높은 정확도 (성충의 경우 정밀도: 1.0, 재현율: 0.95; 유충의 경우 정밀도: 0.95, 재현율: 0.83)를 나타내어, 이는 모델이 객체를 성공적으로 탐지했음을 의미한다. 더불어 이 시스템은 개체의 체표면적을 자동으로 측정하여 성장 및 발달과 관련된 더 상세한 평가를 가능하게 한다. 이는 실험의 객관성과 정확성을 향상시키고 연구자의 주관적 판단에 따른 오차를 최소화할 것으로 기대된다.