КЛАС-ОРІЄНТОВАНИЙ МЕТОД АУГМЕНТАЦІЇ ФУНДУС-ЗОБРАЖЕНЬ

Д. В.  Прочухан

doi:10.31649/1997-9266-2025-182-5-140-145

Автор(и)

Д. В. Прочухан Харківський національний університет радіоелектроніки

DOI:

https://doi.org/10.31649/1997-9266-2025-182-5-140-145

Ключові слова:

машинне навчання, аугментація, нейронні мережі, медичні зображення

Анотація

Запропоновано інноваційний клас-орієнтований метод аугментації фундус-зображень. Описано переваги цього методу у порівнянні з відомими. Обґрунтовано та підібрано стратегію аугментації для зображень з наявними ознаками глаукоми, катаракти, діабетичної ретинопатії та здорового ока відповідно до специфіки кожного класу. Аугментації наближені до реальних клінічних варіацій. Покращено стійкість саме до тих варіацій, які характерні для конкретної хвороби. Підвищено чутливість і специфічність саме до патологій на медичних зображеннях. Розроблено нейромережеву модель з використанням клас-орієнтованого методу. До базової мережі EfficientNetB3 методами трансферного навчання додано шари GlobalAveragePooling, Dropout з rate 0,5, Dense з 1024 нейронами, l2-регуляризацією зі значенням 0,001 та функцією активації relu, класифікаційний шар Dense з 4 нейронами та функцією активації softmax. Половину шарів базової моделі заморожено. Модель компілювалася за допомогою компілятора Adam з початковим learning rate 0,0001 та функцією втрат categorical crossentropy. Під час попередньої обробки розміри зображень зменшувалися до 224×224. Нормалізація зображень автоматично відбувалася під час генерації даних для навчання. Для коригування навчання моделі використовувалися такі функції зворотного виклику: ModelCheckpoint — для збереження найкращої моделі, EarlyStopping — для зупинки за відсутності покращення метрики val accuracy протягом 15 епох, ReduceLROnPlateau — для зменшення learning rate у 3 рази за стагнації. В результаті навчання отримано високі показники метрик. Навчену модель стиснено шляхом квантифікації для подальшого використання на мобільних пристроях та на пристроях з обмеженими можливостями. Запропонований підхід дозволяє підвищити загальну точність, робастність нейронної мережі, подолати обмеження традиційного методу.

Біографія автора

Д. В. Прочухан, Харківський національний університет радіоелектроніки

аспірант кафедри комп’ютерних інтелектуальних технологій та систем

Посилання

Z. Wang, “A comprehensive survey on data augmentation,” arXiv preprint, arXiv:2401.12345, 2024.

M. Xu, “A comprehensive survey of image augmentation,” Information Fusion, vol. 97, pp. 1-23, 2023.

M. Buda, A. Maki, and M. A. Mazurowski, “A systematic study of the class imbalance problem in convolutional neural networks,” Neural Networks, vol. 106, pp. 249-259, 2018.

C. Shorten, and T. Khoshgoftaar, “A survey on image data augmentation for deep learning,” Journal of Big Data, vol. 6, no. 60, 2019.

G. Ghiasi, Y. Cui, and A. Srinivas, “Simple copy-paste is a strong data augmentation method for instance segmentation,” in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 2918-2928,

Z. Gong, L. Duan, F. Xiao, and Y. Wang, “MSAug: Multi-Strategy Augmentation for rare classes in semantic segmentation of remote sensing images,” Displays, vol. 84, Art.102779, 2024.

M. Frid-Adar, et al., “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, vol. 321, pp. 321-331, 2018.

Y. Chen, et al., “Conditional GAN-based data augmentation for medical imaging,” IEEE Transactions on Medical Imaging, vol. 42, no. 5, pp. 1123-1134, 2023.

L. Zhang, et al., “Evaluation metrics for synthetic data in computer vision,” Pattern Analysis and Applications, vol. 27, no. 3, pp. 455-470, 2024.

G. Hu, et al., “Semantics-preserved graph siamese networks with class-oriented feature vector generation,” Neurocomputing, vol. 527, pp. 123-135, 2023.

T. Li, et al., “Balanced contrastive learning with class-aware augmentation,” Pattern Recognition, vol. 142, Art. 109702, 2025.

L. Perez, and J. Wang, “The effectiveness of data augmentation in image classification using deep learning,” ArXiv preprint, ArXiv:1712.04621, 2017.

D. V. Prochukhan, “Features of the modification of the inceptionresnetv2 architecture and the creation of a diagnostic system for determining the degree of damage to retinal vessels,” Computer systems and information technologies, no. 1, pp. 27-32, 2024, https://doi.org/10.31891/csit-2024-1-3 .

Д. В. Прочухан. «Особливості конкатенації згорткових нейронних мереж для скринінгу діабетичної ретинопатії,» Системи обробки інформації, № 1 (176), с. 89-94, 2024, https://doi.org/10.30748/soi.2024.176.11