МАСШТАБУВАННЯ ПРОГНОЗУВАННЯ ВІДЕО ЗА ДОПОМОГОЮ ПРОСТОРОВО-ЧАСОВИХ ПАТЧІВ

Автор(и)

  • Л. Р. Кулик Вінницький національний технічний університет
  • О. Б. Мокін Вінницький національний технічний університет

Ключові слова:

машинне навчання, нейронні мережі, обробка природної мови, трансформери, комп’ютерний зір, згорткова нейронна мережа, варіаційний автоенкодер, синтетичні дані, оптимізація, штучні нейронні мережі

Анотація

Запропоновано нову архітектуру для обробки відеоданих, Vision Byte Latent Transformer (V-BLT), яка адаптує принципи успішних байт-рівневих мовних моделей до зорової модальності. На відміну від стандартних підходів, що використовують пакування фіксованого розміру (patching), які є обчислювально неефективними через рівномірний розподіл ресурсів незалежно від складності візуального контенту, V-BLT працює безпосередньо з потоком байтів відео. Це дозволяє уникнути втрати інформації, пов’язаної з попередньою токенізацією, та підвищити гнучкість обробки. Ключовими внесками роботи є розробка концепції просторово-часових латентних патчів, впровадження N-вимірних ротаційних позиційних вкладень для збереження когерентності даних у розгорнутому потоці байтів, та застосування багаторівневої трансформерної архітектури для ієрархічної обробки даних. Для валідації гіпотези та тестування моделі розроблено новий синтетичний набір даних з 2D та 3D фігурами, що обертаються, який дозволяє проводити контрольовану оцінку здатності моделі до просторово-часового мислення. Експериментально продемонстровано, що V-BLT ефективно прогнозує майбутні кадри, досягаючи високих показників за метриками MSE, SSIM та PSNR в порівнянні з ViViT та UNet3D, при цьому демонструючи вищу ефективність розрахунків. Розроблена архітектура згідно з дизайном має можливість генерувати піксельні карти ентропії, які візуалізують невизначеність прогнозу та корелюють з динамічно складними регіонами сцени. Це відкриває шлях до реалізації динамічного, залежного від контенту, розподілу обчислювальних ресурсів «на ходу», що є перспективним напрямком для створення ефективніших та масштабованих фундаментних моделей для відеоаналітики.

Біографії авторів

Л. Р. Кулик, Вінницький національний технічний університет

аспірант кафедри системного аналізу та інформаційних технологій

О. Б. Мокін, Вінницький національний технічний університет

д-р техн. наук, професор, професор кафедри системного аналізу та інформаційних технологій

Посилання

A. Arnab, et al., “ViViT: A Video Vision Transformer,” in ArXiv e-prints, 2021. [Online]. Available: https://arxiv.org/abs/2103.15691 . Accessed: September 26, 2025.

A. Dosovitskiy, et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” in ArXiv e-prints, 2020. [Online]. Available: https://arxiv.org/abs/2010.11929 . Accessed: September 26, 2025.

Z. Liu, et al., “Video Swin Transformer,” in ArXiv e-prints, 2022. [Online]. Available: https://arxiv.org/abs/2106.13230 . Accessed: September 26, 2025.

A. Pagnoni, R. et al., “Byte Latent Transformer: Patches Scale Better than Tokens,” in ArXiv e-prints, 2024. [Online]. Available: https://arxiv.org/abs/2412.09871 . Accessed: September 26, 2025.

L. Xue, A. Barua, et al., “ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models,” ArXiv e-prints, 2021. [Online]. Available: https://arxiv.org/abs/2105.13626 . Accessed: September 26, 2025.

Л. Р. Кулик, і О. Б. Мокін, «Створення синтетичного набору даних для оцінювання архітектур нейромережевих моделей,» в Матеріали LIV науково-технічної конференції підрозділів ВНТУ, Вінниця, 24-27 березня 2025 р.

G. Aleksandrowicz, and G. Barequet, “Counting polycubes without the dimensionality curse,” Discrete Mathematics, vol. 309, no. 13, pp. 4576-4583, 2009. https://doi.org/10.1016/j.disc.2009.02.023. Accessed: September 26, 2025.

D. Tran, et al., “A Closer Look at Spatiotemporal Convolutions for Action Recognition,” in ArXiv e-prints, 2018. [Online]. Available: https://arxiv.org/abs/1711.11248. Accessed: September 26, 2025.

W. Yan, et al., “VideoGPT: Video Generation using VQ-VAE and Transformers,” in ArXiv e-prints, 2021. [Online]. Available: https://arxiv.org/abs/2104.10157. Accessed: September 26, 2025.

J. Ho, et al., “Video Diffusion Models,” in АrXiv e-prints, 2022. [Online]. Available: https://arxiv.org/abs/2204.03458. Accessed: September 26, 2025.

A. Blattmann, et al., “Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models,” in ArXiv e-prints, 2023. [Online]. Available: https://arxiv.org/abs/2304.08818. Accessed: September 26, 2025.

J. Su, et al., “RoFormer: Enhanced Transformer with Rotary Position Embedding,” in arXiv e-prints, 2021. [Online]. Available: https://arxiv.org/abs/2104.09864. Accessed: September 26, 2025.

A. F. Bobick, and J. W. Davis, “The recognition of human movement using temporal templates,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 3, pp. 257-267, 2001.

Python Software Foundation, Python Language Reference, version 3.12. [Online]. Available: https://www.python.org. Accessed: September 26, 2025.

C. Sullivan, and B. E. A. Larson, PyVista: 3D plotting and mesh analysis through a streamlined interface for the Visualization Toolkit (VTK). [Online]. Available: https://pyvista.org. Accessed: September 26, 2025.

Simple Shape Dataset Toolbox GitHub. [Online]. Available: https://github.com/leo27heady/simple-shape-dataset-toolbox. Accessed: September 26, 2025.

A. Vaswani, et al., “Attention Is All You Need,” in ArXiv e-prints, 2017. [Online]. Available: https://arxiv.org/abs/1706.03762. Accessed: September 26, 2025.

I. Loshchilov, and F. Hutter, “Decoupled Weight Decay Regularization,” in ArXiv e-prints, 2017. [Online]. Available: https://arxiv.org/abs/1711.05101. Accessed: September 26, 2025.

I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. MIT Press, 2016.

A. Paszke, et al., “PyTorch: An Imperative Style, High-Performance Deep Learning Library,” in Advances in Neural Information Processing Systems 32, 2019, pp. 8024-8035.

Vision Byte Latent Transformer GitHub. [Online]. Available: https://github.com/leo27heady/visionBLT. Accessed: September 26, 2025.

W. Kay, et al., “The Kinetics Human Action Video Dataset,” in ArXiv e-prints, 2017. [Online]. Available: https://arxiv.org/abs/1705.06950. Accessed: September 26, 2025.

K. Soomro, A. R. Zamir, and M. Shah, “UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild,” in ArXiv e-prints, 2012. [Online]. Available: https://arxiv.org/abs/1212.0402. Accessed: September 26, 2025.

Tan C, et al., “OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning,” in arXiv e-prints, 2022. [Online]. Available: https://arxiv.org/abs/2306.11249. Accessed: September 26, 2025.

Rope-Nd GitHub. [Online]. Available: https://github.com/limefax/rope-nd. Accessed: September 26, 2025.

Ozgun Cicek, et al., “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation,” in ArXiv e-prints, 2016. [Online]. Available: https://arxiv.org/abs/1606.06650. Accessed: September 26, 2025.

M. Havrylovych, and V. Danylov, “Research on hybrid transformer-based autoencoders for user biometric verification,” System Research and Information Technologies, no. 3, pp. 42-53, 2023. [Online]. Available: https://doi.org/10.20535/SRIT.2308-8893.2023.3.03. Accessed: September 26, 2025.

Vasyl Lytvyn, et al., “Detection of Similarity Between Images Based on Contrastive Language-Image Pre-Training Neural Network,” Machine Learning Workshop at CoLInS, 2024. [Online]. Available: https://doi.org/10.31110/COLINS/2024-1/008. Accessed: September 26, 2025.

Переглядів анотації: 2

Опубліковано

2025-12-11

Як цитувати

[1]
Л. Р. Кулик і О. Б. Мокін, «МАСШТАБУВАННЯ ПРОГНОЗУВАННЯ ВІДЕО ЗА ДОПОМОГОЮ ПРОСТОРОВО-ЧАСОВИХ ПАТЧІВ», Вісник ВПІ, вип. 5, с. 129–139, Груд. 2025.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.

Статті цього автора (авторів), які найбільше читають

1 2 3 4 5 6 7 8 9 > >>