ІНТЕЛЕКТУАЛЬНА ТЕХНОЛОГІЯ АНАЛІЗУ ТА ПЕРЕДБАЧЕННЯ ЦІН НА ВЖИВАНІ АВТОМОБІЛІ
DOI:
https://doi.org/10.31649/1997-9266-2019-147-6-62-72Ключові слова:
інтелектуальна технологія, розвідувальний аналіз даних, передбачення ціни, вживаний автомобіль, моделі машинного навчанняАнотація
Для вигідного продажу вживаного автомобіля слід керуватись не лише власною оцінкою або оцінкою сторонніх експертів, але й використовувати всі інші придатні для цього ресурси. Такими ресурсами можуть слугувати системи передбачення ціни, які за допомогою загальних ознак того чи іншого автомобіля (як-от виробник автомобіля, модель автомобіля, пробіг, вид палива, тип кузова тощо) здатні прогнозувати можливу ціну автомобіля. Такі системи можуть допомогти під час прийняття рішень не лише пересічним продавцям вживаних авто, а й агентствам, які займаються замовленням та масовим перевезенням вживаних авто з-за кордону. Для вибору ключових ознак та ідентифікації за ними оптимальної структури і параметрів моделей необхідно вибрати релевантні датасети, провести їх розвідувальний аналіз та відбір ознак, побудувати моделі машинного навчання, з яких вибрати оптимальну за певними критеріями. Для побудови інформаційної системи та перевірки працездатності запропонованої інтелектуальної технології вибрано два зіставні датасети по вживаних автомобілях США та України. Здійснено систематизацію методів та бібліотек на Python для проведення розвідувального аналізу даних і сформульовано загальні рекомендації щодо їх застосування для поставленої задачі. Запропоновано загальні принципи інтелектуальної технології, яка апробована на відібраних датасетах. Зокрема, проведено розвідувальний аналіз даних по США та обґрунтовано правило для фільтрування аномальних, а можливо й помилкових, даних. Вибрано множину можливих моделей, здійснено їх тренування та вибрано оптимальну серед них за R2-критерієм. Здійснено передбачення вартості авто, з точністю 86,1 %. Аналогічна задача розв’язана і для даних по Україні. Досягнуто точність 85,6 %. Це довело працездатність запропонованої технології та дозволило отримати корисні для використання на практиці результати.
Посилання
A. Bezerra, I. Silva, L. A. Guedes, D. Silva, G. Leitão, and K. Saito, “Extracting Value from Industrial Alarms and Events: A Data-Driven Approach Based on Exploratory Data Analysis,” Sensors, 2019, no 19, issue 12, pp. 11-32.
Stefan Lessmann, and Stefan Voß, “Car resale price forecasting: The impact of regression method, private information, and heterogeneity on forecast accuracy,” International Journal of Forecasting, 2017, no 33, issue 4, pp. 864-877.
Kanwal Noor, and Sadaqat Jan, “Vehicle Price Prediction System using Machine Learning Techniques,” International Journal of Computer Applications, 2017, no 167, issue 9, pp. 27-31.
Sun, Ning & Bai, Hongxi & Geng, Yuxia & Shi, Huizhu, “Price evaluation model in second-hand car system based on BP neural network theory,” IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, 2017, pp. 431-436.
Python leads the 11 top Data Science, Machine Learning platforms: Trends and Analysis. [Electronic resource]. Available: https://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-platforms.html .
Comprehensive Data Exploration with Python [Electronic resource]. Available: https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python .
Module pandas_profiling. [Electronic resource]. Available: https://pandas-profiling.github.io/pandas-profiling/docs/
Matplotlib API Overview. [Electronic resource]. Available: https://matplotlib.org/api/index.html .
A new correlation coefficient between categorical, ordinal and interval variables with Pearson characteristics. [Electronic resource]. Available: https://arxiv.org/abs/1811.11440 .
Used Cars Dataset, Vehicles listings from Craigslist. [Electronic resource]. Available: https://www.kaggle.com/austinreese/craigslist-carstrucks-data .
Supervised Learning API Overview. [Electronic resource]. Available: https://scikit-learn.org/stable/supervised_learning.html#supervised-learning .
T. Houska, P. Kraft, A. Chamorro-Chavez, and L. Breuer, SPOTting Model Parameters Using a Ready-Made Python Package. [Electronic resource]. Available: https://doi.org/10.1371/journal.pone.0145180 .
Metrics and scoring: quantifying the quality of predictions. [Electronic resource]. Available: https://scikit-learn.org/stable/modules/model_evaluation.html#r2-score .
##submission.downloads##
-
PDF
Завантажень: 463
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).