Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску
DOI:
https://doi.org/10.17721/ISTS.2025.9.74-80Ключові слова:
машинне навчання, оброблення природної мови, градієнтна оптимізація, фільтрація електронної пошти, текстовий препроцесинг, класифікаціяАнотація
Вступ. Зі зростанням обсягів електронного листування проблема фільтрації спаму набуває все більшої актуальності. За даними статистичних досліджень, спам становить значну частку глобального поштового трафіка, що створює ризики як для безпеки, так і для ефективності електронної комунікації. У цьому контексті особливого значення набувають методи оброблення природної мови (NLP) та машинного навчання. Метою цієї роботи є побудова моделі для класифікації електронних повідомлень на спам і не спам, із використанням логістичної регресії, реалізованої через градієнтний спуск, у поєднанні з методами оброблення текстових даних.
Методи. Для навчання моделі використано датасет, що містить понад 5000 електронних повідомлень, мічених як спам або не спам. Дані було попередньо очищено з видаленням шумових компонентів: пунктуації, цифр, стоп-слів, коротких слів, а також застосовано лематизацію. Тексти перетворено на числову форму за допомогою TF-IDF векторизації із L2-нормалізацією. Для боротьби з дисбалансом між класами застосовано метод SMOTE. Навчання моделі здійснювалось за класичною схемою градієнтного спуску з використанням сигмоїдної функції активації та логарифмічної функції втрат.
Результати. Побудована модель досягла високих результатів на тестовій вибірці: загальна точність становила 98 %, f1-score для класу спам – 0.92, а для не спаму – 0.99. Значення recall для спаму дорівнювало 0.90, що свідчить про здатність моделі виявляти більшість небажаних повідомлень без надмірних помилкових спрацьовувань. Баланс precision і recall також підтверджується макросереднім і зваженим середнім f1-показником понад 0.96.
Висновки. Результати дослідження засвідчили ефективність поєднання логістичної регресії, градієнтного спуску та текстового препроцесингу для задачі класифікації спаму навіть за умов дисбалансованих даних. Запропонований підхід є ефективним й інтерпретованим, що робить його придатним для практичного застосування в системах фільтрації електронної пошти.
Завантажити
Посилання
Jyothiikaa Moorthy. (2025). 23 Email Spam Statistics to Know in 2025. https://www.mailmodo.com/guides/email-spam-statistics/
Kaggle, (2025). The Enron Email Dataset. https://www.kaggle.com/datasets/mohinurabdurahimova/maildataset
Khanday А., Shahbaz P., & Suraiya Р. (2021). Logistic Regression Based Classification of Spam and Non-Spam Emails. https://doi.org/10.4108/eai.27-2-2020.2303291.
Mohammed, N., Mouhajir, M., & Yassine S.. (2023). High Performance Computing Applied to Logistic Regression: A CPU and GPU Implementation Comparison. https://doi.org/10.48550/arXiv.2308.10037
Papageorgiou, G., Economou, P., & Bersimis, S. (2024). A method for optimizing text preprocessing and text classification using multiple cycles of learning with an application on shipbrokers emails. Journal of Applied Statistics, 51(13), 2592–2626. https://doi.org/10.1080/02664763.2024.2307535.
Rakhmanov, O. (2020). A Comparative Study on Vectorization and Classification Techniques in Sentiment Analysis to Classify Student-Lecturer Comments. Procedia Computer Science, 178, 194–204. https://doi.org/10.1016/j.procs.2020.11.021
Spam Statistics 2025 (2025). New Data on Junk Email, AI Scams & Phishing. https://www.emailtooltester.com/en/blog/spam-statistics/
Zhang, L., Ray, H., Priestley, J., & Tan, S. (2019). A descriptive study of variable discretization and cost-sensitive logistic regression on imbalanced credit data. Journal of Applied Statistics, 47(3), 568–581. https://doi.org/10.1080/02664763.2019.1643829
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Безпека інформаційних систем і технологій

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.
