استفاده از شبکه مولد متخاصم شرطی برای تولید داده با هدف بهبود کلاس¬بندی کاربران منتشرکننده اخبار جعلی
محورهای موضوعی :
عارفه اسمعیلی
1
(دانشجو)
سعید فرضی
2
(استادیار)
کلید واژه: شناسایی کاربر منتشرکننده اخبار جعلی, مجموعه ¬داده¬های نامتوازن, شبکه مولد متخاصم, گراف تعاملات کاربران, تعبیه گره.,
چکیده مقاله :
سالیان درازی است که اخبار و پیام¬های جعلی در جوامع انسانی منتشر می¬گردد و امروزه با فراگیرشدن شبکه¬های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده ¬است. بنابراین، شناسایی اخبار و پیام¬های جعلی به موضوع برجسته¬ای در جوامع تحقیقاتی تبدیل شده ¬است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد می¬کنند و در شبکه نشر می¬دهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر می¬کنند، پرداخته ¬است. در این ¬راستا، سیستمی بر مبنای ترکیب ویژگی¬های بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازن¬سازی مجموعه -داده پایه¬ریزی شده ¬است. هم¬چنین، این سیستم با مدل¬کردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره¬ به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی می¬کند. علاوه بر ¬این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیار¬های دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته ¬است و توانسته¬ است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند.
For many years, fake news and messages have been spread in human societies, and today, with the spread of social networks among the people, the possibility of spreading false information has increased more than before. Therefore, detecting fake news and messages has become a prominent issue in the research community. It is also important to detect the users who generate this false information and publish it on the network. This paper detects users who publish incorrect information on the Twitter social network in Persian. In this regard, a system has been established based on combining context-user and context-network features with the help of a conditional generative adversarial network (CGAN) for balancing the data set. The system also detects users who publish fake news by modeling the twitter social network into a graph of user interactions and embedding a node to feature vector by Node2vec. Also, by conducting several tests, the proposed system has improved evaluation metrics up to 11%, 13%, 12%, and 12% in precision, recall, F-measure and accuracy respectively, compared to its competitors and has been able to create about 99% precision, in detecting users who publish fake news.
Parikh, S.B. and P.K. Atrey. "Media-rich fake news detection: A survey. " in 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). 2018. IEEE.
[2] Kochkina, E., M. Liakata, and A. Zubiaga, "All-in-one: Multi-task learning for rumour verification. " arXiv preprint arXiv:1806.03713, 2018.
[3] Tacchini, E., et al., "Some like it hoax: Automated fake news detection in social networks. " arXiv preprint arXiv:1704.07506, 2017.
[4] Shu, K., et al., "Fake news detection on social media: A data mining perspective. " ACM SIGKDD explorations newsletter, 2017. 19(1): p. 22-36.
[5] Inuwa-Dutse, I., M. Liptrott, and I. Korkontzelos, "Detection of spam-posting accounts on Twitter. " Neurocomputing, 2018. 315: p. 496-511.
[6] Bindu, P., R. Mishra, and P.S. Thilagam, "Discovering spammer communities in Twitter. " Journal of Intelligent Information Systems, 2018. 51(3): p. 503-527.
[7] de Souza, J.V., et al., "A systematic mapping on automatic classification of fake news in social media. " Social Network Analysis and Mining, 2020. 10(1): p. 1-21.
[8] Grinberg, N., et al., " Fake news on Twitter during the 2016 US presidential election. " Science, 2019. 363(6425): p. 374-378.
[9] Maaten, L.v.d. and G. Hinton, "Visualizing data using t-SNE. " Journal of machine learning research, 2008. 9(Nov): p. 2579-2605.
[10] Gheewala, S. and R. Patel. "Machine learning based Twitter Spam account detection: a review. " in 2018 Second International Conference on Computing Methodologies and Communication (ICCMC). 2018. IEEE.
[11] Gaonkar, S., et al. " Detection Of Online Fake News: A Survey. " in 2019 International Conference on Vision Towards Emerging Trends in Communication and Networking (ViTECoN). 2019. IEEE.
[12] Hardalov, M., I. Koychev, and P. Nakov. " In search of credible news. " in International Conference on Artificial Intelligence: Methodology, Systems, and Applications. 2016. Springer.
[13] Goodfellow, I., et al. "Generative adversarial nets. " in Advances in neural information processing systems. 2014.
[14] Douzas, G. and F. Bacao, "Effective data generation for imbalanced learning using conditional generative adversarial networks. " Expert Systems with applications, 2018. 91: p. 464-471.
[15] Mirza, M. and S. Osindero, "Conditional generative adversarial nets. " arXiv preprint arXiv:1411.1784, 2014.
[16] Grover, A. and J. Leskovec. "node2vec: Scalable feature learning for networks. " in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016. ACM.
[17] Conroy, N.K., V.L. Rubin, and Y. Chen, "Automatic deception detection: Methods for finding fake news. " Proceedings of the Association for Information Science and Technology, 2015. 52(1): p. 1-4.
[18] Bondielli, A. and F. Marcelloni, "A survey on fake news and rumour detection techniques. " Information Sciences, 2019. 497: p. 38-55.
[19] Mohammadrezaei, M., M.E. Shiri, and A.M. Rahmani, "Identifying fake accounts on social networks based on graph analysis and classification algorithms. " Security and Communication Networks, 2018. 2018.
[20] Yang, C., R. Harkreader, and G. Gu, "Empirical evaluation and new design for fighting evolving twitter spammers. " IEEE Transactions on Information Forensics and Security, 2013. 8(8): p. 1280-1293.
[21] Wang, A.H. "Don't follow me: Spam detection in twitter. " in 2010 international conference on security and cryptography (SECRYPT). 2010. IEEE.
[22] Benevenuto, F., et al. "Detecting spammers on twitter. " in Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010.
[23] Masood, Faiza, et al. "Spammer detection and fake user identification on social networks." IEEE Access 7 (2019): 68140-68152.
[24] Xie, Y., et al. "A Fake News Detection Framework Using Social User Graph. " in Proceedings of the 2020 2nd International Conference on Big Data Engineering. 2020.
[25] KARUNAKAR, M.G., et al., " ADAPTIVE DETECTING FAKE PROFILES IN ONLINE SOCIAL NETWORKS. "
[26] Della Vedova, M.L., et al. "Automatic online fake news detection combining content and social signals. " in 2018 22nd Conference of Open Innovations Association (FRUCT). 2018. IEEE.
[27] Shu, K., et al. "defend: Explainable fake news detection. " in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.
[28] Guacho, G.B., et al. "Semi-supervised content-based detection of misinformation via tensor embeddings. " in 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). 2018. IEEE.
[29] Shu, K., et al. "The role of user profiles for fake news detection. " in Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2019.
[30] Shu, K., S. Wang, and H. Liu. "Beyond news contents: The role of social context for fake news detection. " in Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.
[31] Hamdi, T., et al. "A Hybrid Approach for Fake News Detection in Twitter Based on User Features and Graph Embedding. " in International Conference on Distributed Computing and Internet Technology. 2020. Springer.
[32] Aphiwongsophon, S. and P. Chongstitvatana. "Detecting fake news with machine learning method. " in 2018 15th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). 2018. IEEE.
[33] Hussain, M.G., et al., "Detection of Bangla Fake News using MNB and SVM Classifier. " arXiv preprint arXiv:2005.14627, 2020.
[34] Li, Y., et al., "Exploiting similarities of user friendship networks across social networks for user identification. " Information Sciences, 2020. 506: p. 78-98.
[35] Vijayaraghavan, S., et al., "Fake News Detection with Different Models. " arXiv preprint arXiv:2003.04978, 2020.
[36] Jadhav, S.S. and S.D. Thepade, "Fake news identification and classification using DSSM and improved recurrent neural network classifier. " Applied Artificial Intelligence, 2019. 33(12): p. 1058-1068.
[37] Ajao, O., D. Bhowmik, and S. Zargari. "Fake news identification on twitter with hybrid cnn and rnn models. " in Proceedings of the 9th international conference on social media and society. 2018.
[38] Zhang, J., B. Dong, and S.Y. Philip. "Fakedetector: Effective fake news detection with deep diffusive neural network. " in 2020 IEEE 36th International Conference on Data Engineering (ICDE). 2020. IEEE.
[39] Verma, A., V. Mittal, and S. Dawn. "FIND: Fake information and news detections using deep learning. " in 2019 Twelfth International Conference on Contemporary Computing (IC3). 2019. IEEE.
[40] Ruan, N., R. Deng, and C. Su, "GADM: Manual fake review detection for O2O commercial platforms. " Computers & Security, 2020. 88: p. 101657.
[41] Hosseinimotlagh, S. and E.E. Papalexakis. "Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. " in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018.
[42] Yang, S., et al. "Unsupervised fake news detection on social media: A generative approach. " in Proceedings of the AAAI Conference on Artificial Intelligence. 2019.
[43] Phan, T.D. and N. Zincir‐Heywood, "User identification via neural network based language models. " International Journal of Network Management, 2019. 29(3): p. e2049.
[44] Mateen, M., et al. "A hybrid approach for spam detection for Twitter. " in 2017 14th International Bhurban Conference on Applied Sciences and Technology (IBCAST). 2017. IEEE.
[45] Chen, C., et al., "Statistical features-based real-time detection of drifted twitter spam. " IEEE Transactions on Information Forensics and Security, 2016. 12(4): p. 914-925.
[46] Volkova, S., et al. "Separating facts from fiction: Linguistic models to classify suspicious and trusted news posts on twitter. " in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2017.
[47] Mahmoodabad, S.D., S. Farzi, and D.B. Bakhtiarvand. "Persian rumor detection on twitter. " in 2018 9th International Symposium on Telecommunications (IST). 2018. IEEE.
[48] Wang, W., et al. "Global-and-Local Aware Data Generation for the Class Imbalance Problem. " in Proceedings of the 2020 SIAM International Conference on Data Mining. 2020. SIAM.
[49] Rout, N., D. Mishra, and M.K. Mallick, "Handling imbalanced data: A survey", in International Proceedings on Advances in Soft Computing, Intelligent Systems and Applications. 2018, Springer. p. 431-443.
[50] Chen, H. and L. Jiang, " Efficient GAN-based method for cyber-intrusion detection. " arXiv preprint arXiv:1904.02426, 2019.
[51] Lee, J. and K. Park, "GAN-based imbalanced data intrusion detection system. " Personal and Ubiquitous Computing, 2019: p. 1-8.
[52] Kim, J.-Y., S.-J. Bu, and S.-B. Cho. "Malware detection using deep transferred generative adversarial networks. " in International Conference on Neural Information Processing. 2017. Springer.
[53] Radford, A., L. Metz, and S. Chintala, "Unsupervised representation learning with deep convolutional generative adversarial networks. " arXiv preprint arXiv:1511.06434, 2015.
[54] Kovács, G., "An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets. " Applied Soft Computing, 2019. 83: p. 105662.
[55] Chawla, N.V., et al., "SMOTE: synthetic minority over-sampling technique. " Journal of artificial intelligence research, 2002. 16: p. 321-357.
[56] Batista, G.E., R.C. Prati, and M.C. Monard, "A study of the behavior of several methods for balancing machine learning training data. " ACM SIGKDD explorations newsletter, 2004. 6(1): p. 20-29.
[57] Han, H., W.-Y. Wang, and B.-H. Mao. "Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. " in International conference on intelligent computing. 2005. Springer.
[58] Cieslak, D.A., N.V. Chawla, and A. Striegel. "Combating imbalance in network intrusion datasets. " in GrC. 2006.
[59] De La Calleja, J. and O. Fuentes. "A Distance-Based Over-Sampling Method for Learning from Imbalanced Data Sets. " in FLAIRS Conference. 2007.
[60] He, H., et al. "ADASYN: Adaptive synthetic sampling approach for imbalanced learning. " in 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). 2008. IEEE.
[61] Dong, Y. and X. Wang. "A new over-sampling approach: random-SMOTE for learning from imbalanced data sets. " in International Conference on Knowledge Science, Engineering and Management. 2011. Springer.
[62] Lee, H., J. Kim, and S. Kim, "Gaussian-Based SMOTE Algorithm for Solving Skewed Class Distributions. " International Journal of Fuzzy Logic and Intelligent Systems, 2017. 17(4): p. 229-234.
[63] Ma, L. and S. Fan, "CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests. " BMC bioinformatics, 2017. 18(1): p. 1-18.
[64] Koziarski, M. and M. Wożniak, "CCR: A combined cleaning and resampling algorithm for imbalanced data classification. " International Journal of Applied Mathematics and Computer Science, 2017. 27(4): p. 727-736.
[65] Breuer, Adam, Roee Eilat, and Udi Weinsberg. "Friend or Faux: Graph-Based Early Detection of Fake Accounts on Social Networks." Proceedings of The Web Conference 2020. 2020.
[66] Liu, Yang, and Yi-Fang Brook Wu. "FNED: A Deep Network for Fake News Early Detection on Social Media." ACM Transactions on Information Systems (TOIS) 38.3 (2020): 1-33.
[67] Liao, Hao, Qixin Liu, and Kai Shu. "Incorporating User-Comment Graph for Fake News Detection." arXiv preprint arXiv:2011.01579 (2020).
[68] Balaanand, Muthu, et al. "An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter." The Journal of Supercomputing 75.9 (2019): 6085-6105.
[69] Fawcett, Tom. "An introduction to ROC analysis." Pattern recognition letters 27.8 (2006): 861-874.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال سیزدهم، شمارههاي 47 و 48، بهار و تابستان 1400 |
|
استفاده از شبکه مولد متخاصم شرطی برای تولید داده مصنوعی با هدف بهبود کلاسبندی کاربران منتشرکننده اخبار جعلی
عارفه اسمعیلی* سعید فرضی**
*کارشناس ارشد نرم افزار، گروه مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیر الدین طوسی
** استادیار گروه مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیر الدین طوسی
تاریخ دریافت:19/07/1399 تاریخ پذیرش:02/12/1399
نوع مقاله: پژوهشی
چکیده
سالیان درازی است که اخبار و پیامهای جعلی در جوامع انسانی منتشر میگردد و امروزه با فراگیرشدن شبکههای اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیامهای جعلی به موضوع برجستهای در جوامع تحقیقاتی تبدیل شده است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد میکنند و در شبکه نشر میدهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر میکنند، پرداخته است. در این راستا، سیستمی بر مبنای ترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازنسازی مجموعه داده پایهریزی شده است. همچنین، این سیستم با مدلکردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی میکند. علاوه بر این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیارهای دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند.
کلید واژگان: شناسایی کاربر منتشرکننده اخبار جعلی، مجموعه دادههای نامتوازن، شبکه مولد متخاصم، گراف تعاملات کاربران، تعبیه گره.
1 مقدمه
از زمانهای گذشته تاکنون اطلاعات و پیامهای جعلی همواره وجود داشته است [1]، که برای جوامع بشری مشکلات فراوانی ایجاد کرده است [2].
نویسنده مسئول: عارفه اسمعیلی arefehesmaili@email.kntu.ac.ir
در نتیجه، همواره اطمینان از درستی خبر درجوامع بشری احساس شده است [3]. امروزه نیز با پیشرفت و گسترش شبکههای اجتماعي و دسترسي آسان به آنها، شبکههای اجتماعي به پلتفرم مناسبی برای دنبالکردن رخداد و اخبار جهان تبدیل شدهاند [4]. علاوه بر این، در این شبکهها اجازه انتشار اطلاعات متنوع و زیاد، بدون چک کردن اعتبار1 آنها داده ميشود [5]. بنابراين، کاربران میتوانند با ایجاد حساب جعلي2، انواع جديدی از اطلاعات مخرب3 و نادرست را در شبکههای اجتماعی توليد و منتشر کنند. به طور مثال، هرزنامهها4 نوعي فعاليت مخرب هستند که کاربران جعلی5 پيامهای ناخواستهای را به صورت پيامهای کلاهبرداری، پيامهايي شامل ويروس و غيره ازطريق آنها ارسال ميکنند [6]. اکثر اخبار جعلی در زمینههای مسائل اعتقادی، اقتصادی و سیاسی وجود دارد [7]. برای اشاره به نمونهای از این نوع فعالیتها، میتوان به انتخابات آمریکا در سال 2016 اشاره کرد که مطالعه منابع خبری جعلي در آخرين هفته انتخابات توسط مردم، روی نتايج انتخابات اثرگذار بوده است [8]. همانطور که مشهود است، اين پيامها اعتبار شبکههای اجتماعی را کاهش میدهد و امنيت کاربران و حريم شخصي آنها را نيز تحت تاثير خود قرار ميدهد [10]. بنابراین، شناسایی اخبار و پیامهای جعلی در بین جوامع تحقیقاتی به موضوع برجستهای تبدیل شده است. شبکههای اجتماعی آنلاین6 مانند توئیتر، فیسبوک و لینکدین و غیره به دلیل فراگیری و استفاده بیشتر از آنها در بین مردم نسبت به گذشته تبدیل به بستری برای انتشار اطلاعات و اخبار نادرست شده است [11]. ضمناً، توئیتر به علت تبدیلشدن به مجرایی برای انتشار اخبار بلادرنگ در بین دولتمردان و افراد تحصیلکرده، پلتفرم مناسبی برای انتشار اخبار جعلی شده است7. ضمناً، چون اکثرکاربران توئیتر اقدام به تبادل اطلاعات با زبان انگلیسی میکنند، بیشتر تحقیقات بر روی این زبان صورت گرفته است [12] و از توجه به زبانهای مهم دیگری مانند فارسی که منابع زبانشناسیکمتری برای آنها وجود دارد، غفلت شده است.
علیرغم اینکه مطالعات انجامشده در حوزه شناسایی اخبار جعلی معمولاً بر روی متن خبر انجام شده است، شناسایی کاربر منتشرکننده این اخبار نیز از اهمیت ویژهای برخوردار است [6]. کاربران منتشرکننده اخبار جعلی در این مقاله، حساب کاربری هستند که حداقل یک بار پیامی حاوی خبر جعلی در شبکه اجتماعی منتشر کردهاند. در این مقاله، یک سیستم پیشنهادی برای شناسایی کاربران منتشرکننده اخبار جعلی مبتنی بر ترکیب ویژگیهای مبتنی بر کاربر-شبکه پیشنهاد داده شده است. از چالشهایی که در این حوزه وجود داشت، میتوان به 1) عدم توازن کلاسها در مجموعه داده و 2) معرفی سیستمی برای شناسایی کاربران جعلی از کاربران عادی اشاره کرد. برای رفع چالش اول، از روش یادگیری عمیق، شبکه مولد متخاصم شرطی8 برای متوازنسازی مجموعه داده استفاده شده است و برای رفع چالش دوم، با مدلکردن شبکه اجتماعی توئیتر به گراف وزندار و جهتدار و ترکیب اطلاعات کاربران با ویژگیهایی که باتعبیه9 گره به بردار ویژگی (Node2vec) به دست میآیند، کلاسبندی برای دستهبندی کاربران منتشرکننده اخبار جعلی از کاربران عادی طراحی شده است. ضمناً، در این مقاله از مجموعه داده جمعآوریشده توئیتر فارسی در بازه دو هفتهای مدت وقوع زلزله کرمانشاه ایران در سال 1396 استفاده شده است، که با برچسبگذاری دستی10 دادهها، توسعهداده شده است. به کمک انجام آزمایشات مختلف و متنوع بر روی مجموعه داده که با اهداف معینی صورت گرفته است، برتری سیستم پیشنهادی در مقایسه با رقبای خود چون روش بیش نمونهبرداری اقلیت مصنوعی11، Borderline-SMOTE، ADASYN،CCR ، Cure-SMOTE، Gaussian-SMOTE،Random-SMOTE ، Distance-SMOTE، Cluster-SMOTE و غیره در معیارهای ارزیابی چون صحت12، فراخوانی13، معیار اف14 و دقت15 نشان داده شده است.
نوآوری مقاله ما به صورت زیر خواهد بود:
· گسترش مجموعه داده فارسی در شبکه اجتماعی توئیتر، برای شناسایی کاربران منتشرکننده اخبار جعلی
· معرفی سیستمی برای کلاسبندی کاربران منتشرکننده اخبار جعلی و کاربران عادی
در بخش بعدی دستهبندی برکارهای گذشته در این حوزه انجام شده است. در ادامه، خلاصهای از شبکه مولد متخاصم و شبکه مولد متخاصم شرطی و روش تعبیه گره (Node2vec) ارائه خواهد شد. همچنین، در بخش 3 سیستم پیشنهادی مقاله و در بخش 4 آزمایشات تکمیلی و نتایج ارزیابی نمایش داده شده است. نهایتاً، به ترتیب در بخش 5 و 6 نتیجهگیری و مراجع استفاده شده، شرح داده شده است.
2 کارهای مرتبط و پیشزمینه
2.1 پیشزمینه
در این بخش از مقاله، خلاصهای از شبکه مولد متخاصم و شبکه مولد متخاصم شرطی و سپس، روش تعبیه گره به بردار (Node2vec) بهطورخلاصه تشریح میگردد.
v شبکه مولد متخاصم و شبکه مولد متخاصم شرطی:
شبکه مولد متخاصم بر مبنای رقابت بین دو مؤلفه تولیدکننده و تمایزدهنده
پایهریزی شده است. هدف
فریب دادن
است. هدف
ایجاد تمایز بین نمونههای تولیدی G و نمونههای موجود در مجموعه داده است. هر دو مؤلفه سعی در باهوش کردن یکدیگر دارند. با بازخورد گرفته شده از نمونههای تولیدی
توسط
، عملکرد G بهبود مییابد. همچنین، اگر
بتواند به راحتی نمونههای واقعی را از نمونههای تولیدی
تشخیص دهد، G کیفیت نمونههای تولیدی خود را کاهش میدهد. مؤلفه تولیدکننده
به صورت
تعریف میشود که Z فضای اختلال16 با بعد دلخواه
است و همچنین، X فضای داده است که هدف G به دست آوردن توزیع داده است. مؤلفه تمایزدهنده به صورت D: X → [0, 1] تعریف میشود و احتمال اینکه نمونه از مجموعه داده یا از G میآید، را تخمین میزند. این دو مؤلفه در یک بازی کمینه-بیشینه17 مطابق رابطه 1 با هم به رقابت میپردازند:
(1) |
|
| ||
|
|
| |
(2) |
|
(3) |
|
(4) |
|
|
شکل 1. شبکه مولد متخاصم شرطی [15] |
v Node2vec: Node2vec روش یادگیری نیمهناظر برای تعبیه21 گره به نقاطی در فضای برداری با بعد کمتر با حفظ بیشترین همسایگی است. این روش دو معادله22 هموفیلی و ساختاری را در نظر میگیرد. در معادلات هموفیلی23 گرهها میتوانند مبتنی بر جامعهای24 که به آن تعلق دارند، سازماندهی شوند و در معادله ساختاری25 گرهها میتوانند براساس نقش ساختاری خود در شبکه، سازماندهی شوند. به طور مثال، در شکل2 گره C , E در دو جامعه مجزا قرار دارند ولی نقش ساختاری یکسانی دارند. گرههایA , C به یک جامعه تعلق دارند.
|
شکل 2. نمونه گراف |
این روش بر روی دو هدف تمرکز دارد. هدف اول آن، تعبیه گرههایی که به یک جامعه تعلق دارند، در نزدیکی یکدیگر است و همچنین، هدف دوم آن، تعبیه گرهها با نقش ساختاری یکسان در گراف در نزدیکی یکدیگر است. بنابراین، برای تحقق این دو هدف، Node2vec با وزندهی یالهای گراف به صورت شکل 3، و با پیادهروی تصادفی26 روی گراف و با ترکیب جستجوی اول سطح27 برای معادلات ساختاری و با جستجوی اول عمق28 برای معادلات هموفیلی، دنبالهای از گرهها در گراف ایجاد میکند که شبیه به دنبالهای از کلمات در جمله خواهد بود. سپس، همانطور که در شکل4 مشهود است با کمک ابزار Word2vec و بهرهگیری از Skip-gram دنباله ایجادشده را به بردار ویژگی تبدیل میکند [16].
| |
| |
شکل 3. نحوه وزندهی به یالها. فرض شده است که در پیادهروی تصادفی از گره t به v رفته شده است، حال باید مشخص شود از گره v به کدام گره خواهد رفت که طبق معادله وزندهی میشود و جهت حرکت مشخص خواهد شد [16] .
| |
| |
شکل 4. مراحل Node2vec |
2.2 کارهای مرتبط
اولین سایت اجتماعی با نام Six degree.com در سال 1997 میلادی شروع به کارکرد ولی خیلی زود کنار گذاشته شد [10]. بعد از آن شبکههای اجتماعی چون فیسبوک، لینکدین، اینستاگرام، توئیتر و غیره برای برقراری ارتباط کاربران سراسر جهان با یکدیگر، یافتن اخبار و به اشتراکگذاری رویدادها به صورت تصویر، متن، ویدئو و غیره پا به عرصه ظهور گذاشتند. از طرفی با گسترش و فراگیری این شبکهها در بین مردم، شبکههای اجتماعی نوظهور تبدیل به پلتفرم مناسبی برای انتشار اطلاعات غلط، لینکهای هرزنامه، پیامهای ناخواسته و ساخت حسابهای جعلی شدهاند [7].
اخبار جعلی عمداً برای فریبدادن خواننده نوشته میشوند، که نادرستی آنها توسط منابع موثق قابل اثبات است [17]. اما شایعات اطلاعاتی هستند که درستی آنها توسط منبع رسمی تایید نشده است و در حال پخششدن در بین افراد هستند [18]. کاربران مخرب، به دنبال نقض حریم خصوصی کاربران دیگر یا سوء استفاده از نام و اعتبار آنها با ایجاد حساب جعلی هستند [19]. توئیتر یکی از رایجترین وب سایتهایی است که میکروبلاگینگ رایگان شامل ارسال تصویر، ویدئو، متن و غیره را در اختیار کاربرانش قرار داده است [20]. کاربران توئیتر برای تبادل اطلاعات میتوانند از پیامهای کوتاهی شامل حداکثر 280 کاراکتر که به آنها توئیت29 گفته میشود، استفاده کنند [21]. ضمناً، ارتباطات جهتدار خواهد بود، یعنی هر کاربر دنبالکننده30 و دنبالشونده31 خود را دارد. همچنین، توئیت میتواند در شبکه بازنشر شود که به آن ریتوئیت32 گویند. ضمناً، میتوان در جواب توئیتی پاسخی گذاشت. کاربران توئیتر معمولاً از هشتگ برای مشخصکردن موضوع خاص در توئیت خود استفاده میکنند. هشتگهای مشهور به موضوعات روز33 تبدیل میشوند [22].
مطالعات گستردهای در شبکه اجتماعی توئیتر برای شناسایی اقدامات فریبکارانه مبتنی بر آدرس اینترنتی، محتوای جعلی، شناسایی کاربر جعلی، استخراج هرزنامه در موضوعات روز انجام شده است [23]. محققان در ابتدا مدلی پیشنهاد دادند که هرزنامهها را از طریق آدرس اینترنتی آنها فیلتر میکرد. به همین منظور، توئیتر توسط Bot Maker امکان حذف هرزنامهها توسط آدرس اینترنتی آنها را فراهم آورد. اما محققان دریافتند که 90 درصد هرزنامهها با استفاده از آدرس اینترنتی جدید از فیلتر گذر میکردند که باعث شکست این ایده شد. اخیراً، محققان به دنبال روشهایی برای استفاده از الگوریتمهای مبتنی بر یادگیری ماشین هستند [10]. شناسایی کاربران و اخبار جعلی یک کلاسبندی شامل دو کلاس است که شامل دستهبندی کاربران و اخبار، به جعلی و عادی است. کارهای انجام شده درحوزه استخراج ویژگیهای موردنیاز برای کلاسبندها به دو دسته 1) مبتنی بر محتوا34 و 2) مبتنی بر بافتار35 تقسیم میگردد. در ویژگیهای مبتنی بر محتوا به قواعد زبانشناسی مانند نحو36، معنا37، واژه38 در متن توجه میشود. از آنجا که ساختار زبانشناسی متن عادی میتواند توسط متن جعلی تقلید شود [24]، ویژگیهای مبتنی بر بافتار به روی کار آمدند. همچنین، این ویژگی نیز شامل دو دسته مبتنی بر شبکه39 و مبتنی بر کاربر40 است. در ویژگیهای مبتنی بر بافتار-کاربر به ویژگیهای آماری چون شماره حساب، آدرس اینترنتی موجود در توئیت، عکس پروفایل کاربران، تعداد پست ایجاد شده توسط کاربر، تعداد دنبالکننده و دنبالشونده، سن و غیره توجه میشود. امکان تقلید و جعل در این نوع ویژگیها نیز به کمک ایجاد پست و خرید دنبالکننده و غیره وجود دارد. برای جلوگیری از این موضوع، از ویژگیهای مبتنی بر بافتار - شبکه مانند الگوی انتشار، چگالی، ضریب خوشهبندی41، تعداد ریتوئیت، دفعات انتشار پست، پسندیدن42 یک پست و تعاملات کاربر با خبر و غیره میتوان استفادهکرد. دستهبندی انواع ویژگیها برای شناسایی اخبار و کاربر جعلی در شکل5 آمده است.
|
شکل 5 . گونه شناسی انواع ویژگیها و مثالهایی از هر گروه برای شناسایی اخبار و کاربر جعلی |
کارونکار و همکارانش [25]، برای شناسایی پروفایل کاربران جعلی در فیسبوک از روشهای زبانشناسی استفاده کردهاند که امکان تقلید این نوع ویژگی توسط کاربران جعلی وجود دارد. برای جلوگیری از این موضوع، در این مقاله، به ویژگیهای مبتنی بر شبکه و بافتار-کاربر توجه شده است. دلا ودووا و همکارانش [26]، کای شو و همکارانش [27]، جیزل باستیداس گواچو و همکارانش [28] از ترکیب ویژگیهای مبتنی بر محتوا و شبکه برای تشخیص اخبار جعلی استفاده کردهاند، که به دلیل استفاده از ویژگیهای مبتنی بر محتوا بر مشکل شروع سرد43 غلبه پیدا کردهاند؛ شروع سرد به معنای ایجاد و انتشار پستی به تازگی در شبکه است که کاربری آن را نپسندیده یا بازنشر نکرده است و الگوی گسترش آن در شبکه هنوز تکمیل نشده است. سویتلانا ولکووا و همکارانش [46]، بر روی اخبار فریب، تبلیغات، هجو و غیره در زمان حمله تروریستی بروکسل در سال 2016 و با در نظر گرفتن متن توئیت و تعاملات کاربران در شبکه توئیتر کار کردهاند؛ این نویسندگان از ایده آموزش شبکه عصبی بر روی مجموعه داده متوازن استفاده کردهاند. ضمناً، هائو لیائو و همکارانش [67]، با ساخت گرافی بین کاربر و نظرات کاربر در شبکه اجتماعی به دنبال استخراج ویژگیهای محتوا و شبکه برای شناسایی اخبار جعلی بودهاند. ضمناً، این نویسندگان برای تعبیه اطلاعات به بردار از روشهای مبتنی بر مکانیزم توجه44 که باعث حذف زیادی از اطلاعات نامرتبط میشود، استفاده کردهاند. کای شو و همکارانش [30]، گرافی بین پاسخ کاربر بر روی خبر، کاربر دریافتکننده و ارسالکننده خبر تشکیل داده است و از ترکیب ویژگیهای مبتنی بر محتوا و شبکه برای تشخیص اخبار جعلی استفاده کرده است و به ویژگیهای بافتار-کاربر توجه نکردهاند؛ با این تفاوت که این نویسنده در مقاله دیگری [29]، از ترکیب دو ویژگی بافتار-کاربر و بافتار-شبکه برای شناسایی کاربر جعلی استفاده کردهاند. طارق حمدی و همکارانش [31]، از ترکیب ویژگیهای کاربر و شبکه با کمک تعبیه گره به بردار (Node2vec) برای شناسایی منبع فرستنده اخبار جعلی استفاده کردهاند ولی در این پژوهش، ترکیب این نوع ویژگیها بر روی مجموعه داده نامتوازن و در زبان فارسی بررسی شده است. موتو بالاآناند و همکارانش [68]، با زیر نظر گرفتن رفتار کاربر در بازه زمانی طولانی و ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه کاربران جعلی را شناسایی کردهاند. سوپانیا آفی وان سیفان و همکارانش [32]، بررسیهایی بر روی اخبار سیل تایلند با اعمال ویژگیهای مبتنی بر کاربر انجام داده است. گلزار حسین و همکارانش [33]، برای شناسایی خبر جعلی در زبان بنگلادشی از ویژگیهای مبتنی بر محتوا کمک گرفتهاند؛ در صورتیکه، این ویژگی به تنهایی میتواند جعل شود و نیاز به استفاده از دیگر ویژگیها وجود دارد. از مزایای پژوهش این نویسندگان میتوان به ایجاد مجموعه داده جدید در زبان بنگلادشی که منابع زبان شناسی کمتری برای آن وجود دارد، اشاره کرد. یونگجون لی و همکارانش [34]، از ویژگیهای مبتنی بر کاربر استفاده کرده است و با ایجاد گراف به صورت پیشنهاد افراد شبیه به یکدیگر، به دنبال شناسایی کاربران جعلی هستند اما دادههای مورد استفاده در آزمایشات آنها متوازن هستند و به مشکل عدم توازن در مجموعه داده اشارهای نداشتهاند. سیراموینای ویجیاراغوان و همکارانش [35]، با اعمال روشهای زبانشناسی بر روی متن خبر با تعبیه متن با کمک بردار فراوانی اصطلاح- معکوس فراوانی متن45 و Word2vec و غیره به دنبال شناسایی اخبار جعلی است. اشروتیکا جدهاو و همکارانش [36]، برای اثبات عملکرد بهتر روشهای یادگیری عمیق در شناسایی اخبار جعلی از شبکههای عصبی بازگشتی46 و مدل معنایی ساختاریافته عمیق47 استفاده کرده است و همچنین، اولووسون آجاو و همکارانش [37]، با تمرکز بر ویژگیهای محتوایی به دنبال شناسایی اخبار جعلی است اما این نویسندگان به دلیل استفاده شبکه عصبی بازگشتی و شبکه عصبی پیچشی48 در کارهای آتی خود اشاره داشتهاند که به مجموعه داده بزرگتری نیاز دارند تا نتایج بهتری به دست آوردند. ژانگ و همکارانش [38]، با ایجادگرافی بین نویسنده و اخبار و موضوع اخبار و ترکیب با اطلاعات محتوایی به دنبال شناسایی اخبار جعلی است. ابیشک ورما و همکارانش [39]، با ایجاد مجموعه دادهای در اخبار هند و اعمال ویژگیهای محتوایی با کمک روشهای یادگیری عمیق سعی در شناسایی خبر جعلی دارند. ضمناً، این نویسندگان بر روی مجموعه داده متوازن کار کردهاند. نا روان و همکارانش [40]، از ویژگیهای مبتنی بر کاربر از جمله موقعیت جغرافیایی برای شناسایی بازبینگر جعلی49 استفاده کردهاند. بیندو و همکارانش [6]، معتقد است کاربران جعلی با یکدیگر تشکیل جامعه میدهند. به همین منظور، از الگوریتمهای خوشهبندی برای شناسایی جامعه کاربران جعلی استفاده کرده است. یوجینیو توچینی و همکارانش [3]، تنها بر روی گراف کاربرانی که در فیسبوک، پست یکدیگر را پسندیدن کار کرده است و همچنین، آدام بروئر و همکارانش [65]، برای شناسایی حساب کاربران جعلی فقط ازگراف اتصالات در شبکه استفاده کردهاند که این ویژگی در زمانهایی که شروع سرد در شبکه وجود دارد، کارایی ضعیفی از خود نشان میدهد، به همین دلیل، در این مقاله از ویژگی بافتار-کاربر هم استفاده شده است. سید مهدی حسینی مطلق و همکارانش [41]، از الگوریتم خوشهبندی براساس ویژگیهای مبتنی بر محتوا برای شناسایی اخبار جعلی استفاده کرده است. شو یانگ و همکارانش [42]، از ویژگی مبتنی بر شبکه برای شناسایی کاربر جعلی استفاده کردهاند که مشکل شروع سرد در کار آنها نیز دیده میشود. تائن فان و همکارانش [43]، از نحوه نگارش کاربر و با تعبیه متن نگارش شده به بردار ویژگی، حساب کاربران جعلی را شناسایی میکند. محمدرضا محمدرضایی و همکارانش [19]، با ایجاد گراف دوستی بین کاربران و محاسبه معیارهای شباهت مانند جاکارد و کسینوس و غیره اقدام به شناسایی کاربران جعلی میکند، همچنین، آنها از روش بیش نمونهبرداری اقلیت مصنوعی برای ایجاد توازن در مجموعه داده استفاده کردهاند. اما در این مقاله، علاوه بر ویژگی شبکه بر روی ویژگیهای کاربر هم کار شده است و برای متوازنسازی داده از روشهای مبتنی بر یادگیری عمیق به کمک شبکه مولد متخاصم شرطی استفاده شده است. همچنین، ملیک متین و همکارانش [44]، برای شناسایی کاربرانی که در شبکه توئیتر هرزنامه ایجاد میکنند، از ترکیب سه ویژگی یعنی مبتنی بر محتوا، بافتار-کاربر و بافتار-شبکه استفاده کرده است، اما باید اثرگذاری مدل آنها در شرایط نامتوازن بودن مجموعه داده نیز بررسی گردد. چائو چن و همکارانش [45]، برای شناسایی هرزنامههای موجود در توئیتر از ویژگیهای مبتنی بر بافتار استفاده کرده است. در این مقالات نیز مشکل عدم توازن داده مطرح نیست. یانگ لیو و همکارانش [66]، با اعمال ویژگیهای مبتنی بر بافتار-کاربر و محتوا روی پاسخ کاربران، اخبار جعلی را شناسایی میکنند. ضمناً، آنها با کمک شبکه عصبی بر مشکل شروع سرد غلبه کردهاند. در شکل 6 دستهبندی از مطالب گفتهشده براساس ویژگی مورد استفاده مقالات نشان داده شده است.
[1] 1 Credibility
[2] 2 Fake account
[3] 3 Malicious
[4] 4 Spam
[5] 5 Fake users
[6] 6 Online Social Network (OSN)
[7] 7 https://blog.pixelfish.com.au/twitter-vs-facebook-vs-instagram-vs-linkedin
[8] 8 Conditional generative adversarial network (CGAN)
[9] 9 Embedding
[10] 10 Manual
[11] 11 Synthetic Minority Oversampling Technique (SMOTE)
[12] 12 Accuracy
[13] 13 Recall
[14] 14 F-measure
[15] 15 Precision
[16] 16 Noise
[17] 17 Min-Max
[18] 18 Mini-batch
[19] 19 Saturation
[20] 20 Gradient-Based
[21] 21 Embedding
[22] 22 Equivalence
[23] 23 Hemophilia
[24] 24 Community
[25] 25 Structural
[26] 26 Random walk
[27] 27 Breadth First Search (DFS)
[28] 28 Depth First Search (BFS)
[29] 29 Tweet
[30] 30 Follower
[31] 31 Following
[32] 32 Retweet
[33] 33 Trending Topic
[34] 34 Content-based
[35] 35 Context-based
[36] 36 Syntax
[37] 37 Semantic
[38] 38 Lexical
[39] 39 Network-based
[40] 40 User-based
[41] 41 Clustering Coefficient
[42] 42 Like
[43] 43 Cold start
[44] 44 Attention mechanism-based methods
[45] 45 Term Frequency - Inverse Document Frequency (TF-IDF)
[46] 46 RNN
[47] 47 Deep Structured Semantic Model (DSSM)
[48] 48 Convolutional Neural Network (CNN)
[49] 49 Fake reviewer