COMPARISON OF PREDICTION ALGORITHMS FOR STUDENT PERFORMANCE PREDICTION

Date

2022-02-22

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

This thesis investigates the application of six machine learning algorithms to student performance prediction, using datasets made up of only students information available at the Atilim University administrative systems. In addition, these learning algorithms were compared using four measures: Accuracy, Precision, Recall and F measure. The study also investigates whether the number of courses predicted together is directly or inversely proportional to the performance of the classifiers used. A measure of the effects of data preprocessing as well as Correlation based Feature Selection (CFS) on the learning algorithms was also conducted, respectively. The algorithms used are: Naive Bayes, Logistic Regression, Multilayer Perceptron, SMO (based on Support Vector Machines), IBk (K-Nearest Neighbor) and J48 (C4.5 Decision Tree). Naïve Bayes and IBk proved to be the best among the compared algorithms. The results also show that as the number of courses being predicted together increases, the prediction performance decreases. Data preprocessing and CFS are also found to generally improve the performance of the machine learning algorithms.

Description

ÖĞRENCİ PERFORMANSININ ÖNGÖRÜLMESİ İÇİN TAHMİN ALGORİTMALARININ KARŞILAŞTIRILMASI
ÖZ: Bu tez, Atılım Üniversitesi Bilgi Sistemlerinde barındırılan öğrenci bilgilerinin oluşturduğu veri kümelerini kullanarak altı farklı makine öğrenmesi algoritmalarının öğrenci performansı tahminine uygulanmasını incelemektedir. Bu öğrenme algoritmaları şu dört ölçü kullanılarak karşılaştırılmıştır: Doğruluk, Kesinlik, Geri Çağırma ve F-ölçüsü. Çalışmada aynı anda çok sayıda ders başarısı tahmininin, kullanılan sınıflandırıcıların performansıyla doğrudan veya ters orantılı olup olmadığına da bakılmıştır. Ayrıca; veri ön işlemenin yanı sıra, Korelasyon temelli Özellik Seçimi (CFS)'nin öğrenme algoritmaları üzerindeki etkilerinin ölçümü gerçekleştirilmiştir. Kullanılan algoritmalar şunlardır: Naif Bayes, Lojistik Regresyon, Çok Katmanlı Perceptron, SMO (Destek Vektör Makineleri), IBk (K-En Yakın Komşu) ve J48 (C4.5 Karar Ağacı). Naïve Bayes ve IBk, karşılaştırılan algoritmalar arasında en iyi sonuçlar vermiştir. Sonuçlar, birlikte tahmin edilen derslerin sayısı arttıkça tahmin performansının azaldığını da göstermektedir. Veri ön işleme ve CFS'nin, genellikle makine öğrenimi algoritmalarının performansını artırdığı görülmüştür.

Keywords

software

Citation