A HYBRID METHOD FOR MISSING VALUE IMPUTATION
Date
2022-02-16
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Missing data arises in almost all serious statistical analyses. Statistical analyses have
a variety of methods to handle missing data, including some relatively simple
approaches that can often yield reasonable results such as the random imputation
approach. The missing data imputation process must be modeled in order to perform
imputations correctly. Using datasets in empirical applications is very common to
perform some tasks; however, missing values in datasets should be extracted from
the datasets or should be estimated before they are used for processing to produce
correct association rules or clustering in the preprocessing stage of data mining and
processing. In this thesis, a hybrid approach is used that combines K-Nearest
Neighbor (KNN) with Singular Value Decomposition (SVD) algorithm to improve
the data imputation and produce data with high correlation with original missing
values. The test results of the proposed hybrid method are compared with the results
of several alternative methods for different rate of missing values and the results of
the proposed method yields better performance than the others. The results are also
compared with the reported results in the literature to give an idea about its
performance.
Description
KAYIP VERİLERİN TAMAMLANMASI İÇİN BİR HİBRİT MODEL
ÖZ: Eksik veriler neredeyse tüm ciddi istatistiksel analizlerde ortaya çıkmaktadır. İstatistiksel analizler, eksik verileri işlemek için, rastgele değerlendirme yaklaşımı gibi genellikle makul sonuçlar verebilecek bazı basit yaklaşımlar da dahil olmak üzere çeşitli yöntemlere sahiptir. Eksik veri değerlendirme süreci, doğru tamamlamalar yapabilmek için modellenmelidir. Veri setlerini ampirik uygulamalarda kullanmak bazı görevleri gerçekleştirmek için çok yaygındır, ancak veri setlerindeki eksik değerler veri setlerinden çıkarılmalı ya da veri madenciliğinin ön işleme aşamasında tahmin edilmelidir. Bu tezde, veri algılamasını iyileştirmek ve orijinal eksik değerlerle yüksek korelasyonlu veri üretmek için K-En Yakın Komşu (KNN) ile Tekil Değer Ayrıştırma (SVD) algoritmasını birleştiren bir karma yaklaşım kullanılmaktadır. Önerilen hibrit yöntemin test sonuçları, farklı kayıp değerlerin oranı için çeşitli alternatif yöntemlerin sonuçlarıyla karşılaştırılmış ve önerilen yöntemin performansı diğerlerinden daha iyi çıkmıştır. Ayrıca sonuçlar, önerilen modelin performansı hakkında bir fikir vermesi amacıyla literatürdeki raporlanan diğer sonuçlarla da karşılaştırılmıştır.
ÖZ: Eksik veriler neredeyse tüm ciddi istatistiksel analizlerde ortaya çıkmaktadır. İstatistiksel analizler, eksik verileri işlemek için, rastgele değerlendirme yaklaşımı gibi genellikle makul sonuçlar verebilecek bazı basit yaklaşımlar da dahil olmak üzere çeşitli yöntemlere sahiptir. Eksik veri değerlendirme süreci, doğru tamamlamalar yapabilmek için modellenmelidir. Veri setlerini ampirik uygulamalarda kullanmak bazı görevleri gerçekleştirmek için çok yaygındır, ancak veri setlerindeki eksik değerler veri setlerinden çıkarılmalı ya da veri madenciliğinin ön işleme aşamasında tahmin edilmelidir. Bu tezde, veri algılamasını iyileştirmek ve orijinal eksik değerlerle yüksek korelasyonlu veri üretmek için K-En Yakın Komşu (KNN) ile Tekil Değer Ayrıştırma (SVD) algoritmasını birleştiren bir karma yaklaşım kullanılmaktadır. Önerilen hibrit yöntemin test sonuçları, farklı kayıp değerlerin oranı için çeşitli alternatif yöntemlerin sonuçlarıyla karşılaştırılmış ve önerilen yöntemin performansı diğerlerinden daha iyi çıkmıştır. Ayrıca sonuçlar, önerilen modelin performansı hakkında bir fikir vermesi amacıyla literatürdeki raporlanan diğer sonuçlarla da karşılaştırılmıştır.
Keywords
information systems engineering