PERFORMANCE EVALUATION OF PREPROCESSING TO PCA COMBINED MACHINE LEARNING TECHNIQUES ON PHARMACEUTICAL AND MINERAL SAMPLES BY LASER-INDUCED BREAKDOWN SPECTROSCOPY

Date

2023-01-27

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

For the purpose of identifying and analyzing materials, laser-induced breakdown spectroscopy (LIBS) is a quick optical nuclear discharge spectroscopy. It has the advantages of in-situ analysis, removal of rigorous sample processing, and micro-destructive properties for the substance being evaluated. LIBS uses brief bursts of laser beams to stimulate the material to a certain threshold, resulting in plasma formation. The plasma properties, which include wavelength value and intensity amplitude, are affected by the material and the surroundings of the experiment. The spectrum profiles of medication and mineral samples were obtained using LIBS in this study. The collection of pharmaceutical samples comprises two distinct concentrations of both paracetamol-based drugs, Aferin and Parafon. Aluminum (Al), Bizmut (Bi), Copper (Cu), Iron (Fe), Manganese (Mn), Nickel-Aluminum (NiAl), Tin (Sn), and Zinc (Zn) are among the mineral samples in the dataset. The samples' spectrum data were preprocessed by replacing missing values with shape-preserving piecewise cubic spline interpolation, filling outliers based on quartiles, smoothing spectra to remove noise, and normalizing both the wavelength and intensity axes. Statistical information was acquired, and both the preprocessed and raw datasets were subjected to principal component analysis (PCA). The machine learning models were built using two distinct train-test splits: 70% training - 30% test and 80% training - 20% test. Cross-validation was employed to keep the models from being overfit, hence the sample size is small. Both splits' machine learning outcomes from preprocessed and raw datasets were compared. This is the first time that all supervised machine learning classification algorithms, including Decision Trees, Discriminant, Nave Bayes, Support Vector Machines (SVM), k-NN (k-Nearest Neighbor), Ensemble Learning, and Neural Network algorithms, have been applied to LIBS datasets of both paracetamol-based pharmaceutical samples and 8 different mineral samples, as well as their preprocessed and raw datasets, to investigate the effect of preprocessing.

Description

LAZER KAYNAKLI KIRILMA SPEKTROSKOPİSİYLE FARMASÖTİK VE MİNERAL NUMUNELERİ ÜZERİNDE PCA KOMBİNE MAKİNE ÖĞRENME TEKNİKLERİNE ÖN İŞLEME YAPILMASININ PERFORMANS DEĞERLENDİRMESİ
ÖZ: Lazerle indüklenen kırılma spektroskopisi (LIBS), malzeme tanımlama ve analiz için kullanılan hızlı bir optik atomik emisyon spektroskopisidir. Yerinde analiz, titiz numune işlemenin kaldırılması ve değerlendirilmekte olan madde için mikro yıkıcı özelliklerin avantajlarına sahiptir. LIBS, malzemeyi belirli bir eşiğe uyarmak için kısa lazer ışını patlamaları kullanır ve bu plazma oluşumuyla sonuçlanır. Dalga boyu değeri ve yoğunluk genliğini içeren plazma özellikleri, deneyin malzemesi ve çevresinden etkilenir. Bu çalışmada LIBS kullanılarak ilaç ve mineral örneklerinin spektrum profilleri elde edilmiştir. Farmasötik numunelerin toplanması, her iki parasetamol bazlı ilacın, Aferin ve Parafon'un iki farklı konsantrasyonundan oluşur. Alüminyum (Al), Bizmut (Bi), Bakır (Cu), Demir (Fe), Manganez (Mn), Nikel Alüminyum (NiAl), Kalay (Sn), Çinko (Zn) mineral verisetindeki numunelerdir. Numunelerin spektrum verileri, eksik değerlerin şekli koruyan parçalı kübik spline enterpolasyonu ile değiştirilmesi, çeyreklere dayalı aykırı değerlerin doldurulması, gürültüyü gidermek için spektrumların yumuşatılması ve hem dalga boyu hem de yoğunluk eksenlerinin normalleştirilmesiyle veri ön işleme yöntemlerine tabi tutulmuştur. İstatistiksel bilgiler elde edilmiş, ve hem önceden işlenmiş hem de ham veri kümeleri temel bileşen analizine (PCA) tabi tutulmuştur. Makine öğrenimi modelleri, iki farklı eğitim testi bölümü kullanılarak oluşturulmuştur: %70 eğitim - %30 test ve %80 eğitim - %20 test. Modellerin aşırı uyumlanmasını önlemek için çapraz doğrulama kullanılmış olup, bu nedenle örnek boyutu minimumdur. Her iki bölümün de önceden işlenmiş ve ham veri kümelerinden elde edilen makine öğrenimi sonuçları karşılaştırılmıştır. Karar Ağaçları, Diskriminant, Naïve Bayes, Destek Vektör Makineleri (SVM), k-NN(k-En Yakın Komşu) Topluluk Öğrenmesi ve Sinir Ağı algoritmalarından oluşan; hem parasetamol bazlı farmasötik numunelerin hem de 8 farklı mineral numunelerin LIBS veri setlerine, ve bunların hem ön işlemeye tabi tutulmuş hem de ham veri setlerine, ön işlemenin etkisini gözlemlemek için uygulandığı ilk çalışmadır.

Keywords

electrical & electronics engineering

Citation