PERFORMANCE EVALUATION OF PREPROCESSING TO PCA COMBINED MACHINE LEARNING TECHNIQUES ON PHARMACEUTICAL AND MINERAL SAMPLES BY LASER-INDUCED BREAKDOWN SPECTROSCOPY
Date
2023-01-27
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
For the purpose of identifying and analyzing materials, laser-induced
breakdown spectroscopy (LIBS) is a quick optical nuclear discharge spectroscopy. It
has the advantages of in-situ analysis, removal of rigorous sample processing, and
micro-destructive properties for the substance being evaluated. LIBS uses brief bursts
of laser beams to stimulate the material to a certain threshold, resulting in plasma
formation. The plasma properties, which include wavelength value and intensity
amplitude, are affected by the material and the surroundings of the experiment. The
spectrum profiles of medication and mineral samples were obtained using LIBS in this
study. The collection of pharmaceutical samples comprises two distinct concentrations
of both paracetamol-based drugs, Aferin and Parafon. Aluminum (Al), Bizmut (Bi),
Copper (Cu), Iron (Fe), Manganese (Mn), Nickel-Aluminum (NiAl), Tin (Sn), and
Zinc (Zn) are among the mineral samples in the dataset. The samples' spectrum data
were preprocessed by replacing missing values with shape-preserving piecewise cubic
spline interpolation, filling outliers based on quartiles, smoothing spectra to remove
noise, and normalizing both the wavelength and intensity axes. Statistical information
was acquired, and both the preprocessed and raw datasets were subjected to principal
component analysis (PCA). The machine learning models were built using two distinct
train-test splits: 70% training - 30% test and 80% training - 20% test. Cross-validation
was employed to keep the models from being overfit, hence the sample size is small.
Both splits' machine learning outcomes from preprocessed and raw datasets were
compared. This is the first time that all supervised machine learning classification
algorithms, including Decision Trees, Discriminant, Nave Bayes, Support Vector
Machines (SVM), k-NN (k-Nearest Neighbor), Ensemble Learning, and Neural
Network algorithms, have been applied to LIBS datasets of both paracetamol-based
pharmaceutical samples and 8 different mineral samples, as well as their preprocessed
and raw datasets, to investigate the effect of preprocessing.
Description
LAZER KAYNAKLI KIRILMA SPEKTROSKOPİSİYLE FARMASÖTİK VE
MİNERAL NUMUNELERİ ÜZERİNDE PCA KOMBİNE MAKİNE
ÖĞRENME TEKNİKLERİNE ÖN İŞLEME YAPILMASININ
PERFORMANS DEĞERLENDİRMESİ
ÖZ: Lazerle indüklenen kırılma spektroskopisi (LIBS), malzeme tanımlama ve analiz için kullanılan hızlı bir optik atomik emisyon spektroskopisidir. Yerinde analiz, titiz numune işlemenin kaldırılması ve değerlendirilmekte olan madde için mikro yıkıcı özelliklerin avantajlarına sahiptir. LIBS, malzemeyi belirli bir eşiğe uyarmak için kısa lazer ışını patlamaları kullanır ve bu plazma oluşumuyla sonuçlanır. Dalga boyu değeri ve yoğunluk genliğini içeren plazma özellikleri, deneyin malzemesi ve çevresinden etkilenir. Bu çalışmada LIBS kullanılarak ilaç ve mineral örneklerinin spektrum profilleri elde edilmiştir. Farmasötik numunelerin toplanması, her iki parasetamol bazlı ilacın, Aferin ve Parafon'un iki farklı konsantrasyonundan oluşur. Alüminyum (Al), Bizmut (Bi), Bakır (Cu), Demir (Fe), Manganez (Mn), Nikel Alüminyum (NiAl), Kalay (Sn), Çinko (Zn) mineral verisetindeki numunelerdir. Numunelerin spektrum verileri, eksik değerlerin şekli koruyan parçalı kübik spline enterpolasyonu ile değiştirilmesi, çeyreklere dayalı aykırı değerlerin doldurulması, gürültüyü gidermek için spektrumların yumuşatılması ve hem dalga boyu hem de yoğunluk eksenlerinin normalleştirilmesiyle veri ön işleme yöntemlerine tabi tutulmuştur. İstatistiksel bilgiler elde edilmiş, ve hem önceden işlenmiş hem de ham veri kümeleri temel bileşen analizine (PCA) tabi tutulmuştur. Makine öğrenimi modelleri, iki farklı eğitim testi bölümü kullanılarak oluşturulmuştur: %70 eğitim - %30 test ve %80 eğitim - %20 test. Modellerin aşırı uyumlanmasını önlemek için çapraz doğrulama kullanılmış olup, bu nedenle örnek boyutu minimumdur. Her iki bölümün de önceden işlenmiş ve ham veri kümelerinden elde edilen makine öğrenimi sonuçları karşılaştırılmıştır. Karar Ağaçları, Diskriminant, Naïve Bayes, Destek Vektör Makineleri (SVM), k-NN(k-En Yakın Komşu) Topluluk Öğrenmesi ve Sinir Ağı algoritmalarından oluşan; hem parasetamol bazlı farmasötik numunelerin hem de 8 farklı mineral numunelerin LIBS veri setlerine, ve bunların hem ön işlemeye tabi tutulmuş hem de ham veri setlerine, ön işlemenin etkisini gözlemlemek için uygulandığı ilk çalışmadır.
ÖZ: Lazerle indüklenen kırılma spektroskopisi (LIBS), malzeme tanımlama ve analiz için kullanılan hızlı bir optik atomik emisyon spektroskopisidir. Yerinde analiz, titiz numune işlemenin kaldırılması ve değerlendirilmekte olan madde için mikro yıkıcı özelliklerin avantajlarına sahiptir. LIBS, malzemeyi belirli bir eşiğe uyarmak için kısa lazer ışını patlamaları kullanır ve bu plazma oluşumuyla sonuçlanır. Dalga boyu değeri ve yoğunluk genliğini içeren plazma özellikleri, deneyin malzemesi ve çevresinden etkilenir. Bu çalışmada LIBS kullanılarak ilaç ve mineral örneklerinin spektrum profilleri elde edilmiştir. Farmasötik numunelerin toplanması, her iki parasetamol bazlı ilacın, Aferin ve Parafon'un iki farklı konsantrasyonundan oluşur. Alüminyum (Al), Bizmut (Bi), Bakır (Cu), Demir (Fe), Manganez (Mn), Nikel Alüminyum (NiAl), Kalay (Sn), Çinko (Zn) mineral verisetindeki numunelerdir. Numunelerin spektrum verileri, eksik değerlerin şekli koruyan parçalı kübik spline enterpolasyonu ile değiştirilmesi, çeyreklere dayalı aykırı değerlerin doldurulması, gürültüyü gidermek için spektrumların yumuşatılması ve hem dalga boyu hem de yoğunluk eksenlerinin normalleştirilmesiyle veri ön işleme yöntemlerine tabi tutulmuştur. İstatistiksel bilgiler elde edilmiş, ve hem önceden işlenmiş hem de ham veri kümeleri temel bileşen analizine (PCA) tabi tutulmuştur. Makine öğrenimi modelleri, iki farklı eğitim testi bölümü kullanılarak oluşturulmuştur: %70 eğitim - %30 test ve %80 eğitim - %20 test. Modellerin aşırı uyumlanmasını önlemek için çapraz doğrulama kullanılmış olup, bu nedenle örnek boyutu minimumdur. Her iki bölümün de önceden işlenmiş ve ham veri kümelerinden elde edilen makine öğrenimi sonuçları karşılaştırılmıştır. Karar Ağaçları, Diskriminant, Naïve Bayes, Destek Vektör Makineleri (SVM), k-NN(k-En Yakın Komşu) Topluluk Öğrenmesi ve Sinir Ağı algoritmalarından oluşan; hem parasetamol bazlı farmasötik numunelerin hem de 8 farklı mineral numunelerin LIBS veri setlerine, ve bunların hem ön işlemeye tabi tutulmuş hem de ham veri setlerine, ön işlemenin etkisini gözlemlemek için uygulandığı ilk çalışmadır.
Keywords
electrical & electronics engineering