SCALABILITY ISSUES IN BIG DATA ON CLOUD: A COMPARISON OF VIRTUAL MACHINES AND LINUX CONTAINERS
Date
2017-01-07
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In recent years, Big Data and Cloud Computing are gained importance in IT and
business. These two technologies are becoming as the complementing technologies
in a way that the former requires performance scalability, huge amount of storage and
the huge computation power, which are the key enabler technologies of Big Data
Analytic, and the latter, Cloud Computing, brings the opportunity to scale the
infrastructure on-demand, helps in utilizing computation resources and provides huge
amount of storage space. Until the recent years, the only technique used in
computation resource utilization was based on the hypervisor aided virtualization
technique, which is used to create Virtual Machine (VM). Nowadays, another
technique, which is faster and better in resource utilization, called container is getting
its popularity. In this thesis, the CPU, memory, disk I/O and network performance of
VM and container are compared in big data on cloud with using HiBench
benchmarks. In addition, scalability ratios were evaluated by testing on different
number of nodes. The results show that the containers have better performance and
better scalability.
Description
BULUT ÜZERİNDE BÜYÜK VERİLERDE ÖLÇEKLENEBİLİRLİK
KONUSU: SANAL MAKİNELER VE LINUX KONTEYNERLERİN
KARŞILAŞTIRILMASI
ÖZ: Son yıllarda, BT ve iş dünyasında Büyük Veri ve Bulut Bilişim önem kazanmıştır. Büyük veri analizi için gerekli olan büyük miktarda depolama alanı ve hesaplama gücüdür. Bulut Bilişimin, talep üzerine altyapıyı ölçeklendirmek, hesaplama kaynaklarını kullanmaya yardımcı olmak ve büyük miktarda depolama alanı sağlaması ile bu iki teknoloji birbirini tamamlayacı teknolojiler haline gelmiştir. Son yıllara kadar, hesaplama kaynak kullanımında kullanılan tek teknik, Sanal Makine oluşturmak için kullanılan, hipervisör destekli sanallaştırma tekniğine dayanıyordu. Günümüzde, konteyner olarak adlandırılan ve kaynak kullanımında daha hızlı ve daha iyi olan bir başka teknik popülerlik kazanmıştır. Bu çalışmada, bulut üzerinde büyük verilerde ölçeklendirme konusu sanal makine ve konteynerlerin merkezi işlem birimi, disk G/Ç, ağ ve bellek performansları HiBench kıyaslama uygulamaları kullanılarak değerlendirilmiştir. Ayrıca, farklı düğüm sayıları üzerinde bu kıyaslama uygulamaları kullanılarak sanal makine ve konteynerlerin ölçeklenebilirlik oranları değerlendirilmiştir. Bu çalışmanın sonucu konteynerlerin daha iyi performansa ve ölçeklenebilirliğe sahip olduğunu göstermektedir.
ÖZ: Son yıllarda, BT ve iş dünyasında Büyük Veri ve Bulut Bilişim önem kazanmıştır. Büyük veri analizi için gerekli olan büyük miktarda depolama alanı ve hesaplama gücüdür. Bulut Bilişimin, talep üzerine altyapıyı ölçeklendirmek, hesaplama kaynaklarını kullanmaya yardımcı olmak ve büyük miktarda depolama alanı sağlaması ile bu iki teknoloji birbirini tamamlayacı teknolojiler haline gelmiştir. Son yıllara kadar, hesaplama kaynak kullanımında kullanılan tek teknik, Sanal Makine oluşturmak için kullanılan, hipervisör destekli sanallaştırma tekniğine dayanıyordu. Günümüzde, konteyner olarak adlandırılan ve kaynak kullanımında daha hızlı ve daha iyi olan bir başka teknik popülerlik kazanmıştır. Bu çalışmada, bulut üzerinde büyük verilerde ölçeklendirme konusu sanal makine ve konteynerlerin merkezi işlem birimi, disk G/Ç, ağ ve bellek performansları HiBench kıyaslama uygulamaları kullanılarak değerlendirilmiştir. Ayrıca, farklı düğüm sayıları üzerinde bu kıyaslama uygulamaları kullanılarak sanal makine ve konteynerlerin ölçeklenebilirlik oranları değerlendirilmiştir. Bu çalışmanın sonucu konteynerlerin daha iyi performansa ve ölçeklenebilirliğe sahip olduğunu göstermektedir.
Keywords
software