SCALABILITY ISSUES IN BIG DATA ON CLOUD: A COMPARISON OF VIRTUAL MACHINES AND LINUX CONTAINERS

Date

2017-01-07

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

In recent years, Big Data and Cloud Computing are gained importance in IT and business. These two technologies are becoming as the complementing technologies in a way that the former requires performance scalability, huge amount of storage and the huge computation power, which are the key enabler technologies of Big Data Analytic, and the latter, Cloud Computing, brings the opportunity to scale the infrastructure on-demand, helps in utilizing computation resources and provides huge amount of storage space. Until the recent years, the only technique used in computation resource utilization was based on the hypervisor aided virtualization technique, which is used to create Virtual Machine (VM). Nowadays, another technique, which is faster and better in resource utilization, called container is getting its popularity. In this thesis, the CPU, memory, disk I/O and network performance of VM and container are compared in big data on cloud with using HiBench benchmarks. In addition, scalability ratios were evaluated by testing on different number of nodes. The results show that the containers have better performance and better scalability.

Description

BULUT ÜZERİNDE BÜYÜK VERİLERDE ÖLÇEKLENEBİLİRLİK KONUSU: SANAL MAKİNELER VE LINUX KONTEYNERLERİN KARŞILAŞTIRILMASI
ÖZ: Son yıllarda, BT ve iş dünyasında Büyük Veri ve Bulut Bilişim önem kazanmıştır. Büyük veri analizi için gerekli olan büyük miktarda depolama alanı ve hesaplama gücüdür. Bulut Bilişimin, talep üzerine altyapıyı ölçeklendirmek, hesaplama kaynaklarını kullanmaya yardımcı olmak ve büyük miktarda depolama alanı sağlaması ile bu iki teknoloji birbirini tamamlayacı teknolojiler haline gelmiştir. Son yıllara kadar, hesaplama kaynak kullanımında kullanılan tek teknik, Sanal Makine oluşturmak için kullanılan, hipervisör destekli sanallaştırma tekniğine dayanıyordu. Günümüzde, konteyner olarak adlandırılan ve kaynak kullanımında daha hızlı ve daha iyi olan bir başka teknik popülerlik kazanmıştır. Bu çalışmada, bulut üzerinde büyük verilerde ölçeklendirme konusu sanal makine ve konteynerlerin merkezi işlem birimi, disk G/Ç, ağ ve bellek performansları HiBench kıyaslama uygulamaları kullanılarak değerlendirilmiştir. Ayrıca, farklı düğüm sayıları üzerinde bu kıyaslama uygulamaları kullanılarak sanal makine ve konteynerlerin ölçeklenebilirlik oranları değerlendirilmiştir. Bu çalışmanın sonucu konteynerlerin daha iyi performansa ve ölçeklenebilirliğe sahip olduğunu göstermektedir.

Keywords

software

Citation