Leistungsbewertung der Cloud-Plattform Apache Hadoop am Anwendungsbeispiel verteilter Simulationen

Oliver Jetter 1 , Jochen Dinger 2  and Hannes Hartenstein 3
  • 1 Steinbuch Centre for Computing & Institut für Telematik, Karlsruher Institut für Technologie, Germany. jetter@kit.edu
  • 2 Steinbuch Centre for Computing & Institut für Telematik, Karlsruher Institut für Technologie, Germany. dinger@kit.edu
  • 3 Steinbuch Centre for Computing & Institut für Telematik, Karlsruher Institut für Technologie, Germany. hartenstein@kit.edu

Zusammenfassung

Dieser Artikel beschreibt, wie die Cloud-Plattform Apache Hadoop für verteilte Simulationen eingesetzt werden kann („Howto“) und präsentiert zugehörige Leistungsbewertungen sowie Nutzungserfahrungen. Diskrete ereignisbasierte Simulationen benötigen typischerweise beträchtliche Rechenkapazitäten, da die zugehörigen Modelle in der Regel einen großen zu explorierenden Parameterraum besitzen. Bislang wurden zumeist dedizierte Cluster für die Bewältigung dieser Aufgaben verwendet. Cloud Computing bietet nun immense Rechenressourcen in einer flexiblen und kosteneffizienten Art und Weise an. Folglich kann Cloud Computing eine potentielle Basis für die verteilte Durchführung von Simulationsstudien bieten, ohne dabei ein Rechencluster vor Ort besitzen zu müssen. Jedoch ist die manuelle Verteilung von hundert oder tausend Simulationsläufen sehr aufwendig. Daher wird in dieser Arbeit ein Ansatz vorgestellt, der es ermöglicht, die Verteilung von Simulationsläufen automatisiert unter Verwendung des sogenannten MapReduce-Konzepts durchzuführen. MapReduce ermöglicht es, sehr rechenintensive Aufgaben in kleinere unabhängige Teilaufgaben zu unterteilen und ist im Umfeld des Cloud Computing etabliert. Der Fokus dieser Arbeit liegt auf der Verteilung von untereinander unabhängigen und somit trivial parallelisierbaren Simulationsläufen, d. h. beispielsweise Läufe mit unterschiedlichen Parameterwerten. Zunächst wird die Umsetzung der beiden benötigten Funktionen Map und Reduce präsentiert. Die anschließende Leistungsbewertung erfolgte unter Verwendung der Open-Source Implementierung Apache Hadoop sowie der Cloud-Umgebung Amazon Elastic Compute Cloud (EC2).

Purchase article
Get instant unlimited access to the article.
Log in
Already have access? Please log in.


or
Log in with your institution

Journal + Issues

PIK is the professional journal for the use of information systems dealing with topics related to information processing and communications techniques. The only German-language journal covers the increasingly important fields of super computers, parallel computers and high-output-workstations. PIK addresses the practitioner and decisions-maker in business, science and industry.

Search