Viele der heutigen Anwendungen für massiv parallele Rechnerarchitekturen leiden daran, dass ihre Kommunikationskosten unverhältnismäßig stark mit der Anzahl der Prozessoren wachsen. Dieses Problem wird sich wegen stetig steigender Prozessorzahlen noch verstärken. Somit besteht die Gefahr, dass Investitionen in aufkommende Exascale-Rechner nicht ihre volle Wirkung entfalten. Daher wollen wir neue Methoden entwickeln, die die Kommunikationskosten wichtiger Anwendungsklassen für massiv parallele NUMA-Architekturen deutlich senken. Meist modelliert man Kommunikation und/oder Abhängigkeiten von Daten durch einen sog. Applikationsgraphen. Um eine lastbalancierte und kommunikationsoptimierte Zuordnung von Prozessen und/oder Daten zu Prozessoren zu berechnen, partitioniert man den Applikationsgraphen geeignet in Teilgraphen und ordnet letztere den Prozessoren zu. Heutige parallele Software-Werkzeuge für diese Form der Partitionierung und des Mappings skalieren nicht ausreichend oder machen Abstriche bei der Qualität. Das Forschungsvorhaben zielt darauf ab, den Kompromiss zwischen Skalierbarkeit und Qualität signifikant zu verbessern und strebt eine Beschleunigung von kommunikationsintensiven Anwendungen um mehrere Faktoren an. Methodisch vereinheitlicht das Forschungsvorhaben das Partitionieren und das Mapping eines möglicherweise dynamischen Applikationsgraphen. Zu diesem Zweck nutzen wir graphentheoretische Eigenschaften typischer NUMA-Architekturen, um Kommunikationskosten zu modellieren. Wir verwenden zur Optimierung die Multilevelmethode, die sich in ähnlichen Zusammenhängen als sehr effektiv erwiesen hat. Im Gegensatz zu den üblichen Verfahren optimieren die zu entwickelnden Algorithmen unseres vereinheitlichten Ansatzes die Kommunikationskosten einer Anwendung in allen Phasen der Multilevelmethode. Unter den vielen Algorithmen, die bei der Multilevel-Graphpartitionierung und zum Mapping von Prozessen verwendet werden, haben wir zwei wichtige Klassen als Startpunkt ausgewählt: (i) streng lokale kombinatorische Optimierungsverfahren und (ii) globalere Verfahren, die auf Diffusion basieren. Durch unsere Vorarbeiten haben wir Expertise in beiden Klassen. Streng lokale Optimierungsmethoden sind kurzsichtig und lassen sich sehr oft nur schlecht parallelisieren. Globale Methoden sind trotz besserer Skalierbarkeit meist zu rechenintensiv. Daher möchten wir die wünschenswerten Eigenschaften beider Klassen kombinieren und zu semi-lokalen Optimierungsverfahren erweitern. Wir erwarten, dass diese Hybridisierung die oben aufgezeigten Probleme beseitigt, also qualitativ hochwertige Mappings für und auf massiv parallele Maschinen zur Verfügung stellt. Unsere neuen Methoden integrieren wir in die anerkannten Bibliotheken unseres externen Partners. Diese Bibliotheken sind der Wissenschaftsgemeinde dauerhaft kostenlos zugänglich. Auf diese Weise finden unsere Ergebnisse unmittelbare Anwendung in praxisorientierter High-End-Simulationssoftware.