De manière plus précise, cette thèse présentedeux contributions principales : la première s’intéresse à la prédiction des surchauffes desprocesseurs dans les systèmes HPC, la deuxième se concentre sur l’analyse et la mise enévidence des relations entre les événements présents dans les journaux systèmes. Les travauxprésentés dans cette thèse proposent d’utiliser des solutions d’apprentissage machine pourréaliser de manière automatisée cette analyse. Cependant, l’analyse de ces données n’est pas facile à réaliser et peut êtretrès fastidieuse car elles reflètent la complexité et la taille des systèmes HPC. En effet, les systèmes HPC produisent une grande quantité de donnéesde supervision qui contiennent de nombreuses informations utiles à propos de leur état defonctionnement. Cependant, cette augmentation entraîne des défaillancesfréquentes qui peuvent réduire la disponibilité des systèmes HPC.Pour gérer ces défaillances et être capable de réduire leur influence sur les systèmes HPC,il est important de mettre en place des solutions permettant de comprendre les défaillances,voire de les prédire.
Cette course se concrétise principalement par une augmentation deleur taille et de leur complexité. Les systèmes informatiques dédiés à la haute performance (HPC) se livrent à une courseà la puissance de calcul. In addition, we demonstrate Craftsman’s superior generality by comparing it with three widely-applied log parsing methods over five large log datasets collected from servers, distributed systems and applications. It also improves the accuracy (as measured by F1 measure) of failure prediction by 13.07% to 188%. The experiments demonstrate that Craftsman achieves a closeto-one accuracy (as measured by rand index), and improves the computational efficiency by 6.88 to 10.25 times in template matching, and by 730 to 6847 times in syslog parsing. To compare the performance of Craftsman and three other template learning techniques designed for network devices, we experiment them on two-years’ worth of syslogs collected from network devices deployed across 10+ datacenters of a tier-one service provider.
Craftsman empirically extracts templates accurately, is extremely efficient in template matching, and naturally supports incremental learning. To address the problems in the existing syslog parsing techniques, we propose a novel framework, Craftsman, which identifies frequent combinations of (syslog) words and then applies them as templates. A common approach to syslog parsing is to extract templates from historical syslogs, after which syslogs are matched to these templates. Syslog parsing is of vital importance for the detection, diagnosis and prediction of network device failures in a datacenter. Experiments show that our method can preserve more failure patterns for failure analysis, thereby improving failure prediction by up to 174%. We demonstrate the effectiveness of our preprocessing method by using real failure logs collected from the Cray XT4 at ORNL and the Blue Gene/L system at SDSC. It consists of three integrated steps: (1) event categorization to uniformly classify system events and identify fatal events (2) event filtering to remove temporal and spatial redundant records, while also preserving necessary failure patterns for failure analysis (3) causality-related filtering to combine correlated events for filtering through apriori association rule mining. To address the problem, in this paper we present a log preprocessing method. While existing filtering methods have demonstrated good compression rate, they fail to preserve important failure patterns that are crucial for failure analysis. Log preprocessing, a process applied on the raw log before applying a predictive method, is of paramount importance to failure prediction and diagnosis.