Description du livre
Cet ouvrage présente un cadre unifié, basé sur des algorithmes évolutifs spécialisés, pour l'induction globale de divers types d'arbres de classification et de régression à partir de données. Les arbres univariés ou obliques qui en résultent sont considérablement plus petits que ceux produits par les méthodes top-down standard, un aspect critique pour l'interprétation des modèles minés par les analystes de domaines. L'approche présentée ici est extrêmement flexible et peut facilement être adaptée à des applications spécifiques d'exploration de données, par exemple des arbres de modèles sensibles aux coûts pour les données financières ou des arbres multi-tests pour les données d'expression génétique. L'induction globale peut être appliquée efficacement à des données à grande échelle sans avoir besoin de ressources extraordinaires. Avec une simple accélération basée sur le GPU, des ensembles de données composés de millions d'instances peuvent être exploités en quelques minutes. Dans le cas où la taille des ensembles de données rend impossible le calcul de mémoire le plus rapide, l'implémentation basée sur Spark sur les clusters d'ordinateurs, qui offre une tolérance aux pannes et un potentiel d'évolutivité impressionnants, peut être appliquée.