L'accent est mis sur la construction de programmes cohérents et intelligibles, décomposés en sous-programmes réutilisables. Les principales notions sont introduites de façon suffisamment générale, afin qu'elles puissent être transposées dans d'autres environnements, avec d'autres langages. La seconde partie du livre traite une série d'algorithmes utilisés en biologie (mais aussi dans d'autres disciplines telles que la linguistique ou les sciences humaines) : tri, recherche de mots dans un texte, pour continuer avec deux algorithmes non triviaux au fondement de la bioinformatique, Knuth-Morris-Pratt (KMP) et Needleman et Wunsch. La question des performances de ces algorithmes est étudiée, suivie d'introductions aux calculs statistiques élémentaires, aux automates finis et aux expressions régulières. Le dernier chapitre consiste en une introduction à la bibliothèque de programmes Biopython, universellement adoptée en biologie moléculaire, qui reprend la plupart des méthodes informatiques exposées précédemment.
L'accent est mis sur la construction de programmes cohérents et intelligibles, décomposés en sous-programmes réutilisables. Les principales notions sont introduites de façon suffisamment générale, afin qu'elles puissent être transposées dans d'autres environnements, avec d'autres langages. La seconde partie du livre traite une série d'algorithmes utilisés en biologie (mais aussi dans d'autres disciplines telles que la linguistique ou les sciences humaines) : tri, recherche de mots dans un texte, pour continuer avec deux algorithmes non triviaux au fondement de la bioinformatique, Knuth-Morris-Pratt (KMP) et Needleman et Wunsch. La question des performances de ces algorithmes est étudiée, suivie d'introductions aux calculs statistiques élémentaires, aux automates finis et aux expressions régulières.
Le data mining et la data science sont de plus en plus répandus dans les entreprises et les organisations soucieuses d'extraire l'information pertinente de leurs bases de données, qu'elles peuvent utiliser pour expliquer et prévoir les phénomènes qui les concernent (risques, production, consommation, fidélisation...).
Cette cinquième édition, actualisée et augmentée de 90 pages, fait le point sur le data mining, ses méthodes, ses outils et ses applications, qui vont du scoring jusqu'au text mining, objet d'un chapitre complètement remanié. Nombre de ses outils appartiennent à l'analyse des données et à la statistique « classiques » (analyse factorielle, classification automatique, analyse discriminante, régression logistique, modèles linéaires généralisés, régression pénalisée, régression clusterwise...) mais certains sont plus spécifiques au data mining, comme les réseaux de neurones, les algorithmes génétiques, les SVM, les arbres de décision, les forêts aléatoires, le boosting et la détection des règles d'associations. Les avancées les plus récentes du machine learning et les applications les plus actuelles des Big Data sont présentées, qui vont des algorithmes de reconnaissance d'image aux méthodes de plongement de mots en text mining. Les chapitres sur les réseaux de neurones et les SVM sont illustrés par la reconnaissance de l'écriture manuscrite.
Ces outils sont disponibles dans des logiciels de plus en plus puissants et complets, à commencer par le logiciel libre R, que nous comparons en détail aux logiciels SAS et IBM SPSS dans un chapitre spécifique. Ces logiciels sont utilisés pour illustrer par des exemples précis les explications théoriques données.
Les aspects méthodologiques vont de la conduite des projets jusqu'aux facteurs de réussite et aux pièges à éviter, en passant par l'évaluation et la comparaison des modèles, leur intégration dans les processus opérationnels. Un chapitre est consacré à une étude de cas complète de credit scoring, de l'exploration des données jusqu'à l'élaboration de la grille de score.
La numérisation du monde a pour conséquence la mise à disposition de masses de données inédites, notamment celles provenant du web.
La statistique qui s'est développée autrefois dans un contexte de rareté des données fait face à de nouveaux défis. Donner du sens aux données, développer des algorithmes prédictifs sans nécessairement avoir de modèle génératif, tels sont quelques-uns des objectifs de l'apprentissage statistique. L'apport d'autres disciplines - informatique et optimisation en particulier - est essentiel compte tenu de la nécessité de traiter rapidement les volumes de données impliqués.
On distingue l'apprentissage supervisé, où l'objectif est de prévoir une réponse à partir de prédicteurs, de l'apprentissage non supervisé, qui recherche des structures et des formes sans chercher à prévoir une réponse particulière. Depuis les réseaux de neurones jusqu'aux forêts aléatoires, en passant par les séparateurs à vaste marge (SVM), de nombreux algorithmes ont été développés, ne reposant que faiblement sur des hypothèses probabilistes. Dans ce contexte, la validation, la capacité de généralisation à de nouvelles données et le passage à l'échelle sont donc essentiels.
Cet ouvrage est le fruit de la collaboration entre spécialistes réputés. Sylvain Arlot (Université Paris Sud), Philippe Besse (INSA de Toulouse), Stéphane Canu (INSA de Rouen), Jean-Michel Poggi (Université Paris Descartes & LMO, Université Paris-Sud Orsay), Emmanuel Viennet (Université Paris 13) et Nathalie Villa-Vialaneix (INRA, Toulouse) réunis à l'occasion des 17es Journées d'étude en statistique organisées par la SFdS. Le lecteur y trouvera une synthèse des fondements et des travaux les plus récents dans le domaine de l'apprentissage statistique, avec des applications dans des domaines variés.
L 'actualité nous renvoie tous les jours une facette du risque : crise financière, accidents d'avion, dérapages du changement climatique, etc.
Quel est le rôle joué par la statistique dans l'analyse de ces risques et quels sont les outils spécifiquement développés pour cela ?
Cet ouvrage est consacré à une présentation des fondements méthodologiques classiques mais aussi récents, et présente des applications à des domaines variés.
Cet ouvrage montre comment appliquer les méthodes de machine learning aux Big Data, et comment appliquer les méthodes plus spécifiques de deep learning aux problèmes plus complexes relevant de l'intelligence artificielle, tels que la reconnaissance d'image et le traitement du langage naturel.
Ces méthodes sont ensuite mises en oeuvre avec trois des principales bibliothèques d'apprentissage profond : MXNet, PyTorch et Keras-TensorFlow.
Comprendre les principes théoriques de la statistique est une chose ; savoir les mettre en pratique en est une autre, et le fossé peut être large entre les deux.
C'est pour aider le lecteur à le franchir que l'auteur a écrit un ouvrage de "travaux pratiques" de la statistique décisionnelle, qui fait suite à son ouvrage de cours, Data Mining et statistique décisionnelle, paru dans la même collection.
L'eau perdrait-elle sa qualité de ressource renouvelable ?
De l'hygiène à la boisson, nos gestes quotidiens sont si évidemment liés à l'eau que nous oublions la complexité de cette ressource et de sa mobilisation. Dotée de propriétés physiques et chimiques uniques, l'eau est au coeur d'un cycle fragile dont l'équilibre est aujourd'hui menacé par les usages humains. Si l'eau est inégalement présente sur le globe, la pénurie en eau est toujours la conséquence d'utilisations en inadéquation avec la ressource disponible.
Les cinq premiers chapitres de l'ouvrage font le point sur l'état de la ressource en eau :
Quels en sont les usages ?
Pourquoi les situations de pénurie se multiplient-elles ?
En quoi l'eau est-elle davantage un facteur de coopération qu'une cause d'affrontement ?
L'étude de plusieurs bassins hydrographiques à travers le monde sert de cadre à ces questions.
C'est ensuite l'enjeu social, économique et environnemental de la gestion de l'eau que nous dévoile l'auteur.
Sur quelles bases l'eau doit-elle être partagée ?
Quelles sont les solutions économiques et institutionnelles à la pénurie en eauoe Comment se gère la ressource en France et dans les pays en développementoe Les règles de partage de l'eau sont d'autant plus complexes que la concurrence pour la ressource s'accroît. Un nouvel usager fait son apparition, en plus des utilisateurs humains : l'environnement. Les modèles de gestion de l'eau incluent alors la protection à long terme des écosystèmes, notion intégrée par les politiques françaises.
L'hydrogène vecteur énergétique du futur ? Ou au contraire limité pendant encore de nombreuses décennies, voire jusqu'à la fin du siècle, à ses usages actuels dans le domaine de la chimie et du raffinage ? Des opinions très tranchées opposent les tenants de la civilisation de l'hydrogène et les sceptiques, voire les opposants déclarés. Pour les premiers, suite à une révolution technologique, l'hydrogène interviendrait de manière universelle et conjointement à l'électricité en substitution des combustibles fossiles, en particulier (mais pas uniquement) dans les transports, ce qui permettrait de supprimer de manière radicale les émissions de CO2 Pour les seconds, l'hydrogène restera cantonné à ses usages actuels en raison des problèmes insolubles que poserait son usage grand public, notamment dans les transports.
Cet ouvrage met en relief le rôle croissant et incontournable de l'hydrogène "énergétique" - par opposition à l'hydrogène chimique - dans les domaines clefs des transports et de la production d'électricité "propre". La première partie est consacrée aux utilisations actuelles ou accessibles dans un proche avenir de l'hydrogène énergétique. La deuxième partie fait le point sur les technologies disponibles commercialement ou en cours de développement avancé pour la production, la distribution et le stockage de l'hydrogène.
La dernière partie examine le problème essentiel de la sécurité d'utilisation grand public de l'hydrogène, avant de conclure sur des perspectives de développement à court et moyen terme de l'hydrogène énergétique. Cet ouvrage, très documenté, s'adresse à un lectorat élargi : industriels du transport (routier, aérien ou fluvial), motoristes et, plus généralement, toutes les personnes intéressées par le devenir des transports et des carburants dans le monde de l'après-pétrole.
Le concept du développement durable, qui se met en place actuellement dans tous les domaines, nécessite, dans le cas des machines, que leur maintenance soit renforcée en temps réel. Les maintenances d'état et programmée deviennent insuffisantes pour atteindre cet objectif. La maintenance prédictive a pour objectif de définir la probabilité qu'une défaillance apparaisse sur un composant. Elle réduit les indisponibilités du matériel et donc les coûts.
Dans son originalité, cet ouvrage associe les paramètres des défaillances classiques des machines thermiques, hydrauliques et mécaniques avec leurs composants, et les méthodes mathématiques de reconnaissance de forme des pannes qui peuvent survenir. Ces méthodes sont définies mathématiquement et appliquées sur des exemples choisis. Le graphique obtenu est analysé afin de mettre en évidence : la reconnaissance d'une panne inconnue, l'aggravation d'une panne avant qu'elle ne conduise à l'arrêt du système.
Le niveau mathématique requis est celui du baccalauréat. Quelques développements explicatifs font appel à une formulation mathématique précise, mais ne sont pas nécessaires au lecteur dont l'objectif est l'application des méthodes et non leur développement. Ils sont par contre un support pour qui souhaite aller plus loin dans la reconnaissance des formes que prend une panne spécifique.
Ce livre a pour objectif de donner au lecteur :
- Les connaissances spécialisées permettant de connaître et de reconnaître une panne précise d'un matériel donné.
- Les outils permettant, par un travail personnel, soit d'approfondir les critères qui permettent de reconnaître une panne spécifique, soit d'utiliser un logiciel de reconnaissance statistique afin d'obtenir des résultats immédiatement utilisables.
L'ouvrage s'adresse aux étudiants des 2e et 3e cycles des sciences de l'ingénieur, des écoles d'ingénieurs généralistes, aux techniciens et aux ingénieurs des services industriels de maintenance.
Table des matières : 1. Maintenance des machines. 2. Caractéristiques des défaillances des composants. 3. Paramètres généraux des mesures applicables aux machines. 4. Paramètres spécifiques des machines alternatives. 5. Paramètres spécifiques des machines rotatives. 6. Statistiques appliquées aux signaux. 7. Reconnaissance et prédiction. 8. Diagnostic prédictif. Index.
L'évolution du contexte énergétique mondial, la prise de conscience des enjeux environnementaux et le développement des actions de recherche sur la production de biocarburants de deuxième et troisième générations ont rendu indispensable la rédaction d'un nouvel ouvrage, qui actualise et enrichit Les Biocarburants - Etat des lieux, perspectives et enjeux du développement paru en 2006, sur tous les aspects techniques, économiques et environnementaux.
Cet ouvrage présente l'état de l'art détaillé des filières de production de biocarburants de première génération. Il décrit les nouvelles voies, dites de deuxième génération, qui utilisent la biomasse lignocellulosique comme matière première et commencent à déboucher sur des réalisations industrielles, allant ainsi dans le sens de la réduction de la concurrence entre la ressource alimentaire et l'usage de matières agricoles à des fins énergétiques.
Un point technique est également dressé sur la valorisation énergétique des algues (troisième génération) et la production de méthane et d'hydrogène par voies biochimiques. Ce livre arrive à point nommé pour réaffirmer l'intérêt des biocarburants, y compris pour le transport aérien, et éclairer les axes de recherche et de développement technologique dont ils font actuellement l'objet. Il intéressera les industriels du transport, les raffineurs, les forestiers, l'univers agricole et l'industrie agro-alimentaire, mais également les pouvoirs publics, les étudiants, professeurs et chercheurs du monde universitaire.
Le monde doit faire face à des besoins en énergie sans cesse croissants. Pour y répondre, pouvons-nous continuer de nous reposer à plus de 80 % sur les combustibles fossiles, alors que des menaces de pénurie se profilent pour le pétrole, le plus utilisé d'entre eux ? Devrons-nous compter davantage sur le gaz et surtout sur le charbon, malgré leur impact négatif sur notre écosystème ? Sortir du « tout fossile » implique un effort important pour promouvoir à la fois les économies d'énergie et des sources énergétiques non émettrices de gaz carbonique telles que, entre autres, les énergies renouvelables. Les auteurs, regroupant toutes ces informations, évaluent la part globale que pourraient prendre les énergies renouvelables dans le panier énergétique en France et dans le monde. Et ils se posent la question : cette part encore faible au niveau mondial, puisqu'elle ne représente qu'environ 10 % des énergies consommées, est-elle appelée à rester marginale ou à devenir importante, voire prépondérante ? Venant d'horizons différents, l'un est ingénieur et l'autre enseignant en physique appliquée, les auteurs recensent dans cet ouvrage les conditions pour que ces sources d'énergie puissent se développer en France et dans le monde.
L'analyse statistique des données spatiales et spatio-temporelles constitue un champ de recherches intense en statistique tant sur le plan théorique que sur le plan des applications.
Cet ouvrage fait le point sur les développements les plus récents dans ce domaine. Les domaines d'applications de ces modèles vont de la géostatistique à l'épidémiologie en passant par l'environnement, l'écologie, l'économie... Cet ouvrage est le fruit de la collaboration entre des spécialistes parmi les plus réputés : Gérard d'Aubigny (université Pierre Mendès-France, Grenoble), Claude Grasland (université Paris VII), Xavier Guyon (université Paris I), Pierre Legendre (université de Montréal), Jean-Paul Chilès, Christian Lantuejoul et Jacques Rivoirard (Ecole des mines de Paris), réunis à l'occasion des 10es Journées d'étude en statistique, organisées par la SFdS au Centre international de rencontres mathématiques de Luminy.
The first edition of the Drilling Data Handbook was printed in 1950. In more than six decades, the book has been improved, adding lots of new technologies and equipment in its eight additional editions. But its principle is to remain familiar and friendly to users. Its philosophy has always been to give quick access to the basic information or calculations for the office or field operations. That is why we consider that our task is to select and highlight the most important data, charts, and formulas. The Drilling Data Handbook tries to combine international and field units for the benefit of a majority of people from different technical cultures. Past editions' success strengthened the authors in persevering and publishing a new paper edition. A large number of field personnel have confirmed the Drilling Data Handbook as their reference, now in combination with electronic documents and the Internet. This edition refreshes and updates data and references of the eighth edition, but also includes more information.
L'ouvrage a pour objectif d'initier l'élève aux différents calculs permettant la maîtrise des interactions entre phases et la prédiction d'équilibres. Il permet à l'ingénieur de maîtriser les différentes techniques de calculs conduisant à la prédiction des équilibres entre phases afin de prédire les performances de l'opération de transformation.
La démarche statistique n'est pas seulement une auxiliaire des sciences destinée à valider ou non des modèles préétablis, c'est aussi une méthodologie indispensable pour extraire des connaissances à partir de données et un élément essentiel pour la prise de décision. La très large diffusion d'outils informatiques peut donner l'illusion de la facilité à ceux qui n'en connaissent pas les limites, alors que la statistique est plus que jamais un mode de pensée fondamental pour maîtriser la complexité, l'aléatoire et les risques, en donnant la prudence scientifique nécessaire.
Ce manuel présente l'ensemble des connaissances utiles pour pouvoir pratiquer la statistique. Il est destiné à un vaste public (étudiants, chercheurs, praticiens de toutes disciplines) possédant le niveau d'algèbre et d'analyse d'un premier cycle universitaire scientifique ou économique.
Cette nouvelle édition est une révision complète, avec des ajouts, de l'édition de 1990 et comporte de nombreux développements sur des méthodes récentes. Les 21 chapitres sont structurés en cinq parties : outils probabilistes, analyse exploratoire, statistique inférentielle, modèles prédictifs et recueil de données. On y trouve l'essentiel de la théorie des probabilités, les différentes méthodes d'analyse exploratoire des données (analyses factorielles et classification), la statistique "classique" avec l'estimation et les tests mais aussi les méthodes basées sur la simulation, la régression linéaire et logistique ainsi que des techniques non linéaires, la théorie des sondages et la construction de plans d'expériences.
Il est bien connu que la manière de présenter des informations quantitatives dans les médias ou les revues spécialisées n'est pas toujours claire, complète, voire rigoureuse. Il est d'ailleurs fréquent que cette information ne soit pas appréciée à sa juste valeur ou même qu'elle soit fausse.
Les raisons de cette situation sont multiples : déficience des sources, formation insuffisante des auteurs des rubriques, usage erroné des termes utilisés... De nombreux exemples concernent des notions aussi courantes que proportion, moyenne, corrélation... mais aussi des représentations sous forme de tableaux ou de graphiques.
En outre, trop de personnes ignorent dans quel contexte ces notions ont été introduites et peuvent difficilement mesurer leur pertinence quotidienne. Cet ouvrage est destiné à les prémunir de mauvais emplois ou d'interprétations douteuses à partir d'exemples concrets et d'une approche historique des concepts concernés.
Cet ouvrage est le premier livre de la collection « La statistique autrement » de la Société Française de Statistique. Cette collection a pour ambition de proposer des ouvrages accessibles à un large public en suivant une démarche originale.
La Société Française de Statistique (SFdS), association reconnue d'utilité publique, a pour objectif de favoriser les développements de la statistique et d'assurer la représentation de l'ensemble des utilisateurs, enseignants et chercheurs dans ce domaine.
Issu de formations devant des publics variés, cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d'une étude de cas. Chaque méthode fait l'objet d'un rappel de cours et est accompagnée de références bibliographiques, puis est mise en oeuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats et jusqu'aux astuces de programmation permettant d'optimiser les temps de calcul. À ce sujet, une annexe est consacrée au traitement des données massives.
L'ouvrage commence par les méthodes de classement classiques et les plus éprouvées, mais aborde rapidement les méthodes plus récentes et les plus avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, réseaux de neurones, séparateurs à vaste marge (SVM). A chaque fois, le lien est fait entre la théorie et les résultats obtenus pour montrer qu'ils illustrent bien les principes sous-jacents à ces méthodes. L'aspect pratique est aussi privilégié, avec l'objectif de permettre au lecteur une mise en oeuvre rapide et efficace dans son travail concret. L'exploration et la préparation préliminaire des données sont d'ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale est faite de toutes les méthodes présentées et de leurs points forts.
La mise en oeuvre s'appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l'intérêt d'être riche, complet et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel statistique R, non seulement il est devenu la lingua franca de la statistique et de la data science et le logiciel le plus répandu dans le monde universitaire, mais il a aussi conquis le monde de l'entreprise, à tel point que tous les logiciels commerciaux proposent désormais une interface avec R (ce point est abordé dans une annexe). Outre qu'il est disponible pour tous, dans tous les environnements, il est aussi le plus riche statistiquement et c'est le seul logiciel permettant de mettre en oeuvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer dans le codage sur les aspects statistiques sans les difficultés de programmation rencontrées avec d'autres logiciels. R permet d'arriver directement à l'essentiel et de mieux comprendre les méthodes exposées dans l'ouvrage.
Le Code R utilisé dans l'ouvrage est disponible sur cette page dans la partie "Bonus/lire".