Aujourd'hui, la collecte de données est devenue un enjeu majeur dans le sport de haut niveau. Après un match en 2017, Arsène Wenger fut le premier à employer le terme « d’Expected goals » (xG) en public. Cette notion de « but estimé » est utilisée par le coach français pour se défendre d’un résultat contraire à ce qui s’est réellement passé sur le terrain.
Aujourd’hui, cette statistique est totalement démocratisée, au point d’être affichée pendant les matchs. Ce dénouement est qualifié comme étant une surperformance de son adversaire, d’après le coach. Dans ce premier article, nous allons voir comment la collecte de données est devenue un enjeu majeur dans le sport de haut niveau.
Les expected goals : ces chiffres qui disent tout... ou presque !
Les systèmes de récolte de données
Aujourd'hui, il existe de nombreux systèmes de récolte de données dans l'univers du sport. Parmi ces systèmes, on retrouve :
- Les solutions de tracking par positionnement satellite (Global Navigation Satellite Systems, utilisant un certain nombre de satellites pour l’estimation des positions des joueurs).
- Le tracking optique (captation vidéo et systèmes de tracking dits « sans marqueurs »).
- Les instruments de mesure de l’activité faisant appel aux lois de la physique et de la physiologie (centrales inertielles, cardiofréquencemètre, etc).
En parallèle, on remarque une augmentation des systèmes permettant la mesure et la collecte d’informations. Ils viennent compléter et enrichir les données de performances.

Données de santé et AMS
D’un côté, les données de « santé » du sportif. D’un autre côté, les AMS (athlete management systems) permettent de saisir à la fois des données subjectives relatives au bien-être du sportif (sa forme physique, son état mental, son ressenti face à l’effort) et de les associer à d’autres données de nature objective comme vu précédemment.
Cet inventaire démontre à quel point les outils de mesure coexistent dans le sport et surtout à haut niveau. Cela illustre également l’importance de mettre en place des stratégies dédiées à l’exploitation de ces données afin d’en tirer un maximum de bénéfices pour les athlètes.
L'exploitation de la data pour l'excellence sportive
Euro, Tour de France et bien sûr Jeux Olympiques : les performances des athlètes sont au centre de l’attention lors de ces rendez-vous internationaux. Pour viser l’excellence sportive, limiter les blessures ou encore aider à la décision en temps réel, exploiter la data revêt une importance majeure. Dans les prochains articles, nous verrons que la richesse des données est un appui non négligeable.
Exemples de thèses sur le sport et la data
Parmi les thèses actuellement dirigées ou encadrées par des enseignants -chercheurs de l’ENSAI, quatre portent sur le thème du sport.
Thèse de Koffi Amezouwui
Koffi Amezouwui est doctorant en première année à l’ENSAI et au CREST. Sa thèse est co-financée par le CREST et l’EUR Digisport. “Cette thèse s’inscrit dans le domaine de la statistique appliquée au sport, avec un focus particulier sur le football. L’objectif de la thèse est d’analyser et de classer les situations de jeu de football afin de peupler les environnements virtuels. Pour répondre à notre objectif, nous nous intéressons à la classification des possessions, c’est-à-dire des phases de jeu ininterrompues. Chaque possession est caractérisée par la trajectoire du ballon. La possession s’arrête lorsque l’équipe perd le ballon (tir, interception, touche…).
Nous proposons de modéliser la trajectoire du ballon par une chaîne de Markov cachée, caractérisée par la présence d’un état absorbant ainsi que par une distribution initiale distincte de la distribution pseudo-stationnaire. L’état absorbant correspond à une perte de balle, marquant la fin de la possession. La distribution initiale modélise la distribution lors de la prise de balle et n’a donc pas de raison d’être identique à la distribution pseudo-stationnaire. Les modèles de Markov cachés sont peu étudiés en présence conjointe d’un état absorbant et d’une distribution initiale libre.
L’étude de ce modèle, dans le contexte de la modélisation des trajectoires du ballon dans les séquences de football, constituera notre contribution en statistique mathématique. Pour vérifier l’intérêt de notre modélisation dans l’analyse de données de football, nous disposons d’une base de données riche, constituée des enregistrements de 38 matchs pour lesquels nous avons les coordonnées du ballon enregistrées toutes les 0,04 secondes, ainsi que les positions des joueurs, etc. Après le clustering des situations de jeu, nous allons générer, en utilisant des modèles d’IA, de nouvelles séquences réalistes de situations de jeu pour peupler des environnements virtuels.
Thèse de Sunny Wang
Après un premier cycle universitaire à Singapour, Sunny Wang a obtenu un Master en Statistique et Econométrie à la Toulouse School of Economics. Doctorant au CREST et à l’ENSAI, ses travaux de thèse sont dirigés par Valentin Patilea. “De nos jours, les jeux de données complexes prennent souvent la forme de courbes ou de surfaces.
Par exemple, on peut étudier les courbes de performance des athlètes au cours de leur carrière afin de définir des profils de performance et identifier les talents. L’analyse fonctionnelle des données (AFD) fournit un cadre approprié pour l’examen de ces types de données. L’un des défis réside dans la nature « locale » de ces courbes. Par exemple, l’identification des caractéristiques les plus saillantes dans les données d’accéléromètre peut s’avérer difficile en raison de la régularité variable des courbes, qui change en fonction de l’activité physique d’un individu tout au long de la journée.
La manière dans laquelle les données fonctionnelles sont recueillies constitue un autre défi. Par exemple, l’âge auquel les athlètes participent aux compétitions varie de manière aléatoire, ce qui complique le processus d’estimation des courbes de performance. La prise en compte de ce caractère aléatoire peut améliorer la précision de la modélisation.
Thèse d'Arthur Guillotel
Ingénieur diplômé de l’Ecole des Mines de Nantes, Arthur Guillotel a poursuivi sa formation dans le cadre d’un Master STAPS EOPS parcours accompagnement scientifique à la performance à l’INSEP. “Ce projet de thèse vise à prédire la réussite de la carrière de jeunes footballeurs en centre de formation.
L’ensemble des joueurs de l’académie d’un club de football professionnel a été suivi sur une période de quatre saisons consécutives en mesurant une multitude de paramètres sur le plan athlétique, technico-tactique et psychologique. La cinétique d’évolution de variables athlétiques en fonction de l’âge et des antécédents de blessure a été modélisée individuellement en utilisant les modèles mixtes. Des indices de malus (respectivement bonus) ont été créés afin de prendre en compte les blessures antérieures en pénalisant les individus ayant souffert de blessures, (respectivement en favorisant les individus très peu blessés).
Pour chaque modèle, une validation croisée a été utilisée pour évaluer les performances des modèles. Les résultats indiquent des modèles fiables et précis et valident ainsi notre choix porté sur les modèles mixtes pour modéliser l’évolution de la performance en fonction de l’âge, tout en intégrant l’information sur les blessures antérieures. Cette approche ouvre de multiples perspectives concernant l’analyse et la prédiction de potentiel, à commencer par l’estimation de potentiel maximal et le moment d’atteinte de ce maximum. L’utilisation de couloirs de performances basés sur ces modèles mixtes pourront également apporter une plus-value pour analyser la performance à un instant donné, ainsi que la progression attendue.
StatsBomb et l'analyse du jeu
Quelle est la philosophie de StatsBomb ? Ce qui nous caractérise, c’est que tout ce que nous faisons, nous le faisons au travers de la data. Nous sommes organisés en 2 départements différents. D’une part, nous collectons nos propres données, en combinant des données collectées manuellement et automatiquement. Pour notre collecte automatique nous utilisons, entre autres, la vision par ordinateur (computer vision). C’est une branche de l’intelligence artificielle, qui nous permet d’analyser, traiter et comprendre des images afin d’en extraire les données qui nous intéressent. Entre autres, nous récupérons des images télévisées et certaines données sont automatiquement extraites.
Deuxièmement, nous avons développé un outil destiné à l’analyse des équipes, l’évaluation des joueurs et au recrutement. Cet outil comporte plusieurs aspects importants avec, notamment, nos propres modèles d’analyse de données. Nous avons, par exemple notre propre modèle pour analyser les expected goals (xG). Nous avons, par exemple, un modèle dédié à l’identification des joueurs ayant des caractéristiques similaires.
Prenons un cas concret : Killian Mbappé. Nous allons, par exemple, déterminer une série de caractéristiques qui nous intéressent chez lui (tirs tentés, expected goals, tentatives de la tête, les passes, les dribbles) et l’outil va identifier la liste des joueurs les plus proches possible de son profil au regard de ces paramètres.
Les Expected Goals (xG)
Même si les expected goals sont assez connus maintenant, pouvez-vous les présenter ? Les expected goals nous permettent d’évaluer la probabilité qu’un tir donné, soit converti en but. Pour cela, nous allons analyser un très grand nombre de tirs, par exemple, les 20 000 derniers tirs qui ont eu lieu dans le championnat de France.
Sur ces 20 000 tirs, nous allons analyser : la distance à laquelle ils ont été effectués, l’angle par rapport au but, le membre utilisé (tête ou le pied), le contexte du tir (issue d’un dribble, d’un centre, …), l’endroit où le gardien de but était placé, la position des défenseurs adverses, etc.
En fonction de ces critères, nous saurons combien de ces tirs ont été convertis en but et offrir une probabilité de conversion pour les tirs qui réunissent certaines caractéristiques. Maintenant, la question est de savoir à quoi cet indicateur va bien pouvoir nous servir ? Cet indicateur a du sens car nous savons que de nombreux facteurs influencent le fait qu’un tir soit converti en but : un faux rebond, un ballon intercepté par un défenseur ou une tête de l’attaquant qui échoue sur le poteau.
Si un attaquant ne convertit pas un tir depuis l’intérieur des six mètres et que nous ne comptabilisons que les buts, alors nous conclurons qu’il a généré une valeur qui est nulle.
Avec les expected goals, nous savons quelle était la probabilité qu’il marque et c’est un bien meilleur outil de prédiction des futures performances des attaquants, qu’uniquement le nombre de buts qu’il a précédemment marqués.
L'importance des aspects défensifs et du pressing
Les indicateurs offensifs sont souvent les plus évoqués lorsqu’on parle d’analytics, mais qu’en est-il des aspects défensifs et notamment du pressing ? A l’heure actuelle, nous sommes le seul fournisseur de données qui collecte les événements de pressing. D’ailleurs, le terme le plus adapté serait « pression », car en plus des actions habituelles que nous collectons : les tacles, les interceptions… nous collectons aussi, les événements liés au pressing ou au harcèlement.
Alors, que catégorisons-nous en tant que pression ? Ce sont l’ensemble des actions grâce auxquelles un joueur ferme une ligne de passe, attaque le porteur du ballon en le forçant à jouer plus vite, à jouer à vers les couloirs extérieurs, etc. Toutes ces actions constituent la grande majorité des actions défensives qui se produisent pendant un match, car les tacles et les interceptions sont généralement moins fréquents.
Le travail défensif et le pressing sont le résultat du travail de plusieurs joueurs. Ils vont ensemble, forcer le central adverse, par exemple, à se débarrasser du ballon, fermer une ligne de passe à l’intérieur, de telle sorte que le central adverse ne puisse trouver son pivot et soit obligé de jouer vers un couloir extérieur.
Avant d’avoir ce type de données de « pression », il était difficile de réellement évaluer le travail défensif des joueurs, car on avait beaucoup moins d’informations. Il y avait donc beaucoup de joueurs qui n’étaient pas appréciés à leur juste valeur, car ce type d’action défensive n’était pas collectée. Pour un attaquant, à moins qu’il ne récupère lui-même le ballon dans les pieds du central, il n’avait aucun crédit.
Le problème, c’est que de nombreux attaquants savent très bien presser, fermer les lignes de passe ou forcer le défenseur central à jouer vite afin de le pousser à commettre une erreur. Maintenant, nous pouvons évaluer l’influence des attaquants, des excentrés et des milieux de terrain dans la récupération du ballon de leur équipe, car le travail qu’ils font empêche les adversaires de jouer confortablement. Une fois ces données collectées, nous les transformons en différents indicateurs, à partir de différents modèles.
Nous allons, par exemple, attribuer une certaine valeur à une récupération de balle liée au travail d’un attaquant. Si un attaquant presse le central adverse, le force à jouer long et que le ballon est récupéré par un de ses coéquipiers, alors l’attaquant obtiendra un crédit défensif. Il aura contribué à récupérer le ballon en forçant le central de jouer long.
Un autre aspect que nous pouvons inclure, c’est la réaction à la perte du ballon. Si un attaquant ou un excentré perd le ballon, nous voulons savoir si ce joueur a la capacité de presser directement après avoir perdu le ballon, s’il est capable de changer d’état d’esprit et de mettre la pression sur le porteur du ballon.
Nous pouvons, par exemple, filtrer toutes les pertes de balle de Killian Mbappé et déterminer combien de fois il a pressé le porteur de balle, dans les cinq secondes suivant la perte du ballon. Même s’il ne le récupère pas, il va forcer son adversaire à jouer plus vite, afin que son équipe ai une meilleure chance de récupérer le ballon. Peu importe l’issue, nous voulons savoir s’il est capable de changer d’état d’esprit et de presser.
Différences culturelles entre championnats
Existent-ils des différences culturelles entre les différents championnats ? Les joueurs du championnat allemand, par exemple, sont-ils meilleurs sur cet aspect qu’en France, en Angleterre ou en Espagne. Existe-t-il une influence culturelle sur la pression à la perte ? Oui, il y a certains aspects culturels qui ont une influence.
Récemment, nous avons analysé les cinq grands championnats, c’est-à-dire la France, l’Allemagne, l’Angleterre, l’Espagne et l’Italie et ce que nous avons constaté, c’est qu’il y a des différences sur certains aspects, surtout au niveau défensif, mais qu’en réalité, ces championnats ont beaucoup plus de similitudes que nous le pensons.
Il n’y a pas énormément de différences d’un championnat à l’autre et il y a deux raisons à cela : d’une part, les équipes de haut niveau se ressemblent de plus en plus, d’autre part les différences culturelles s’estompent. En fait, c’est un révélateur de la réussite de certains entraineurs dans différents pays.
Par exemple, Pep Guardiola a réussi en Espagne, en Allemagne et en Angleterre et Thomas Tuchel a connu le succès en Allemagne et en France. Les entraîneurs qui réussissent en Angleterre vont en Italie et y réussissent également à l’image d’Antonio Conte, par exemple, passé par la Juventus, Chelsea et maintenant l’Inter, à l’instar de Maurizio Sarri.
Les championnats se ressemblent donc de plus en plus, car le niveau est de plus en plus élevé, entre guillemets, et cela a une influence. Oui, il y a des différences culturelles, mais elles sont complexes et se situent au niveau du championnat national. Qu’est-ce que cela signifie ? Cela signifie que si vous analysez la façon dont les équipes allemandes attaquent, vous verrez qu’elle est un peu différente de celle des équipes espagnoles. En outre, la façon dont les équipes allemandes défendent est également différente de celle des équipes espagnoles.
Aussi, en reliant ces différences, le championnat national oblige d’une certaine façon les équipes à jouer un peu de la même manière. Par exemple, si vous jouez dans le championnat allemand en défendant très bas face à des équipes qui vous pressent très haut, vous aurez obligatoirement plus de situations de transitions offensives à jouer avec beaucoup d’espace à exploiter. Disons que la façon dont vous jouez est influencée par le contexte, et que ce contexte dépend du style de jeu du championnat, ainsi les équipes d’un même championnat vont avoir tendance à se ressembler davantage, en raison du contexte qu’elles vont rencontrer. La remarque est aussi valable pour le championnat espagnol.
Si vous voulez jouer absolument un style direct en exploitant toutes les situations de transition face aux équipes qui vont souvent défendre bas, vous devrez forcément utiliser un minimum la possession et un minimum de jeu positionnel, donc vous ressemblerez de plus en plus aux autres équipes espagnoles.
Différences au sein d'un même championnat
Y a-t-il des différences au sein d’un même championnat ? Oui, mais toujours à partir de points plus ou moins proches les uns des autres. Prenons un exemple : si le PSG jouait en Bundesliga (championnat allemand), il ressemblerait davantage aux équipes allemandes qu’à celles de la Ligue 1, car le PSG devrait s’adapter au contexte dans lequel il évolue.
D’ailleurs, ce n’est pas une question de data, c’est une question de football. Finalement, pourrait-on dire que le contexte de l’Allemagne, de la France ou de la Liga espagnole n’est pas si différent que cela ? Exactement, ils ne sont pas si différents, surtout entre les équipes d’un même championnat. Il y aura évidemment des différences significatives, par exemple, entre les meilleures équipes allemandes et les moins bonnes équipes espagnoles, mais quand vous étudiez le niveau moyen de chaque championnat, ces différences vont s’estomper.
Nous constatons une tendance un peu contre-intuitive, par exemple, les équipes du championnat allemand sont les équipes qui jouent le plus vite, elles sont les plus rapides. Cependant, la différence de vitesse moyenne entre les équipes de Bundesliga et celles de la Série A, qui est le championnat le plus lent des cinq grands championnats étudiés, n’est pas aussi importante que l’on pourrait le penser.
Le jeu de position
Pourrait-on dire la même chose du style de jeu positionnel pratiqué, par exemple ? Parce qu’on peut avoir le sentiment que le jeu de position pratiqué par le Barça, City ou Liverpool, a des influences différentes. Y a-t-il des indicateurs qui permettent d’évaluer ces différentes interprétations ? Je pense que, pour répondre à cette question, il faut d’abord définir ce qu’est le Jeu de Position. Ce serait la question la plus compliquée, parce que très souvent, on parle de jeu positionnel quand les équipes gagnent, sinon on considère que ce n’est pas bien fait.
Prenons un exemple, je crois que l’on peut s’accorder sur le fait que Guardiola est le meilleur représentant du Jeu de Position. Nous pouvons observer que Pep, avec au départ la même idée du jeu, a dû s’adapter aux différents contextes dans lesquelles il a évolué. Le FC Barcelone de Guardiola n’est pas le même que le Bayern Munich de Guardiola, qui est lui-même différent de ce que propose actuellement Manchester City. Cependant, personne ne doute du fait que toutes les équipes de Guardiola pratiquent une certaine version du Jeu de Position, plus ou moins nuancée, mais elles le pratiquent.
Ce que nous constatons, c’est que ses équipes sont capables de s’adapter au contexte dans lequel elles se trouvent. Par exemple, les équipes de Guardiola à Barcelone et à Manchester City font partie des équipes qui centrent le moins dans la surface adverse. En revanche, lors de son étape en Bundesliga, le Bayern de Munich était parmi les équipes qui centraient le plus dans la surface, surtout la dernière saison (2015-2016). Le grand enseignement de cela, c’est que même un style de jeu aussi caractéristique que le Jeu de Position, s’adapte aux tendances des championnats nationaux, tout en étant performant.
Alors, est-ce qu’on peut définir le Jeu de Position au travers de la data ? C’est peu probable. Comme je l’ai dit, on va effectivement pouvoir mesurer différents aspects et pouvoir dire : « Les équipes de Guardiola pratiquent un jeu de position. Quelles sont les équipes qui s’en rapprochent le plus ? Je ne pense pas que beaucoup de personnes s’accordent sur ce qu’est le jeu de position, mais on peut retrouver des aspects qui rendent ces équipes caractéristiques.
C’est généralement une circulation du ballon très rapide, un contrôle des transitions, une utilisation des passes vers la profondeur. Une passe en profondeur, est une passe provenant de zones intérieures qui élimine la dernière ligne défensive. Normalement, les équipes qui ont davantage une idée positionnelle, utilisent beaucoup ce type d’action.
StatsBomb comme outil d'aide à la décision
Revenons sur le fait que StatsBomb peut être un outil d’aide à la décision, par exemple, en termes de scouting. Les scouts observent des matchs, rédigent des rapports, font des réunions de travail, mais y a-t-il des données qui peuvent les aider à « prédire » l’adaptation d’un joueur à sa nouvelle équipe, à son nouveau championnat ? Par exemple, comment prédire l’adaptation d’un joueur au Barça ? Quels éléments factuels, peut-on utiliser ? Ça, les données ne le donneront pas, jamais ! Quiconque affirme que la data vous donne cela vous ment et je veux être clair sur ce point. Ni vous, ni moi ne pouvons le savoir, pas plus que les données. Les données ne peuvent pas vous donner cette information, pas plus que l’avis d’un scout expérimenté ne peut le faire. Ces deux sources d’information, peuvent tout aussi bien avoir raison, comme elles peuvent tout aussi bien se tromper.