AD
首页 > 资讯 > 正文

大数据看球:提升球队成绩的正确打开方式

[2019-12-15 08:39:17] 来源:本站 编辑:小编 点击量:
评论 点击收藏
导读:原标题:大数据看球:提升球队成绩的正确打开方式这个秋天,广州恒大让自己的球迷过得胆战心惊。这支之前在中超联赛中夺得13连胜的球队,在9月遭遇了两负一平,10月也仅取得一胜一平的局面,前期积累的夺冠优势被消耗

  原标题:大数据看球:提升球队成绩的正确打开方式

  这个秋天,广州恒大让自己的球迷过得胆战心惊。这支之前在中超联赛中夺得13连胜的球队,在9月遭遇了两负一平,10月也仅取得一胜一平的局面,前期积累的夺冠优势被消耗殆尽,主帅卡纳瓦罗也因此被通知前往恒大总部“上课”。遥想赛季之初,号称“中国国家集训队”、坐拥强力内外援的广州恒大曾被球迷戏称为联赛的“内定冠军”,这一番对比怎不令人感慨万千?

  其实,在中超乃至整个足球运动中,各种“黑马”、“意外”一直都层出不穷,这也是足球运动的魅力所在。对于这样一项既讲究单兵能力也讲究战术与配合的运动来说,任何单一的优势劣势都不足以长久地左右比赛的结果,不到终场哨声吹响的一刻,变数永远存在。球队想要成为赛场的王者,必然要统筹好球员、资源、规划与执行等各个方面。

  这次的案例,我们尝试通过数据的方法,探索哪些因素可能会影响中超球队的成绩。

  数据说明

  我们从“创冰DATA”取得了中超2014~2019赛季的比赛数据(以2019赛季截至7月19日前18轮的数据训练模型,以2019赛季截至11月21日前27轮的数据进行预测)。每行数据代表一只球队在某个赛季的比赛结果和表现,得到如表1所示共35个变量。除球队名称、赛季、球队所在地域外,其它变量均为某支中超球队在一个赛季中各场比赛数据的平均值。

  表1 数据原始变量说明表

  本案例仅有96条观测,却有多达31个定量变量;并且同类变量之间本身存在较强的相关性。为了避免共线性等问题对后续的建模分析产生负面影响,所以我们先通过因子分析的方法对原始变量进行了降维。

  我们使用最大方差法对主成分进行旋转,得到因子载荷矩阵,依据累计方差贡献率大于80%的原则,将原始变量归纳为7个因子,并结合业务知识,将因子命名为传球水平因子、进攻水平因子、非决定性因子、禁区外射门因子、进球制胜因子、一般防守因子和关键防守失误因子。具体每个因子包含的原始变量及相关系数见表2。

  表2 7个因子与原始变量的关系表

  描述性分析

  因变量:场均积分数

  从图1可以看出,本案例的因变量“场均积分数”呈现明显右偏的状态:其均值为1.37分/场,中位数为1.23分/场。场均积分数指标的最小值为0.57分/场,对应2015赛季上海申鑫足球队,该球队在这个赛季降级。最大值为2.67分/场,对应的是2019赛季的北京国安足球队,该球队在今年的前18轮联赛中已经累计取得48分,领跑积分榜。

  图1.场均积分数的分布情况

  自变量:区域

  图2左上角的子图展示了球队所处区域与其场均得分之间的关系。从图中可以看到,南方球队在近几个赛季的成绩好于北方球队。我们推测,这与南方球队资金充裕,砸重金引入大牌内、外援有一定的关系。比如,广州恒大就引入了众多国脚级内、外援,之前也取得非常不错的成绩。相比之下,陷入预算危机的辽宁宏运,则在球队实力不济、赞助商易手的漩涡里日渐沉沦,最终惨遭降级。

  图2.区域、传球水平因子、进攻水平因子和进球制胜因子与场均积分数的关系

  自变量:球场表现因子

  图2中的其余三张子图,分别展示了因变量场均积分与传球、进攻与进球三个因子之间的关系。这三个自变量与因变量之间分别呈现正向一定程度的正相关关系。

  右上角的子图展示了传球水平因子与场均积分数之间的正相关关系。一支球队的传球水平高,意味着其控球率高,能够占据场上的主动权,从而也更有可能多进球、少丢球,最终赢得比赛。

  左下角的子图展示了进攻水平因子与场均积分数之间的正相关关系。进攻水平因子综合了射门次数、禁区内射门次数和进攻主导率等指标的影响,是一支球队的总体进攻能力的体现。右下角的子图则展示了进球水平因子与场均积分数之间的正相关关系。进球水平因子反映了点球数、禁区内射正数等原始指标的影响。一个球队进攻能力越强、打门次数越多,也就越有可能赢得比赛。

  图3展示了另外四个球场表现因子与因变量之间的关系。从中可以看到,非决定性因子、禁区外射门因子、一般防守因子和关键防守失误因子与场均积分数之间的相关性相对较弱。

  图3.非决定性、禁区外射门、一般防守和关键防守失误因子与场均积分数的分布情况

  通过以上分析我们发现,可能对球队场均积分数可能会产生影响的主要因素有:球队所属区域、传球水平、进攻水平,是下一阶段建模分析中需要关注的重点;禁区外射门、进球制胜和关键防守失误等因子对于比赛结果可能也会有一定的影响。

  回归模型

  接下来,我们在以上观察的基础上,使用对数线性回归模型来定量地探索中超球队场均积分数的影响因素。采用逐步回归的方法,按照AIC准则进行变量选择,得到如图4所呈现的模型结果(图中变量名称后的星号代表了参数对应的p值大小,星号越多则p值越小)。从图中可以看出,最终的模型只剔除了非决定性因子这个变量。模型通过了F检验,调整后的R方为0.68,能够在一定程度上解释球队成绩水平的变化。残差诊断相关的各项检验结果也都符合假设要求。

  图4.对数回归模型的系数

  根据图4所呈现的模型,地域和六个球场表现因子对球队的成绩都有一定的影响:在中超联赛中,南方球队的成绩相对更加优秀。几个球场表现因子中,影响最大的是进球制胜因子,其次是进攻水平因子,它们都是描述球队进攻风格的变量:一只球队如果能够尽可能多地发起攻击、提高射正比率,自然进球的可能性也会更高,从而更可能赢得比赛。

  传球水平因子、禁区外射门因子和关键防守失误因子的影响则相对要小一些,其中:关键防守失误因子的系数为负,意味着防守中出现重大失误则会降低赢球的可能。而一般防守因子在5%显著性水平下不显著,这可能是因为它所对应的犯规数和黄牌数等动作是场上较为常用的一种技战术,无论球队形势如何,都有可能采取这种方式来延缓对手的进攻,所以对最终比赛成绩的影响较为有限。

  接下来,我们通过模型预测各中超球队在2019赛季的最终表现,并将之与更新至11月21日(第27轮)的真实比赛数据作比。得到的预测结果和预测误差如表3所示,半数球队场均成绩的预测误差不超过±16%,表明球场表现指标等对于球队成绩有一定的预测能力。

  表3 2019赛季27轮后比赛成绩预测表

  小结

  从本次分析的结果来看,球队要想在中超联赛中取得好成绩,首先要做到积极进攻,提高进球的可能性;其次要保证没有特别重大的失误拖后腿。同时,南方球队一般都有实力雄厚的赞助商支持,在表现上总体比北方球队要好,资本的支持对于取得好成绩也有促进作用。此外,球队也应注意球员的基本功,如控球和传球能力,对于提高控球几率、增加进攻机会,从而最终赢得比赛,都会有所帮助。球队在引进内、外援时,也应该关注候选球员在上述水平上的能力,将其作为是否引进的重要依据。

  最后,衷心希望中超联赛能够越办越好,不再成为国内球员的“散步场”、国外球员的“养老院”,而是真正能够成为足球世界的“第六大联赛”。中超联赛水平变高之日,便是我中国足球名扬世界之日! 返回搜狐,查看更多

  责任编辑:

为您推荐