里米尼中文网|里米尼足球新闻|中国球迷会|Riminicalcio.cn

 找回密码
 成为Biancorosso的一员!!
搜索
查看: 639|回复: 2

门将:扑救成功率真的是一项具备再现性的数据吗?

[复制链接]
  • TA的每日心情
    开心
    2020-5-21 23:07
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-5-6 08:31:00 | 显示全部楼层 |阅读模式
    评估门将的表现和技术尤其困难,这就是为什么我从来都没有尝试去实现过这一点。对于顶级门将而言,有效地判断形势、决定是否出击,这一点跟扑救的基本功一样重要。而关键球的处理、防线的指挥和沟通组织技能更不必多提。你很难用传统的数据模式来评估这一系列技能的综合。
    虽然我没有狂妄到以为自己能完整评定门将的能力,但至少我们可以分析他们在扑救射门时作出的贡献。我听说蛇吞象的最好方式就是“一口一口来”,所以我们可以用同样的态度来处理关于门将的数据分析。让我们开始审视门将的扑救数据吧。
    我从Opta里调用出来的数据库包括从2010-2014之间的四个完整赛季,涵盖对象包括五大联赛(英西德意法)。如此一来,整个数据库就包含了超过64000脚打正门框范围内的射门,以及393位门将的扑救数据。
    扑救成功率最高的门将
    为了让测量的标准看起来更清晰一点,我们先看看过去四个赛季扑救成功率最高的12名门将,我将参评的下限定为至少面对过300次打正门框的射门。

    这个名单看起来还是有一定意义的。布冯在榜单中高居榜首,另外还有阿比亚蒂、西里古、诺伊尔、切赫、德赫亚和哈特这些公认的门神入榜。如果暂且先不算巴尔德斯,这个名单里应该包括了绝大多数我们意料之中的名字。
    这应该是一个能让足坛为之欣慰的结果,哪怕是单一数据的评选,最好的那些门将还是可以脱颖而出。好的,所以光看这项数据并非一定是最好的突破口,但它至少能让我们有一个评价基点。
    到这个点上,问题就变成了:是不是说扑救技术最好的门将,他们的扑救成功率恰好是最高的,就意味着技术好的门将一定拥有高扑救成功率呢?
    可再现性
    想要评估门将的扑救技术,最大的问题不在于扑救率能否区分好门将和平庸门将。最重要的是时间分度,或者打正的射门总数,在[听起来]好像可以评估门将扑救技术之前,我们必须观察的是这些数据。
    这为什么重要?
    如果确定门将的扑救成功率数据是可再现的,因此可以应用于球队引援指导,那么这的确值得我们花不少时间来进行验证。球队该如何发掘好门将?看完有限的几场比赛之后,球队有多大把握了解一个门将,认为他能持之以恒地奉献关键扑救?门将犯了几个低级失误之后,什么时候才应该把他丢到板凳上?
    在我看来,很明显,我们必须首先搞清楚,同一个门将在不同时期内的扑救成功率有多大程度上是可再现的。否则,无论我们以任何时间段的数据作为比较基础,都无异于是把比较建立在了不牢靠的基础上。
    看样子Billy Beane大神跟我的观点也是一样的,他在上星期接受Sean Ingle采访时说过这么一段话:
    “在足球当中,你没有很多可以用来纠正错误的时间。所以归根结底,在进行任何量化研究之前,你必须非常仔细地审视数据,确认自己在做什么。因为搞错的风险真的会很大。”
    如何量化检测射门扑救能力
    在此次的分析中,我将采取两种形式对扑救射门的表现进行检测。
    第一种测量形式是简单粗暴的扑救成功率,在前面的表格里我们已经展示过这种测量方式了。
    第二种测量方式建立在我们(感谢Constantinos Chappas大神)建立的进球预期模型基础上,特别是模型中的ExpG2部分。ExpG2值是射门发生时所给予的期望值,所以射门那一刻的所有相关因素都很纳入考虑(比如说射门位置,射门脚法类型以及射门轨迹),射门角度的吊钻程度同样也会被纳入考虑,而守门员的站位则不会被计入考虑。
    不难想到,角度吊钻程度对ExgG2值得影响非常大。瞄准上角的射门会相比瞄准中路的射门会得到更高的ExpG2分数。
    ExpG2可以被视作量化射手准星的工具,与此同时,评判守门员的扑救表现时他同样能派上大用场。丢掉一个死角射门还说得过去,但要是漏掉一个中路的射门或是尴尬脱手,那就只能说明守门员的表现糟糕;ExpG2就能很好的反映出这一点。
    这项分析会用到ExpG2率,ExpG2率的计算方式为ExpG2 值/实际丢球数。
    举个例子:ExpG2值为12.34,同时守门员丢了14个球,那么该守门员的ExpG2率为0.88。
    如果ExpG2率达到1意味着扑救水平达到了期望,如果大于1则代表守门员在扑救射门方面发挥上佳,而如果ExpG2率不到1,则意味着在防守射门这一项上,他的表现不合格。
    可再现性(是的,又是这个统计学词汇)
    这项分析中的关键点不在于衡量守门员的扑救表现,而是为了探究扑救成功率是否具有可再现性。毕竟如果这一数据或是因为环境不一致、运气或是其他干扰因素而不具备可再现性的话,那么这一指标就不再能成为俱乐部选择门将时的参考标准。
    今年3月,Sander Ijtsma曾公开表示,扑救成功率的参考价值几乎可以忽略不计。我想就这一点,再深入讲一讲。
    分析方法
    我将每位门将面对的所有球门范围内的射门按日期和序列顺序标号。我设计了一个辅助变量,n,可以使我能够将这些射门分为n个一组。我计算了每组之间的线性相关性,我将第一组扑救中的守门员表现数值标记为横坐标,第二组标记为纵坐标。
    可能举个例子会更好理解;我们将n的值设置为50。
    因此,守门员记录在册的扑救就被分为1-50一组,51-100一组,101-150一组,151-200一组等等。我之后整理了前两组射门之间的相关性,以检测不同组的射门间守门员的扑救成功率是否具备可再现性,后面的三组也都进行了同样的检验。我又将这一思路扩展到了多位守门员的扑救表现上,直到所余的扑救样本不能再进行这样的比较。
    n是自定的变量,所以我们可以进行调整,以更好的研究每个样本中守门员的射正扑救率的可再现性。下面的表格体现了n这个变量对扑救成功率之间相关性的影响。

    相关性
    右边两栏显示了两组射门之间的守门员数值的相关性。左起第三栏是扑救成功率数值的相关性,而最后一栏显示了ExpG2方法的数值相关性。简单说明一下,这两组数值越接近1,就代表守门员的数值衡量方式之间的相关性越强,而0就代表着两者彻底不相关。我不想复杂化里面的关联,但我要申明的是,相关性系数之间也有着自己的置信区间,这与计入考虑的样本数有关。
    我们将n的值重设为100。
    我收集的数据中,305名守门员有超过200次地被射正纪录,可以建立两个比较组。然而,仅考虑简单的扑救成功率数值的话,两组之间的相关性仅为0.127.当我们采用ExpG2数值衡量时,相关性提升到了0.232.这一数字代表着数据之间有弱相关性,意味着第二组中仅有5%(0.232的平方)的射门可以被第一组解释。
    值得注意的一点:
    即使我们采用先进的ExpG2测量法来评估守门员的表现,每100次被射正的样本中也仅仅有5%的相关性。因为守门员每场平均仅需要受到4次射正球门的考验,所以我们大约需要25场比赛来才能获得足够的样本来对接下来的25场比赛被射正时的情形做出一个基本的判断。你或许需要停下来好好思考一番。
    如果以250个射门为一组(n=250)检验ExpG2数值,也仅能得到0.405的相关性,这也只能说明两者之间有普通的相关关系,因为平方后所得的一致性仅有0.16的相关指数。因为缺少足够大的样本支持,n大于250的情况很难检验。
    我对31组250次(意味着纳入统计的门将必须有500次被射正的记录)射正样本进行了分析,便能更加直观的观察出守门员扑救数的离散性:

    这些射门的顺序会对分析产生影响吗?
    Daniel Altman读了这篇文章的初稿后向我建议,希望我能够介绍射门分组后的顺序是否会影响分析结果。
    你可能还记得,我当时的分组依据是射门发生的时间顺序,这样的分组方式无可避免的会受到守门员年龄因素增长的影响。(因为在现实世界中这就是事情自然的发生方式,所以当我们只是需要考察守门员某个时间点上的影响时,这些限制因素并不是非常重要),但当我们评价的是那些天赋异禀的守门员,这一方式的局限性便会被放大。
    吸取了Altman的建议,我将射门序列打乱后又再一次执行了相同的分析后得到的相关性检验如下:


    随机序列排序后的相关性检验
    正如预计的一样,我们选择了不同大小的样本进行检验,其相关性数据会发生差异,我们在之前的文章里已经介绍过了。尽管如此,当以250个射门为一组样本时,相关性检验达到了0.467,这意味着第二组射门中22%的射门是可以预计的。所以即便抹掉了年龄等影响因素,守门员的表现还是很难被预计,也就是说反应守门员水平的数据基本不具备可再现性。
    结论
    门将的扑救能力当然是有高下之分的,我们遇到过像德赫亚一样能够经常超水平发挥的守门员(德赫亚两组射门之间的ExpG2率为1.23和1.21),我们也有鲁菲尔这样ExpG2值能稳定在1.15和0.98上的高水平门将。如果我们将这两名门将的两组250个射门样本(这可能需要两个赛季的样本收集)进行整理,那么他们的杰出是可以通过数据体现出来的。但是,再将一组250个射门的样本纳入考虑时,却只有一人能够继续保持稳定。
    想象一下,分析师根据这一分析,建议签下鲁菲尔而不是德赫亚,这一决定有250次被射正和60场比赛的数据支持。这让我们想起了Billy Beane早早道出的箴言,我们需要想清楚我们对数据的使用是否恰当,在决策过程中过分依赖数据对球队而言其风险非常高。
    因为我们一组的样本数量是250次射正,我们很容易发现12/13赛季表现出色的米尼奥莱(ExpG2的值为1.25 )在13/14赛季已经跌出了英超优秀守门员之列(ExpG2的值为0.88)。很容易看出,无论是以一个赛季的被射正数量为基础的样本或是一脚离奇射门,还是150个一组的样本在评估守门员表现时彼此之间都会出现不小的偏差。
    米尼奥莱下赛季会是个怎样的守门员,很抱歉,数据并不能告诉你答案,本赛季的数据对下赛季的仅有11% 的参考意义。我几乎能够认定,顶级俱乐部选择守门员的过程是很难用数据来量化的,至少,在有足够数量的样本可以参考之前是很难量化的。而这一样本需要有多大,我现在还不能给出答案。记住我的忠告,在选择门将的时候,千万不要只看重扑救数据,这是非常容易干扰我们判断的一项数据。
    感谢Constantinos Chappas大神和Altman让我能够更好的从数据方向出发看待这个问题。
  • TA的每日心情
    开心
    2020-5-21 23:07
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-5-6 08:31:31 | 显示全部楼层
    摸拜我的统计学前辈。
    亮了多说几句,这篇文章要是只看结论,基本毫无尿点。现在的球探体系证明,不管是哪个位置都很依赖对于球员技术动作、身体条件、踢球风格等细节的观察,数据想要完全去揭示这些东西是十分困难的一件事情。
    但里面的一些尝试非常有意思,例如ExpG2,对射门这项指标进行分情景的考量,加入诸多因素去尽量还原这项动作。他可能会忽略当时射门的情况,例如后卫线的布置、门将站位等问题,但不得不说丰富了这项数据的内涵。
    而ExpG2和失球数的结合,这种假设也很合情合理,用ExpG2率这个指标来衡量一名守门员的总体扑救能力相比简单的扑救成功率,内涵要丰富准确得多。
    但文章主要考虑的是可再现性的问题,一些门将在较长时间段里面,相关数值总体可以达到一个较高的标准,但为何难以称为顶级?通俗点就像我们平常说的,大赛稳定性、高光表现、关键球的处理等等这些因素,所有都处在顶点才会被人认可。
    作者想用相关性分析来解释过往数据对于未来的指导意义,虽然很可惜最后的结论是失败,但这种尝试非常有趣。数据可能不能解释所有问题,但至少可以尝试用他去解释一些问题。
    我感觉ExpG2是检验前锋的好标准,但不一定是检验门将的好标准。
    什琴斯尼、诺伊尔、米妮,包括更老一点的布特(只说我记得的),都存在扑救数据波动的情况。但是实际原因并不是他们本身水平波动,而是成名之后弱点(弱势侧、站位习惯)被人更进一步利用罢了。

    另外,分析射门时不考虑门将站位,在统计学上可以提高准确性,但是却可能违背了竞技体育的原则——因为很多时候前锋的射门是受门将站位影响的,譬如看着门将站位靠前就选择吊射,看着门将横向移动就选择推近角……这个时候如果门将还能把球扑出来,那绝对应该是大加分项,却被统计方式抹杀了。

    举个例子,红蓝大战时库尔图瓦在上半场20多分钟时连续做出两次扑救,第一次是范佩西接贾努扎伊直塞的单刀射门,被裤袜出击封堵;第二次是范佩西在点球点接迪玛利亚45度传中背身头球,被裤袜原地起跳摘下。
    事后慢镜头只放第一个球,赛后点评也只点评第一个球。第二个球基本上没人提了。
    的确,从expG2的角度,第一个球是反越位单刀,可能进球期望更高,被扑出来了加分更高。
    但是我作为门将本身,我觉得第二个球更能体现裤袜的水平——当时他站位靠前(因为要准备出击摘高空球,站位没问题),范佩西的反身头球虽然力量不大角度不吊,但是阴错阳差形成一个吊射,很多门将到这儿都是目送了,但是裤袜不但能在极短的时间内后撤起跳(这可能是门将最要身体素质的一个技术动作),还能稳稳把球摘下来,太了不起。
    曼联打阿森纳时朴智星进过一个类似的头球。大家可以去看看当时什琴斯尼当时是怎么处理那个球的(99%的门将只能这么处理,因为身体素质不够逆天),这就是他和裤袜之间的差距。

    所以,扯回主楼。我以为门将技术看似单一,其实内部的维度还是非常多的,选位、出击、反应、手型、弹跳力、协调性……可能一项能力一项能力地具体分析,要比笼统地统计结果更合适。
    将来足球科学的发展,可能是依靠统计学结果提供一个大致范围,但是最终拍板买人还是要靠具体分析。
  • TA的每日心情
    开心
    2020-5-21 23:07
  • 签到天数: 10 天

    [LV.3]偶尔看看II

     楼主| 发表于 2018-5-6 08:32:06 | 显示全部楼层

    本版积分规则

    小黑屋|手机版|Archiver|里米尼中文网

    GMT+8, 2024-4-16 16:58 , Processed in 0.397474 second(s), 18 queries .

    Powered by Discuz! X3

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表