Автор книги: Нейт Сильвер
Жанр: Зарубежная образовательная литература, Наука и Образование
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 8 (всего у книги 42 страниц) [доступный отрывок для чтения: 14 страниц]
Глава 3
Все, что меня интересует, – это победы и поражения
Настроение игроков бейсбольной команды Red Sox было отвратительным. Они только что вернулись из Нью-Йорка, где проиграли все три игры серии ненавистным соперникам – команде Yankees, что лишило их всех шансов на выигрыш титула чемпионов Восточного отделения Американской лиги[28]28
Высшая бейсбольная лига США (Major League Baseball) состоит из двух практически независимых лиг – Американской и Национальной, каждая из которых в свою очередь делится на три отделения – Восток, Центр и Запад.
[Закрыть] в 2009 г.
Если учитывать, что в рамках официальных соревнований оставалось всего лишь семь игр, команда Red Sox была практически уверена, что сможет выйти в плей-офф, получив доступ в него от руководства Американской лиги[29]29
Поистине эпический коллапс Red Sox произошел двумя годами позднее, в 2011 г., когда команда проиграла 16 из 21 игр и упустила почти гарантированный шанс выйти в плей-офф. – Прим. авт.
[Закрыть]. Однако ни команда, ни ее руководители не хотели завершать сезон подобным образом. Хотя статистические исследования и показывают, что успешное или неуспешное завершение официального периода соревнований никак не сказывается на результатах команд в плей-офф{190}190
Nate Silver in Jonah Keri, et al., Baseball Between the Numbers: Why Everything You Know About the Game Is Wrong (New York: Basic Books, 2006).
[Закрыть], игроки Red Sox почувствовали, что это не их год.
Я направлялся в Фенвей-парк[30]30
Фенвей-парк – бейсбольный стадион в Бостоне, штат Массачусетс. На этом стадионе с 1912 г. проводит свои домашние матчи команда Red Sox.
[Закрыть], чтобы поговорить со звездой Red Sox – игроком второй базы[31]31
В бейсболе так называют игрока внутреннего поля, занимающего позицию на второй базе, которая на поле расположена напротив «дома». Игрок (раннер) должен коснуться ее во вторую очередь. На бейсбольном поле четыре базы, образующие углы ромба: дом (home base) – исходная площадка, где находится игрок с битой; первая база (first base) – площадка, где находится игрок нападения (игрок первой базы – first baseman), и, соответственно, игрок второй базы (second base) и третьей базы (third base).
[Закрыть] Дастином Педройя. Он был одним из моих самых любимых бейсболистов еще с 2006 г., когда PECOTA (система прогнозирования, разработанная мной для организации Baseball Prospectus) предсказала, что он станет одним из лучших игроков в бейсбол. Предсказание PECOTA противоречило мнению многих скаутов, считавших Педройю «недостаточно развитым физически»{191}191
Danny Knobler, «The Opposite of a ‘Tools Guy,’ Pedroia’s Simply a Winner», CBSSports.com, November 18, 2008. http://www.cbssports.com/mlb/story/11116048.
[Закрыть], критиковавших его за неправильную осанку и слишком широкий замах битой и приходивших к выводу, что он будет довольно посредственным игроком. Если PECOTA оценивала в 2006 г. Педройю как четвертого в списке потенциальных звезд бейсбола{192}192
Nate Silver, «Lies, Damned Lies: PECOTA Takes on Prospects, Wrap-up», BaseballProspectus.com, March 8, 2006. http://www.baseballprospectus.com/article.php?articleid=4841.
[Закрыть], то издание Baseball America, традиционно уделяющее большое внимание точке зрения скаутов, поместило его на 77‑е место. И подобное отношение к этому игроку было распространено достаточно широко{193}193
В прошлом Лоу был одним из авторов в Baseball Prospectus.
[Закрыть]. Взять хотя бы отчет Кита Лоу из ESPN[32]32
ESPN – один из каналов кабельного телевидения, по которому круглосуточно показывают только спортивные передачи.
[Закрыть]{194}194
Keith Law, «May Rookies Struggling to Show They Belong», ESPN.com, May 12, 2007. http://insider.espn.go.com/mlb/insider/columns/story?columnist=law_keith&id=2859877.
[Закрыть], составленный в самом начале карьеры Педройи:
Дастин Педройя не обладает ни силой, ни той скоростью удара, которые позволили бы ему оказаться в основной лиге, и ему недостает мощности. Если его показатель результативности (хит[33]33
Хит (hit) – удар, который позволяет бьющему занять базу. Соответственно, если бьющий после своего удара смог добежать до первой базы, хит называют однобазовым, если до второй базы – двухбазовым и т. д. В бейсболе оценивается статистически.
[Закрыть]) будет на уровне 0,260, то он сможет оказаться полезным, и, возможно, у него появится какое-то будущее в роли запасного игрока на внутреннем поле – если только он перестанет постоянно перебегать на третью базу и ловить там мячи.
Лоу опубликовал этот комментарий 12 мая 2007 г. На тот момент показатель результативности Педройи составлял 0,247, и на его счету был лишь один хоумран[34]34
Хоумран (Home run) – разновидность игровой ситуации в бейсболе, представляющая собой хит, во время которого отбивающий и бегущие, находящиеся на базах, успевают совершить полный круг по базам и попасть в дом (то есть совершить пробежку). Если бьющий сможет ударить так, что мяч, не касаясь земли, пересечет все поле и улетит за забор, то такой удар автоматически приносит команде очко. Именно такой удар и называется хоумран.
[Закрыть]{195}195
Детальная статистика результатов Педройи взята с сайта Baseball-Reference.com. «Хоумран» – особенно удачный удар по мячу, после которого игроки успевают пробежать по всем базам и попасть в «дом», принося своей команде много призовых очков.
[Закрыть]. По правде говоря, я тоже начал утрачивать веру; внимательно понаблюдав за тем, как Педройя «выходит к бите», я начал думать, что он слишком переоценен[35]35
Фантазируя, я даже представил, что успешно продал Педройю другой команде. – Прим. авт.
[Закрыть].
Однако, будто пытаясь доказать неправоту тех, кто в нем сомневался, Педройя начал творить чудеса. В течение следующих 15 игр он достиг невероятного показателя – 0,472, в результате его среднее значение, снизившееся до 0,158 в апреле, поднялось до 0,336.
В июле, через два месяца после отчета Лоу, Педройя вошел в состав «Звездной команды» Американской лиги. В октябре он помог Red Sox стать победителями ежегодного чемпионата – World Series[36]36
World Series – ежегодный чемпионат США по бейсболу – серия игр между чемпионами двух высших профессиональных лиг США в конце бейсбольного сезона, ее победитель – чемпион мира (world champion).
[Закрыть] – во второй раз с 1918 г. В ноябре того же года он был назван «Новичком года». А в следующем сезоне 24-летний Педройя получил награду «Самый ценный игрок» как лучший в Американской лиге. Теперь он уже был не запасным игроком, а суперзвездой. Скауты серьезно его недооценили.
Я отправился в Фенвей, поскольку хотел понять, что же заставило Педройю так измениться. Я подготовил целый список вопросов, а Red Sox выдала мне пресс-карту и обеспечила доступ на поле. Я знал, что это будет непросто. Игровое поле основной лиги – это настоящее святилище для игроков и уж точно не лучшее место для проведения интервью. Игроки Red Sox после неудачных игр были напряженными и раздраженными.
Я стал наблюдать за тренировавшимся на поле Педройей. Он ловил мячи Кевина Юкилиса, неповоротливого игрока третьей базы, и перебрасывал их новому подающему – игроку первой базы Кейси Кочману. Мне стало ясно, что в нем что-то изменилось. Движения Педройи были точными, в отличие от Юкилиса и Кочмана, внимание которых казалось рассеянным. Но главное отличие проявлялось в его отношении к происходившему – Педройя раздраженно бросал мяч по всему внутреннему полю и выглядел недовольным отсутствием сосредоточенности на игре у своих товарищей по команде.
Прошло примерно 15 минут, тренировка закончилась, и Red Sox уступила внутреннее поле своим соперникам – команде Toronto Blue Jays. Я стоял около первой базы, в паре метров от дагаут[37]37
Дагаут – скамейка под навесом на краю бейсбольного поля, где во время матча находятся игроки, не принимающие участия в игре в данный момент, запасные игроки, тренер.
[Закрыть] Red Sox, и Педройя прошел прямо мимо меня. Скауты были правы, когда говорили о его осанке. Официальный рост Педройи – около 178 сантиметров (примерно, как и мой), однако он казался на несколько сантиметров ниже. Скауты были правы, и когда отмечали его совершенно не атлетическое сложение. В свои 25 лет Педройя уже начал заметно лысеть, и на его груди было практически столько же волос, что и на голове, а из-под майки выступало заметное брюшко. Встретив его на улице, вы могли бы принять его за сотрудника видеопроката.
Педройя прошел в дагаут и сел там на скамейку в одиночестве. Это показалось мне идеальным моментом, чтобы начать разговор, поэтому я собрался с силами и подошел:
«Привет, Дастин, у вас найдется минутка?»
Педройя подозрительно смотрел на меня в течение пары секунд, а затем заявил – максимально снисходительно и выделяя каждое слово: «Нет. Не найдется. Я готовлюсь к серьезной игре».
Я несколько минут побродил по полю, пытаясь утешить оскорбленное самолюбие, а затем направился в ложу для прессы, чтобы понаблюдать за игрой.
На следующий день, после того как действие моих «верительных грамот» истекло, я вернулся в Нью-Йорк и отправил своего друга Дэвида Лаурилу, моего бывшего коллегу по Baseball Prospectus и опытного интервьюера, с разведывательной миссией. Я хотел понять, сможем ли мы вытащить из Педройи что-нибудь полезное. Педройя был не особенно разговорчив, однако подарил Лаурилу отличную фразу для цитирования. «Знаете что? Меня нисколько не беспокоят цифры и статистика, – заметил он в беседе с Лаурилой. – Все, что меня интересует, – это победы и поражения. Все остальное не важно».
Педройя научился использовать в разговоре подобные клише после того, как когда-то решил отойти от политики, чем и вызвал немалые проблемы на свою голову. Это произошло, когда он назвал свой родной город Вудленд, штат Калифорния, «свалкой»{196}196
Tommy Craggs, «Dustin Pedroia Comes out Swinging», Boston Magazine, April 2009. http://www.bostonmagazine.com/articles/dustin_pedroia/page5.
[Закрыть]. «Можете так и написать, – сказал Педройя репортеру журнала Boston. – Мне это по фигу».
Ему было по фигу. Я понял, что если бы Педройя относился к жизни как-то иначе, то стал бы думать о том, что напишут о нем скауты в своих отчетах, и никогда не смог бы пробиться в основную лигу.
Создание системы прогнозирования для бейсбола
Сколько я себя помню, я всегда был фанатом бейсбола и бейсбольной статистики. Когда мне было шесть лет, команда из моего города – Detroit Tigers – выиграла World Series в 1984 г. Будучи маленьким математическим вундеркиндом, я очень интересовался цифрами, связанными с игрой. В семилетнем возрасте я купил свою первую бейсбольную карточку, в 10 – прочитал первый выпуск Elias Baseball Analyst, а в 12 лет начал создавать свои собственные статистические таблицы (довольно странные – по моим данным выходило, что не полностью проявивший себя игрок Red Sox Тим Найринг был чуть ли не лучшим по итогам нескольких игр).
Мой интерес достиг своего пика в 2002 г. В это время Майкл Льюис напряженно работал над книгой «Moneyball», которой было суждено вскоре стать национальным бестселлером. В этой книге приводилась хроника жизни команды Oakland Athletics и рассказывалось о ее умеющим использовать статистические данные менеджере Билли Бине.
Примерно в то же время на должность консультанта Red Sox был приглашен Билл Джеймс, который 25 годами ранее открыл эру «Sabermetric»[38]38
Джеймс придумал специальный термин «sabermetrics» для описания систематического изучения бейсбола, в первую очередь с помощью статистики. Термин произошел от аббревиатуры SABR (Society of American Baseball Research), названия организации, которая сыграла значительную роль в популяризации работы Джеймса. – Прим. авт.
[Закрыть], начав публиковать альманах под названием «Bill James Baseball Abstract». Нездоровая одержимость бейсбольной статистикой внезапно оказалась чем-то бо́льшим, чем простое хобби, – и как только я это понял, то сразу же принялся искать новую работу.
В течение двух лет после окончания колледжа я жил в Чикаго и работал консультантом по трансфертному ценообразованию в бухгалтерской компании KPMG. Работа довольно неплохая. Мои начальники и коллеги оказались дружелюбными и профессиональными, зарплата вполне достойной, и я чувствовал себя в безопасности.
Однако мое личное представление о по-настоящему вдохновляющей работе заключалось отнюдь не в том, чтобы рассказывать клиентам, как устанавливать цены на фабрике по производству телефонов в Малайзии, чтобы снизить размер налогов, или отправляться в шесть часов утра на самолет в Сен-Луи, чтобы оценить качество контрактов, использовавшихся в работе горнодобывающей компанией.
В этой работе было слишком мало риска, она оказалась чересчур разумной и рутинной для неугомонного 24-летнего человека, и мне стало скучно как никогда. Однако одно из ее преимуществ состояло в том, что у меня оставалась куча свободного времени. Поэтому в свое свободное время я начал создавать разноцветную таблицу, заполняя ее бейсбольной статистикой. Впоследствии именно она легла в основу PECOTA.
Во время учебы в колледже я также начал читать ежегодник «Baseball Prospectus», основанный в 1996 г. Гэри Хакебеем. Этот рыжий человек с неимоверными запасами энергии и сарказма пригласил на работу команду авторов новостной группы newsgroup rec.sport.baseball (бывшей в первые годы интернета авангардом статистического анализа спорта). Хакебей почуял возможность, которую предоставлял в то время рынок: Билл Джеймс перестал публиковать свои Abstracts в 1988 г., а большинство продуктов, призванных его заменить, либо были недостаточно хороши, либо прекратили свое существование во время длительных забастовок бейсболистов в 1994–1995 гг. Первый выпуск «Baseball Prospectus», опубликованный в 1996 г., распечатывался на лазерном принтере, из него по ошибке исчезла вся информация о клубе St. Louis Cardinals, и продано было всего 75 экземпляров. Однако у «Baseball Prospectus» быстро появились свои поклонники, а продажи начали расти в геометрической прогрессии практически каждый год.
«Baseball Prospectus» был настоящей сладостной мечтой любого фаната статистики. В нем собиралось неимоверное количество цифр, не только по игрокам основной лиги, но и по потенциальным игрокам, игравшим во второстепенных командах.
Тексты в бюллетене порой носили эзотерический характер, там часто упоминались герои мультсериала «Симпсоны», допускались шутки о полузабытых порнофильмах 1980‑х гг. и даже саркастические оценки нелюбимых издателем менеджеров различных команд.
Однако самыми важными публикациями этого издания были предсказания о том, как будет играть каждый игрок в следующем сезоне. Для этого Хакебей использовал созданную им самим систему под названием Vladimir. Казалось, что она будет следующим шагом в начатой Джеймсом революции.
Хорошая система бейсбольных прогнозов должна выполнять три основные задачи.
1. Принимать во внимание текущий статус статистики игрока.
2. Разделять навыки и удачу.
3. Понимать, каким образом изменяется результативность игрока по мере его взросления – эта закономерность известна под названием кривой старения.
Первая задача сравнительно проста. Бейсбольные соревнования, наиболее уникальные из основных американских видов спорта, всегда проводились на полях с нестандартными размерами. Среднему игроку значительно проще показывать хорошие результаты в уютном квадратном Фенвей-парке (контуры которого заданы компактными улицами Новой Англии), чем на напоминающем пещеру стадионе «Доджер», окруженном огромными парковками. Наблюдая за тем, как ведут себя игроки при игре дома и в гостях, мы можем рассчитать так называемый фактор парка, позволяющий учитывать степень сложности, с которой сталкивается игрок. Например, Фред Линн, основной игрок Red Sox в 1970‑е гг., добивался результата 0,347 во время игр в Фенвей-парке, но его результат на любом другом стадионе был равен лишь 0,264. Аналогичным образом, наблюдая за результатами игроков после перехода из Национальной лиги в Американскую лигу, мы можем довольно четко сказать, какая лига лучше, и оценить силу конкурентной позиции игрока.
Самый масштабный набор данных в мире
Решить вторую задачу – то есть разделить навыки и удачу – намного сложнее. Бейсбол выстроен таким образом, что в краткосрочной перспективе удача играет большую роль – даже лучшие команды проигрывают до трети матчей, и даже лучшие подающие не могут добраться до базы каждые три раза из пяти. Иногда удача не позволяет распознать подлинный уровень навыков игрока даже за целый год. Во время любого сезона бьющий, объективный результат которого 0,275, с вероятностью 10 % может добиться результата 0,300 и, соответственно, с той же вероятностью иметь результат 0,250. И это зависит только от одной лишь удачи{197}197
Этот расчет основан на биномиальном распределении, и предполагается, что игрок получает 500 «выходов к бите».
[Закрыть].
Хорошо продуманная система прогнозирования может оценить, какие статистические показатели сильнее зависят от удачи. Например, среднее количество попаданий битой по мячу более подвержено влиянию ошибок, чем количество хоумранов. Это особенно важно для питчеров[39]39
Питчер (pitcher) – игрок защищающейся команды, подающий мяч.
[Закрыть], статистика которых невероятно непоследовательна. Если вы хотите предсказать, насколько успешной будет игра питчера, то вам стоит смотреть на количество страйкаутов[40]40
Страйк (strike) – ситуация в бейсболе, когда бэттер (бьющий) не нанес удара при подаче. Если бьющий набирает три страйка – это называется страйк-аут (strike-out), – бьющий выбывает из игры.
[Закрыть] и уолков[41]41
Уолк (walk), он же бейс он болс (Base on balls), – количество раз, когда бэттер набирает четыре бола и проходил на первую базу. Бол (ball) – подача, осуществленная питчером, не попавшая в страйк-зону.
[Закрыть], а не на данные о его выигрышах и проигрышах в предыдущем сезоне, поскольку первый набор статистических данных выглядит более последовательным от года к году.
Как и при разработке любого прогноза, цель в данном случае состоит в выявлении основополагающей причины – выбивание в аут не позволяет отбивающим игрокам команды соперника добраться до базы, что, в свою очередь, не дает им получить дополнительные очки, а значит – и выиграть матч. Однако чем глубже вы копаете, тем больше шума окажется в системе: результаты питчера определяются не только качеством его ударов, но и факторами, которые он не в состоянии контролировать. Так, отличный питчер команды Seattle Mariners Феликс Эрнандес имел по итогам 2009 г. показатель выигрышей и поражений на уровне 19:5, а в 2010 г. этот показатель был 13:12 – и не потому, что Эрнандес плохо делал свою работу, а потому, что у Mariners’ в 2010 г. был на редкость неудачный состав подающих.
Подобные случаи происходят довольно часто, и если вы уделите изучению данных достаточно времени, то сможете найти их и сами. Пожалуй, именно бейсбол предлагает самый объемный массив данных в мире – практически все, происходившее на игровых полях основной лиги в течение последних 140 лет, скрупулезно и точно записывалось, а в крупных лигах играют сотни спортсменов. При этом, хотя бейсбол и считается командной игрой, матч строится в соответствии с четкой процедурой: питчеры по очереди сменяют друг друга, подающие «выходят к бите» один за другим. Поэтому игроки в значительной степени сами несут ответственность за свою личную статистику[42]42
Это совсем не похоже на футбол, в котором отличные нападающие могут превратить в чемпиона даже команду со средними защитниками, или баскетбол, в котором синергия между распасовщиком и сильным форвардом может привести к большему, чем просто обычная сумма частей. – Прим. авт.
[Закрыть]. В игре возникает сравнительно немного проблем, связанных с чем-то комплексным и нелинейным. В ней просто выявить причинно-следственные связи.
Это значительно упрощает жизнь человеку, занимающемуся прогнозами в мире бейсбола. Гипотезы обычно можно проверить эмпирическим путем, что позволяет подтвердить или опровергнуть их с высокой степенью статистической достоверности. Что же касается прогнозирования в таких областях, как экономика или политика, где данные появляются значительно реже, – президентские выборы происходят один раз в четыре года, и нет возможности получать сотни новых данных ежегодно – вы не можете похвастаться столь же высокой степенью точности, и ваши прогнозы могут оказаться неверными значительно чаще.
Берегитесь – кривая старения!
Однако все, о чем шла речь выше, основывалось на предположении, что способности игрока не меняются год от года – и если бы мы только могли отделить сигнал от шума, то узнали бы все, что нам нужно. Но в реальной жизни навыки бейсболиста постоянно изменяются, и в этом кроется немалая проблема.
Изучив статистику по нескольким тысячам игроков, Джеймс обнаружил, что игра типичного из них{198}198
Или, точнее говоря, типичный подающий. У питчеров имеются совершенно другие, но не менее регулярные закономерности развития.
[Закрыть] год от года совершенствуется до тех пор, пока его возраст не приблизится к отметке примерно в 30 лет, а начиная примерно с этого возраста навыки обычно начинают атрофироваться, что особенно заметно проявляется примерно к 35 годам{199}199
В частности, после достижения подающими возраста 32 лет их навыки начинают заметно и все быстрее становиться хуже.
[Закрыть]. И этот факт позволил Джеймсу сделать одно из самых значительных своих открытий – выявить кривую старения.
Гимнастки-олимпийки достигают пика своей карьеры в подростковом возрасте, поэты – после 30 лет; шахматисты – после 30{200}200
Jeff Sonas, «The Greatest Chess Player of All Time», Part II, Chessbase.com, April 28, 2004. http://www.chessbase.com/newsdetail.asp?newsid=2354.
[Закрыть]; экономисты – после 40{201}201
Bruce Weinberg and David Galenson, «Creative Careers: The Life Cycles of Nobin Economics», NBER Working Paper No. 11799, National Bureau of Economiс Research, November 2005. http://www.econ.brown.edu/econ/sthesis/IanPapers/tcl.html.
[Закрыть], а средний возраст CEO компаний из списка Fortune 500 равен 55 годам{202}202
Del Jones, «Does Age Matter When You’re CEO?» USA Today, September 11, 2008. http://www.usatoday.com/money/companies/management/2008%E2%80%9308%E2%80%9312-obama-mccain-age-ceos_N.htm.
[Закрыть]. Игрок в бейсбол, как обнаружил Джеймс, достигает своего спортивного пика в возрасте 27 лет. У 60 % игроков из списка, включающего 50 самых известных бейсболистов, отмеченных наградами в период между 1985 и 2009 гг., возраст колебался в интервале между 25 и 29 годами, а возраст 20 % из них составлял ровно 27 лет. Именно в этом возрасте, судя по всему, возникает идеальное соотношение между физической и умственной формой, необходимой для игры (рис. 3.1).
Рис. 3.1. Кривая старения для подающего
Осознание этого факта – существование кривой старения – могло бы стать невероятно ценным для любой команды, ознакомившейся с работой Джеймса. В соответствии с принятыми правилами бейсболист не может стать профессиональным игроком, не связанным контрактом, до достаточно поздних этапов своей карьеры. Он получает право на этот статус, отыграв не менее шести полных сезонов в основной лиге (до этого момента он находится под полным контролем своего первого клуба и не может требовать у него полной оплаты по рыночным ставкам).
Поскольку типичный новичок оказывается в крупных лигах в возрасте 23 или 24 лет, он не может стать свободным игроком до 30-летнего возраста – то есть до того периода, когда пик его результативности уже минует. Команды платили многим профессиональным игрокам большие суммы в расчете на то, что они смогут оставаться столь же производительными, что и в возрасте до 30 лет; в реальности же их результаты обычно ухудшались, а поскольку контракты в главной бейсбольной лиге имеют определенные гарантии, у команды были связаны руки.
Однако кривая старения Джеймса рисовала слишком гладкую картину. Разумеется, средний игрок достигает пика в возрасте 27 лет. Но, как скажет вам любой человек, внимательно изучавший в детстве обратные стороны бейсбольных карточек, игроки стареют с разной скоростью. Боб Хорнер, третий бейсмен команды Atlanta Braves в 1980‑е гг., получил награду «Новичок года» в возрасте 20 лет и вошел в команду «Всех звезд», когда ему было 24 года; в то время многие считали, что он точно попадет в Зал бейсбольной славы. Однако к 30 годам, вследствие череды травм и неудачного перехода в команду Yakult Swallows японской лиги, он полностью покинул мир профессионального бейсбола. С другой стороны, великий Эдгар Мартинез из Seattle Mariners не имел постоянного контракта в крупных лигах до 27 лет. Однако ему все равно удалось пережить период расцвета своей спортивной карьеры, хотя и достаточно поздно – после 30 лет: и даже в 40 лет он возглавлял список лиги по количеству RBI[43]43
RBI (Run batted in) – статистический показатель в бейсболе, показывающий число ранов после отбивания бьющим. Ран – очко, заработанное игроком нападения.
[Закрыть].
Хотя случаи с Хорнером и Мартинезом и могут считаться исключением из правила, крайне редко уровень игры других бейсболистов изменяется в точном соответствии с гладкой траекторией кривой старения; скорее, нормой для них оказывается периодически нарушаемое равновесие взлетов и падений.
Реальные кривые старения наполнены шумом – причем значительным (рис. 3.2). В среднем они могут выглядеть довольно гладкими. Однако среднее подобно семье, имеющей 1,7 ребенка, – это всего лишь статистическая абстракция. Возможно, полагал Гэри Хакебей, в шуме есть сигнал, который не учитывала кривая Джеймса. Возможно, у игроков на сложных с точки зрения физических сил позициях навыки пропадают быстрее, чем у других. А возможно, карьера игроков, обладающих более атлетическим сложением, продолжительнее, чем у игроков, имеющих лишь один-два сильно развитых навыка.
Рис. 3.2. Вид кривых старения, на которых отражаются шумы, для различных подающих
На основе системы Хакебея была выдвинута гипотеза, согласно которой имеется 26 различных видов кривых старения, причем каждый из них применим к разным типам игроков{203}203
Gary Huckabay, «6–4–3», Baseball Prospectus, August 2, 2002. http://www.baseballprospectus.com/article.php?articleid=1581.
[Закрыть]. Если Хакебей был прав, то появлялась возможность оценить, какая кривая в большей степени подходит для каждого игрока, и тем самым предсказать, как будет развиваться его карьера. Если кривая старения игрока была похожа на соответствующую кривую Боба Хорнера, то можно было бы ожидать, что пик его карьеры придется на более ранний возраст, а затем наступит раннее угасание. Если же его кривая больше напоминала кривую Мартинеза, то лучшие сезоны этого бейсболиста наступят в более зрелом возрасте.
Хотя системе Vladimir Хакебея и удалось сделать ряд правильных прогнозов, в целом она все же была ненамного более точной, чем медленные и устойчивые прогнозы Джеймса{204}204
Arlo Lyle, «Baseball Prediction Using Ensemble Learning», диссертация, защищенная в 2007 г. в Джорджийском университете, http://www.ai.uga.edu/Theses/lyle_arlo.pdf.
[Закрыть], согласно которым одна и та же кривая старения применялась к каждому игроку. Отчасти проблема заключалась в том, что число 26 для количества категорий Хакебея было выбрано случайным образом, а для того, чтобы определить, к какой группе относится игрок, требовалось скорее искусство, а не наука.
Но, чтобы войти в число элитных игроков в бейсбол, человек должен обладать широким диапазоном физических и ментальных навыков: мышечной памятью, физической силой, координацией между глазами и руками, скоростью удара битой, распознаванием направления полета мяча и силой воли, позволяющей сохранять концентрацию даже в сложные для команды периоды. Понятие о существовании различных видов кривых старения, вытекающее из созданных системой Vladimir, казалось, более точно отражало всю сложность, присущую человеческой природе.
При разработке PECOTA я попытался заимствовать некоторые элементы у Хакебея, а некоторые – у Билла Джеймса. В выпуске Baseball Abstract за 1986 г. Джеймс представил так называемые оценки подобия, которые (как и предполагает их название) были призваны выявить статистическое подобие между статистикой карьеры любых двух игроков основной лиги. Концепция была сравнительно простой. Для начала каждому из двух игроков присваивалось по 1000 баллов, а затем при наличии между игроками различий по тому или иному параметру соответствующие баллы вычитались{205}205
Bill James, «Whatever Happened to the Hall of Fame», Fireside (1995): p. 89.
[Закрыть]. У игроков с высокой степенью подобия итоговый балл мог составлять 950 или даже 975, однако в других случаях расхождения накапливались достаточно быстро.
Оценки подобия могут оказаться невероятно полезными любому человеку с хорошим знанием истории бейсбола. Вместо того чтобы изучать статистику игрока в вакууме, специалисты могут оценить исторический контекст происходящего. Например, статистические результаты Педройи до достижения им возраста 25 лет были идентичны результатам Рода Кэрью, великого игрока из Панамы, возглавлявшего Minnesota Twins в 1970‑х, или результатам Чарли Герингера, звезде команды Tigers времен Великой депрессии. Оценки подобия Джеймса позволяют проводить ретроспективный анализ, предоставляя возможность оценивать прошлые события. Например, с его помощью можно проанализировать, насколько игрок заслуживает, чтобы его приняли в Зал славы.
Если вы считали, что ваш любимый игрок действительно заслуживает это, и могли увидеть, что это удалось 9 из 10 игрокам с идентичной статистикой, то у вас были все шансы верить в успех.
Но можно ли использовать оценки подобия и для предсказания? Например, если мы могли выявить сотню игроков, наиболее сопоставимых с Педройей по возрастным критериям, то в какой степени результаты этих игроков за всю карьеру могли подсказать нам, как будет развиваться карьера Педройи?
Меня заинтересовала эта идея, и так, понемногу, PECOTA начала свое существование в те долгие дни, которые я проводил в KPMG в 2002 г. Она приобрела форму гигантской и разноцветной электронной таблицы Excel. Этот выбор был довольно случайным, поскольку именно Excel был одним из моих основных рабочих инструментов в KPMG (каждый раз, когда мимо моего стола проходил кто-то из начальников, он предполагал, что я усердно тружусь над какой-то особенно сложной моделью для одного из наших клиентов{206}206
Следует, однако, отметить, что для обработки значительного объема фоновых данных PECOTA использовался статистический язык STATA.
[Закрыть]).
Постепенно, отнимая пару часов от работы и по нескольку часов от сна, я смог разработать базу данных, включавшую более чем 10 000 позиций «игрок – сезон» (я учел каждый сезон основной лиги, начиная со времен Второй мировой войны{207}207
Я выбрал в качестве точки отсечения период Второй мировой войны, поскольку вскоре после нее возник целый ряд нововведений, придавших профессиональному бейсболу нынешний вид. В него стали играть представители других рас, начиная с Джеки Робинсона (1947); чемпионат был показан по телевидению (1947); команды переместились на Западное побережье (1957); широкое развитие получили ночные матчи, которые появились еще в 1935 г., однако обрели большую популярность во время войны, когда рабочие проводили долгие смены на производстве и хотели как-то расслабиться по ночам.
[Закрыть]). Кроме этого, я разработал алгоритм, позволяющий сравнивать любого игрока с другим. Алгоритм был чуть более сложным, чем алгоритм Джеймса, и предполагалось, что он сможет в полной мере воспользоваться изобилием данных, присущих бейсболу. В нем был заложен иной метод сравнения набора игроков, метод, называемый на техническом языке метод ближайшего соседа[44]44
Метод ближайшего соседа относится к классу методов, основанных на хранении данных в памяти для сравнения с новыми элементами. При появлении новой записи для прогнозирования находятся отклонения между этой записью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется.
[Закрыть]. Также он учитывал более широкий набор факторов, включая рост и вес игрока, которые обычно принимаются во внимание лишь скаутами.
Как и система Хакебея, PECOTA предполагала, что различные типы игроков могут стареть по-разному. Однако я не стремился сопоставить игру каждого бейсболиста с одной из 26 кривых развития; более того, сопоставление происходило естественным образом с помощью поиска похожих игроков где-то далеко в статистической галактике бейсбола.
Если, допустим, обнаруживалось, что очень многие игроки, статистические параметры игры которых сопоставимы с данными Дастина Педройи, становились сильными игроками основной лиги, то это давало основания надеяться на успех и самого Педройи.
Однако чаще всего мне не удавалось найти однозначно сопоставимые результаты; пути игроков, имевших одинаковую статистику в определенные периоды их карьеры, могли значительно расходиться после этого. Я уже упоминал, что по оценкам подобия, созданным Джеймсом, Педройя был идентичен Чарли Гейгеру и Роду Кэрью, двум игрокам, имевшим долгую и яркую карьеру и попавшим в конце концов в Зал славы. Однако статистика Педройи за этот период была также идентична статистическим данным Хосе Видро, ничем не примечательного игрока второй базы команды Montreal Expos.
Еще сильнее различия могут проявляться у игроков низших лиг[45]45
Низшая лига – лига профессиональных клубов, которые не входят ни в одну из двух высших лиг.
[Закрыть]. В 2009 г. среди игроков, которые выявила PECOTA для сопоставления с Джейсоном Хейвардом, 19-летним кандидатом на позицию в команде Atlanta Braves, можно было найти и участника Зала славы, и жертву убийства. Чиппер Джонс, один из близких по показателям к Хейварду игроков, был примером первого варианта. Это один из величайших игроков Atlanta Braves за все времена, он отыграл с клубом 17 сезонов, и его показатель результативности за всю карьеру в среднем составил 0,304. Он принес команде более 450 хоумранов. С другой стороны, система выдала мне имя Дернелла Стенсона, многообещающего молодого человека, чьи показатели были также идентичны цифрам Хейварда. В 2003 г. после одной из тренировочных игр в Аризоне неизвестные связали его, а потом застрелили, угнав при этом его внедорожник. Судя по всему, произошел случайный акт насилия.
Все сопоставимые с Хейвардом игроки были крупными, сильными спортсменами; они обладали множеством талантов, имели отличные задатки и демонстрировали развитие навыков при играх в небольших лигах. Однако судьба их сложилась совершенно по-разному. Инновационный характер PECOTA был призван признать этот факт: система выдавала диапазон возможных исходов для каждого игрока, основанный на прецедентах с сопоставимыми игроками. По сути, это были наилучший, наихудший и наиболее вероятный сценарий. Но нужно помнить, что каждый раз при попытках предсказать развитие человека нам придется сталкиваться с бесконечным диапазоном возможных исходов.
Пока что для Хейварда все складывалось ни шатко ни валко. После удачного для него 2009 г., когда он был назван «Игроком года в низшей лиге», Хейвард дебютировал в команде Braves в 2010 г. и обеспечил своей команде восемь хоумранов в первых 30 играх в основной лиге. После этого он вошел в состав «Звездной команды», превзойдя все ожидания. Однако сезон 2011 г. оказался для него более сложным, и его результат не превысил 0,227. Хорошая система статистического прогнозирования позволяет сохранять оптимизм даже после выступления Хейварда в сезоне 2011 г. – все его показатели были, по сути, теми же, если не считать результативности ударов по мячу, а этот показатель зависит от удачи значительно больше, чем другие.
Но может ли статистика сказать вам все, что вы хотите узнать об игроке? Десять лет назад эта тема была одной из самых обсуждаемых в мире бейсбола.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?