Текст книги "Код бестселлера"
Автор книги: Мэттью Джокерс
Жанр: Зарубежная образовательная литература, Наука и Образование
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 2 (всего у книги 16 страниц) [доступный отрывок для чтения: 5 страниц]
Из любви к книгам
Вернемся к писателям, которые получили множество отказов, но в конце концов прославились. Наша система предсказала Дж. К. Роулинг успех с вероятностью 95 %. Джону Гришэму – с вероятностью 94 %. Паттерсону – 99,9 %. История позволила нам убедиться в точности этих предсказаний. А вот с книгой Кэтрин Стокетт «Прислуга» наша система ошиблась. «Прислуга» оказалась в числе примерно 15 % книг, которые повергли компьютер в недоумение. Он дал ей лишь 50 % вероятности стать бестселлером. В следующих главах мы расскажем о сложностях, с которыми столкнулись, моделируя работу редактора с помощью компьютера. Пока достаточно будет сказать, что система проводит чрезвычайно глубокий анализ; прочитав книгу Стокетт, она заключила, что стиль в целом хорош и понравится американским читателям, что тематика тоже в целом хороша, но использование эмоционально нагруженного языка и в особенности глаголов отличает «Прислугу» от книг, с большой вероятностью попадающих в список бестселлеров. Речь идет о книге, которая привлекла внимание рецензентов тем, что белая писательница активно использовала имитацию диалекта чернокожих персонажей. Мнения рецензентов о правомочности такого авторского решения разделились; и оказалось, что наша система в точности предсказала это разделение во всех источниках, от New York Times до сайта goodreads.com.
Вероятно, вы спросите: зачем пытаться с помощью компьютера смоделировать работу, которую и так выполняют хорошие редакторы? Возможно, будь наша система уже внедрена, творения Дж. К. Роулинг опубликовали бы раньше. Возможно, Джон Гришэм получил бы аванс побольше за свою первую книгу «Пора убивать»[23]23
A Time to Kill, John Grisham.
[Закрыть]. Но в конце концов эти писатели добились славы. Редакторы были не уверены в успехе «Прислуги». Наша система – тоже. Какая тогда от нее польза?
Дело в том, что мы ищем компоненты успеха не только для того, чтобы получить от этого материальную выгоду. Конечно, очень интересно, что наша система выделила из общей массы Дж. К. Роулинг, Лиану Мориарти (вероятность успеха 99,6 %) или Джонатана Франзена (98,5 %). Мы считаем, что публичное обсуждение сотрудничества человека и компьютера важно, особенно в том, что касается творческой деятельности. Но поиски новых подающих надежды рукописей в пошатнувшейся книгоиздательской отрасли проводятся с целью не только удержать эту отрасль на плаву, но и поддержать ее разнообразие. Безусловно, нами движет желание выявить и объяснить скрытые закономерности человеческой культуры. Но, если подходить к делу более практично, мы хотим помочь издательствам в поиске новых авторов, чтобы направить часть бюджета, отведенную Кингу, Паттерсону или Стил, на молодых писателей, которые придут им на смену. Мы хотим, чтобы писатели – как опытные, так и молодые – узнали больше о своем ремесле и получили информационную поддержку. Мы хотим, чтобы книги людей, не имеющих нужных контактов в Нью-Йорке, нашли своего читателя. Нашей системе все равно, публиковался ли этот автор раньше, есть ли у него диплом бакалавра искусств, мужчина это или женщина, латиноамериканского или китайского происхождения, красив автор или некрасив и сколько ему лет – двадцать пять или семьдесят. Поэтому наша работа еще и уравнивает шансы на успех. Может быть, в один прекрасный день знакомый вашего знакомого отправит рукопись в издательство, получит индекс 80 % и ему выдадут хороший аванс, так что он сможет наконец уволиться с работы, и ему больше не нужно будет вскакивать в четыре часа утра, чтобы выкроить время для писательских занятий.
Когда мы пишем о романах, фигурирующих в самом знаменитом и уважаемом списке – еженедельном списке бестселлеров New York Times, – мы тем самым кричим во все горло, призывая неравнодушных читателей – как профессионалов книжного мира, так и любителей – поговорить о книгах для масс[24]24
Списки бестселлеров в разных странах немного различаются, но мы будем говорить исключительно о списке NYT, поскольку он неизменно играет роль культурного стандарта и наиболее важен для книжной отрасли. В интернете легко найти критику методов, по которым составляются подобные списки, поскольку ни один из них не покрывает абсолютно все продажи из всех источников. Список NYT учитывает примерно 75 % всех продаж и строится на данных Nielsen BookScan. (Примеч. авторов.)
[Закрыть]. Над бестселлерами чаще потешаются, чем рассматривают как серьезные литературные произведения или хотя бы плоды писательского мастерства. Однако, игнорируя их, мы упускаем большую часть современной культуры и истории чтения. Помимо того что авторы бестселлеров приносят в экономику миллионы долларов, их заслуга – в том, что они заставляют нас читать. Они заставляют нас воображать, обсуждать, думать, чувствовать, сопереживать другим. Они помогают фантазировать, подглядывать за чужой жизнью, бежать от действительности. Романисты из списка New York Times дают пищу для разговоров и споров о литературе по всей стране – в барах, в поездах, дома за ужином. Именно на этих писателей смотрят, желая узнать, куда движется наша литература. Именно к ним обращаются, чтобы лучше понять жизнь. К ним прибегают, чтобы развить вкус, выработать мнения и научиться их выражать. Мы будем только рады, если сможем рассказать читателям что-то новое об их любимых писателях.
Вероятно, вы уже поняли: авторы, то есть мы, до того страстно преданы книгам и чтению, что отдали в общей сложности пятьдесят лет изучению и преподаванию нарратива и еще несколько – закупкам и продажам книг для крупнейших издателей страны. Мы выступали в роли наставников при написании романов и отстаивали свое право любить и ненавидеть разные (а иногда – одни и те же) произведения. Мы расхваливали издателям книги самых разных жанров, стараясь добиться их публикации. Мы (иногда втайне) помогали своим лучшим студентам и своим друзьям, мечтающим о карьере литератора, писать письма их родителям, супругам и будущим издателям, объясняя, почему автор письма просто обязан был бросить устроенную жизнь, учебу на врача – и отправиться на поиски колдовского зелья, сулящего то экстаз, то депрессию, – на поиски жизни в словах и историях. Не будет преувеличением сказать, что мы «купились» на ту свободу, то высшее (высочайшее) образование, которое получаешь, читая и создавая книги. Мы в первую очередь читатели, а потом уже писатели. Учитывая наше преклонение перед книгами, нет ничего удивительного в том, что мы обратились за помощью к компьютеру.
Откуда мы взялись
Вероятно, больше всего открытию «бестселлерометра» (прозвище нашей системы) удивились мы сами. Честно говоря, наши исследования начались лишь потому, что нас «нутром» потянуло в эту сторону. Четыре года ежедневного совместного труда принесли результаты, каких ни один из нас не ожидал, несмотря на наш разнообразный опыт: у Джоди – в книгоиздании и современной литературе, а у Мэтта – в литературе и модной нынче дисциплине, именуемой «цифровые гуманитарные науки».
Все началось с того, что Джоди ушла с должности редактора-рецензента в издательстве Penguin Books, чтобы пойти в аспирантуру по английскому языку в Стэнфордском университете. От работы в книжной индустрии у Джоди остался жгучий вопрос, на который она так и не получила ответа: отчего романы становятся бестселлерами? А также связанные с этим скрытые, еще более интересные вопросы: почему читатели читают? Какую роль выполняет чтение в современной культуре?
Когда Джоди только пришла работать в Penguin, ее определили в отдел продаж. Иногда в обеденный перерыв она заглядывала в ближайший книжный магазин, чтобы проверить, выполняет ли он свои обязательства по продвижению книг – действительно ли те размещены на бойких местах в соответствии с суммами, потраченными на маркетинг. Очень часто, и это отнюдь не секрет, издатели платят за то, чтобы их «хиты» выставлялись на виду. Руководство магазина берет деньги и обязуется расположить книгу, например, в первом ряду на первом столе или на полке так, чтобы обложка была полностью видна и смотрела прямо на покупателя. Считается, что такое стратегическое размещение способствует продажам. В то время по спискам бестселлеров шествовал победным маршем «Код да Винчи». Неделю за неделей Джоди видела большую синюю цифру «1» и убеждалась в том, что роман Дэна Брауна продолжает покорять мир.
Через несколько месяцев стало очевидно: сколько бы издатели ни платили за размещение клонов Дэна Брауна на видных местах, им не светило попасть в одну лигу с «Кодом да Винчи». Его феноменальный успех объяснялся не суммами, затраченными на рекламу и маркетинг, а чем-то другим. Никакие расходы не гарантируют столь длительного воздействия на умы читателей всего мира и тем более не обеспечат тиража 80 миллионов. Такой успех не может объясняться только рекламной шумихой. Значит, есть что-то кроме маркетинга, связанное именно с этими словами на этих страницах.
Конечно, глупо было бы утверждать, что маркетинг и реклама совсем не влияют на продажи. Разумеется, влияют. Должна быть некая корреляция, объясняющая тот факт, что 80 % бестселлеров принадлежат пяти крупнейшим издательствам, обладающим значительными средствами на рекламу и маркетинг. Но было бы так же глупо утверждать, что любой доллар, затраченный на маркетинг, всегда дает одинаковую отдачу: слишком много мы видели и огромных сумм, потраченных безрезультатно, и публикаций силами автора, имевших бешеный успех. «Пятьдесят оттенков серого» сначала появилась в электронном виде, а также распространялась по модели «печать по требованию» в мягкой обложке – издательством, у которого вообще не было ни гроша на рекламу. Чтобы напечатать свою книгу «Хижина»[25]25
The Shack, William P. Young.
[Закрыть], Уильям Пол Янг воспользовался кредитными карточками, а на маркетинг потратил всего 300 долларов – во столько обошлась ему разработка веб-сайта. На сегодня эта книга разошлась десятимиллионным тиражом. Вот примеры других бестселлеров, непохожих на «Хижину», но также пришедших к успеху и похвале критиков через нетрадиционные каналы распространения: экспериментальный онлайн-роман Марка Данилевского «Дом листьев»[26]26
House of Leaves, Mark Z. Danielewski.
[Закрыть] и книга Криса Уэра «Джимми Корриган, самый умный ребенок на Земле»[27]27
Jimmy Corrigan: The Smartest Kid on Earth, Chris Ware.
[Закрыть], первоначально опубликованная на средства автора, а ныне один из самых популярных «графических романов» новой волны. Примеров таких можно набрать много – достаточно, чтобы понять: на вопрос «почему одни книги читают миллионы, а другие в лучшем случае десятки людей?» ответить «маркетинг» – значит в лучшем случае ответить наугад.
Джоди пришла со своим исследовательским вопросом к Мэтту, который в то время был лектором в Стэнфордском университете и сооснователем Стэнфордской литературной мастерской. Объединив усилия, Джоди и Мэтт поняли, что существует другой ответ, не просто «маркетинг». В 2008 году Мэтт как раз закончил свою часть работы над исследованием авторского стиля священного текста «Книга мормона» (The Book of Mormon) с помощью компьютера. Эта работа вызвала много споров. Результаты компьютерного анализа авторского стиля «Книги» дали возможность предположить, что ее действительно писал не один человек, то есть выдвигавшиеся ранее гипотезы, возможно, были верны. Исследование также подкрепило одну определенную теорию происхождения «Книги», которую церковь мормонов отвергла как ложную. Результаты анализа не давали сделать однозначное заключение, но отклики на статью, в том числе весьма интересное опровержение, сделанное мормонскими богословами из Университета имени Бригама Янга, показали, каким революционным орудием может быть компьютерный анализ текста.
Эта работа над определением авторства и «стилеметрией» убедила Мэтта в том, что компьютеры видят многое и помогают нам обнаружить в тексте то, чего мы обычно не замечаем. Дальнейшие исследования позволили Мэтту создать компьютерную программу, которая с точностью 82 % определяла пол автора всего лишь по его или ее манере использовать самые простые слова английского языка, такие как the[28]28
Определенный артикль в английском языке.
[Закрыть] и of[29]29
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «из», «от» и др. (Примеч. перев.)
[Закрыть]. Мэтт не первым заметил, что у авторов-мужчин и авторов-женщин – разные стилевые привычки, но в своей работе он сосредоточился исключительно на романах XIX века. Затем он обнаружил, что, опираясь лишь на использование слова the, компьютер может достаточно уверенно определить, английский это писатель или американский.
Реакцию Джоди можно примерно описать словами «Ну и что?». Конечно, очень интересно, что компьютер может отличить британца от американца, но это – искусственная задача, решение которой никому не интересно. Чтобы убедиться в могуществе компьютерного метода, Джоди хотела увидеть, как с помощью машин решаются настоящие литературоведческие задачи. Мэтт же, в свою очередь, был не в восторге от того, что Джоди зациклена на современных бестселлерах. Он считал их одноразовыми поделками – прочел и забыл. Его надо было убедить, что в них скрыто золото, которое оправдает труды старателя.
Все это было несколько лет назад. С тех пор мы объединили свои силы и бросили их на доказательство следующей гипотезы: все бестселлеры характеризуются определенным набором скрытых сигналов, неким тайным кодом. Вместо того чтобы угадывать, какая книга окажется популярной, мы решили довериться тому, что читатели уже поняли, сами того не заметив. Список бестселлеров лишь на первый взгляд кажется случайной подборкой непохожих друг на друга книг – на самом деле это еженедельно обновляемый набор сигналов, на зов которых идет читатель, и этот набор постоянно уточняется посредством коллективного голосования. Учит ли чему-нибудь глас читающего народа? Смогут ли наши компьютеры выделить сигнал из этого шума? Есть ли у этих броских обложек – будь то высокоинтеллектуальные романы из университетской программы или чтиво для пляжа – что-нибудь общее?
Если ответ «да», то мы сможем узнать кое-что об анатомии успеха. Мы сможем даже опровергнуть распространенную в книжном мире теорию и создать алгоритм, позволяющий предсказать, станет ли та или иная книга бестселлером.
Итак, мы начали обучать компьютер чтению.
Машинное чтение
Конечно, компьютеры на самом деле не умеют читать, во всяком случае – в том смысле, в котором вы читаете эту страницу. Но можно также сказать, что они умеют читать в том смысле, в каком они умеют делать все остальное – они «считывают» текст, то есть принимают его в качестве входной информации. Затем они проводят разбор, то есть разбивают текст на единицы, которые мы, люди, считаем осмысленными: буквы, запятые, слова, предложения, главы и т. д. На этой стадии компьютер в значительной мере подражает человеку, и чем совершенней была обучающая программа, тем точнее подражание. Разница между читателем-человеком и читателем-машиной заключается в том, что человек понимает значение читаемого текста, а компьютер – нет. Ирония здесь, однако, в том, что компьютерный способ чтения позволяет нам вглядеться в текст пристальней любого самого опытного литературного критика. Все потому, что компьютеры – мастера различать детали в таком мелком масштабе, какой человеку и не снился.
Вспомним вопрос, с которого началось наше исследование. Можно ли предсказать заранее, что та или иная книга станет бестселлером? Чтобы предсказывать, нужно уметь обнаруживать закономерности. Если вы не умеете гадать на картах, то вся ваша надежда – на способность распознавать определенные характеристики текста. Обычно такими вещами занимаются литературные критики и ученые-литературоведы. Джозеф Кэмпбелл, великий специалист по мифологии, всю жизнь читал мифы и легенды разных народов мира и научился видеть в них схожие мотивы. Он был мастером по распознаванию повторяющихся узоров. Но даже если человек всецело предан своему делу, объем текстов, которые он может переработать, конечен, и столь же ограниченно внимание, с которым он исследует каждую отдельную книгу. Следовательно, в обоих направлениях мы сталкиваемся с ограничениями масштаба и как будто вынуждены одним глазом смотреть в микроскоп, а другим – в телескоп.
Еще один ученый, обладающий завидным трудолюбием, – Кристофер Букер – потратил тридцать лет на чтение сотен книг, чтобы выдвинуть следующую теорию: все литературные произведения и вообще все истории соответствуют семи основным сюжетам. Допустим, он трудился сорок лет и прочел тысячу книг. Допустим также, что из прочитанного он запоминал гораздо больше, чем средний человек. Но кластер компьютеров, обученных надлежащим образом, может прочитать несколько тысяч романов и проанализировать все эти тексты по тысяче параметров примерно за один день. При этом компьютеры обладают невероятной способностью замечать то, что мы, люди, принимаем как должное или вообще игнорируем.
Вот лишь один пример. Как читатели – особенно читатели, обученные пристально вглядываться в текст, – мы отмечаем прилагательные, которые использует писатель. Но, скорее всего, не обратим внимания на соотношение числа существительных и прилагательных, то есть на то, как часто автор использует прилагательное для описания существительного. А вот компьютер прекрасно приспособлен для того, чтобы замечать именно такие вещи – и они важны, поскольку определяют авторский стиль и манеру описаний. Компьютер может также вычислить это соотношение для данной книги и сравнить с тем же показателем у тысячи других книг. Если окажется, что у бестселлеров этот показатель в среднем выше (или ниже), значит, данный параметр имеет какое-то значение.
Предлагаю вам проделать небольшой эксперимент, когда будете в следующий раз выбирать книгу для чтения. Вместо того чтобы последовать рекомендации друга или выбрать книгу знакомого автора (или в любимом жанре), попробуйте взять недельный список бестселлеров NYT и прочитать их все по очереди. Можете это сделать вместе с книжным клубом, в котором состоите, или всей группой на курсе английской литературы. Если вы будете читать внимательно, то скоро уподобитесь нашим компьютерам и начнете замечать неожиданные параллели между литературными шедеврами и массовым чтивом, книгами «для мужчин» и «для женщин», Паттерсонами и пулитцеровскими лауреатами и т. п. Некоторые общие мотивы вас удивят. Например, вы зададитесь вопросом: почему так много книг, в которых главной героине двадцать восемь лет? Имеет ли это какое-то значение? Вы спросите себя, сознательно ли авторы помещают первую любовную сцену на страницу 200, если в романе 400 страниц, или на страницу 110, если страниц 220. Если да, то почему? Вы будете спорить с друзьями о том, определяется ли низкое качество романа, в остальном очень хорошего, отсутствием удовлетворительной развязки. Возможно, вы даже придете к выводу: бестселлеры всех категорий имеют столько скрытых общих черт, что фактически представляют собой отдельный жанр.
Интересно здесь то, как остро и притом незаметно для себя люди во время чтения реагируют на подобные характеристики книги. Специалисты из новой, стремительно развивающейся области «литературной неврологии» используют ЯМР-томографию для исследования мозга человека во время чтения. Эксперимент направлен на выявление того, что замечает читатель. Когнитивная психология подходит к вопросу «как читает читатель?» совершенно под иным углом, чем мы, но оба подхода базируются на одном постулате: отклик читателя на литературный текст зависит от того, из каких слов состоит этот текст, в каком порядке они выстроены и как организованы в предложения. И какую реакцию они вызывают.
Значит, использование компьютерного чтения никак не противоречит обычному подходу литературных критиков. Более того, рассмотрение характеристик текста «под лупой», их извлечение и последующий анализ очень часто используются в традиционных критических подходах и позволяют получить представление о тексте на уровне, который был невозможен раньше.
Компьютер можно научить читать текст и извлекать из него информацию множеством способов[30]30
Общее описание нашего метода содержится в послесловии. (Примеч. авторов.)
[Закрыть]. Алгоритмы и программы, созданные нами для данного исследования, направлены на обработку текстов и сбор детальной информации (о неповторимом стиле каждой книги, ее тематике, эмоциональных подъемах и спадах в повествовании, персонажах, местах действия). Также эти программы обрабатывают огромное количество скучных на первый взгляд лингвистических данных, которые не так просто перевести на язык привычных концепций стиля и сюжета. При обработке художественных произведений большого объема, какие обычно изучаются на курсах писательского мастерства и в пособиях для начинающего романиста (тема, сюжет, стиль и т. д.), обычно анализируются сотни параметров. Например, чтобы дать формальное описание стиля, мы использовали несколько сотен переменных: как часто у автора попадаются слова типа a[31]31
Неопределенный артикль в английском языке.
[Закрыть], the, in[32]32
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «в», «через» и др. (Примеч. перев.)
[Закрыть], she[33]33
Она (англ.).
[Закрыть]; как часто автор использует точки и восклицательные знаки; как часто – наречия и какие именно. Эти мелкие детали так много говорят читателю! Посмотрите, как важны местоимения для создания эффекта в знаменитой фразе из романа Шарлотты Бронте «Джейн Эйр»[34]34
Jane Eyre, Charlotte Brontё.
[Закрыть]: «Читатель, я вышла за него замуж». Компьютер обращает внимание на слово «него», на то, как часто мы слышим про «него» и как часто это местоимение встречается рядом с самым главным местоимением – «я» рассказчицы. Компьютер замечает, что «я» и «он» попадаются все ближе друг к другу во все большем количестве предложений, и их разделяет все меньше и меньше слов. Конечно, читатель тоже следит за этим. Разве главная развязка множества книг не заключается в том, чтобы «я» и «он» пошли по страницам рука об руку, разделенные лишь немногими важнейшими словами, такими как «вышла за»? Очень часто мы, не в силах оторваться от книги, продолжаем листать ее исключительно ради этого.
Вопросительные и восклицательные знаки тоже многое могут поведать. Возможно, вы помните, как писали сочинения в школе и как учитель советовал вам не злоупотреблять восклицаниями. Если каждая фраза визжит от возбуждения («О боже!»), или командует («Руки вверх!»), или кричит от боли («Ой!»), или жутко грохочет в подвале среди ночи («Бу-бух!»), то у читателя, не ровен час, может случиться сердечный приступ. Если текст изобилует восклицательными знаками, это кое-что говорит как о его возможном содержании и уровне накала страстей, так и о профессионализме автора. Аналогичным образом обилие вопросительных знаков указывает на то, что этот текст – диалог, а бесконечные страницы текста без единого вопросительного знака могут замедлить динамику повествования и притупить интерес читателя. Эти черты индивидуального стиля мы обсуждаем в 4-й главе.
Мы начали с извлечения свыше 20 тысяч параметров – имейте в виду, что количество восклицательных знаков и частота употребления слова «него» это лишь два из них, – и изучили их все. Некоторые были приметами стиля, другие помогали что-то узнать о сюжете и месте действия, а третьи поясняли, о чем, собственно, книга. Оказалось, что не все эти параметры помогают отличить книгу, набравшую миллионы читателей, от той, которая, несмотря на все свои уникальные достоинства, провалилась. Например, выяснилось, что использование чисел в заглавии – «911», «1984», «867–5309», «$ 1 000 000» – никак не стимулирует продажи. Аналогичным образом мы потратили много времени, обучая компьютер распознавать место действия (например, действие книги «Дьявол носит Prada»[35]35
The Devil Wears Prada, Lauren Weisberger.
[Закрыть] происходит целиком в Нью-Йорке, а действие «Исчезнувшей» начинается в Нью-Йорке, а потом переносится в штат Миссури), но оказалось, что, за малыми исключениями, географическое положение героев совершенно не влияет на популярность у читателей. В Нью-Йорке происходит действие как бестселлеров, так и книг, не имевших никакого успеха. Литературные мегахиты, действие в которых разворачивается в этом городе, – взять хотя бы «Обнаженную для тебя» Сильвии Дэй, «Костры амбиций»[36]36
The Bonfire of the Vanities, Tom Wolfe.
[Закрыть] Тома Вулфа, «По-быстрому»[37]37
The Quickie, James Patterson.
[Закрыть] Джеймса Паттерсона, «Жутко громко и запредельно близко»[38]38
Extremely Loud & Incredibly Close, Jonathan Safran Foer.
[Закрыть] Джонатана Сафрана Фоера – явно (намеренно со стороны автора или случайно) обладают какими-то иными, более важными «генами бестселлера».
В конце концов мы отфильтровали свой список параметров, оставив от 20 тысяч примерно 2800, которые помогают отличить популярные у читателей книги от предназначенных для – будем честны – узкой читательской ниши. Сначала мы научили компьютеры читать книги и извлекать из них нужные данные, а затем проанализировали эти данные, используя другой набор компьютерных программ – для обнаружения и исследования скрытых закономерностей. В этой фазе анализа мы использовали процесс, весьма метко называемый машинным обучением. При анализе текстов бывает нужно сортировать или классифицировать их по сходству и различию. Например, мы хотим отличать спам от обычных сообщений в электронной почте. Поскольку у спамерских посланий много общего – искаженное написание слов, частое упоминание виагры и т. д., – можно написать программу, которая будет определять, с какой вероятностью данное сообщение окажется спамом. Сортировка романов на бестселлеры и небестселлеры очень похожа на действия, выполняемые спам-фильтром в электронной почте. Допустим, у нас есть новая книга, которую мы видим в первый раз, и мы хотим понять, может ли она стать бестселлером. Если у нас уже есть куча бестселлеров («не спам») и куча книг, которые бестселлерами не стали («спам»), мы можем ввести их все в компьютер и научить его отличать книги одной категории от другой по определенным параметрам. Именно так мы и поступили. Более того, мы проделали это тремя разными способами, усреднили результаты и обнаружили, что в 80 % случаев наша система правильно определяла, какой текст из нашего корпуса – бестселлер, а какой – нет[39]39
Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.
При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. (Примеч. авторов.)
[Закрыть].
Этот средний показатель 80 % означает, что, если взять наугад из недавно опубликованных книг 50 бестселлеров и 50 так и не ставших ими, наш компьютер правильно классифицирует 40 бестселлеров и 40 небестселлеров. Конечно, это значит также, что компьютер сочтет 10 бестселлеров провальными, а 10 небестселлерам напророчит блестящий успех. В проведенной нами серии тестов компьютер, в частности, был абсолютно уверен, что «Гордость и предубеждение и зомби»[40]40
Pride and Prejudice and Zombies, Seth Grahame-Smith.
[Закрыть] не будет иметь успеха, – и ошибся. Конечно, «Гордость и предубеждение и зомби» вышла тогда, когда любая отсылка к Джейн Остин гарантировала книге внимание читателей, а в кинотеатрах пачками шли фильмы про зомби. Но в данном случае контекст оказал непропорционально большое влияние на уровень продаж.
Конечно, были еще и небестселлеры, которые наш компьютер превознес до небес, но это отдельная история.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?