Существует клише, кочующее по фильмам и сериалам о полицейских и агентах спецслужб. Когда приходит время разгадать очередную загадку, они достают улики, вешают на стену карту, где отмечены нераскрытые преступления, и пытаются понять, что их объединяет.
Современные средства анализа данных предназначены для решения поразительно похожей задачи. Они, как и агенты в кино, ищут скрытые закономерности в имеющейся информации. Правда, как правило, с более мирными целями.
Сети магазинов используют анализ «больших данных», чтобы узнать предпочтения своих покупателей. Финансовые организации ищут в скудной информации о клиентах зацепки, помогающие оценить вероятность возврата кредита. Платёжные системы пытаются отсеять мошенников, учитывая тончайшие отличия их поведения.
Эти технологии вполне могли бы применяться для того, чтобы раскрывать или даже предотвращать преступления. Оценивать вероятность совершения преступлений можно с помощью тех же средств, которые предсказывают невыплату кредита или составляют портрет покупателя. У преступников должно быть что-то общее — и анализ данных способен показать, что именно.
Это не новая идея. Около двадцати лет назад лондонская полиция предприняла попытку определить черты, которые объединяют людей, осуждённых за изнасилования. Оказалось, что многие будущие насильники в прошлом имели дело с полицией в связи с мелким, но очень своеобразным преступлением, — воровством женского белья, которое сушится на улице. После этого открытия таких воришек поставили на особый учёт.
В девяностые подобные исследования были исключительно трудоёмким занятием. Готового программного обеспечения, автоматизирующего процесс, не было, да и сами данные представляли собой записи на бумаге, пылящиеся в архивах. Вся работа выполнялась вручную — а это значит, что анализу подвергалась лишь малая доля возможной информации.
Сейчас один из лидеров в этой области — корпорация IBM. В 2011 году она приобрела британскую компанию i2 Group, которая разрабатывала аналитические средства для правоохранительных органов, спецслужб, военной разведки и специалистов по борьбе с «фродом».
Один из продуктов, основанных на i2, предназначен специально для полиции. Он позволяет быстро получить доступ к информации, накопленной американскими правоохранительными органами, и проявить в ней скрытые связи между людьми, местами, автомобилями, мобильными телефонами и тому подобными объектами.
В 2007 году полиция города Дарема в Северной Каролине начала использовать средства i2 для анализа своего архива данных о преступности. За четыре года в одном из районов города количество совершаемых преступлений удалось сократить на 50%. Вряд ли такой прогресс объясняется исключительно силой софта IBM, но и его вклад никто не отрицает.
В канадском Ванкувере полиция внедрила систему анализа данных, основанную на разработках IBM и географической информационной системе Esri. Система не только выявляла тенденции, но и предсказывала вероятное время и место совершения преступлений. С 2007 до 2011 года количество преступлений, связанных с собственностью, сократилось на 24%, а насильственная преступность — на 9%.
Похожие результаты сообщают полицейские департаменты Лас-Вегаса, Мемфиса и других городов, где экспериментируют с программами для анализа данных.
Простым и доступным для понимания примером того, как устроены такие программы, может служить «классификатор преступников», продемонстрированный на конференции Strata 2013. Специалист по анализу данных Джим Адлер сделал его для того, чтобы показать, насколько «большие данные», с одной стороны, полезны полицейским, а с другой — опасны.
Адлер скормил самообучающемуся алгоритму (ADTree) сведения о нескольких десятках тысяч жителей американского штата Кентукки, привлекавшихся к уголовной ответственности с начала восьмидесятых годов прошлого века. Из опубликованных полицией записей извлекались приметы: наличие татуировок, цвет кожи, глаз и волос, пол, история столкновений с законом и тяжесть правонарушений, совершённых в прошлом.
Алгоритм построил дерево решений, где каждой ветви присвоен определённый вес. Например, при выборе мужского пола результат вырастает на 0,1, а при выборе женского — уменьшается на 0,5. Вес всех выбранных ветвей суммируется. Если результат превышает вычисленное при обучении пороговое значение, то рассматриваемый человек объявляется потенциальным преступником.
На первый взгляд, классификатор неплохо справлялся со своей работой. При тестировании с наиболее «агрессивными» настройками алгоритм верно идентифицировал 51 246 человек, осуждённых за тяжкие преступления, то есть все сто процентов преступников, упомянутых в выборке Адлера. При этом количество ложных срабатываний составило 2 200. При более мягких настройках невиновные попадаются реже (152 ложных срабатывания), но тогда ускользает и часть преступников (учтено 37 842 из 51 246).
Адлер не уверен, что это можно считать успехом. Что, в сущности, показал эксперимент? Что преступников можно различить по цвету кожи, полу и наличию татуировок? Или то, что в людях с известным цветом кожи полиция заранее подозревает преступников, а наличие татуировок оказывает влияние на отношение суда? В базе данных, по которой обучался алгоритм, нет нераскрытых преступлений. Отсутствуют в ней и оправдательные приговоры, а ведь цвет кожи определённо коррелирует с финансовыми возможностями, нужными для того, чтобы нанять хорошего адвоката. Это не может не влиять на результат.
В результате переработки исторических данных получился не классификатор преступников, а экспертная система, кодирующая предрассудки полицейских из Кентукки. По мнению Адлера, это демонстрирует необходимость критичнее относиться к анализу данных. Некоторые результаты — не то, чем кажутся. «Как и настоящее искусство, настоящий анализ данных порождает не меньше вопросов, чем ответов, — пишет он в блоге. — Иногда эти вопросы неприятны, но в конечном счёте они ведут к лучшему итогу».
Двусмысленный исход эксперимента Адлера вовсе не значит, что порочен сам метод. В данном случае подвели исходные данные. Большее количество учитываемых критериев и куда более серьёзный объём исходных данных, скорее всего, смогли бы сделать выводы алгоритма точнее, неожиданнее и ценнее.
Правоохранительным органам так или иначе придётся осваивать «большие данные». В противном случае их опередят преступники, которых не сдерживают бюрократия, законы и приличия. Если «анализ данных» даёт нужный результат, ничто не помешает им построить свои кластеры, добыть продукты IBM и нанять аналитиков. Это уже происходит.
Когда лондонская полиция вела раскопки в архивах дедовскими методами, в колумбийском наркокартеле Кали анализ данных давно был поставлен на широкую ногу. В начале девяностых картель приобрёл мощную компьютерную систему IBM AS/400, стоившую в те времена полтора миллиона долларов, и обзавёлся штатом сисадминов и программистов, разрабатывающих специализированный софт для data mining.
Техника была нужна для того, чтобы прочесать краденые базы данных с рабочими и домашними телефонами сотрудников американских спецслужб и дипломатических работников в Колумбии, сопоставить их с полным списком всех телефонных звонков, которые совершаются в стране, и выявить потенциальных информаторов, подлежащих ликвидации. Об эффективности затеи можно судить по тому факту, что, когда эта история всплыла на свет, американское Управление по борьбе с наркотиками предпочло сохранить подробности произошедшего в секрете.