7-го августа компания America OnLine (AOL) на своем исследовательском сайте выложила большой массив данных, содержащих поисковые запросы пользователей с некоторой дополнительной информацией. Данные пролежали в свободном доступе совсем недолго, но этого оказалось достаточно.
Данные содержали около 36 миллионов поисковых запросов, задававшихся более чем полумиллионом пользователей с марта по май 2006 года. Никакой личной информации о пользователях не было, пользователи скрывались за числовыми идентификаторами. Хотя архивы на сайте AOL и исчезли из свободного доступа, их успели загрузить и выложили на других серверах, куда компания AOL уже не имела доступа.
Зачем же выкладывали такие данные и почему так быстро убрали их из свободного доступа?
Данные предлагалось использовать сторонним специалистам для изучения предпочтений пользователей. Но несмотря на то, что в структуре данных не содержалось персональной информации, такая информация часто содержалась в самих поисковых запросах. Многие ведь пробовали найти упоминания о себе, своих близких и знакомых с помощью поисковых систем, используя для этого имена, фамилии, адреса и номера телефонов.
Позже представители AOL признали свою ошибку и извинились, кроме этого сообщили, что в компании начато внутреннее расследование инцидента.
Реальные люди, скрывающиеся за цифровыми ID
Наиболее интересными были исследования цепочек поисковых запросов, задаваемых одним и тем же пользователем в течение некоторого времени. Посыпались публикации о “самых жутких поисковых запросах” AOL-пользователей. 9-го августа издание New York Times опубликовало статью о пользователе 4417749, которым оказалась одинокая 62-летняя Тельма Арнольд, проживающая в городке Лильберн, штат Джорджия. Она подтвердила изданию, что действительно задавала запросы, зачитанные корреспондентом из списка.
21-го августа появились сообщения, что из AOL уволили трех сотрудников, ответственных за выкладывание данных: технического руководителя отдела, ответственного менеджера и исследователя, который выложил данные. На сегодняшний день компания сообщает об изменениях в технологиях хранения данных и уменьшении количества сотрудников с правами доступа к персональной информации пользователей.
В русскоязычной части сети сайт AOL не пользуется большой популярностью, русскоязычных запросов там мало, но аналогичный массив данных может построить любая поисковая система, где учитываются не только сами запросы, но и посетители, которые их задают.
Владимир Чернышов, специалист отдела развития и продвижения ЛІГА.net.