Точный портрет пользователя соцсетей можно сделать, анализируя лайки, которые он ставит, сообщают математики из Кембриджа. Такое «теневое портретирование» может быть использовано как в научных, так и в корыстных целях, а также для программирования общественного мнения и планирования информационных провокаций.
Поразительно точные личные досье на пользователей интернета можно составлять и не взламывая их аккаунты, лишь на основе автоматизированного анализа лайков — популярной опции, предлагаемой пользователям соцсетей. По лайкам можно получить представление не только о расе, возрасте, сексуальной ориентации, занятиях и уровне интеллекта, но также и о религиозных взглядах, политических симпатиях, потребительских предпочтениях, психологическом типе, деталях биографии и другие персональные характеристики, в том числе такие, которые люди предпочитают не афишировать.
Статья с описанием метода, позволяющего извлекать персональные данные из лайков, опубликована в ночь на вторник в Proceedings of the National Academy of Sciences.
Ее авторы — математики из Кембриджского центра психометрии и Кембриджского исследовательского подразделения Microsoft. Они использовали лайки как «обобщенный класс» цифровых данных, сходный с поисковыми запросами и историей просмотренных страниц, которые активно используются различными заинтересованными организациями для дата-майнинга — извлечения персональной информации о пользователях интернета.
С помощью специально написанного предсказательного алгоритма они проанализировали историю лайков более 58 тысяч пользователей Facebook, согласившихся участвовать в эксперименте и предоставивших авторам (для проверки правильности предсказательной модели) данные своих персональных профилей, а также результаты психометрических онлайн-тестов, собранные при помощи сетевой службы myPersonality. Результатом этого исследования стала статистическая модель, умеющая извлекать личные характеристики из истории лайков с высокой (в некоторых случаях очень высокой) точностью.
Так, модель научилась правильно угадывать сексуальную ориентацию пользователей Facebook в 88% случаев, правильно отличать чернокожих и белых американцев — в 95%, а республиканцев от демократов — в 85%. Мусульмане и христиане были правильно классифицированы в 82% случаев, а семейный статус человека и случаи злоупотребления наркотиками и алкоголем — в 65% и 73% случаев соответственно.
Заметим, что персональные характеристики, которые модель извлекла из базы данных, лишь в очень небольшом числе случаев основывались на «однозначных» кликах, что свидетельствует о хорошем аналитическом потенциале алгоритма.
Например, менее 5% юзеров-геев лайкали материалы, посвященные гейским свадьбам и прочим событиям, однозначно связанным с гей-активностью, при этом сексуальная ориентация подавляющего большинства геев была угадана правильно. Сделано это было за счет того, что модель научилась правильно определять семантический контекст лайка, обрабатывая большие объемы менее информативных, но более популярных лайков, адресованных ТВ-шоу, музыкальным исполнителям и прочим событиям, которые появлялись в лентах пользователей.
Высокая предсказательная точность статистической модели удивила самих авторов статьи.
Так, модель сумела правильно предсказать даже такую неочевидную деталь биографии, как находились или нет родители интернет-пользователя в разводе по достижении им 21 года, в 60% случаев, что, по мнению авторов, «является вполне приемлемым показателем для рекламных сервисов».
Помимо уже перечисленных, модель научилась извлекать из лайков и такие характеристики, как уровень интеллекта, эмоциональной устойчивости, открытости и степень экстравертности.
Несмотря на то что извлекать подобную информацию, пользуясь лишь косвенными данными, довольно сложно, предсказательная точность алгоритма здесь также превзошла все ожидания. Так, обнаружилось, что основанная на анализе лайков оценка уровня психологической открытости (готовности человека приветствовать изменения) в целом совпадает с результатами индивидуальных психологических тестов, которые прошли пользователи Facebook, участвовавшие в эксперименте. То же самое относится и к уровню интеллекта, экстравертности, эмоциональной устойчивости (способности контролировать свои эмоции) и другим психологическим характеристикам, извлеченным из лайков.
Обнаружились и некоторые странности.
Так, судя по числу проставленных лайков, пользователи с высоким IQ испытывают непонятную тягу к картошке фри, зажаренной фигурными спиралями, а фотографии пауков привлекают повышенное внимание некурящих граждан.
Как бы то ни было, информация, извлеченная из одних только лайков, поможет создать удивительно точные персональные досье на миллионы интернет-пользователей — уверены математики из Кембриджа.
В этом смысле лайки могут быть не менее, а в некоторых случаях и более информативными, чем традиционный дата-майнинг, использующий поисковые запросы и историю просмотров. Также на основе лайков можно проводить относительно дешевые и беспрецедентно большие по охвату аудитории замеры психологических параметров, не прибегая к сложным опросникам и дорогостоящему социологическому мониторингу.
Такие замеры могут представлять большую ценность для фундаментальной науки, изучающей поведение человека и общества, но могут быть использованы и в корыстных целях экономическими конкурентами, а также в политической борьбе, программировании общественного мнения и в планировании информационных провокаций.
«Предсказательные модели способны обрабатывать информацию любого типа, которая циркулирует в соцсетях, и извлекать с высокой точностью интересующие нас характеристики из косвенных сигналов, получая сведения, которые могут скрывать люди», — резюмируют авторы статьи.
Учитывая огромное количество и разнообразие «цифровых следов», которые пользователи интернета вольно и невольно оставляют в сети, отслеживать и контролировать технологии, позволяющие извлекать из таких следов чувствительные данные и манипулировать ими, довольно сложно. «Все это может отпугивать пользователей интернета от активного использования сетевых сервисов и снижать доверие между индивидуумами и институтами, затрудняя технический и экономический прогресс», — предупреждают авторы, считающие, что пользователям нужно гарантировать прозрачность сетевых инструментов, использующих персональную информацию.
Ведь сводить свое присутствие в интернете к минимуму в надежде уменьшить риск, что вашими персональными данными могут воспользоваться другие, совсем не выход, так как разработаны методы, позволяющие получать из соцсетей информацию даже о людях, не использующих эти сервисы вообще, о чем «Газета.Ru» писала.
Дмитрий Малянов
Источник