МБХ медиа
Сейчас читаете:
Что можно узнать об участниках групп «ВКонтакте»

«ВКонтакте» — одна из самых открытых соцсетей с точки зрения работы с данными пользователей. Например, если вы захотите получить информацию о членах какого-либо сообщества Facebook, то американская соцсеть позволит вам использовать только численность группы и не даст выгрузить идентификаторы ее участников. «ВКонтакте» позволяет это делать. Кстати, сеть «Одноклассники», принадлежащая той же компании Mail.ru Group, — нет.

Инструменты для разработчиков «ВКонтакте» открывают широкие возможности для анализа интересов участников сообществ. Это возможно применить в самых разных целях — от поиска аудиторий для рекламных кампаний до разбора интересов пользователей неугодных групп (это мы намекаем на российских силовиков и их пособников).

В этом разборе мы расскажем, как можно работать с большим объемом данных пользователей «ВКонтакте».

Почему группы это очень интересно

Каждое сообщество «ВКонтакте» хоть и объединяет пользователей по определенным интересам, но понять, какие именно интересы у пользователей той или иной группы, практически невозможно. Однако это только на первый взгляд. Если детальнее изучить набор пользователей, можно понять, чем даже с виду похожие группы отличаются друг от друга.

Как работать с данными участников групп

Поставим цель. Нам необходимо взять несколько групп «ВКонтакте» схожей тематики и выделить среди них те, что нам действительно интересны по набору пользователей. Далее из отобранных — выделить пользователей-участников всех интересных нам сообществ (например, для того, чтобы более детально изучить их страницы на предмет запрещенной информации).

Отберем для сравнения несколько групп с названиями, похожими на «1488 цитат Фюрера» или похожими на «Подслушано в России без Путина» (оба названия вымышлены — это просто набор случайных слов и цифр). Члены каких-то из сообществ будут нам неинтересны, но мы не можем перебирать их вручную — слишком долго.

Сперва выгрузим ID всех участников всех отобранных групп. ID — индивидуальный номер пользователя. Раньше во «ВКонтакте» все страницы людей так и записывались — https://vk.com/id1 (это Павел Дуров), сейчас чаще всего вместо номера пишется имя.

Ради справедливости надо сказать, что у «ВКонтакте» есть некоторые ограничения на количество запросов в минуту и, возможно, на общее количество запросов. Точная информация относительно этого недоступна для разработчиков. Впрочем, если делать все не слишком быстро, то проблем не будет.

Уже на этом этапе мы можем понять, какие пользователи состоят в нескольких из отобранных нами сообществах, а также посмотреть социально-демографические данные всех «выгруженных» аккаунтов (пол, дата и место рождения, город проживания). Все это нам понадобится позже.

Теперь самое нужное для нашего небольшого исследования. Собираем последние 100 записей на стенах всех «выгруженных» аккаунтов. Получаем множество текстов — это все, о чем пишут пользователи всех заинтересовавших нас групп. Все эти записи надо «почистить». Разобьем все на отдельные слова, уберем лишние слова (например, предлоги и слишком часто встречающиеся слова — который, как, что) и все цифры. Приведем все существительные к единственному числу, именительному падежу, все глаголы — к инфинитиву (это называется лемматизация, и для этого есть специальные инструменты). В целом, если вкратце, все готово.

Теперь самое интересное. Тоже используя готовые инструменты, мы разделим все слова, полученные от всех пользователей конкретной группы, на 30 условных тем. Названия для этих тем мы пока не знаем потому, что результатом этого действия будет 30 наборов из наиболее встречающихся слов. Озаглавить темы нам придется самим — мы сделаем это просто глядя на слова, по контексту. Вполне вероятно, что нам встретится тема, к примеру, «Поздравления» (у всех на стене такие есть), «Спорт», «Музыка», но некоторые могут быть нам более интересны. Например, если ряд слов одной из 30 тем будет: митинг, смена, протест, власть и так далее, то это, очевидно, категория «Оппозиция». Примеры могут быть самыми разными.

Именно выделив темы, мы сможем сравнить группы между собой и понять, пользователи каких групп нам интересны, а каких — нет. Далее останется выделить тех, кто находится на «пересечении» наиболее интересных нам групп и отсортировать их по демографическим признакам (помните, мы раньше писали, что они нам пригодятся), ну, а дальше — в зависимости от наших целей. Может, мы захотим отправить им рекламное сообщение, а может — вручную детально просмотреть страницы таких людей или же записать их в отдельный список и «иметь в виду».

При составлении этой публикации мы использовали идею и механизм исследования «ВКонтакте», о котором Дмитрий Сергеев, (data-scientist в Zeptolab) и Филипп Ульянкин (аналитик в Сбербанке) рассказали в своем мастер-классе на «Дне открытых данных» в марте 2018 года. Также мы использовали инструменты для разработчиков «ВКонтакте». Сравнения были проведены на нескольких реально существующих группах соцсети, результаты не будут опубликованы по этическим соображениям.

Все самое важное — в нашем Telegram

У вас есть интересные новости из вашего региона? Присылайте их в наш телеграм-бот.

Читайте нас в Яндекс.Новостях.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

2 комментариев

Правила общения на сайте

Комментировать

Правила общения на сайте

Ваш email не будет опубликован. Обязательные поля отмечены *

Введите поисковый запрос и нажмите Enter.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: