Как и все соцсети, ВКонтакте собирает данные о своих пользователях, однако в отличие от своих конкурентов, в 2018 году она решила открыть к ним доступ — теперь можно скачать архив, в котором будет список ваших сессий, лайков, платежей и аудиозаписей. Не все из этих данных интересны и готовы к обработке, но кое-что с ними можно сделать уже сейчас — например визуализировать свой плейлист. Наш постоянный автор и ведущая телеграм-канала «настенька и графики» Анастасия Кузнецова рассказывает, как скачать данные о себе и сделать на их основе барчарт, скаттерплот и вордклауд:

Сейчас у каждого пользователя ВКонтакте есть возможность запросить архив данных своей страницы. Делается это здесь: оставляете заявку, и в течение нескольких дней к вам в сообщения падает архив от VK. Это может действительно занять несколько дней — чем раньше вы зарегистрировались в соцсети, тем больше она хранит о вас данных. При этом архив через некоторое время удаляется, так что рекомендуем скачать его сразу при получении.

Помимо архива ваших данных, соцсеть предоставит вам информацию о вашем рекламном кабинете, платежах и обращениях в поддержку. Основная проблема заключается в том, что все это куча папок с набором html-файлов внутри, поэтому просто взять и начать визуализировать их не получится.

Какие данные о вас можно скачать из ВКонтакте и в каких папках их можно найти?

  • ads — блок по вашему рекламному кабинету (у меня там все полумертвое, поэтому и смотреть особо нечего, но если вы активно пользуетесь рекламой в VK, то должно быть, что посмотреть)
  • apps — список ваших приложений (даже самых старых). Там же видно, какие данные это приложение запрашивало.
  • audio — список ваших аудиозаписей. Выглядит так же, как вы его видите, когда заходите в вк — просто название и продолжительность. если у вас есть добавленные альбомы, то есть группировка по ним.
  • bookmarks — ваши закладки, разбитые по типам данных (ссылки, посты, статьи и пр. отдельно друг от друга)
  • likes — ваши лайки, разбитые на лайки фотографий, видео, постов на стене, заметок. Все это тоже выглядит как набор ссылок, которые вы когда-либо лайкали;
  • messages — сообщения. Там действительно есть, на что посмотреть, но это достаточно сложно. На каждый диалог есть отдельная папка, так что придется заходить в каждую, чтобы что-то прочитать;
  • other — там лежит список забаненных людей, контактная информация, обращения в поддержку;
  • payments — все ваши платежи, привязанные карты и другая инфа по оплатам.
  • photos — ссылки и превью всех ваших фотографий по альбомам (который вы загрузили, на которым были отмечены). Плюс комментарии к ним.
  • profile — информация из вашего профиля: список друзей, запросов в друзья, черный список, подарки, подписки, изменения информации, документы, товары, истории. 
  • sessions — ваши заходы в VK с указанием адреса, типа устройства, даты и места. Кажется, что информация по ним либо хранится только за какое-то последнее время (типа месяца), либо зависит от чего-то другого. Как минимум, на дату запроса данных (13 ноября) сессии у меня только после 25 октября 2020.
  • verification — у меня это пустая папка, но, по-видимому, там устройства, используемые для верификации входа.
  • video — то же самое, что и с фотографиями, только видео. Ваши видео с разбивкой по альбомам (если есть) и комментарии к ним.
  • wall — ваши посты на стене (плюс или минус, но удаленных постов там нет, только заархивированные, по крайней мере у меня).

Я нашла в своем архиве несколько интересных вещей: музыка (на ней сегодня и сфокусируемся), лайки (но там придется походить по ссылкам, чтобы посмотреть, что находится внутри) и сессия (у меня их маловато). Само наличие такого архива — это здорово, но формат данных не самый удобный, поэтому нужно иметь достаточно сильное желание покопаться в своей страничке, чтобы освоить все папки.

А рисовать будем графики, которые называются барчарт, скаттерплот и вордклауд (облако слов), исходя из данных по исполнителям и продолжительности песен, в программе Tableau. 

Кстати: посмотрите, как мы парсили данные и визуализировали их на примере зарплат аналитиков и загрязнений водоемов России. 

Как вы видите, количество данных в архиве напрямую зависит от вашей активности ВКонтакте. По музыке у меня всего два нужных файла, потому что все мои аудиозаписи уместились туда — у вас же их может быть любое количество. Выглядит это вот так.

Нам нужно перенести данные в Excel, чтобы мы могли нарисовать по ним графики. Открываем в файлы в Excel, копируем данные из одного и вставляем в другой, чтобы в итоге все поместилось в один документ.

Дальше надо сделать из этого нормальный файл. Я скопировала и перенесла всё на новый лист, убрала верхушку (просто удаляем строчки, это можно быстро сделать через выделение и Ctrl -), добавила названия колонок (name, duration), перенесла формулой продолжительность песни рядом с названием. 

Не забудьте выделить две ячейки, когда будете переносить формулу на все остальные. Потом нужно так же скопировать данные в колонке про продолжительность и вставить только их значения (это нужно, чтобы когда мы удалим значения про продолжительности из первой колонки, они остались во второй). Дальше удаляем все строчки, где в колонке duration у нас осталась пустота (это как раз те места, где продолжительность была до этого). Выделяем колонку, нажимаем F5, выбираем пустые места и они все выделятся. Потом нажимаем на одно из них и удаляем строчки полностью. 

Чтобы мы потом могли посчитать продолжительность, разобьем ее на колонки по разделителю двоеточия (:), отрежем последнюю часть, объединим первые две через точку, чтобы получить числовой формат. Все это может сопровождаться необходимостью изменения формата данных, но в итоге для песни продолжительностью 3 минуты и 24 секунды мы должны получить значение 3.24.

Все сохраняем и идем в Tableau. Как мы видим, в песне у нас одновременно есть как исполнитель, так и название песни. Я предлагаю сфокусироваться только на исполнителях — для этого нам нужно сделать два столбца (исполнитель-песня). Можно было сделать это как в Excel, так и в Tableau. Разделитель между ними — это длинное тире «—». Нажимаем на стрелочку на колонке и нажимаем Split, после этого появятся две колонки, в названии которых появится Split 1 и Split 2.

Нажимаем на названия колонок два раза и переименовываем. Первую колонку я назвала Artist, вторую – Song. Также меняем тип данных для Duration, нажимаем на Abc над названием колонки и меняем на Number (decimal), чтобы были числа после запятой. Возможно понадобиться также перетащить его из блока Dimension в Measures на этапе создания графика.

А теперь рисуем. Начнем с барчарта по артистам, количеству песен по ним в вашем списке музыки и продолжительности этих песен. Идем на Sheet 1, перетаскиваем Artist в Rows, Duration в Columns. Отсортировываем от большего к меньшему. Перетаскиваем также Number of records в цвет (блок Marks, это как раз количество встречаемости артиста в плейлисте). Так можно увидеть, что много песен — не всегда равно большая продолжительность.

Чтобы сравнить распределение количества песен и их продолжительность, нарисуем график рассеяния (скаттерплот). Для этого идем на новый лист, перетаскиваем Number of records в Columns, Duration в Rows, Artist в Label. На скаттерплоте лучше всего прослеживаются отношения между двумя числовыми величинами, их корреляция. В нашем случае каждая точка — это артист, а её положение определяет количество песен и их продолжительность. Абсолютный лидер моего плейлиста — the xx. Они находятся в самом верхнем правом углу, что указывает на топовое количество песен и их продолжительность. А вот положение по количеству песен Монеточки и Kanye West одинаковое, хотя продолжительность больше у песен Kanye West.

Теперь нарисуем облако слов. В данном случае это скорее будет просто красивая картинка, так как топовых исполнителей удобнее было бы искать на барчарте. В вордклауде хорошо то, что вы можете увидеть всех артистов на одной картинке сразу. Для этого мы будем работать с панелью Marks. Перетаскиваем Artist в блок Text, Number of records в Size, меняем тип визуализации на Text (потому что иначе Tableau попытается создать тримап). Может потребоваться некоторое время, чтобы вывести всех ваших артистов. У меня получилось достаточно много исполнителей, которые встречаются только 1 раз, поэтому я решила их отфильтровать. Если приглядеться, то можно увидеть, что есть разные написания исполнителей или фиты нескольких, и тогда они появляются как разные исполнители. При желании это можно почистить на уровне подготовки данных в Excel (просто вручную переназвав их). Переносим Number of Records в блок Filters, выбираем SUM и сдвигаем его, чтобы артисты включались в график, только если сумма песен по ним больше 1. Я также закинула Number of Records в цвет. 

Дальше я немного пофиксила на графиках названия осей (просто кликнув два раза на них и на заголовки) и цвет, заскринила каждый и собрала их через Numbers (можно также в любом другом приложении, где можно объединять картинки) в мини-инфографику. Чтобы посмотреть, что получилось, вернитесь в начало материала.

    Полезные материалы в одной еженедельной рассылке
    Подписывайтесь, не пожалеете.