Кем бы вы ни были — ученым, маркетологом, аналитиком или социологом, — без данных сегодня никуда. Но не все данные одинаково полезны. Есть девять характеристик, по которым специалисты судят о качестве данных. Их стоит учитывать, когда собираешь информацию, а главное — когда делишься ею с коллегами. Ведущий исследователь данных крупного российского банка Георгий Власов рассказывает про эти характеристики и приводит хорошие и плохие примеры от Google, Ozon, Росстата и правительства Москвы.

Девять качеств данных выделил в своей книге «Аналитическая культура» директор по аналитике компании Warby Parker Карл Андерсон на основе кейсов и интервью с исследователями и учеными. Вот эти характеристики.

Доступность

Это не только возможность доступа к данным. Важно и то, чтобы они были готовы к обработке разными программами для анализа. 

Хорошая практика

Сделать данные доступными по программному интерфейсу приложения — API — или выгрузку с сайта в машиночитаемых форматах (.csv/.json). Например, с помощью Solar System OpenData API можно получать информацию по всем небесным телам в Солнечной системе в реальном времени. API регулярно обновляется, а описание полей данных есть на первой странице сайта: 

Плохая практика

Предложить готовый дашборд (инфографику с визуальным представлением результатов), позиционируя это как открытые данные. Да, вы можете использовать визуализации, но для работы с самими данными придется копировать их вручную, что будет сильно тормозить работу.

Ещё один пример плохой практики — представление в разных форматах, которые придётся совмещать. Такие кейсы регулярно встречаются на сайте Росстата, а для использования этих данных нужно объединять информацию из Word и Excel: 

«Когда ищешь нужные данные, часто приходится нажать по пять кнопок в меню, чтобы до них добраться, а в итоге оказывается, что это не те данные, которые нужны. Всё повторяется снова, а когда нужная информация найдена, это может быть вордовский файл или вообще pdf из какой-нибудь презентации. В такой ситуации мы тратим много времени на очистку или даже отказываемся от задуманного исследования, так это слишком трудоемко».
Сооснователь Школы данных в Кыргызстане Анастасия Валеева.

Точность

Хорошие данные отражают истинное положение вещей. Мы можем доверять им и рассчитывать, что при возникновении ошибок их быстро поправят. Простой пример неточных данных — показания сломанного термометра. Ошибки, опечатки, числовая переменная в формате текста и так далее — тоже про неточность данных. 

Хорошая практика

Напрямую выгружать данные из автоматизированных систем с минимальным участием человека. Например, через сервис flightradar24 можно получить информацию о полётах самолётов:

Плохая практика

Доверять данные заинтересованным в «правильных» цифрах организациям или просто невнимательным людям. Иногда данные проходят через несколько этапов «заполнения» разными организациями до того как будут опубликованы — это тоже повышает вероятность появления ошибок. Как это бывает в реальной жизни, на примере информации о болезнях россиян недавно рассказала дата-журналистка Дада Линделл.

Взаимосвязанность

Данные взаимосвязаны между собой, когда существует «ключ», с помощью которого можно объединить их друг с другом. Без этого нельзя будет сделать более сложные вычисления или построить модель данных, которая пригодится для проведения анализа или создания отчета.

Хорошая практика

Использовать уникальные глобальные идентификаторы (ID). Неважно, когда у вас появились данные и насколько их много, — так всегда можно будет связать их между собой.

Отличный пример — на портале открытых данных правительства Москвы про результаты голосования в приложении «Активный гражданин». Тут каждая строка обозначает один вопрос, а в столбце LinkToResults находится ссылка, которая ведет на отдельную страницу с уникальной таблицей результатов голосования.

Плохая практика

Применять неуникальный идентификатор. Это помешает совмещать разные наборы данных. 

Полнота

Данные, в которых не все поля имеют значения и встречаются пустые, называются неполными. Это случается из за ошибок или потому, что нужных значений просто не было изначально. И если с числовыми неполными данными всё ясно — можно их усреднить, сделать простенькую математическую модель заполнения пустых значений или вовсе оставить всё «как есть», то с текстовыми совсем непонятно, что делать.

Хорошая практика

Заполнять пустые значения в данных переменными NaN («не число») — тогда они не будут учитываться. Это даст однозначно понять, что поля не заполнены.

Плохая практика

Совмещать в одном наборе столбцы с полными и неполными данными. В примере ниже поступили именно так: хотя в столбце Seats заполнены все значения, а пустые поля заполнены нулями, в столице DisabilityFriendly встречаются пустые ячейки без какого-либо заполнения.

Непротиворечивость

Противоречивыми называются данные, в которых встречаются не совпадающие по смыслу значения «про одно и то же». 

Пример: в одном наборе адрес проживания человека встречается несколько раз и не совпадает между собой. 

При работе с противоречивыми данными в голове должно сразу возникнуть много вопросов, и самый правильный путь — адресовать их ответственному за сбор информации как можно раньше.

«Существует тонкая грань между грязными и чистыми данными. Критерии качества у всех разные, и использовать данные в работе или нет зависит от конкретного исследования».
Дата-исследователь и журналист Андрей Дорожный

Однозначность

Названия столбцов данных должны соответствовать их значениям по смыслу. Согласитесь, странно, если в поле «Время» указано время с точностью до дня — то есть дата, или в столбце «Уникальный идентификатор» находятся неуникальные значения.

Хорошая практика

Чтобы избежать этих проблем, можно заранее описать поля данных на отдельной странице или в документе, называемом «Методологией» или «Документацией». Это точно решит множество возникающих вопросов и поможет прояснить суть самих данных. Еще один вариант — рассказать, как они были получены и про что могут говорить. Именно так, например, поступили на портале открытых данных Правительства РФ. 

Плохая практика

Создавать много похожих полей, меняя лишь цифру в их названии. Например, правильнее было бы назвать поле «Дата 1» из примера ниже — «Дата», «Дата 2» — «День», а «Дата 3» — «Месяц».

Своевременность

Данные, которые давно не обновлялись, становятся неактуальными.

Хорошая практика

Давать максимально свежие и детальные данные, которые уже потом можно объединять и использовать так, как удобнее пользователю. Например, Google Trends позволяет выгрузить данные по любому поисковому запросу с задержкой в один день и детализацией по часам / городам.

Плохая практика

Предоставлять старые данные. Например, на портале открытых данных есть информация о Государственном реестре лекарственных средств. Казалось бы, такие данные должны быть максимально свежими, однако с 2017 года они не обновлялись ни разу.

Релевантность

Релевантность теме означает, что данные подходят для использования в исследовании и их анализ действительно поможет ответить на поставленные вопросы.

Пример: статистические данные по смертности от COVID-19 только по Москве не подойдут для исследования для всей России. 

Другой пример: для объективного исследования про заработные платы всех IT-сотрудников будет недостаточно лишь данных из открытых источников, так как заработные платы специалистов уровня middle+ редко афишируются в сети.

Детализация

Одни и те же данные могут быть представлены с разным уровнем детализации по времени (года, месяцы, дни, часы и так далее) и другим измерениям.

Хорошая практика

Максимально детализировать данные. Тогда их всегда можно будет обобщить и усреднить, но в обратную сторону это не сработает — если данные будут только по неделям, из них при всем желании нельзя будет получить детализацию по дням.

Плохая практика

Предоставлять в данных жестко зафиксированные разрезы детализации, например «данные по понедельникам», «данные с полуночи до часу ночи» и так далее.

В последнее время появляется всё больше исследований и работ, базирующихся на открытых данных. Продвижением правильного подхода к их качеству и культуре работы с ними в России занимается несколько организаций, главная из которых — АНО «Информационная культура». Недавно они выпустили доклад по работе с открытыми источниками информации, который может быть полезен широкому кругу специалистов и экспертов, а также собрали список наиболее интересных исследований об открытых данных. 

«Открытые данные имеют свои собственные жизненные характеристики, независимо от того, для исследования они опубликованы или нет. В работе часто встречаются кейсы, когда найденные данные не подходят к исследованию. Важно в этот момент не остановиться, а найти и собрать другие, альтернативные данные, помогающие ответить на поставленные вопросы».
Ксения Орлова, специалист по данным в «Информационной культуре».


Шаги крупных компаний, которые выкладывают открытые данные на своих порталах, тоже можно приветствовать: СберИндекс позволяет увидеть аналитику по клиентам банка, их покупательской способности, Ozon Open Data — первый шаг компании к предоставлению открытых данных клиентов по покупкам в сервисе.

    Полезные материалы в одной еженедельной рассылке
    Подписывайтесь, не пожалеете.