Open Data в РФ - ожидания vs реальность
Open Data в РФ - ожидания vs реальность
«Open Data», «открытые данные» - под этим словосочетанием, несмотря на его видимую простоту скрывается нечто большее, чем просто информация, хранящаяся в открытом виде и доступная для всех. Открытые данные это данные предоставляемые бесплатно, без регистрации и каких-либо ограничивающих лицензий, они могут быть использованы для любых целей (включая коммерческие), они должны быть представлены в электронном машиночитаемом виде, их должно быть легко найти, скачать и использовать (определение из Open Data Challenges and Opportunities for National Statistical Offices). Согласно Хартии Большой восьмерки по открытым данным открытые данные предназначены для повышения эффективности и рациональности как правительства, так и бизнеса, они «подстегивают экономическое развитие», находясь «в сердце глобального движения».
Сегодня в России многие федеральные органы делают подвижки в сторону открытия данных. Росстат строит планы по публикации различной информации, в том числе публикации наименований юр. лиц, ОКПО, ИНН, ОГРН. ФНС предоставляет доступ к ЕГРЮЛ и ЕГРИП. ФИПС (Роспатент) публикует реестры с информацией по патентам. Движением в ту же сторону является создание Единой межведомственной информационно-статистической системы (ЕМИСС).
Однако, несмотря на грандиозные планы и видимость бурной деятельности все обстоит не так радужно, как кажется на первый взгляд – судя по состоянию источников, предоставляемых упомянутыми ведомствами и органами, в корне всех бед лежит проблема полного непонимания целей открытия данных. Наблюдается не повсеместно, но достаточно часто.
Информация выкладывается «для галочки», представляет собой бессвязные наборы чисел и букв, CSV-файлы без всяких комментариев, PDF и DOC-документы. В данном случае игнорируются как требования машиночитаемости данных, так элементарные доводы здравого смысла.
Таким образом, использование открытых данных с целью извлечения выгоды для бизнеса становится нетривиальной задачей, требующей затрат на поиск необходимой информации, создание API для её обработки и анализа.
Альтернативным решением является обращение к различным вендорам, агрегирующим открытые данные из разных источников в своих БД (что абсолютно не противоречит концепции open data), а затем предоставляющим платные услуги на самых различных условиях – от разового доступа до годовой подписки. Предлагаются такие услуги как мониторинг и проверка контрагентов, получение их реквизитов, получение выборок по интересующим юр. лицам, получение подборок публикаций о компании и многие другие. Некоторые вендоры даже предлагают API для интеграции этих услуг в программные продукты. Не называя имен, можно сказать, что все опции весьма недешевы и тарифы разнятся по цене от нескольких тысяч рублей в месяц до сотен тысяч рублей в год.
А используются ли открытые данные в вашей компании, существует ли такая потребность для бизнеса? Готовы ли вы платить за получение актуальной, надежной и структурированной информации?
Комментарии 1
Согласен, что сценарии использования открытых данных в ECM системах стоило вынести в статью.
Изначально проблема открытых данных появилась из задачи получения и актуализации структурированной информации: реквизитов организаций, контактных лиц - с целью их дальнейшего использования в системе. (потребности были выявлены как минимум в рамках нашей компании)
Целью было упрощение процесса получения данных об организации. Вместо ручного перепечатывания из документов, звонков, обмена анкетами через почту - быстрое получение реквизитов с онлайн сервисов.
Многие сервисы открыто спекулируют на данных, которые по-идее предоставляются бесплатно: по причине плачевной ситуации конкретно в РФ их сложно найти и уж тем более вменяемо распознать - на чем собственно они и зарабатывают.
И этим грешат даже госорганы - ФНС публикует свои базы в виде таблиц, преобразованных в JSON, без комментариев, можно сказать в сыром виде, а нормальный доступ предоставляет уже за приличную плату, тем самым уже нарушая концепцию открытых данных ( поскольку ФНС является в данном случае их источником).
И, наконец, добавлю, что понятие open data характеризует данные, устанавливает их соответствие определенным критериям, а вот их содержимое, и то как оно будет использоваться, попадет - не попадет в ECM систему - целиком зависит от задач бизнеса и специфики самих данных.