Browse by Tags

OData: Open Data Protocol
29 марта 10 01:55


Оказывается Microsoft сделали и предложили протокол OData – Open Data Protocol используемый для раскрытия данных в машиночитаемой форме.

Подробнее можно почитать здесь http://www.odata.org

А вот его полное описание –
There is a vast amount of data available today and data is now being collected and stored at a rate never seen before. Much, if not most, of this data however is locked into specific applications or formats and difficult to access or to integrate into new uses. Public data is often unfortunately held private or needlessly buried behind random, inefficient, and cumbersome interfaces.

The Open Data Protocol (OData) provides a way to unlock your data and free it from silos that exist in applications today, making it easy for data to be shared in a manner that follows the philosophy of Open Data. OData enables a new level of data integration and interoperability across a broad range of clients, servers, services, and tools.

Это реально радует. Во первых сама спецификация протокола довольно проста и понятна, во вторых она без жёсткой привязки к сервисам MS.

А я тем временем всё больше понимаю что на OpenGovData.ru должны быть инструкции и разъяснения как именно надо публиковать информацию.

Originally published at Иван Бегтин. You can comment here or there.

OpenGovData. Спецификации раскрытия данных
09 мая 09 10:16

Продолжая тему открытых данных и OpenGovData.ru проект продолжает развитие маленькими, очень маленькими, но верными шагами. Сейчас я предлагаю к обсуждению спецификацию и принципы раскрытия информации плюс непосредственно пару массивов опубликованных по этой спецификации.

Скажу заранее - подготовка спецификаций и продумывание способов работы с данными проходили по принципу упрощения всего что только возможно и не вредит конечному результату. Определённым источником вдохновения была спецификация sitemaps которую не так давно начали использовать поисковые системы.

 

Спецификации

Итак, спецификация раскрытия данных, состоит из 3-х XSD схем:

И, для каждой из схем, доступна автоматически созданная документация:

 

 

Процесс импорта и экспорта данных

Теперь подробнее о том как с этими спецификациями будет происходить работа.

Фактически, вариантов работы с информацией два:

1. Данные подготовленные и загруженные на сайт opengovdata.ru

2. Общедоступные данные публикуемые на внешних ресурсах.

В первом случае описание источника данных производится внутри системы opengovdata.ru - технически это веб движок в котором можно заполнить все необходимые поля по данному источнику данных/массиву данных и который в итоге сформирует спецификацию источника в файла opendata.xml и присвоит зарегистрированному массиву данных постоянную ссылку permalink. Сами данные предварительно загружаются на сервер через HTTP/FTP/SFTP соответстветственно. 

Во втором случае данные источником данных является некий веб-сайт, например, если государственный орган или коммерческая компания желает сделать какие-либо свои данные общедоступными, то они подготавливают описание источника данных в виде файла opendata.xml с описанием массива и предоставляют его по некой постоянной ссылке на своём ресурсе. После чего регистрируют ссылку на описание источника данных на opengovdata.ru на специальной странице с указанием дублировать информацию или нет.

Если при регистрации источника данных указывается необходимость дублировать информацию, то все данные копируются на opengovdata.ru и раз в сутки, при необходимости, синхронизируются при том что эталонным источником данных остаётся внешний сайт. Если дублирования информации не происходит, а это может быть в случае если, например, объёмы данных очень велики, то синхронизируется только описание источника данных и присвоение ему постоянной ссылки в opengovdata.ru, а сами данные остаются на оригинальном сайте.

Все данные которые зарегистрированы в opengovdata.ru будут доступны для поиска по их описанию через в веб интерфейс, а в будущем и для поиска по самим данным.

Применение спецификаций

В сценариях работы системы выше у каждой спецификации есть своя роль.

  • opendata.xsd - используется для описания массива данных, включая описание полей, описание источника данных, описание организации ведущей данный источник информации, непосредственно сами данные или же ссылки на них. При этом данные могут предоставляться двумя способами:
    • включенными в описание массива данных - в этом случае данные описаны согласно спецификации в тэге table;
    • внешними источниками - в этом случае данные представлены в форматах: openDataXML, TSV, CSV, YAML, DBF и находятся во внешних файлах которые обнаружаемы по внешним ссылкам. Ссылки обязательно сопровождаются указанием типа данных и хэша рассчитанного по алгоритму SHA-512. Файлы данных могут также быть сжатыми с помощью Gzip - это должно определяться наличием у них расширения .gz (это сделано по аналогии со сжатием файлов sitemaps).
  • opendataxml.xsd - используется для унифицированного описания любых плоских табличных данных. Данный формат сознательно сделан предельно упрощённым и не несёт ничего кроме перечесления рядов таблицы и столбцов по каждому ряду. Фактически - это замена TSV формата, которая может быть удобна для некоторых систем которым из XML импортировать данные проще.  Цель этого формата представления данных не полнота описания, а унификация и простота последующей обработки.
  • opendataindex.xsd - используется для автоматизированной публикации открытых данных в виде индекса ресурсами готовыми их предоставлять. Например, сайт раскрывающий более одной базы данных может создавать сайт opendataindex.xml который, в свою очередь, зарегистрировать на сайте opengovdata.ru и при появлении новых массивов данных, они будут подтягиваться автоматически. В дальнейшем применение индекса открытых данных может быть через robots.txt (по аналогии с sitemaps) или же за счёт фиксированного имени файла в корне сайта, например, такого http://sitename.ru/opendataindex.xml 

Обновление информации в источниках

Данные представленные в описании массива данных (opendata.xml) могут присутствовать в двух формах:

 

  • статические неизменные данные
  • пополняемые данные.

 

Статические данные - это, фактически, данные которые уже собраны, зафиксированы и уже не будут меняться или пополняться. Например, к ним можно отнести какие-либо статистические данные за какой-либо уже прошедший временной период, а также редко изменяемые справочники по которым необходимо получать их последнюю редакцию, а не прошедшии версии.  При описании данных в спецификации opendata для статических данных используется тип full  в тэге tableref.

Пополняемые данные - это данные которые подвержены периодическому обновлению, ежедневному, еженедельному, по иному графику или по событию. К пополняемым данным можно отнести, например, статистические данные в развитии текущего периода или же данные реестров. 

В opendata для пополняемых данные используется указание типа initial в тэге tableref при первоначальной загрузке информации и при последующих обновлениях тип указывается в update, а также в атрибуте updateid  - указывается число возрастающее на единицу с каждым последующим обновлением. 

 

Особенности и ограничения

Все текущие спецификации и способы работы с данными были сознательно сделаны со множеством ограничений и не учитывают множества вариантов представления данных. 

Например, пока отсутствует возможность структурированного описания доступных веб сервисов и не табличных, а иерархических данных которые не укладываются в текущую простую форму описания. Сейчас, единственное что сделано в спецификациях отражающее такие случаи - это возможность указания нестандарных спецификаций во внешних файлах. Для этого предусмотрен специальный тэг specref в котором указывается ссылка на спецификацию которая может быть хоть описанием в виде документа, а в поле format тэга tableref указывается тип документа отличный от TSV, openDataXML и так далее. 

Также остаётся открытым вопрос как обеспечить унифицированное описание изменений в данных и их удаление и сейчас это отдаётся на откуп конечным системам потребителям данных. Несмотря на то что есть множество способов фиксации подобных изменений - от регистрации каждого изменения, до  псевдоязыка обновления данных, тем не менее вопрос как это сделать просто является открытым.

Готовые данные

Несколько первых, тестовых, но рабочих, массивов данных уже готовы по этим спецификациям.

Также эти данные перечислены в индексном файле http://export.opengovdata.ru/opendataindex.xml

Разумеется, эти данные только начало, и далее они будут появлятся в структурированной форме в разделе сайта http://opengovdata.ru/opendata/ 

Текущий статус спецификаций и данных

Проект сейчас идёт маленькими шажками и цель спецификаций и первых размещаемых массивов не в том чтобы охватить все возможные случаи и все возможные типы структур данных, а в том чтобы начать эту работу, итеративно усложняя и развивая данные. 

Как можно помочь проекту?

Многие задают вопрос как можно помочь проекту, я перечислю многие возможные способы:

1. Можно подготавливать данные по спецификациям и направлять их на публикацию в OpenGovData. Это можно сделать, например, через сообщество в Google Groups - http://groups.google.com/group/opengovdataru.

2. Можно участвовать в обсуждении спецификаций, выступая с конструктивными критикой и предложениями по развитию стандартов. Со временем я надеюсь что описания будут детализированы и представлены в виде более подробного документа чем то что я описываю сейчас.

3. Для государственных органов и других владельцев общедоступных данных можно начать публиковать данные на государственных сайтах в форматах и, далее, регистрировать массивы данных в реестре данных opengovdata.ru . 

4. На законодательном уровне - проведение в Российское законодательство нормы по обязательному наличию структурированного описания в случае любых требований по публичности размещаемых данных. Я объективно понимаю что это займёт годы, но если этого не делать, то не годы, а десятилетия.

5. Сейчас я ищу для проекта финансирование так чтобы была возможность заниматься им не по нескольку часов в неделю, а полноценно - если такое финансирование появится, то и разработка стандартов и скорость подготовки новых массивов данных сильно возрастут.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

ODF в НАТО и в EIF
22 июля 08 11:58
По сети бродит ссылка НАТО (NATO) выбрали ODF как один из форматов передачи документов. Причём похоже упоминается что возможное влияние на решение оказал голландский министр обороны , поскольку в голландии Open Source особенно распространён. Интереснее Read More...
Postedfrom Иван Бегтин | 0 Comments    
Мир как поток и совокупность информации. Часть 3.
26 июня 08 01:03
В предыдущих двух частях: часть 1 и часть 2 я описывал информационные потоки в общем случае, а также некоторые их метрики. В этой части я заторону подробнее такое понятие как информационный массив, конечно, в контексте информационных потоков. Информационный Read More...
Microsoft Office и ODF. Оценка причин
24 июня 08 09:15
Блоги и издания полны упоминаний о высказываниях Стюарта МакКи по поводу поддержки ODF в следующем сервис паке к Microsoft Office. Собственно по ссылке, оригинальная статья в Infoworld . Собственно а кто такой Джон Галт Стюарт МакКи? Стюарт МакКи - это Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
US. Обязательное раскрытие финансовой информации в XBRL
31 мая 08 11:22
Прочитал эту новость несколько дней назад и всё искал подробности и подтверждения. Комиссия по торговле ценными бумагами США вводит обязательное требование по раскрытию публичных отчётов компаний в машиночитаемом и структурированном формате XBRL (eXtensible Read More...
Слова и буквы в контексте информационной модели
12 мая 08 11:01
Что такое ветер - это небо. Юрий Шевчук Вопрос - что такое слово ? Обычное слово, в предложении, суть буквы и ничего более. Конечно слово - это часть речи, может быть представлено родом и склонением, глаголы имеют спряжения и так далее. Рассмотрим слово Read More...
Postedfrom Иван Бегтин | 0 Comments    
ИТ стандартизации от бизнеса на примере HL7
12 февраля 08 07:45
Я ранее много писал про стандарты для офисных продуктов, на сей раз затрону несколько иную тему - ИТ стандартизация для медицины. Некоторое время назад мне довелось познакомиться с таким стандартом как HL7. Для справки, HL7 - это стандарт обмена данными Read More...
Ещё о доступности государственных веб ресурсов - опыт Новой Зеландии
13 января 08 08:40
В Новой Зеландии с 1 января 2008 года стали обязательными требования по usability в виде подборки “ Government Web Standards “. Теперь каждый новый государственный сайт Новой Зеландии обязан соответствовать этим стандартам. У них же очень Read More...
Очередная подборка ресурсов по e-Gov в США
11 января 08 10:01
Опыт вероятного противника ценен вдвойне (c) Блог Дэвида Флетчера - публичный блог CTO штата Utah. Пишет о публичных инициативах в области IT и public government в штате. В принципе Utah - это один из наиболее продвинутых штатов по части e-Gov, у Флетчера Read More...
Про требования к форматам файлов на официальных сайтах
10 января 08 11:24
Где-то с 2 года назад я готовил документ требований к размещаемым форматам файлов для оф. сайтов по госзакупкам. Текст был специально максимально сжатым и не более чем в 3 страницы - опыт показывает что чем больше пишешь, тем больше вероятности что прочтут Read More...
Про требования к форматам файлов на официальных сайтах
10 января 08 11:24
Где-то с 2 года назад я готовил документ требований к размещаемым форматам файлов для оф. сайтов по госзакупкам. Текст был специально максимально сжатым и не более чем в 3 страницы - опыт показывает что чем больше пишешь, тем больше вероятности что прочтут Read More...
Материалы и презентации по управлению проектов в USA e-Gov
25 ноября 07 01:25
NASA Project Management Challenge Ежегодное мероприятие NASA посвящённое управлению проектам. Что радует, так это что все материалы мероприятия доступны online - на сайте http://pmchallenge.gsfc.nasa.gov Из интересных лично мне материалов: Brian Hughitt Read More...
Форма и содержание. Моё несогласие с svobodainfo.org
21 ноября 07 01:58
Я довольно часто пишу про проблемы формы представления данных на государственных сайтах. Периодически также читаю материалы на ресурсе Института Развития Свободы Информации - svobodainfo.org и, уже сейчас, накопилось много причин почему я немогу согласится Read More...
Форма и содержание. Моё несогласие с svobodainfo.org
21 ноября 07 01:58
Я довольно часто пишу про проблемы формы представления данных на государственных сайтах. Периодически также читаю материалы на ресурсе Института Развития Свободы Информации - svobodainfo.org и, уже сейчас, накопилось много причин почему я немогу согласится Read More...
More Posts Next page »

This Blog

Tags

Archives

Syndication