Browse by Tags

Ответ из ФАС России
01 сентября 10 05:41

Итак, я получил ответ от Елены Нагайчук, представителя ФАС России.

—-

Мы изучили представленные Вами сведения о некорректных данных в реестре недобросовестных поставщиков. Очевидно, что их основная часть связана с ошибками ввода. На сотрудниках управления контроля государственного заказа лежит большая нагрузка по вводу данных в разнообразные реестры и базы. Безусловно, это может быть лишь объяснением, но не оправданием. Поэтому сейчас, учитывая значимость реестра, мы сразу начали корректировку данных в реестре по присланным случаям, а также поиск и исправление аналогичных.

Мы благодарны за выявленные недостатки в нашей работе, постараемся их исправить, и свести к минимуму дальнейшие ошибки. Для этого принято решение о доработке самого реестра в части внедрения механизмов защиты от некорректного ввода данных (реквизиты, ИНН, латинские символы и пр.) программными и организационными средствами.

Уверяем Вас, что ФАС России открыта к диалогу и конструктивному сотрудничеству, которое в конечном счете способствует повышению эффективности исполнения наших функций.

Я считаю что это положительный результат. Итак, теперь у нас есть не первый, но полезный пример того зачем же нам нужны открытые данные и чего с помощью них можно добиться.

Originally published at Иван Бегтин. You can comment here or there.

Новое в OpenGovData.ru – данные, заметки, источники и примеры
29 августа 10 12:23

Итак, в OpenGovData.ru и его Вики появилось много нового.

1. За 4 дня было было создано 14 парсеров и, соответственно, у нас появилось 14 новых массивов машиночитаемых данных. Почти все были сделаны волонтёрами по своей инициативе. Я считаю что это очень круто и мы вместе делаем очень важное дело. Пусть и по маленьким кусочкам, но, свершилось главное идея создания машиночитаемых данных своими руками – работает.

Кстати, предлагаю всем подумать над тем как можно проанализировать и что можно из этих данных интересное сделать. Например, я лично уже копаюсь в реестре недобросовестных поставщиков, а кому могут быть интересны данные государственного регистра фильмов, базы запуска космических аппаратов или сводной налоговой отчетности. Предлагаю всем заглянуть в то что у нас уже есть тут в вики и в списках массивов данных.

2. В список источников opengovdata.ru я добавил ещё 10 новых. Их можно просмотреть в списке тут в основном это статистика ФСИН, МЧС и МВД. Присылайте новые мне или вносите в список в вики проекта тут

3. В разделе рецепты и инструменты добавились ссылки на примеры кода, фреймворки и движки по извлечению данных, их обработке и визуализации. Постепенно там будет собрана максимально обширная коллекция материалов. Если Вы видите что там чего-то нехватает, смело добавляйте или пишите мне – я добавлю.

4. Я начал вносить в Вики собственные парсеры накопленные мною за время работы над opengovdata.ru. Сейчас на странице со списком преобразованных данных я выложил парсер списка сайтов кредитных организаций (банков) с сайта Банка России.

А также вот тут http://gist.github.com/555510 можно посмотреть пример кода как автоматизировать извлечение очень простых таблиц с веб-страниц и примеры того как этот код помог в сборе данных о грантах для РосГосЗатрат.  Фактически всё что нужно для простых таблиц – это ссылка, кодировка страницы и код xpath, как правило, очень простой.

Тем временем, пока мы вместо наших госорганов делаем данные открытыми и публичными, норвежские чиновники вот тут http://data.norge.no/blogg/2010/08/en-klausulbuffet-av-vilkar/ обсуждают вопросы лицензирования открытых данных отдавая предпочтение лицензии Creative Commons. Страница неплохо переводится на русский через Google Translate или же, разъяснения на английском, есть на общеевропейском портале.

Originally published at Иван Бегтин. You can comment here or there.

Вопросы и обсуждения по открытым данным
27 августа 10 12:46

Поскольку число обсуждающих всё ширится, я хочу поднять ряд вопросов которые возникли, озвучить своё мнение и предложить их к обсуждению.

1. Почему не Java, .NET и прочие и прочие?

В основном по той причине что есть ряд языков/платформ разработки крепко привязанных к компаниям их продвигающих. Так .NET прочно ассоциируется с Microsoft, а Java с Sun/Oracle. Учитывая что эти платформы в основном коммерческие то и, хотя разработчиков на них много, но многие самые интересные движки и библиотеки которые могли бы помочь – тоже коммерческие.

Я лично считаю что для инициативы создания общественного блага на этих платформах должны идти от их вендоров или при их поддержке. Но учитывая что тема имеет гражданское приложение, я слабо верю в то что кто-то из них на это решиться.

В остальном здесь ситуация следующая. Если кто-то по собственной инициативе сделает парсер данных хоть на Lua или Object Pascal и выложит его в открытый доступ, ему в любом случае, респект и уважуха и такие случаи я упомяну обязательно. Но в том что касается случаев когда я выделяю на перевод массива в машиночитаемый вид денежку, то тут точно нет. Моя цель – открытые данные и наиболее простые и понятные способы их создания.

2. Не упомянут Perl

Это правда, но не от нелюбви к нему, а по невнимательности. Конечно, на скрипты на Perl’е всегда приветствуются.

3. Почему не GPL?

Тут та же самая ситуация что и с вендорозависимыми платформами. Если кто-то по своей инициативе хочет сделать скрипт по перобразованию данных и выложить его в открытый доступ под GPL. Хорошо, в любом случае общественное благо. Но лично я рассматриваю лицензию GPL как ограничивающую возможности, а не расширяющие. Соответственно в тех случаях когда я публикую предложения преобразовать за деньги которые я выделяю лично – на GPL это не распространяется. Если же кто-то последует моему примеру и решится выделить средства или вообще организовать такую же инициативу, но GPL’ориентированную – организуйте её самостоятельно. Это тоже общественное благо, тоже респект и уважуха.

4. Почему не RDF и не Semantic Web?

Для спрашивающих, я в общем-то человек сам от Semantic Web’а не далеко ушедший и, например, моделировал геополитическую онтологию в формате OWL о чём можно узнать в моём блоге или в вики OpenGovData.ru.

Так вот, RDF’изация вселенной разумна и практична только когда у Вас _уже_ есть структурированные данные или если Вы формируете онтологии своими руками. Соответственно если у кого то возникнет желание и возможность переводить данные накопленные в OpenGovData.ru и уже преобразованные в форматы для Semantic Web – милости прошу. Лично я же считаю, и сужу по мировому опыту гражданских проектов, что для них достаточно принципиальное наличие данных в структурированной форме, желательно простой – CSV или JSON. Поэтому и все существующие проекты, например, Open Knowledge Foundation помимо RDF отдают данные ещё и в XML и JSON’е. Потому как пока ещё, к сожалению или к счастью, но RDF не стал массовым явлением.

Originally published at Иван Бегтин. You can comment here or there.

OpenGovData.ru: Данные для преобразования на неделю с 26.08.2010 по 02.09.2010
26 августа 10 10:31

Итак, как я ранее уже писал начнём процесс по преобразованию данных.

План работы такой:

1. Я еженедельно публикую список массивов данных и призываю волнотёров помочь с их преобразованием.

2. В конце недели я публикую отчет по результатам и публикую новый список.

3. Если какие-то данные небыли охвачены волонтёрами, то на следующей неделе публикую их с предложением компенсировать расходы на их преобразование.

4. Самые сложные массивы данных выносятся на общее обсуждение.

Актуальный список также всегда будет доступен по ссылке и я буду его обновлять по мере появления парсеров.

Ниже список данных составленный мною на эту неделю с 26 августа по 2 сентября. Я также собираю предложения по тому какие данные вынести на следующую неделю.

Источник данных в плохом формате Для чего могут быть использованы эти данные Статус Парсеры и данные
Технические комитеты Ростехрегулирования</p>

http://www.gost.ru/wps/portal/pages.TechCom

Список и множество HTML страниц

Для мониторинга того чем занимаются комитеты, если у них сайты, какие из них были бы интересны гражданам и так далее Не преобразован ?
Список зарегистрированных политических партий (Минюст)

http://www.minjust.ru/ru/activity/nko/partii/

Набор HTML страниц со ссылками на документы

Для последующего анализа списков региональных отделений, числа членов, финансовых отчетов и так далее. Не преобразован ?
Перечень зарегистрированных политических партий (Избирком)

http://www.cikrf.ru/newsite/politparty/reg_politparty.jsp

Очень простой и небольшой список партий с регистрационными номерами в избиркоме

Для сведения воедино всей информации о политических партиях из разных источников. Не преобразован ?
Государтсвенный реестр фильмов

http://mkrf.ru/activity/register/search/

Форма поиска. Особенность в том что для некоторых фильмов выводит страницу с подтверждением на её просмотр

Для анализа данных реестра на предмет наличия порнографии, оскорбительного содержания, анализа плодовитости авторов и компаний и многое другое Не преобразован ?
База запусков космических аппаратов

http://www.federalspace.ru/main.php?id=10&year=14
Набор HTML страниц по годам

Позволит провести анализ запущенных аппаратов по изготовителям, заказчикам, странам, потенциальным местам падения, составить календарь истечения сроков эксплуатации и использоваться для более наглядного отображения. Не преобразован ?
Депутаты Государственной Думы

http://www.duma.gov.ru/index.jsp?t=deputat/1.html

Много отдельных маленьких страничек

Позволит делать гражданские проекты основанные на активности депутатов. Например, по мониторингу их выступлений, публикаций в блогах с фильтрацией по партии, фракции, комитету госдумы и так далее Не преобразован ?
Российский сегмент мирового пространства идентификаторов объектов

http://www.ctel.msk.ru/x500/OIDS/inform.htm
Одна HTML страница с несколькими таблицами

Например, для наглядного соотнесения удостоверяющего центра и органа власти дабы показать в каких из них уже есть свои УЦ, а где нет. Не преобразован ?
Реестр эксплуатантов гражданской авиации

http://www.favt.ru/airl/airl_r/index.php
Несколько HTML страничек с алфавитной разбивкой

Для отображения организаций на карте, соотнесения с другими банками данных для анализа отрасли авиаперевозок, для анализа какие эксплуатанты к каким аэропортам относятся Не преобразован ?
Государственный реестр аэропортов гражданской авиации

http://www.favt.ru/ap/ap_rga/

Одна HTML страница с несколькими простыми таблицами

Позволяет отобразить официальный список существующих аэропортов на карте, а также расширять этот список адресами сайтов и реквизитами предприятий. Не преобразован ?
Сведения о доходах сотрудников РосГраницы
http://www.rosgranitsa.ru/about/income

В виде множества DOC файлов с таблицами внутри

Для сервисов по анализу данных о расходах чиновников Не преобразован ?
Сводная налоговая отчетность
http://www.nalog.ru/document.php?id=27443&topic=stat_otch

Сложные данные в виде множества XLS файлов.

Для анализа того как и по каким темам приходят деньги от налогоплательщиков. Не преобразован ?

Поскольку массивы данных вроде сведений о доходах сотрудников Росграницы и Сводную отчетность никто не преобразовал. То если кто-то возьмётся за них, я готов подарить за скрипт, который как и все другие скрипты будет потом в публичном доступе, по любому из них по 1000 рублей. Не скрою, мой интерес не только в том чтобы появились эти данные машиночитаемыми, но и в том чтобы появились примеры преобразований данных в форматах DOC и XLS, ибо их у нас публикуется немало.

Единственно, предупредите меня заранее что берётесь такой скрипт написать дабы не дублировать усилия.  А если по каким-то причинам не хотите делать их за деньги, тоже, пожалуйста, об этом напишите мне.

Originally published at Иван Бегтин. You can comment here or there.

Ещё не конкурс, но обсуждение!
25 августа 10 10:35

В ВебПланете вышла статья про то что я уже организовал конкурс – http://www.webplanet.ru/news/service/2010/08/25/begtin.html.

Друзья, спасибо за привлечение внимания к идее. Только это ещё не конкурс, это был анонс обсуждения и сбор предложений как конкурс организовать. Обратите, внимание, на разницу.

Результаты обсуждения уже доступны тут http://ivan.begtin.name/2010/08/25/idearesults/

И конкурс будет проходить по описанной там схеме:

1. Я еженедельно буду публиковать список из 10 массивов в «плохих форматах» с предложением волонтёрам их преобразовать.  К волонтёрам просьба – если возьметесь за работу, отпишите мне – чтобы я соответственно отметил этот массив и укажите если Вы берётесь за это бесплатно.

2. В течении недели, если кто-то за преобразование берётся, я отмечаю в Wiki проекта что этими данными занимаются и потом там же публикую результаты – скрипт и массив данных.

3. В конце недели публикуют отчет с итогами. Какие данные преобразованы, а какие нет и следующий список из 10 массивов.

4. Если какие-то данные небыли преобразованы в течении недели. Например, были волонтёрами неинтересны или же массивы сложности, я публикую все непреобразованные данные списком с указанием суммы которую я готов подарить за их преобразование.

5. В случаях сложных и больших массивов данных каждый из них будет выносится на широкое обсуждение.

Если редактора ВебПланеты читают мой блог, поправьте, пожалуйста, у себя в статье.

Тем временем уже за короткий срок уже появилось 7 машиночитаемых массивов данных . Это очень круто, я не ожидал такого результата, если честно.

Originally published at Иван Бегтин. You can comment here or there.

Результаты обсуждений идеи
25 августа 10 03:00

Итак, по идее которую я ранее озвучил тут что я хочу инициировать процесс по созданию открытых машиночитаемых данных усилиями сообщества появились первые результаты.

Во первых пошли обсуждений сразу в нескольких местах: здесь - http://ivan.begtin.name/2010/08/24/opendataidea/ , здесь – http://ivbeg.livejournal.com/313161.html и здесь http://groups.google.com/group/opengovdataru/browse_thread/thread/5ef181f1c9e19c72 и тут http://ff.im/pE9Ww. Что мне особенно нравится обсуждение идёт конструктивное – за что спасибо всем участникам.

Во вторых, стоило мне объявить о том что я собираюсь такой конкурс сделать, даже до его объявления мне уже прислали несколько скриптов и массивов данных преобразованных массивов.  Я собрал их все на странице Wiki под названием «Как помочь проекту«. Отдельное спасибо Артемию Трегубенко (arty.name) и Сергею Кожину (http://github.com/skojin) за эти скрипты. А Алекс Капранов взялся за реестр недобросовестных поставщиков. Во всех случаях если не указано иное авторами, я буду размещать такие скрипты и данные под лицензиями PDDL (Public Domain Data License) и Creative Commons Attribution 3.0 Unported License. Да, никто из авторов не спросил денег за работу, но если всё таки  сочтёте что она денег стоит – пишите сразу мне.

В третьих не единожды мне уже написали о том что надо мотивировать не деньгами, а общественным благом. То есть надо описывать ту пользу которую мы создаём преобразуя эти данные. Тут есть не проблема, но вопрос понимания. Сложно доказать прямую пользу от открытых данных поскольку польза не прямая, а на основе производных от них проектов – таких как OpenCongress.org, да и РосГосЗатраты весь и целиком основан на открытых данных как и другие проекты. Создавая открытые данные мы меняем реальность поскольку далее на их основе может быть создано нечто новое, интересное и полезное и далеко не всегда можно предсказать что именно.

В четвёртых я услышал гениальное предложение что надо предлагать компаниям нанимающим программистов предлагать написание парсеров в качестве тестового задания. Если Вы ищите программистов и даёте им тестовые задания, обращайтесь ко мне – я Вам предоставлю список никем пока ещё не преобразованных данных для которых парсеры нужны. Если потом ещё и результаты будут в открытом доступе под Creative Commons – так вообще прекрасно. Точно также, если Вы обучаете студентов, даёте им тестовые задания – я готов, по мере возможностей, помочь с тем какими эти задания могли бы быть. По написанию парсеров, очистке данных, их преобразованию и так далее. Здесь все задачи живые, результаты будут общедоступные, общественное благо будет несомненным.

В пятых, я отвечу на ряд возникших вопросов.

1. Почему только скриптовые языки?

Потому как в большинстве случаев с ними проще управляться, легче использовать в веб-проектах и так далее. Я лично ничего не имею против различных вендоро-специфичных платформ/языков вроде .NET и Java, но не вижу смысла без поддержки самих вендоров на этих платформах.

2. Откуда требования к выходным форматам?

На основе мирового опыта, удобства для пользователей и так далее. Например, данные в CSV сравнительно просто загрузить в MS Excel, OpenOffice или, даже, в GridWorks. XML данные также легко преобразуются и есть много инструментов для работы с ними. JSON очень удобен при веб-разработке и загрузке в NoSQL базы вроде MongoDB.  Плюс, конечно, ещё есть KML формат для геоданных, но я лично считаю его производным от других. То есть вначале хорошо бы получить данные в CSV, а преобразовывать их это уже следующая задача.

3.  Почему среди лицензий нет GPL?

Потому как, GPL, несмотря на все свои плюсы и распространённость довольно жёсткая лицензия. Я считаю что автор должен иметь возможность использовать этот код и для коммерческих целей, равно как и все остальные.

4. Как быть с описанием структур?

По хорошему, прежде чем преобразовывать плохие форматы в хорошие надо бы их описать в некой структурированной форме, например, XSD. на практике, лично я считаю, что этого можно избежать в некоторых случаях когда структура, условно, очевидна. То есть, если мы понимаем что все данные представлены в виде одной плоской таблицы, то последующую структуризацию можно провести постфактум. В случае сложных данных, согласен, имеет смысл моделировать ситуацию, до.

5. Зачем всё это нужно?

Основная цель – создать фундамент для последующих гражданских проектов поскольку сейчас мы находимся, в некотором смысле, тупиковой ситуации. Когда государство не раскрывает данные поскольку исходит из того что они никому не нужны и «общество не готово», а гражданские проекты не появляются поскольку данных нет. Сейчас мы готовим набор ингридиентов на основе которых потом каждый сможет творить собственные блюда.  И чем больше ингридиентов появится, тем больше шансов что будет больше гражданских проектов на их основе.

6. Можно ли эти данные использовать в своих проектах?

Да, несомненно можно и нужно. Как для некоммерческих так и для коммерческих проектов. Для некоммерческих проектов я думаю что и так понятно почему. Для коммерческих это нужно для формирования рынка сервисов основанных именно на открытости данных, а не на доступе к ним на эксклюзивной основе. В мире такие сервисы, в основном, сосредоточены на визуализации данных, подмешиванию их в результаты поисковой выдачи, алгоритмах по работе с информацией, проектов вроде InfoChimps и Factual предоставляющие удобные инструменты для работы с информацией.

——-

И в пятых. По результатам обсуждения я хочу немного трансформировать эту идею. Я вижу что на сравнительно простые массивы данных энтузиасты находятся и их преобразуют. Со сложными случаями, когда данные публикуются в форматах Excel’я, Word’а или PDF.  Или же когда используются сложные формы за которыми данные скрыты. Или же когда структура HTML неудобна для обработки.

Я предлагаю следующее. Я готов размещать в Wiki проекта, на сайте OpenGovData.ru и других ресурсах, на которых только дотянусь, статьи касающиеся преобразования данных различными инструментами. Особенно меня интересуют сложные случаи и статьи с примерами на основе данных OpenGovData.ru. Все статьи будут публиковаться с указанием автора под Creative Commons лицензией.

Соответственно, статья – это всё таки несколько большая работа чем просто преобразовать данные и я готов за такие статьи платить денежку. За обычную статью – 1000 рублей, за статью на особо интересные темы – 2000 рублей. С общим бюджетом в 10 тысяч рублей на месяц и оплатой через Яндекс.Деньги. А если кто-то готов написать, без денег – также милости прошу. Просто отметьтесь, скажите что готовы сделать это без денег.

Какие темы хотелось бы охватить: преобразование данных стандартными скриптовыми языками вроде Python, Ruby, PHP и так далее, обработка данных в общем случае, обзор форматов данных и другие связанные темы.

Темы которые особенно интересны лично мне:

- автоматическое извлечение данных из документов Word, Excel, PDF,

- сбор данных с веб-страниц закрытых за POSTBACK навигацией которая используется в сайтах на asp.net

- трюки, хитрости, сложные случаи

- обработка и очистка данных, в том числе автоматическая. например, интересен обзор работы с Freebase Gridworks;

- как визуализировать данные – строить графики на разных движках. Желательно opensource, но пойдут и другие

Если какие-то темы тут не упомянуты, но Вы считаете что они важны, прошу Вас, предлагайте.

С каждой статьей, соответственно, нужен пример открытых данных из OpenGovData.ru или какой-либо другой пример госданных который там не упомянут (заодно его туда добавим).

Соответственно если Вы захотите такую статью написать – пишите мне на ibegtin (собака) gmail.com или комментарием. Мне нужны тема и то какой массив данных вы в статье используете как пример.

А по преобразованию данных данных я предлагаю следующую схему.

1. Я еженедельно буду публиковать список из 10 массивов в «плохих форматах» с предложением волонтёрам их преобразовать.  К волонтёрам просьба – если возьметесь за работу, отпишите мне – чтобы я соответственно отметил этот массив и укажите если Вы берётесь за это бесплатно.

2. В течении недели, если кто-то за преобразование берётся, я отмечаю в Wiki проекта что этими данными занимаются и потом там же публикую результаты – скрипт и массив данных.

3. В конце недели публикуют отчет с итогами. Какие данные преобразованы, а какие нет и следующий список из 10 массивов.

4. Если какие-то данные небыли преобразованы в течении недели. Например, были волонтёрами неинтересны или же массивы сложности, я публикую все непреобразованные данные списком с указанием суммы которую я готов подарить за его преобразование.

5. В случаях сложных и больших массивов данных каждый из них будет выносится на широкое обсуждение.

Комментарии и живое обсуждение всячески приветствуется.

Originally published at Иван Бегтин. You can comment here or there.

Оптимизация органов власти в штате Юта и открытые данные
20 августа 10 08:21

Как пример того как проходят мини-реформы по оптимизации государственного управления в США, приведу в пример комиссию по оптимизации в штате Юта. Их деятельность подробно описана у них на сайте http://performance.utah.gov/index.shtml

Ну а если забраться в детали то можно найти вот такой их отчет для губернатора http://performance.utah.gov/optimization/Optcom_Final_Report.pdf

В отчете можно найти один из наиболее интересных принципов на которых построена работа комиссии.

Data driven – The Advisory Commission will be guided by data as they review state
government activities. As such, the Commission’s review will be removed from emotional
considerations.
и вот такой текст
Data Driven Management: Corrections, Community and Culture, Juvenile Justice
Services, and Workforce Services are all implementing technology to provide better,
more accurate data that will assist in making better informed business decisions.
В принципе отчет не очень большой, всего 64 страницы, хорошо структурированный и включающий конкретные предложения по созданию системы сбалансированных показателей, использованию данных из коммерческих систем для улучшения процессов принятия решения и так далее.
Но главное, конечно, это ещё один наглядный пример того что открытые (доступные) данные могут помочь не только гражданам и бизнесу, но и являются инструментами позволяющими проводить оптимизацию деятельности государственных структур.

Originally published at Иван Бегтин. You can comment here or there.

А давайте как составим вместе список желаемых данных
19 августа 10 07:55

Я какое-то время назад писал про те данные которых нет в машиночитаемом виде, но очень бы хотелось увидеть.

Пришла пора составить более полный и всеобъемлющий список для чего в вики OpenGovData.ru появился специальный раздел «Желаемые данные» где я составил первый список данных которых нет в машиночитаемом виде или доступ к ним ограничен, но которые очень бы хотелось получать именно в машиночитаемой форме. На сайтах ответственных за них ведомств или на data.gov.ru, когда он появится.

Основная мысль – описывать не то что уже есть, а именно то что хочется, что необходимо для контроля за деятельностью государства в самых разных областях и та информация которая имеет общественное значение.

Предлагаю желающим добавлять свои пожелания в Вики или присылать мне комментариями.

В дальнейшем, есть идея сделать реестр идей как в http://data.gov.uk/ideas/list и туда импортировать список из WIki.

Originally published at Иван Бегтин. You can comment here or there.

Открытые данные в ресурсном государстве
17 августа 10 03:37

Я не так давно уже делал обзор про открытые данные и российскую специфику, сейчас, прочитав несколько книг Кордонского, подправив терминологию и вообще проникшись точностью описания вижу как все те же проблемы можно описать не просто «в реальности», а «как оно на самом деле» (о разнице между этими понятиями можно почитать тут).

Рыночная экономика и гражданское общество

Собственно, главная проблема открытых данных в России в том что потребность в них может быть обеспечена всего двумя факторами – наличием рыночной экономики и гражданского общества.

Рыночная экономика, особенно с высокой конкуренцией, обеспечивает среду когда предприниматели, коих множество, приходят к согласованной позиции или действиям направленным на открытие информации которая может помочь их бизнесу или же, если приведёт к контролю за бизнесом, то охватит всех, а не малые группы. Например, публичное раскрытие данных акционерными обществами актуально только в условиях рыночной экономики и частью рынка является. В некоторых странах, например, США – это раскрытие уже формализовано настолько что данные в системе SEC публикуются машиночитаемыми много лет. Точно также рынок заинтересован в открытости и доступности информации о техническом регулировании, нормативно-правовом регулировании, информации о госзаказах, официальной статистике и так далее. А то есть в информации наличие которой позволяет извлечь прибыль или сократить расходы. А также есть отдельный сегмент рынка – информационные компании чей бизнес основан на работе с информацией, накоплением баз данных и так далее. Типичными представителями такого рынка можно назвать компании-владельцы крупнейших поисковых систем Google, Yahoo и Microsoft, а также крупные СМИ формирующие свои банки данных, такие игроки cloud-сервисов как Amazon и многие другие.

Гражданское общество, в его полноценном понимании, а не в той форме как оно существует в России в первую очередь заинтересовано в наличии и доступности информации позволяющее контролировать государство и бизнес. Это может быть информация о государственных расходах, чрезвычайных происшествиях, изменении климата, экологической обстановке и так далее. Наличие этой информации в форме пригодной для последующей интерпретации позволяет институтам гражданского общества воздействовать на государство и бизнес максимально эффективно.

Несомненно, также, что, и у рынка, и у гражданского общества интересы могут как совпадать так и напрямую конфликтовать, например, в части данных об экологическом состоянии. Однако, чаще, наличие таких конфликтов и их публичность позволяют найти компромиссные решения.

И, конечно, есть данные которые не являются полезными, напрямую, но могут существенно помочь при работе с другой информацией. Это справочники, классификаторы, геоданные и тому подобная информация, сама по себе, не представляющая особого интереса

Какие бывают данные

При том что далее речь пойдёт о специфики открытых данных в ресурсном государстве, тем не менее приведённая далее классификация типов данных относится не только к России. Её можно применить, в принципе, к любой стране.

Итак, исходя из предполагаемого потребления информации,разделим данные на следующие типы:

  • Ресурсные данные. Это данные обладающие прямой коммерческой или административной ценностью.
  • Контрольные данные. Данные, наличие которых позволяет обеспечить/повысить влияние общества и контроль над органами власти и бизнесом.
  • Справочные и иные данные. Эти данные не обладают прямой коммерческой или контрольной ценностью, но позволяют сформировать каркас для всех остальных данных и создавать удобные информационные продукты.

Это не жёсткая типизация и, на практике, бывают пересечения когда данные могут быть использованы для контроля и быть ресурсными, и даже справочными одновременно. Но чаще, всё таки, деление есть и оно заметно.

Основной интерес, конечно, здесь представляют ресурсные и контрольные данные, поскольку их публичность или непубличность непосредственно влияют на возможности ведомств в вопросах административного торга. Публичность ресурсных данных не позволяет их монетизировать или конвертировать в другие блага, а публичность контрольных данные позволяет гражданам/СМИ/НКО (гражданскому обществу) влиять на госструктуры больше чем им бы этого хотелось.

Разумеется, большинство государственных структур не заинтересовано в их публичности и старается обеспечивать их доступность в пределах их минимальных обязательств.

Примеры

Чтобы понять как и что происходит рассмотрим несколько примеров в подробностях.

Например, данные  ЕГРЮЛ. Это единый справочних всех юридических лиц в Российской Федерации который ведётся налоговой службой. Это типичный пример, ресурсных данных потребность в которых есть у практически всех кто занимается бизнесом в нашей стране. Необходимо получать собственные выписки из ЕГРЮЛ, многие проверяют своих контрагентов, ведут бизнес разведку и так далее. Этот массив, несомненно, имеет значительную ценность, но благодаря тому что он «в реальности» и «на самом деле» уже четко регламентирован. А то есть, ФНС России совершенно официально предоставляет к нему доступ за большие деньги, фактически, узаконен рынок посредников в получении данной информации. Вероятность что она станет общедоступна, фактически стремится к нулю. Основной потребитель рынок, известны регламенты получения информации, стоимость получения не столь высока.

Другой пример, рассмотрим базу ГОСТов ведомую Ростехрегулированием. Здесь ситуация куда сложнее. У этой информации «в реальности» есть статус общедоступной, но меры предпринимаемые этим ведомством по ограничению к её повторному использованию беспрецедентны. Достаточно взглянуть на публикуемые в виде постраничных сканов документы на http://protect.gost.ru чтобы в этом убедится. Потому как «на самом деле» и в реальности тоже, существует ФГУП «Стандартинформ» http://nd.gostinfo.ru/ который данную информацию предоставляет на коммерческой основе. При том что эта информация, несомненно, ресурсная, однако голоса рынка неслышно – видно лишь активности гражданского общества в лице ИРСИ, о чём можно почитать у них на сайте http://www.svobodainfo.ru/ru/taxonomy/term/76. Как оно должно быть правильно? Я считаю что тот факт что продажа ГОСТов может быть узаконена – это не самая серьёзная проблема. Потому как, во первых, к сожалению, «голос рынка» по поводу их доступности не слышен, а во вторых при обеспечении прозрачности

Следующий пример – это общероссийские, региональные и отраслевые справочники. По идее, это справочная информация, её общедоступность обеспечивается в виде публикаций всех изменений в нормативно-правовых документов и пытливые умы могут сами составить эти справочники из документов, однако на практике, они нужны в машиночитаемой форме и необходима возможность их обновления. Однако, здесь тоже не всё просто. Большая часть отраслевых и региональных справочников, действительно, доступны без ограничений. Их немашиночитаемость, как правило, не от злого умысла, а от неорганизованности их ведения и сопровождения. А есть и приятные исключения в виде сайта Службы ведения общегородских классификаторов и справочников города Москвы (http://www.mosclassific.ru/) которые предоставляют городские справочники в машиночитаемой форме и Портала информационного взаимодействия Комитета информатизации и связи Санкт-Петербурга (http://portal.iac.spb.ru/) где все городские и часть общероссийских справочников, также, машиночитаемы в форматах DBF. Схожая ситуация со справочником номенклатуры Минэкономразвития который доступен в XLS, фактически, машиночитаем, с КЛАДРов, СОУН и многими другими. Основная проблема возникает со общероссийскими справочниками которые найти актуальные и машиночитаемые одновременно большая проблема.

Ещё один пример, общероссийская статистика собираемая и публикуемая Росстатом. Формально, «в реальности» – эти данные общедоступны на их сайте. Но у статистических данных есть та немаловажная особенность что ценность они приобретают когда есть возможность их анализа и сопоставления, а то есть для данных статистики машиночитаемость это нечто безусловно необходимое. Но, «на самом деле», статистические данные это ресурсные данные и их машиночитаемое раскрытие приведёт к формированию на их основе значительного информационного рынка, а также созданию и развитию уже существующих продуктов. Например, будь данные Росстата машиночитаемы априори, другим ведомствам не пришлось бы запрашивать его руководителей о их использовании, предприятия могли бы их использовать не покупая статистических справочников, а информационные и поисковые компании использовать их в своих продуктах. Яндекс или Рамблер могли бы подмешивать в свою выдачу, а научные и исследовательские учреждения свободно анализировать эти данные и представлять в своих работах.  Я думаю что и так понятно, что будь данные статистики Росстата машиночитаемы, то ведомство лишилось бы чуть ли не главного своего ресурса и, по этой причине, лично я считаю что без принципиальных решений правительства ситуация тут с места не сдвинется.

А также данные о госрасходах публикуемые Минфином в виде бюджетной росписи, Росказной и администрациями субъектов в виде реестров контрактов.  Это типовой пример контрольных данных. Да, они могут быть полезны рынку, но, в основном, это инструменты мониторинга и контроля общества за государством и тем куда оно тратит деньги налогоплательщиков. Ситуация здесь куда лучше чем могла бы быть. Большая часть этих данных, за редким исключением, близка к машиночитаемости. Другое дело что ситуация с гражданским обществом у нас, мягко скажем, не очень и доступность данных не означает наличие тех кто систематизированно с ними работает.  Впрочем, это же касается всех остальных контрольных данных. В основном эти данные используют СМИ для ажиотажа или компромата. Однако, на них, например, удалось запустить проект РосГосЗатраты.

Выводы и ответ на вопрос «Что делать»

Выводов из всей этой ситуации несколько.

Во первых появление data.gov.ru возможно и даже без жёсткого сопротивления органов власти в случае если данные которые там будут содержаться будут носить справочных характер. Такой информации у госорганов очень много, вопрос лишь в её систематизации и организации. И даже польза от этого будет, поскольку наличие этой справочной информации способно помочь в улучшении уже существующих проектов.

Во вторых доступ к контрольным данным – это вопрос не технический, а социально-политический поскольку публичность подобного рода информации – это чистой воды политика. Но, в ситуации неразвитой среды гражданского общества, эффект от усилий будет невелик поскольку главная ценность открытых данных в их повторном использовании. Если же они не используются то и инициатива развития не получит.

В третьих, рассчитывать на раскрытие ресурсных данных, без поддержки со стороны их потребителей и лоббирующих структур этих потребителей – бессмысленно, поскольку для граждан не являющихся основными пользователями этой информации, борьба за их открытость не более чем шоу.

Кстати, большинство систем PSI и каталогов открытых данных содержат именно справочную информацию. Оттого и их популярность не столь высока как хотелось бы. Поскольку в странах где такие инициативы идут, госчиновники тоже не сами себе враги и информацию позволяющую контролировать их работу стараются публиковать по минимуму.

Делать же надо всё тоже и сейчас, но когда вопрос касается данных позволяющих контролировать органы власти, такие как подробные и структурированные сводки о ЧС, результаты экомониторинга, принятия нормативно-правовых актов и так далее, то надо готовится к сопротивлению госорганов и предложению очень конкретных мер, самостоятельной разработке форматов и извлечению нужной информации из разных источников.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 05.08.2010: Работа с данными онлайн
05 августа 10 09:29
Инструменты
  • Socrata – проект с большим количеством «социальных данных». Наполняется пользователеями
  • InfoChimps – с некоторых пор не только коллекция банков данных, но и площадка для продажи своих массивов.
  • FreeBase Gridworks – удобный инструмент по чистке данных от команды Freebase
  • IBM ManyEyes – великолепный сервис графиков от IBM
  • OpenStructs – инструменты для работы со структурированными данными. Включая расширения для Drupal
  • Google Fusion Tables – сервис для работы с таблицами от Google
  • GeoCommons – визуальная аналитика по геоданным
  • Tableau Public – бесплатный продукт по визуализации данных от Tableau Software. Даже со всеми его ограничениями – загрузка только из Excel, Access и CSV и не более 100 000 записей, попробовать стоит.

Данные

  • Government Data Catalogs – каталог каталогов открытых данных от Sunlight Labs
  • Data.ed.gov – открытые данные департамента образования США

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Исследование коммерческого использования открытых данных в Евросоюзе
30 июля 10 10:07

В Евросоюзе инициировали исследование на то как коммерческие использование открытых данных создаёт общественное благо – помогает людям, создаёт новые продукты и так далее.

Подробнее можно почитать здесь – http://radar.oreilly.com/2010/06/european-union-starts-project.html и в блоге Марко Фиоретти  http://stop.zona-m.net/node/175 который, собственно, этим исследованием занимается.

Результаты будет почитать весьма интересно.

Originally published at Иван Бегтин. You can comment here or there.

&laquo;Государство. Завтра&raquo; на Rucamp&#8217;е
15 июля 10 10:00

В субботу-воскресение пройдёт одно из самых интересных мероприятий года под названием RuCamp где я буду выступать с докладом «Сделаем Россию своими руками» (все двусмысленные интерпретации приветствуются). О гражданских проектах в областях информационного общества, гражданского общества и, самое главное, общественного блага.

Также я буду рассказывать о тех проектах которые закончил за последние 2 года: OpenGovData.ru, GosLyudi.ru, GovWeb.ru и РосГосЗатраты

В принципе, каждый из проектов тянет на большую и презентацию, но в виду ограниченности времени – я сжато расскажу о каждом, как они делались, планировались и как вообще подходить к таким проектам.

И, конечно же, о каждом из проектов меня можно будет спросить в кулуарах.

Почитайте также анонс который подготовила Катерина Аксенова, ведущая секции,  там много интересных докладчиков.

Originally published at Иван Бегтин. You can comment here or there.

Обновления российской геополитической онтологии (OWL)
01 июля 10 01:06

Если кто не помнит – ранее я размещал геополитическую онтологию тут http://ivbeg.livejournal.com/252756.html

Её суть – это построение на основе онтологии FAO (тут – http://www.fao.org/countryprofiles/geoinfo.asp) онтологии административно-территориального деления Российской Федерации с учётом всех её особенностей.

Тем кто не интересовался Semantic Web, Linked Data, возможно, разобраться в этом будет сложновато, но тем кто сталкивался – думаю что будет совсем несложно.

Сейчас и далее под «онтологией» – я буду иметь в виду описание предметной области в формате OWL файла.

В частности в эту онтологию входит:

- перечень всех субъектов федерации

- группировки субъектов по военным округам, экономическим районам и федеральным округам

- иерархии регионов и групп

- классификационные коды регионов по КЛАДР, ОКАТО, ОКТМО, ISO3166, ГОСТ7.67-2003

- временные зоны регионов, русские и английские названия и так далее

На сей раз назрело обновление, но прежде чем заменять файлы на сервере, выкладываю их драфт у себя в блоге, а дальше по тематическим сообществам.

Что есть в новой версии:

- добавлен Северо-Кавказский федеральный округ и в него из Южного перенесены относящиеся к нему субъекты федерации

- новое свойство isMemberOfMunicipal используемое для формирование иерархии муниципальных образований

- теперь классы rural_settlement и urban_settlement переподчинены от municipal_district к municipal_formation. Это сделано поскольку городские и сельские поселения входят в муниципальные районы, а не наследуют от них свойства. А вхождение объектов управляется с помощью isMemberOfMunicipal

- для всех субъектов федерации заполнена информация о том с какими другими субъектами федерации они граничат. Это внесено в поля hasBorderWith

Саму обновлённую онтологию можно скачать в zip архиве тут – ruregions.zip

Плюс ещё один пример того как я предполагаю развивать онтологию далее – это описание структур административно-территориального деления в рамках субъекта федерации. А то есть перечень муниципальных образований. Классы для описания муниципальных образований есть в корневой онтологии regions.owl, а вот объекты в импортирующих её отдельных для каждого региона.

OWL файл архиве тут –  r87.zip.

И о том чего в этих онтологиях нет:

1. Кроме свойств наличия границ между субъектами в них нет никакой географической информации – такой как географические координаты, широты, параллели, территории, статистической информации и так далее. Нет по той причине что это базовые онтологии, а то есть все остальные строятся на их основе на них ссылаясь

2. Нет информации о границах  территорий с другими странами. В принципе, это сравнительно несложно сделать и было сознательно пока отодвинуто поскольку никогда не будет поздно добавить

3. Пока ещё неполное описание внешних территорий таких как Байконур, российские военные базы зарубежом и так далее. Скорее всего их описание также будет вынесено в отдельную ветку/онтологию.

4. Для городских и сельских поселений указываются два атрибута иерархии isMemberOf – отношение к субъекту федерации и isMemberOfMunicipal – вхождение в муниципальный район. Это создаёт некоторую избыточность, но упрощает некоторые выборки.

Собственно, что дальше. Я занимаюсь этими онтологиями, в основном, из личного интереса. У нас в России Semantic Web всё ещё в таком зачаточном состоянии что привлечь гранты или спонсоров для подобной работы – ну очень маловероятно.

Но лично мне нужно и интересно, поскольку, поскольку базовые онтологии необходимы для более сложных, моделирования  структуры правительств и органов власти федеральных и субъектов федерации.

Originally published at Иван Бегтин. You can comment here or there.

Что пишут иностранцы про OpenGovData.ru в Twitter&#8217;е
24 июня 10 08:22
По следам статьи в OKFN иностранцы твитят, а я их отслеживаю через Topsy - http://topsy.com/blog.okfn.org/2010/06/23/open-government-data-in-russia/
Популярные твиты:
  • «Even» in Russia!
  • Netherlands now really falling behind…
  • Two new victories for OpenData movement
  • Is that joke?

Скриншот некоторых из них:

Голландцев конечно, жалко, им это явно удар по самолюбию.

А вот для всех стран Евросоюза это должно быть сильным мотиватором. Если «даже русские» занимаются открытыми данными, то почему они этого не делают?

Originally published at Иван Бегтин. You can comment here or there.

Про открытые данные и геоданные &#8211; критика от Максима Дубинина (GIS-Lab)
08 июня 10 09:17

В блоге GIS-Lab, Максим Дубинин подробно и критически разобрал мою прошлую заметку про проблемы открытых данных в России охватив тему геоданных и геотехнолоргий. Почитать его критику можно и интересно здесь – http://gis-lab.info/blog/2010-06/begtin/

Максим верно указывает, GIS-Lab, действительно, очень заметный ресурс именно благодаря высокой степени открытости публикуемой там информации и её машиночитаемости. Там же, кстати, можно найти многие интересные массивы данных. Да, GIS-Lab, определённо можно назвать центром компетенции по открытым геоданным в России.

И, конечно, Максим прав в том что данные нужно создавать - это ровно то чем я занимаюсь в проектах OpenGovData.ru, Гослюди.ру и Государственная Сеть.

Originally published at Иван Бегтин. You can comment here or there.

More Posts Next page »

This Blog

Syndication