Март 2009 - Posts

Сумма размышлений на 29.03.2009. Итоги недели
29 марта 09 11:48

Прошедшие две недели оказались очень плотные, как и, скорее всего, будет следующая неделя и для меня, в основном наполнены темами госзакупок, закупок и электронного государства. На длинные тематические посты меня пока нехватит, поэтому сумма размышлений.

Госзакупки

   Три дня на выставке, в общем-то, подтвердили мои опасения что вопросы которые я у себя в журнале излагал по проблемам автоматизации госзакупок, не идут ни в какое сравнение с законодательными и практическими проблемами в этой области. К сожалению, тех кто об этом говорит и пишет - не слышат. 

Электронное государство и раскрытие информации

Чем более я смотрю на 8-ФЗ по доступности информации госорганов тем более убеждаюсь что закон весьма непростой. Даже в части только раскрытия информации там много немаловажных положений, начиная с того же определения официального сайта которому теперь не соответствуют множество официальных сайтов ОГВ и муниципалитетов. 

Негосударственный аналог data.gov.ru

Лично я решил что открытый аналог несуществующего data.gov.ru я буду делать в любом случае. Политики за данным проектом ноль, да и быть не может. Явных причин чтобы его начало дело какое-либо из госведомств тоже не видно, так что как только у меня найдётся пара свободных дней, то альтруизма хватит по крайней мере на начало. Наиболее близким и правильным по идеологии сейчас представляется infochimps.org, а также есть большое желание включить подобный проект в область применения Linked Data.  Надеюсь что найдутся энтузиасты готовые начинание поддержать.


Личные проекты

Хотя я и надеялся вернуться к Скиуру и Социоранку на этой неделе и уже накопились ряд обновлений и по обработке RSS и по социальным рейтингам, но всё ещё есть масса временных ограничений. Например большой вопрос в развитии Скиура - удобство или большая “интеллектуальность”. Сейчас там всё ещё сохраняются ограничения на обработку новостных лент где обязательно должна присутствовать дата, причина проистекает даже не в том что дата жизненно необходима для построения RSS ленты, а в том что при отсутствии дат процесс формирования RSS лент куда как более ресурсоёмок. Пока же развитие алгоритмов анализа веб-страниц/сайтов и так далее у меня упирается в отсутствие времени. Хотя это и  очень интересно, особенно в части построения объектной карты при анализе веб страниц, но это очень долгоиграющая задача с непростыми результатами в случае её успешного решения.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Нюансы законодательства. Официальныее сайты
26 марта 09 03:51

Вчитавшись в 8-ФЗ я, в частности, обратил внимание на статью 1 пункт 5 которая выглядит следующим образом.

официальный сайт государственного органа или органа местного самоуправления (далее - официальный сайт) - сайт в информационно-телекоммуникационной сети Интернет (далее - сеть Интернет), содержащий информацию о деятельности государственного органа или органа местного самоуправления, электронный адрес которого включает доменное имя, права на которое принадлежат государственному органу или органу местного самоуправления.

То есть, если я правильно понимаю положения закона, то если права на домен не принадлежат органу государственной власти или органу местного самоуправления, то этот сайт официальным не является.

Смотрим на официальный сайт Красноярского края www.krskstate.ru - если посмотреть реквизиты домена, то можно убедиться что принадлежит он Joint Stock Company “Intertax” и, следуя букве закона, с момента вступления 8-ФЗ в силу 1 января 2010 года официальным он более не является.

Аналогичная ситуация с:

Итого 7 регионов из 83, что даёт нам 8.4% в итоге. Плюс непонятен статус региональных сайтов находящихся на географических доменах вроде vrn.ru, penza.ru, smolensk.ru и так далее.

К чему я это всё - для сайтом местных самоуправлений ситуация куда хуже. При том что у большинства муниципальных образований их просто нет, у многих тех у кого есть домены им не принадлежат или они вообще развёрнуты на бесплатных хостингах вроде nm.ru или narod.ru .

Как следствие, следуя определению закона, если эти сайты не обновятся и не скорректируют информацию к январю 2010 года они перестанут быть формально официальными со всеми вытекающими последствиями.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Впечатления от Госзаказ 2009
25 марта 09 06:44

Провёл 3 дня на ежегодной выставке Госзаказ. Людей на выставке, прямо скажем, совсем немного и впечатлений тоже не очень много - гораздо меньше чем от других интересных событий и новостей которые удавалось проследить в последнее время. 

Далее наблюдения по совокупности:

  • заметно значительно меньшее число госзаказчиков и представителей регионов, с кем не поговоришь все предполагают что причина кроется в экономии и на экспозициях и на командировки в Москву;
  • ходило много поставщиков которых можно описать как “хотим поучаствовать в госзаказах, незнаем как”. Многие не делали даже самого предварительного анализа того как государство закупает, где закупает и какими процедурами, многие путают коммерческие тендеры и торги по госзаказу, но интерес к закупкам тем не менее у них есть. 
  • было очень небольшое число автоматизаторов процессов торгов, например, отсутствовали стенды Наумена, БФТ, Комиты и ещё ряда поставщиков решений. Полагаю что дело в 3-х причинах: рынок внедрения сужается, у гос. органов нет денег на внедрения, автоматизаторы экономят на неучастии в выставке.
  • из федеральных органов власти были только: МЭР, ФАС, МЧС, ФАИТ, Минтранспорта, Минздравсоцразвития, Росимущество, Рособранаука, Федеральное казначейсто, Минсельхоз, Роспотребнадзор.  
  • удивило что, несмотря на то что одной из тем было противодействие коррупции в сфере размещения заказа, небыло представителей Рособоронзаказа, Прокуратуры и Счетной Палаты. 
  • единого сайта по закупкам раньше 2011 года ждать не стоит, а вот 5 электронные площадки МЭР и ФАС хотят сократить до 5 по всей стране. Затея объяснимая, но странная. Да, ФАСу, может быть, и было бы удобнее мониторить чем меньшее число площадок тем лучше, вот только вопросы мониторинга можно решать и другими способами, без искусственного ограничения числа площадок.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Раскрытие информации о правилах раскрытия информации
20 марта 09 06:39

Перечитываю Федеральный закон Российской Федерации от 9 февраля 2009 г. N 8-ФЗ “Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления” (посмотреть его можно тут - http://www.rg.ru/2009/02/13/dostup-dok.html

Там много интересного, нужно и правильного. Закон если не полностью, но подробно описывает ответ на вопрос “ЧТО?” - что именно, какие данные, должны предоставляться в открытом доступе, немного отвечает на вопрос “КАК?” и совсем немного отвечает на вопрос “Посредством чего?” и, лично я, вижу в нём один существенный пробел.

Который можно изложить следующим образом:

1. Упоминается про ответственность представителей гос. органов при невыполнении регламентов и нормативных актов, но нет упоминаний ответственности при отсутствии нормативных актов как таковых. 

2. Упоминается что доступность данных регулируется нормативными документами органов власти и органами самоуправления, что фактически означает что о доступности данных гражданину недостаточно знать этот закон, ему необходимо иметь доступ к поставновлениям и распоряжениям органам ответственным за те или информационные системы содержащие данные. 

Переводя с русского на русский.

В законе присутствуют нормы позволяющие перекрывать его положения различными нормативными документами, но нет требований, например, по регистрации подобных документов в едином реестре и возможности гражданину понять так может ли он получить информацию или нет. 

Лично я считаю что любом раскрытие информации - должно включать раскрытие и систематизацию информацию о раскрытии. 

Возвращаясь к data.gov.ru - отдельным и большим его разделом может быть систематизированный реестр законодательных актов и основных регламентов предоставления информации.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Ссылки на 19.03.2009. Видеоблоги представителей гос. власти
19 марта 09 02:20

Подборка ссылок:

1. Видеоблог Дмитрия Анатольевича Медведева  - http://blog.kremlin.ru

       Блог на отдельном поддомене и своём движке.

  • Должность: Президент Российской Федерации
  • Способ трансляции видео: Flash
  • HDVideo: нет
  • Трансляция канала на видеохостинг: нет
  • ПО: Неизвестно, возможно Django 
  • Экпорт новостей: RSS
  • Можно комментировать?: Да
  • Комментарии модерируются?: Да
  • Для комментариев требуется авторизация: Да

2. Видеоблог Олега Богомолова  - http://www.admobl.kurgan.ru/6477.html

       Блог на официальном сайте Курганской области

  • Должность: Губернатор Курганской области
  • Способ трансляции видео: AVI
  • HDVideo: нет
  • Трансляция канала на видеохостинг: нет
  • ПО:  CMS Etomite 0.6
  • Экпорт новостей: нет
  • Можно комментировать?: Нет
  • Комментарии модерируются?: -

Комментарий: по факту это не блог, а личные видеопослания. Обратная связь полностью отсутствует.

3. Видеоблог Денина Николая Васильевича  - http://www.bryanskobl.ru/news/videoblog/

       Блог на официальном сайте Брянской области

  • Должность: Губернатор Брянской области
  • Способ трансляции видео: Flash
  • HDVideo: нет
  • Трансляция канала на видеохостинг: Rutube
  • ПО:  неизвестно
  • Экпорт новостей: нет
  • Можно комментировать?: Нет
  • Комментарии модерируются?:  -

Комментарий: по факту это не блог, а личные видеопослания. Обратная связь полностью отсутствует.

4. Видеоблог Валерия Гаевского - http://www.gubernator.stavkray.ru/videoblog/index.htm

    Блог на официальном сайте губернатора Ставропольского края

  • Должность: Губернатор Ставропольского края
  • Способ трансляции видео: WMV
  • HDVideo: нет
  • Трансляция канала на видеохостинг: нет
  • ПО:  CMS официального сайта
  • Экпорт новостей: нет
  • Можно комментировать?: Нет
  • Комментарии модерируются?:  -

Комментарий: по факту это не блог, а личные видеопослания. Обратная связь полностью отсутствует.

Нерассмотренные:

При том что ни один из блогов, кроме блога президента РФ и мэра Мегиона, полноценным блогом не является - комментировать нельзя, RSS нет, видео выкладывается AVI файлами, НО! есть один важный момент. Все они как эпидемия появились в краткий срок после того как Медведев завёл свой. А то есть малый, но всё же прогресс имеется. 

И к вопросу о внедрении СПО - готов биться об заклад что появись Медведев хоть раз в видеоблоге, например, в кепке с пингвином и надписью “Линукс”, глядишь и тут что-нибудь бы переменилось в нашей необъятной стране.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Принципы открытия данных государством
19 марта 09 11:36

Я таки не поленился и решил перевести Open Government Data Principles (оригинал на английском тут  http://resource.org/8_principles.html) которые можно, буквально один в один, закреплять законодательно.

Принципы открытия данных государством

Государственные данные должны рассматриваться как открытые только если они соответствуют изложенным ниже принципам:

1. Полнота Все публичные данные должны быть доступны. Публичные данные - это данные не подпадающие под категории персональных и данных ограниченного доступа .

2. Первичность

Данные предоставляются из оригинального их источника с максимально возможным уровнем точности, но не в неагрегированной или изменённой форме. 3. Своевременность

              Данные должны предоставляться столь скоро сколь это необходимо для сохранения их ценности. 

4. Доступность Данные должны быть доступны максимально широкому числу пользователей для максимально широкого числа применений.

 5. Пригодность к машинной обработке (машиннообрабатываемость)

              Данные должны быть разумно структурированы для пригодности к автоматической обработке 

6. Недикриминационно Данные должны быть доступны кому-угодно без необходимости регистрации. 7. Непроприетарно Данные должны быть доступны в форматах не принадлежащих кому-бы то ни было (государству или коммерческой организации) эксклюзивно . 8. Лицензионно свободно Данные не должны быть объектом регулирования в виде копирайтов, патентов, торговых марок, торговых секретов.  Разумные ограничения по приватности, безопасности и ограничениям доступа могут быть разрешены. 

А заодно приведу собственную заметку на близкую тему - Информационная архитектура и критерии качества раскрытия информации.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

ИТ и кризис. Сокращение расходов госбюджета
16 марта 09 04:51

Я, помниться, в октябре месяце писал про то что регионы будут будут сокращать свои бюджеты и вот оно так и случилось - Регионы пошли на сокращение бюджетов (BFM.RU)

Моё субъективное мнение - сокращения куда больше. Точной статистики, увы, привести не могу по множеству причин, а по неточной,  с января месяца госучереждения начали закупать куда меньше, особенно тех услуг и товаров которые не являются безусловно необходимыми - как то разработка информационных систем, веб-сайтов, различных услуг и так далее.

Отсюда, скорее всего,  доходы интеграторов будут падать, госзаказчики будут куда менее охотно расставаться с деньгами, а контракты могут меняться в сторону уменьшения, благо уже есть преценденты.

Такие дела.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

В поисках национального портала
16 марта 09 02:59

Ранее я размышлял о появлении веб-сайта data.gov.ru - ресурса который мог бы быть востребованным, хотя и, не скрою, возможно пройдёт немало времени до его появления. 

Другая, немаловажная тема - это отсутствие у России, Российской Федерации такого понятия как национальный государственный портал.

Или, выражаясь не столь официально, нет веб сайта выступающего в качестве Лица государства. Вернее он есть, называется “Сервер органов власти” (www.gov.ru), но с его неизменностью вот уже 10 лет и качеством наполнения он может представлять лишь таксидермический и археологический интерес - пользы же, почти ноль. 

Я говорю о лице государства - не просто как веб сайта где собран минимум информации о нём, а, если угодно, инструменте влияния государства на информационную среду. Пока, скажем прямо,  с этим влиянием у нас слабовато.

Итак, каким может быть национальный государственный портал?

Я разделю пропущу в этой заметке анализ и классификацию уже существующих подобных сайтов во всём мире и сразу приведу их типы  с соответстсвующими примерами.

1. Сайт как “лицо государства” на международной арене: для туристов, инвесторов, международных организаций, людей интересующихся этим государством. Примеры:

2. Сайт как “лицо государства” для граждан. Отражая все стороны государства: история, география, политическое устройство, новости, услуги и так далее для собственных граждан.

Примеры,

3. Смешанные порталы для граждан внутри страны и для всех остальных. Создаются на множестве языков - как минимум на национальном языке и на английском. 

Примеры:

Я не буду углубляться в подробности как портал любого типа может быть создан - написать его структуру и принципы наполнения несложно. По большей части и написано, вопросы в другом.

Вопрос 1: Какой тип национального портала нужен?

Вопрос 2: Кто (какое ведомство) будет отвечать за его ведение?

Эти вопросы связаны между собой поскольку ответ на второй, автоматически определяет ответ на первый вопроc.

В случае если национальный портал - это лицо для граждан других стран, то ответ практически очевиден - этот портал должен создаваться и поддерживаться Министерством Иностранных Дел и делать акцент на культурном, историческом, географическом, туристическом и иных публичных профилях России в мире.

Если же национальный портал - это смешанный или внутренний ресурс, то кто его должен вести это вопрос очень неоднозначный. По логике вещей и организации подобных ресурсов во всём мире - это прерогатива правительста, но у правительства есть свой портал, который, правда, и трети не включает того что должно было бы быть на национальном, но включает много того что там ненужно.

Альтернатива - ведение портала АП, но его наполнение - это постоянный процесс, и будет означать постоянный поток информации который должен будет исходить из ведомств для публикации на портале. Не совсем функции АП, прямо скажем.

Ещё один вариант - МинСвязи. В этом случае национальный портал является “одной большой бесплатной государственной услугой” всему миру. Но всё равно возникают вопросы по его поддержанию в актуальном состоянии.

И, последний вариант, это ведение подобного портала одним из государственных информационных агенств. 

Это обилие вариантов, как я лично полагаю, и есть причина в том что национальный портал как явление в стране до сих пор отсутствует - поскольку в существующую иерархию государства он укладывается с трудом, а политики вокруг него было бы много.

При том что национальный портал - это далеко не новая идея, более того просроченная у нас в стране лет на 7, тем не менее сделать его, как я считаю, необходимо - если уж какой-то веб сайт ставить школьникам на компьютере по умолчанию, то именно его.

P.S.

И, вдогонку к написанному, на близкую тему -  портал по PlanE - выходу из кризиса в Испании. Обратите внимание на ленту Twitter’а в конце страницы и нормальных размеров видео, правда, в отличии от блога Российского президента, комментарии там оставлять нельзя.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Data.gov.ru - размышления и обобщённая основа создания ресурса
12 марта 09 11:55

Продолжая тему возможности пояления data.gov.ru предлагаю к публичному обсуждению мои собственные мысли на эту тему. Описания неуглублённые, а именно что общие для понимания направления действий. По возможности я постарался избежать бюрократической терминологии, но полного отсутствия вогонечности официальных терминов всё равно не удаётся.

Дальнейшие рассуждения я разделю на следующие разделы:

- зачем нужен ресурс data.gov.ru;

- какие данные должны  в нём содержаться;

- как обеспечить сбор информации;

- как обеспечить предоставление информации;

- проблемы и ограничения;

 

Зачем нужен ресурс Data.gov.ru

Цель создания Data.gov.ru - это создание единого реестра данных, открытого публичного репозитария и систематизированного каталога информации раскрываемой государством.

Целей его появления можно выделить несколько:

1. Создание централизованного ресурса для упрощения задач работы со справочниками и реестрами при создании любых государственных информационных систем. Например,  в части синхронизации общероссийских и региональных справочников.

2. Предоставление гражданам ресурса для удобного поиска и использования информации исходящей от государства.

3. Предоставление массивов данных для исследовательских задач по обработке, классификации и визуализации данных молодыми учёными.

4. Популяризация, в том числе грантами, создания интернет проектов использующих информацию раскрываемую государством привлекая общественный интерес к ключевым государственным активностям.

5. Увеличение влияния государства на информационное наполнение РуНета

Какие данные должны в нём содержаться

В реестре реестров могут и должны присутствовать информационные массивы справочников, реестров, классификаторов и временных данных (timed data) включая все версии массива данных со всеми изменениями и возможностью получения полной информации по каждой версии. Сложные данные, как, например, реестры описание которых включает ограниченное число ведомственных справочников, должны быть систематизированы как справочники входящие в общий массив данных, например, как для справочника БИК РФ существуют внутренние справочники расшифровки полей UER, PZN и ещё ряда других.  При этом каждый справочник должен обладать метаописанием и  OWL/RDF(S) схемой

Систематизацию информации в Data.gov.ru можно разделить на следующие категории.

По месту хранения:

1. Данные размещённые только в центральном репозитории Data.gov.ru в этом случае массивы данных на data.gov.ru являются эталонными

2. Данные размещённые в иных репозиториях, зеркалируемые на data.gov.ru

3. Данные размещаемые в иных репозиториях со своей спецификой хранения и доступа - упоминаемые в реестре государственных реестров на data.gov.ru включая описание особенносте доступа, форматов данных и так далее.

4. Веб сервисы на иных государственных ресурсах в форматах и интерфейсах поддерживающих возможность обращения к ним используя сервисы data.gov.ru как прокси.

5. Веб сервисы на иных государственных ресурсах обладающих собственными особенностями доступа и использования упоминаемые в реестре веб сервисов data.gov.ru

По доступности:

1. Информация являющаяся общедоступной и распространяемой без ограничений - общероссийские, региональные и ведомственные справочники и классификаторы, а также публичные реестры раскрываемые в сети Интернет в обязательном порядке.

2. Информация доступ к которой свободен, но регламентирован обязательностью идентификации запрашивающей системы/персоны и, возможно, ограничениями на перераспространение и доступ. Например, это может касаться информационных реестров значительных по объёму.

3. Информация доступ к которой предоставляется  рамках платных государственных услуг. Эта информация может быть разделена на массивы данных раскрываемые на платной основе с ограничениями на перераспространение  и информационными системами предоставляющими информационные срезы по отдельным запросам, например, подробные выписки из ЕГРЮЛ подпадают под эту категорию. 

Как обеспечить сбор информации

   Необходимо понимание что организационные меры по сбору информации самые долгие. Так если до сих пор не появились не то что RDF, а даже XML описания многих из реестров и справочников, то надеятся на их скорое появление даже если/когда data.gov.ru появится - не стоит. Не говоря уже о том что раскрытие разнородной информации в централизованном реестре десятками госучреждений будет существенно сложнее от размещения однородной информации тысячами госучреждений, как это сейчас происходит, например, со стат. отчетностью и госзакупками. 

Отсюда организация сбора информации должна являтся итеративным и эволюционирующим процессом. На первом этапе должны быть перечислены и систематизированы основные массивы данных раскрываемых государством. На втором этапе предусмотрены регламенты и форматы предоставления информации о раскрываемых данных. Переводя с руского на русский - это означает что не обязательно что данные в массие данных сразу будут в RDF формате, для начала будет достаточно чтобы в RDF описавался формат, структура массива, правила доступа к нему и так далее. Сам массив может быть хоть в DBF, хоть в CSV, хоть в XML.

Перевод массивов данных в RDF формат произодится уже на следующем этапе. Открытым вопросом остаётся как обеспечить метаописание вебсервисов для доступа к реестрам данных значительного объёма (более 1 миллиона записей) и к массивам данных доступ к которым осуществляется на платной основе, но и эта задача решается проработкой метаописаний.

Как обеспечить предоставление информации

Раскрытие информации в рамках data.gov.ru должно начинаться с непосредственно определения того что под этим раскрытием понимается. Раскрытие данных является - предоставление в открытом публичном доступе в сети Интернет информации раскрываемой государственными учреждениями для ознакомления и использования как гражданами в режиме навигации и поиска информации, так и предоставление информации в машиночитаемых форматах для последующего использования в автоматических и автоматизрованных системах. 
Раскрытие информации должно предусматривать соблюдение следующих условий:
1. Предоставление машиночитаемых данных в форматах RDF, XML, CSV, YAML, DBF(?)
2. Обеспечение возможности автоматической машинной навигации по массивам данных. А то есть, должна быть возможность получить список всех раскрываемых массивов данных и, по уникальному коду массива, запросить его как полностью, так и только мета информацию о нём.
3. Должно быть обеспечено хранение всех версий одного и того же справочника 
4. Должно быть обеспечено ведение реестра типов полей и реестра полей присутствующих в справочниках и реестрах
5. Должно быть предусмотрено ведение и раскрытие связей справочников и отдельных полей справочников между собой. Например, справочник кодов регионов автомобилей сильно пересекается и происходит от справочника регионов по статье Конституции их перечисляющей, но, в значительной степени, уже от него отличается в виду нехватки номеров. 
6. Для реестров обрадающих чётким временем создания и изменения объектов - обеспечение публикации как временных данных, с разбивкой по календарным датам и размещении в открытом доступе посредством FTP и HTTP протоколов.

Проблемы и ограничения

1. Основная проблема на сегодняшний день - это низкий уровень систематизации раскрываемой государством информации. Формирование реестра метаописаний, может потребовать понимания специфики отраслей раскрывающих справочники ведомств и не обойдётся без формирования комиссий и прочей бюрокрактии. Тем не менее значительная работа может быть осуществлена даже без учёта специфики за счёт обобщённой систематизации уже раскрытых ведомствами данных.

2. Другая немаловажная проблема - низкая доступность общероссийских справочников. До сих пор все основные общероссийские справочники крайне сложно найти в открытом доступе и в актуальном состоянии и рецепт преодоления этой болезни пока ещё не найден. При том что с ведомственными и региональными справочниками, как правило, таких проблем нет. Например, на сайте www.mosclassific.ru - можно после авторизации скачать несколько хорошо структурированных общемосковских справочников в форматах DBF и XML, а вот общероссийские справочники почему-то нельзя. Можно предположить что у региональных госучреждений ответственных за работу с общероссийскими классификаторами есть органичения на их перераспространение.

3.  Малая “государственная значимость” задачи. Несмотря на почти очевидную пользу от появления подобного ресурса сейчас тренды сдвинуты несколько в иную плоскость - государство в лице ответстенных ведомств активно систематизирует информационные системы и создаёт порталы услуг. Организация систематизированного раскрытия информации государственными органами потребует подготовки чётких аргументов в сторону обеспечения подобной работы и, с высокой долей вероятности, на начальных стадиях не сможет происходить за счёт государственного финансирования. Эта проблема может быть преодолена созданием некоммерческого ресурса систематизации раскрытия информации и демонстрация преобразования ограниченного числа справочников и реестров в структурированные RDF описания для повторного использоания.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Guardian Open Platform - доступ к базе новостей
12 марта 09 10:56

В Guardian, британской газете, анонсировали открытую онлайновую платформу через которую можно получить доступ к их материалам - http://www.guardian.co.uk/open-platform 

Посредством API они отдают данные и дают доступ в некоторые из своих медиа-массивов, с примерами доступа на Python, Ruby, PHP, Java. 

Фактически, что я лично наблюдаю, Guardian идёт тем же путём что и New York Times которые о своих API пишут уже давно http://open.blogs.nytimes.com/tag/api/

и Thompson Reuters которые поддерживают OpenCalais - http://www.opencalais.com/

Так же стоит отметить BBC API - http://www0.rdthdo.bbc.co.uk/services/api/  не столь интересное как остальные, но имеющееся как факт (появилось оно, кстати, в 2005 году, 3.5 года назад).

А вот наши новостные агенства с такими сервисами совершенно не спешат.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Дизайн vs. Информационная архитектура
11 марта 09 07:31

Чтобы понять разницу между дизайном и информационной архитектурой - мало объяснений нужны и примеры.

Недавно у меня перед глазами такой пример образовался - обновился официальный сайт закупок Воронежской области, http://zakaz.gfu.vrn.ru

Точнее вместо старого сайта появился новый.

Причём к новому сайту в плане дизайна у меня серьёзных претензий нет - доводилось видеть как хуже так и лучше. А по сравнению с федеральным - так просто конфетка. 

Но не дизайн определяет то как же информация становится доступной пользователям.  

Например:

1. На сайте начисто отсутствует RSS как для отслеживания закупок так и просто для новостей - хотя сложного тут ничего нет. 

2. В реестрах организаций нет поиска по инн, названию и так далее

3. У организаций нет пермалинков и нет возможности просматривать закупки по определённому заказчику. Зачем это нужно? Да хотя бы для того чтобы департаменты области, ГУПы и МУПы могли указывать на своих сайтах не просто ссылку на сайт закупок области, а ссылку на свою карточку на сайте где можно просмотреть их заказы

4. Почему-то поиск электронных аукционов отсутствует, возможно он скрыт за формой регистрации на аукцион, но это противоречит закону - публичные данные должны быть общедоступны.

5. Интерфейс проведения электронных аукционов сделан на Flash Flex. При том что Flex - это, конечно, модно тем не менее 600 килобайтный рантайм это не так мало. Если скрипты для AJAX’а можно прооптимизироать использовав сжатие - то тут сжатия не получится и вообще

6. Нет инструкций по тому какие браузеры можно использовать. Например, автоподгрузка списков в формочки для AJAX в Chrome у меня не заработали и ещё вопрос нужны ли они когда, например, список организаций будет весьма велик - тут не автоподгрузка нужна, а всплывающая поиска.

Все эти частные замечания можно разбить на следующие критерии анализа:

1. Целостность данных - отсутствие пермалинков. 

2. Качество представления данных - полнота форм поиска и удобсто навигации.

3. Отсутствие описаний технических требований к клиентскому ПО.

Как резюме, несмотря на сравнительно неплохой внешний вид сайта - информационная архитектура у него хромает.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Ссылки на 11.03.2009. Источники данных.
11 марта 09 11:55

Пока я собираю полный перечень источников различной статистической информации и просто массивов данных и API, приведу несколько интересных ссылок оттуда:

  • Статистика правонарушений на Правоохранительном портале http://ps.112.ru/portal/dt?PortalMainContainer.setSelected=DefStatistics&last=false данные возвращаются хоть и в HTML, но без особого труда их можно преобразовать как в Excel, так и в CSV/XML/YAML
  •  Адресный реестр Волгограда и Волгоградской области - http://www.volgainfo.ru/07.asp , веб сервис (WSDL) для обращений к адресному реестру Волгоградской области и города Волгограда. Сама информация распространяется их МУП на пла
  • Реестр улиц города Смоленска - http://www.admcity.smolensk.ru/spravocn/streets/streets_town.html, пример тех извращений до которых можно дойти при публикации реестров
  • Маршруты транспорта города Москвы - http://yapriedu.ru/tat.php как я понимаю этот ресурс официально поддерживается департаментом транспорта города Москвы. Про его интерфейс я писать не буду - это песня будет вечной, к тому же мне лично жаль если владельцы ресурса его исправят - исчезнет ярчайший антипример инфодизайна.
  • Экспорт погоды в XML с сайта Гидрометцентра http://www.meteoinfo.ru/xml-tech информация доступна в XML и в виде информеров
  • Веб-сервисы Центробанка России - http://www.cbr.ru/scripts/root.asp . Банк России - одно из немногих гос. учреждений предоставляющих доступ к своим базам данных посредством API. Конечно не ко всем базам, и API не самое удобное если обращаться не через .NET, но всё это мелочи по сравнение с тем фактом что информацию вообще можно получить.
  • Datamod. Public data put to good use. http://datamob.org/  англоязычный каталог массивов данных.
  • Веб–сервис для получения официальных курсов валют, устанавливаемых Нацбанком РБ http://www.nbrb.by/statistics/Rates/webservice/ нац. банки, как я наблюдаю, активно раскрывают информацию хотя бы по курсам валют.
  • Публичный доступ к базе ЕГРЮЛ - http://egrul.nalog.ru/fns/index.php  информации в публичном доступе немного, но актуальность данных более чем высокая.
  •  

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Датасеты. Автомобили для госзакупок
10 марта 09 07:29

Пока я работаю над общим списком массивов данных, выкладываю тут датасет с переченем легковых автомобилей ранее опубликованный МинПромТоргом в приказе N78 от 20 февраля 2009 года. Там фигурирует вордовый документ, который тут присутствует в преобразованном в CSV виде. 

Желающием могут попробовать посводить этот список с другими массивами данных - может кто интересное или диаграммебельное получится.

Скачать: minprom_cars

Пример этого справочника - это, на самом деле, один из наименее удобных, но простых форматов для обработки, которая включает:

1. Извлечение данных из .DOC файла в файл Excel 

2. Ручную проверку и чистку форматирования поскольку вместо разделителей по ячейкам в вордовом документе используются границы.

3. Подготовку скрипта очистки данных - для тех случаев когда названия разбились по ячейкам.

4. Прогон скрипта и последующую быструю визуальную проверку результата. 

Итого у меня это заняло примерно 30 минут времени - поскольку задача простенькая и я не спешил. При наличии алгоритма(-ов) которые бы решали задачу понимания основных способов визуализации данных - это было бы ещё быстрее. Фактически шаги с 1 по 3 могут быть ускорены и убраны. 

Собственно этот справочник я привожу именно как пример - преобразование других и обработка вполне разрешимые задачи которые можно, условно, разбить на следующие этапы:

1. Сбор и систематизация структуры массивов данных.

2. Извлечение табличной и “псевдотабличной” информации “как есть” с последующим хранением в постоянном хранилище.

3. Извлечение и обогащение массивов информации - анализом текстовых полей, простановкой кросс-ссылок, распознаванием типов колонок

4.  Раскрытие данных в форме API и адаптируемого к структуре данных визуального интерфейса.

Причём пункты с 1 по 4 повторяются в цикле, главное тут чтобы рещения принимаемые на каждом из уровней обработки и визуализации могли эволюционировать. Говоря иначе, массив данных может быть обогащён не полностью, но эталонная запись должна быть зафиксирована и помечена как обработанная/необработанная. И так далее.

Всё это описание решения как если бы создавать единый реестр реестров без организационных процедур - только техническими методами. Разумеется, он утопичен из-за своих потенциальных объёмов. Безавтоматизированного выявления типовых шаблонов кодирования данных - объём работы будет огромен, но с алгоритмами выявления задача интересная, как научно, так и практически. 

Признаться, думаю я именно над автоматизацией извлечения информации уже давно - ещё когда схожим образом организовывал выгрузку информации для пополнения базы Енота Поискуна. Но там задача и решение на порядок проще поскольку есть всего лишь одна структура на которую схемами преобразования “натягиваются” данные из разных систем. Соответственно, иерархия метаописания и эволюция схем тут отсутствует, а систематизация и обогащение данных строго ограничено её тематической областью. 

В задачах же общего рода такие решения не проходят. Тут возникает совершенно иная потребность как в хранении, так и в обработке и мониторинге, и в визуализации данных. Итого задача сравнима  с “превращением веб сайтов в базы данных” или придание им набора API для извлечения информации вроде Скиура который был одним из примеров - преобразование новостей в RSS.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Реестр реестров - 2. Будет ли когда-нибудь data.gov.ru ?
10 марта 09 11:05

Я ранее уже писал на тему отсутствия систематизации в раскрытии информации и потребности и неоднократно писал про отсутствие в россии национального государственного портала - russia.gov.ru функции которого сейчас исполняет портал gov.ru, но выглядит он очень и очень невзрачно. Признаться вначале я думал о том чтобы оформить это в виде полноценной статьи и закинуть в сетевые издания, потом пришёл к выводу, а какие из них вообще пишут на эту тему? Если будут заинтересованные, я смогу подготовить текст в более подробном форате - тут же просто размышления..

 

На сей раз я затрону ту тему которая во всей теме e-Gov мне близка более всего -  создание государственного портала данных - data.gov.ru. Появится ли он когда-нибудь или нет - я незнаю, тут есть и бюрократия, и политика, и многие другие соображения как за так и против, важно тут то, а зачем же такой единый портал раскрытия нужен? Data.gov.ru - это портал где все федеральные органы власти и, возможно, региональные публиковали бы информационные массивы (базы данных) подлежащие обязательному раскрытию согласно российскому законодательству в форматах пригодных для дальнейшей повторной машинной обработке, а также в виде баз данных с обязательным гарантированным удобством поиска и навигации по раскрываемой информации.

Я вижу две основных причины для его создания:

1. Раскрытие информации от государства гражданам

Это вопрос в большей степени политический, но завязанный на множество технических возможностей и ограничений. Сейчас государство раскрывает значительные объёмы информации о собственных активностиях, лицензировании, регулировании в десятках и сотнях различных ресурсах и форматах. За редким исключением процедуры раскрытия нигде не зафиксированы, поиск и работа с реестрами неудобны, а зачастую и реестры просто не приспособлены поиска и навигации по ним. 

2. Создание среды информационного влияния государства на Интернет

Существующая модель влияния государства на то что творится в сети - это, фактически, действия по принципам:

a. Немного давать информацию.

б. Регулировать.

в. Запрещать и ограничивать.

Влияние же информационное сведено к минимуму за счёт того что качество раскрываемой государством информации невелико, а создаваемые системы всегда страдают ущербностью отсутствия целей и мотивации у создателей на их популяризацию.

Создание среды - это, в первую очередь, безвозмездное и современное технически предоставление информации всем желающим - юрлицам и просто гражданам. Поощерение появления стартапов использующих эту информацию, предоставление грантов учёным и исследователям создающих на её основе онлайновые проекты. 

Разумеется, эти размышления взялись не из неоткуда - буквально недавно схожие активности начались в США с целью популяризации создания data.gov, достаточно почитать статью в Wired - Open Up Government Data и, я думаю, что с этой администрацией в Белом Доме в США, они создадут такой ресурс.

Вопрос, а что нужно чтобы государство в России начало это делать? Как ни странно нужны не деньги, нужно то чего нехватает куда больше - людей способных обрабатывать и систематизировать информацию и обладающих энтузиазмом это делать.  Критиковать или “создавать рейтинги” любят многие - делать что-то осмысленное, увы, желающих оказывается мало. И, именно это, а не то что государство не даёт данные, основная проблема. 

Например, на этих праздниках я полтора дня потратил на систематизацию ранее накопленных ссылок, закладок, материалов по раскрытию информации что у меня были. В итоге, удалось систематизатировать в единый список чуть менее 300 (286) источников данных в онлайне куда попали API,  справочники, базы данных в структурированном формате и просто доступные через поисковые формы онлайн. Государственных ресурсов среди них было около 250, при этом многие из ведомых государством реестров так или иначе встречается в сети в некачественном виде на разных псевдо-полезных ресурсов. По тому же справочник БИК кодов банков видно что есть любители которые используют его для создания очередного “говносайта” забитого рекламой и прочим. Люди, и многие, тратят время не на то чтобы сделать информацию более полезной, а для той цели чтобы забить Рунет очередным “сайтом с хламом”. 

Кстати, здесь же актуальна ещё одна тема о которой я пишу уже неоднократно - низком ранжировании Российских государственных веб-ресурсов поисковыми системами. Одна из причин этого в том что системного переноса гос. доменов в зону gov.ru так и не произошло, а поисковые системы никогда не удосуживались об отдельном ведении каталогов гос. сайтов - отсюда и одна и та же информация на гос. сайте и на коммерческом ресурсе скорее будет выше в выдачи поисковой системы с коммерческого ресурса.

Лично я пока ещё размышляю в какой форме выложить накопленные мною данные по источникам данных в Рунете в сеть, ибо если окажется что желающих его поддерживать за исключением меня не окажется, то значит и я прав в том что дело не в государственных органах не предоставляющих информацию, а в отсутствии граждан способных и желающих работать с ней профессионально.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Расшифровка счетов кредитных организаций
06 марта 09 02:25

В продолжение моего поста по расшифровке БИК, расчетного и корреспондентского счетов - теперь эта же расшифровка доступна внутри Енота Поискуна посредством инструмента по расшифровке счетов кредитных организаций. Примеры расшифровки можно посмотреть такой 30401810701200001022 или такой 40402810500000000009

Работает всё это на нескольких несложных справочниках главная морока с которыми - это их обновление и поддержание в актуальном состоянии. В общем-то все эти инструменты - это хвост одной и той же системы из которой я просто отделяю наиболее “утилитарные части”, которые могут пригодится в повседневной работе. 

Сверхзадача - это, конечно, построение системы справочников и описания мета-структур основных реестров для обеспечения их гарантированной связки. Фактически - это онтологическая модель основных принципов построения и связи различных кодов, классификаторов и реесторовых записей.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

К вопросу об отсутствии и наличии форумов на гос. сайтах
05 марта 09 11:22

На тему почему у очень многих гос. сайтов форумы отсутствуют или отключены - ситуация банальна до невозможности. Там нет закрытости - там есть спам. Чаще всего разработчики делают форум на сайте прикручивая какой-либо готовый движок, но, если обычные форумы модерируются и, при необходимости, быстро обновляются, то при создании гос. ресурсов чаще всего ни на сопровождение техническое, ни на модерацию деньги не выделяются - итог плачевен, спамеры забивают форумы “интерсными темами” и, с определённого момента, заказчику форум проще прибить чем чистить.

Например, такую картину я сейчас наблюдаю на форуме http://zakupki.tomsk.gov.ru/forum/forum_topics.asp?FID=2

Там, правда, кроме самого спама ещё и реклама показывается, что для гос-сайтов за гранью допустимого.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Расшифровка кодов. Уточенение к расшифровке ОГРН
05 марта 09 10:52

В предыдущих рассуждениях о расшифровке кодов я упустил один кодов в ОГРН.  Моё предыдущее предположение что численная часть кода - это цифры с 6 по 12, а кода инспекции в ОГРН нет, не подтвердились.

Дело в том что в ОГРН фиксируется не код инспекции по месту постановки, а код межрайонной инспекции, соответственно не всегда инспекция по месту регистрации может с межрайонной совпадать - чаще даже не совпадает. 

Сейчас ОГРН с этой уточнённой информацией по прежнему можно расшифровать в сервисах Енота Поискуна тут http://enotpoiskun.ru/tools/codedecode

Если есть пожелания расшифровке и других кодов - оставляйте комментарии или пишите письма, вполне возможно что “карта кода” у меня уже есть, а выставить его расшифровку онлайн дело нехитрое.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

По поводу поддержки “ПО российского происхождения”
04 марта 09 12:22
Увидел сегодня статью про инициативу МинСвязи http://www.rbcdaily.ru/2009/03/04/media/404455 . И попробую порассуждать какие области эта инициатива может затронуть. Операционные системы Маловероятно что именно “российское происхождение” будет Read More...
Государство и ИТ. Комментарии в блоге президента
03 марта 09 05:00
Мои комментарии в блоге президента по поводу информатизации. Тут их дублировать не буду (пока). Что интересно так это: теперь автоматически стало приходить сообщение если комментарий был принят по результатам модерации; в блоге появилась тема “ Read More...
Веб данных
03 марта 09 03:45
Не так давно Amazon выложил в открытый доступ огромный массив данных, в несколько террабайт - Public Data Sets on AWS Правда самих выборок там немного, но они огромны и весьма интересны. А я напомню какие ещё интересные подборки данных есть в Веб: Infochimps Read More...
Postedfrom Иван Бегтин | 0 Comments    
Социальные рейтинги и метрики. Вопросы
03 марта 09 12:42
Я уже довольно много писал про различные социальные рейтинги и метрики в соц. сетях, практически все мои рассуждения можно посмотреть тут - Алгоритмы и практики работы с информацией . На сей раз у меня не будут не рассуждения, а несколько вопросов к читателям. Read More...
Xenocode: песочница из браузеров
02 марта 09 11:07
На днях наткнулся на интересную и бесплатную подборку виртуализироанных браузеров - Xenocode browsers Фактически это один из примеров Application Virtualization, что, (обычно), куда быстрее чем полная виртуализация или паравиртуализация. В случае же с Read More...

This Blog

Tags

Archives

Syndication