Январь 2010 - Posts

OpenGovData.ru: открытые данные, планы, развитие и отклик
29 января 10 05:27

На opengovdata.ru появился новый массив данных, справочник МКБ-10 который можно скачать в формате CSV и использовать в своих практических задачах. Большое спасибо за него, Юрию Кудрявцеву!

Также в сообществе проекта появилась подборка ссылок по открытым данным в мире – http://groups.google.com/group/opengovdataru/browse_thread/thread/6e13f7db8ef7960c

Можно найти самые разные разные проекты в различных странах. Пока ещё там не все ссылки, но постепенно они все там появятся.

Это всё о текущем, теперь же о будущем проекта.

Изначально он создавался как некоммерческий, бесплатный сайт аналогичный многим таким же в мире. Именно таким и предполагается оставить его далее, в том числе на сайте не будет никакой рекламы, контекстной ли баннерной ли. У него некоммерческие, если угодно «подвижнические» цели, и таким он останется.

Вопросы сейчас в том как продолжить его развитие.

В прошлом году удалось собрать большую базу различных источников данных, сделать 4 массива открытых данных, разработать специальный формат раскрытия в XML и создать банк нормативных документов по раскрытию данных в нашей стране.

Но… Всё это пока не решило несколько важных задач:

1. Вовлечение граждан в создание машапов.

При том что находятся волонтёры интересующиеся данными и готовые данными поделится, всё ещё мало социально-востребованных проектов по их повторному использованию. Нет примеров машапов, нет продвижения идеи в массы о том что открытые данные – это хорошо, нужно, полезно и необходимо.

2. Выбор пути сбора открытых данных

Фактически, есть всего два пути сбора открытых данных.

Первый – когда данные опубликованы в каком-либо формате на официальном сайте и они преобразуются в «нормальный вид» в виде XML/CSV и других полезных форматов волонтёрами с помощью специально написанных парсеров.

Второй – когда данные публикуются самими ведомствами в формате пригодном чтобы их можно было включать в реестр открытых данных.

По моему опыту, второй путь в России особенно сложен из-за непонимания чиновниками самого понятия открытых данных. Первый же путь сопряжён с многими издержками в виде необходимости обновлять, оптимизировать и улучшать парсеры.  Какой из этих путей более правильный – большой вопрос. Но, что можно отметить точно, так это необходимость медийной поддержки – нужны статьи, публикации, обзоры и целенаправленная работа в этом направлении. Любая помощь будет кстати.

3. Интеграция

Сейчас в мире постепенно набирает тенденция к унификации раскрытия информации. К использованию открытых форматов, к стандартизации отраслевого раскрытия, например, движения транспорта. Важно не остаться в стороне от происходящего и интегрироваться в общий процесс.

В частности есть несколько возможных направлений:

  • Linked Data – http://linkeddata.org/ – интеграция в общий процесс Linked Data, для начала экспортом метаданных о массивах данных и их источниках.
  • CKAN - http://ckan.net/ – экспорт данных как пакеты CKAN и интеграцией их в этот проект.

4. Расширение

Сейчас в OpenGovData.ru в основном федеральные данные. Их немало, но они далеко не всё и, как ни странно, в регионах немало открытой информации в публичном доступе, важно лишь умение её найти и понять пригодность к автоматическому использованию. А далее актуальна ситуация и с муниципалитетами.

5. Систематизация

На самом деле проблема систематизации она глобальная. И существует много нераскрытых вопросов как собирать данные и c какой стороны заходить со стороны что есть на самом деле или с того что правильно.

  • Строить ли иерархию органов власти и к ним добавлять  описания доступных массивов данных или же первичны именно данные и информация об органах власти вторична?
  • Собирать ли информация о различных интерактивных и полуинтерактивных сервисах дающие выборочные данные? Например, проверка налоговой задолженности или проверка паспорта в ФМС.

И так далее . Вопросов много и наложение геополитической онтологии что я публиковал ранее или же онтологии структуры органов власти  на реестр открытых данных будет непростой задачей и довольно длительной.  Тем не менее к этому постепенно всё будет приведено.

—-

Всё вышеперечисленное о том что происходит и будет происходить в проекте. Но самое главное – это отклик от потенциальных и существующих его пользователей. Критика, замечания, отзывы, предложений – всё что можно сказать и что может проект изменить и улучшить.

Originally published at Иван Бегтин. You can comment here or there.

Не политика
28 января 10 03:07

Я сознательно почти ничего не пишу про политику в своём  журнале, во первых поскольку мои взгляды на неё давно определились, во вторых поскольку считаю что совмещать активный интерес к ней и созидательную деятельность – сложное занятие.

Однако последнюю статью в Новой Газете «Рой или антибулочник» (http://novayagazeta.livejournal.com/158423.html) рекомендую почитать вне зависимости от того согласитесь Вы с написанным там или нет. При том что лично мне творчество Латыниной, мягко говоря, не нравится, но тут, в том что касается системы управления, много точных замечаний.

Деградация управления действительно имеет место. Например, то что происходит в виде закона о торговле или же «прозрачный отбор» электронных торговых площадок для электронных аукционов – это только лишнее подтверждение. Причём это только то что видно «на поверхности», а реально такого больше и повсеместно.

В моём понимании государство и всё что касается госуправления – это не политика. Это то что должно работать вне зависимости от того кто у власти – демократические институты, диктатура, просвещённая теократия или абсолютная монархия. Суть в том что механизмы управления государством не работают, либо работают на выгоду вполне конкретным лицам. Причём, чаще всего выгоду краткосрочную.

И это, кстати, всё непосредственно влияет и на государственные ИТ проекты вроде того же портала госуслуг. Заставить отдельные элементы Системы действовать согласованно в рамках общей деятельности, например, электронизации услуг – крайне сложно. В своё время Росинформтехнологиям это не удалось, сейчас этим занимается Минсвязи, но реально процесс идёт из-за того что курирует это Собянин и то, как он идёт и чем закончится узнаем мы не сразу. Успеют выбрать нового президента, сменится правительство, да и масса других изменений.

Тоже самое касается практически любого госпроекта по ИТ в который вовлекается больше одного ведомства. Сразу же возникает необходимость в согласованиях, в «перетягивании канатов» и прочая и прочая. А главное, низкая мотивация исполнителей из-за низкой мотивации заказчиков. Ощущение что «никому ничего ненадо» и невозможности этого изменить. Все кто работал в системных интеграторах хорошо меня поймут.

Однако, всё это не значит что ничего делать ненужно или невозможно.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки по e-Gov на 28.01.2010
28 января 10 12:45
Как обычно, подборка тематических ссылок с моими краткими комментариями.
  • http://www.openmuni.org – небольшое Wiki с рекомендациям муниципалитетам в США о том как лучше предоставлять сервисы и раскрывать данные.
  • http://www.rian.ru/economy/20100125/206146491.html – Правительство выбрало 5 площадок: правительств Москвы и Татарстана, Сбербанк-АСТ, РТС и ММВБ. Плюс Артемьев говорит про возможный выбор 6-й Санкт-Петербургской международной товарно-сырьевой биржи. Не буду комментировать всех «нюансов» происходящего, рекомендую же почитать статью на Cnews по этой теме – http://www.cnews.ru/news/top/index.shtml?2010/01/26/377312 и статья на Slon.ru (http://slon.ru/articles/249825/) где есть и мои комментарии
  • http://cnews.ru/news/top/index.shtml?2010/01/27/377582 – Руководитель ФАИТ, Владимир Матюхин уходит на пенсию. Теперь многое будет зависеть от того кто придёт на его место, останутся ли Росинформтехнологии и в каком виде.
  • http://www.publictechjobs.com –  банк ИТ вакансий и резюме для работы в государственных и муниципальных органах власти США.
  • http://www.publicgeodata.org/ – открытые гео данные и ссылки на репозитарии с открытыми гео данными.
  • http://www.epsiplatform.eu/ – Европейская программа по развитию повторного использования государственной информации. В основном там новости, законодательное регулирование, примеры использования, выступления, события и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Yota-боты и вопрос доверия
27 января 10 06:33

У arcanoid‘а отличное наблюдение (http://arkanoid.livejournal.com/284831.html) про боты рекламирующие Yota и пытающиеся притворяться «натуральными аккаунтами».

Больше похоже что пишут в эти аккаунты несколько рерайтеров. Текст слишком связный для автоматической генерации, однако всё это не меняет той ситуации что брендам рекламирующим себя таким образом доверия мало.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
HTML в RSS: Google Reader vs Скиур.
26 января 10 07:51

Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы.  Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com

И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным принципом построения. Об этом я уже прокомментировал Николаю Двасу в заметке Ruformator’а, а расширенно напишу тут.

Главное отличие в принципиальном подходе.

ChangeDetection, Page2RSS, Femtoo и ещё ряд сервисов практически все основаны на разной степени проработанности алгоритмах HTML Diff – определения отличий веб страниц или выделенных на них участках. Фактически эти алгоритмы сводятся к двум задачам:

1. Найти отличия

2. Выделить из этих отличий значимые и преобразовать их в текст.

Причём решения этих задач существуют уже давно, мне не редко попадались настольные программы которые решали то же самое, разница же в веб-сервисах лишь в том что появились версии алгоритмов достаточно быстрые чтобы обеспечивать массовое использование, ну а в случае Гугла это ещё проще с их огромной инфраструктурой и возможностью выгружать веб-страницы из собственных баз, а не с сайтов.

В основу же работы Скиура положены алгоритмы распознавания повторяющихся блоков и элементов этих блогов. Он не сравнивает страницу с предыдущей, а распознаёт на ней различные смысловые участки, которые в дальнейшем реконструирует в объекты или их списки. Новостная лента – это один из примеров таких объектов. Она определяется, извлекается, сохраняется и далее отдаётся как RSS.

Собственно, изначально я делал этот сервис как экспериментальный, он и сейчас такой же экспериментальный и некоммерческий. И для меня целью его создания было решение всего двух задач:

1. Опробация алгоритмов в действии на большом числе разных страниц – это удалось, сейчас поддерживается более 160 различных форматов новостных лент.

2. Возможность подписаться на новости многих госсайтов, которые я периодически читаю, а RSS у них нет – это также удалось решить.

Собственно таковы главные отличия и предыстория Скиура. Ну а цель и дальнейшее развитие сейчас упираются в наличие у меня на него времени и ресурсов поскольку сейчас Скиур по прежнему является частным решением по автоматическому извлечению новостных лент, а не общим по извлечению разнородного структурированного содержимого.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Про форматы файлов и не только. Выдержки из нормативно-правовых документов
22 января 10 02:39

Вначале чуть-чуть в сторону. Я очень не люблю заформализованные термины вроде «нормативно-правовы едокументы» и всё такое прочее. Всегда хочется сказать как-нибудь попроще или даже составить словарик перевода с формального чиновно-юридического на простой человеческий язык, но не всегда получается.

А далее ряд выдержек из разных официальных документов за 2009 год касающиеся ИТ, форматов файлов, вендоров  так далее.

Жирным текстом будет название документа, курсивом выдержки из него и обычным текстом мои комментарии.

1. Приказ Министерства сельского хозяйства Российской Федерации от 22 июня 2009 г. N 235 Об утверждении Административного регламента Министерства сельского хозяйства Российской Федерации исполнения государственной функции по надзору за нормативно-правовым регулированием, осуществляемым органами государственной власти субъектов Российской Федерации по вопросам переданных полномочий Российской Федерации в области охраны и использования объектов животного мира, отнесенных к объектам охоты

13. Уполномоченное подразделение Минсельхоза России ведет учет
нормативных правовых актов субъектов Российской Федерации и
результатов надзора за нормативно-правовым регулированием в журнале
учета нормативных правовых актов субъектов Российской Федерации
(далее – журнал учета).
Журнал учета ведется в электронной форме в формате Excel в
соответствии с приложением N 1 к Административному регламенту.

Мало того что Excel явно упомянут так ещё и совершенно точно можно говорить о культуре работы с информацией. Журнал который фактически является реестром документов ведётся в Excel’е, как, кстати и очень многие другие реестры наших с вами государственных органов. По другому не умеют, не хотят или не могут.

Остальные документы с комментариями под катом.

2. Приказ Министерства финансов Российской Федерации от 19 марта 2009 г. N 26 Об утверждении Порядка составления и представления финансовой отчетности об исполнении федерального бюджета в Счетную палату Российской Федерации

6.2. Сведения (ф. 0508022) представляются на бумажном носителе
и в электронном виде в формате
EXCEL (с расширением «.xls»).


13.2. Сведения (ф. 0508040) представляются на бумажном
носителе и в электронном виде в формате EXCEL (WORD) (с расширением
«.xls» («.doc»).


В этом приказе примерно 5 таких пунктов на основе которых можно понять о том как у нас реально происходит документооборот между ведомствами и передача данных из одного в другое. Хорошо хоть Минфин предоставляет Счетной палате данные не в PDF, но всё таки можно почувствовать разницу между тем как если бы раскрывались в машиночитаемом виде – XML, CSV, DBF и так далее и в виде Excel файлов.

3. Приказ Федеральной службы по военно-техническому сотрудничеству от 28 августа 2009 г. N 59-од Об утверждении инструкции о порядке представления документов для получения лицензий, отчетов об исполнении выданных лицензий и требованиях к оформлению лицензий, заявлений на их получение и дополнительных перечней продукции военного назначения

Для получения лицензии на вывоз продукции военного назначения с указанием срока возврата продукции оформляется заявление на получение лицензии на вывоз продукции военного назначения с указанием срока возврата продукции. При заполнении разделов и таблиц заявлений рекомендуется применять текстовый редактор Word for Windows версии 6.0 и выше или другой, совместимый с ним, с использованием шрифтов Times New Roman Cyr размером 12.

Даже не знаю что тут написать, хорошо что хоть только рекомендуется и Word, и шрифт. Кстати, а на всех Linux’ах есть Times New Roman Cyr?

4. Постановление правительства Российской Федерации от 7 апреля 2009 г. N 307 Об утверждении технического регламента о безопасности продукции, предназначенной для детей и подростков

36. Требования безопасности предъявляются к электронным
учебным изданиям.
Соотношение яркостей знаков и фона для позитивного
изображения должно быть не менее 1:3 и для негативного изображения
(выворотки) – 3:1.
Для текстовой и (или) знаковой информации в электронном
издании не допускается применять:
узкое и (или) курсивное начертание гарнитуры шрифта;
более 4 цветов различных длин волн на одной электронной
странице;…

Там ещё много написано и есть приложение N 31. Интересно, в первую очередь, с точки зрения сравнения удобства/дизайна/юзабилити в других областях того что делает государство. Дети же не только электронными изданиями пользуются, но и на госсайты заходят.

5. Распоряжение Правительства Российской Федерации от 14 сентября 2009 г. N 1310-р

1. Определить адрес сайта в сети Интернет для размещения
извещений о проведении открытых конкурсов или открытых аукционов
на право заключения договоров о передаче прав на единые
технологии, информационных сообщений о передаче права на единую
технологию без проведения конкурса или аукциона и извещений о
проведении открытых конкурсов на право заключения договоров о
выполнении дополнительных работ по доведению единых технологий до
стадии практического применения с учетом потребностей
заинтересованного лица –
www.technology.gov.ru.
2. Определить Роспатент федеральным органом исполнительной
власти, уполномоченным на ведение сайта, указанного в пункте 1
настоящего распоряжения.

А вот это особенно интересно. Неужели можно сказать гудбай единому сайту по закупкам? Хмм. Заманчиво, но радоваться рано. Как бы то ни было ждите нового госсайта в этом году.

Originally published at Иван Бегтин. You can comment here or there.

Дайджест ссылок по eGov на 21.01.2010
21 января 10 06:10

Подборка ссылок с моими комментариями:

  • http://www.garant.ru/hotlaw/federal/227265/ – приказ Минэкономразвития по доступности информации на госсайтах
  • http://habrahabr.ru/blogs/e_gov/81419/ – публикация Дениса Бескова с комментариями к приказу через призму доступности информации
  • http://community.livejournal.com/ifap_ru/58103.html – публикация в сообществе МОО «Информация для Всех» со ссылками на экспертные комментарии к приказу выше и описанием их предыстории
  • http://www.data.gov.uk/ – появился в beta версии. Ничего нового по сравнению с тем что я видел 3 недели назад во время участвуя в бета тестировании, я не увидел. Но, важно что на сайт оказывает серьёзное влияние Тим Бернерс-Ли, это даёт надежду на его развитие в сторону семантического веба.
  • http://blog.minzdravsoc.ru/ – коллективный блог Минэкономразвития. Нашёл ссылку в gov-gov.ru у Екатерины Аксеновой.
  • http://www.fsrar.ru/ – обновился сайт Росалкогольрегулирования о котором я уже пару раз писал ранее.
  • http://www.government.ru/ – обновился сайт правительства. Вообще-то он обновился ещё 31 декабря превратившись из среднего по качеству сайта в другой средний по качеству сайт. Хуже всего нарушение ссылочной целостности, так как на сайт правительства и документы в нём ссылались очень многие, а также нынешний дизайн с блеклыми буквами на белом фоне и синими ссылками на синем фоне это всё как-то, брр. Плюс сайт объединили в логическую структуру с сайтом премьера, который сделан не лучше если не хуже. Особенно не порадовали там элементы на флеш, например, карта поездок премьера – http://premier.gov.ru/visits/world/. Интересно мне одному не нравятся страны раскрашенные в розовый цвет под синюю штриховку или нет?
  • http://www.economy.gov.ru – обновился сайт Минэкономразвития. По моему мнению он стал в разы приличнее, из него поисчезали огромные баннеры и ссылки стали человеческими, ну и масса других хороших изменений.

Плюс в конце прошлого года появилось много интересных нормативно-правовых актов, о них подробнее в следующем посте.

Originally published at Иван Бегтин. You can comment here or there.

Приказ Минэкономразвития про требования к госсайтам
21 января 10 01:02

В ЖЖ сообществе ifap_ru опубликовали замечания к последнему приказу Минэкономразвития по поводу доступности информации на государственных сайтах.

На проект этого приказа ещё в июле 2009 года эксперты МОО «Информация для всех», включая меня писали отзывы. Например, мой отзыв можно почитать здесь – http://www.ifap.ru/pr/2010/n100121c.pdf. Всё что там было написано в приказ так и не попало, хотя актуальности не утратило.

Плюс я дополню то что там написано новыми замечаниями уже по тексту самого приказа.

Далее жирным текстом пункт и закона, а курсивом мои комментарии

е) обеспечивать учет посещаемости всех страниц официального сайтапутем размещения на всех страницах официального сайта программного кода(«счетчика посещений»), предоставляемого общедоступными системами сбора статистики в сети Интернет и обеспечивающего фиксацию факта посещениястраницы пользователем информации;

Размещение кода на всех страницах при буквальном исполнении означает, то что счетчики должны будут размещаться и на страницах личных кабинетов если таковые будут предусмотрены на официальных сайтах, а это означает слив приватной информации внешним компаниям владельцам счетчиков. Также важно что большая часть счетчиков используют cookie, что позволяет отслеживать посещение пользователями многочисленные сайты где стоит счетчик с одного ресурса. И, в США ещё в июне 2000 года был принят меморандум M-00-13 http://www.whitehouse.gov/omb/memoranda_m00-13/

где четко прописан запрет на использование cookie на федеральных государственных сайтах.

а) вся размещенная на официальном сайте информация должна быть
доступна пользователям информацией путем последовательного перехода по
гиперссылкам, начиная с главной страницы официального сайта. Количество
таких переходов (по кратчайшей последовательности) должно быть не более
пяти;

Обратите внимание на требование по «навигабельности» ссылок до уровня пяти переходов. Это может показаться правильным и логичным, но принципиально это некорректно так как есть случаи, например, навигация по большим банкам данных когда число переходов может быть и куда больше пяти, но главным является не их число, а наличие постоянной ссылки у страницы, возможность экспортировать информацию и так далее.  А это требование по пяти переходам можно очень легко соблюсти формально сделав страницу «Карта сайта» и выгружая туда хоть все ссылки. Вуаля! Тысячи и десятки тысяч ссылок на одной странице и с полным соблюдением закона и минимальным удобством для пользователя. Думаете у тех кто заказывает и делает госсайты хватит здравого смысла так не делать? Если так думаете, то зря поскольку главным критерием качества сайта было и есть – соблюдение формальностей, не более того.

б) предоставлять пользователям информацией возможность
беспрепятственного поиска и получения всей текстовой информации,
размещенной на официальном сайте, включая поиск документа среди всех
документов, опубликованных на сайте, по его реквизитам, содержанию
документа, а также по фрагментам текста, содержащегося в размещенном на
официальном сайте документе;

Здесь важно не то что написано, а то чего нет, поскольку нет такого важного понятия как русская морфология или хотя бы стемминг (нахождение основы слова). В большинстве случаев на официальных сайтах ничего такого нет, в то время как поиск с учётом морфорлогии особенно важен когда идёт поиск каких либо конкретных документов ибо вы не знаете как там написан тот или иной термин «водка» и «водку», «кассового аппарата» и «кассовые аппараты’. Поиск без морфологии или стемминга не позволит найти все необходимые результаты.

Плюс ко всему этому приказ, как и сам закон 8-ФЗ нетехнологичен.  Очень многое из того что описано там общими словами и допускает множественную интерпретацию можно было бы описать более конкретно и без возможности недопонимания и неверного толкования. Например, форматы файлов в виде которых могут публиковаться документы вполне можно было описать исчерпывающим списком. Требования к использованию ЭЦП конкретизировать должно ли оно использоваться на этапе размещения материалов или же каждый документ должен быть подписан ЭЦП и так далее.

Но, в любом случае, это лучше чем могло бы быть.

Originally published at Иван Бегтин. You can comment here or there.

Сайт Росалкогольрегулирования. Часть 2
20 января 10 01:29

Заглянув недавно на сайт Росалкогольрегулирования – http://www.fsrar.ru я тут неожиданно обнаружил что сайт, то сменился. Правда любви к гражданам у создателей при этом не прибавилось, однако дизайн сайт получше. Чуть-чуть, в остальном же  хуже некуда.

Рассмотрим в подробностях.

1. RSS ленты у сайта нет, а то есть если кто и захочет их новости прочитать, то не зайдя на сайт это никак не получится. Правда, Скиур их новости распознаёт – http://www.skyur.ru/?url=http://www.fsrar.ru/news, так что не всё потеряно, однако неприятно.

2. Отсутствуют фотографии, биографии и род деятельности руководителей – смотрим тут http://www.fsrar.ru/about/leaders

3. Статистика в виде кошмарного вида скриншотов из Word’а или Excel’я – http://www.fsrar.ru/industry/1261678438828/statistics. Никаких таблиц, документов или более-менее приличной визуализации нет и в помине.

4. Про соответствие 8-ФЗ можно и не говорить, его нет, хотя и сайт-то появился вот только что и это особенно странно что новый сайт не соответствует базовым требованиям.

5. Поиск http://www.fsrar.ru/search реализован без учёта русской морфологии или хотя бы даже стемминга слов. Если поискать по слову алкоголь, находим 45 страниц, если искать алкоголя то не находим ни одной.

6. Посмотрим на страницу структуру органа государственной власти http://www.fsrar.ru/about/1261564284052 и, насладившись кубиками и стрелками, сравним её со структурой:

Конечно, даже среди существующих госсайтов есть примеры и похуже, однако в появлении новых «плохих примеров» ничего хорошего нет.

Думаю что надо сделать особенную номинацию «сделано с особой ненавистью» и выдавать особенно показательным госсайтам. Эдакая «золотая малина»

Originally published at Иван Бегтин. You can comment here or there.

Обновление алгоритма в Скиуре
18 января 10 01:30

В Скиуре, сервисе по извлечению новостей из HTML в формат RSS прошло очередное обновление.

Из-за проблем с нагрузкой, пришлось практически полностью переделать правила распознавания новостных лент, в частности отказаться и регулярных выражений преобразовав их в специальные парсеры и построив вокруг них ускоряющий индекс похожий на RETree, а ещё вернее его «симуляцию» тем не менее работающую как частное решение.

Плюс теперь алгоритм обучается и единожды распознав новостную ленту, далее разбор той же страницы проходит куда быстрее.

Ну вот теперь могу сказать что определение одной новостной ленты без выгрузки веб-страницы происходит не более 2 секунд, а алгоритм полностью production ready.

Остались лишь ограничения связанные не с алгоритмами, а оборудованием, хранением записей и так далее, но они решаются по другому.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Про data.gov.ru и доступность информации гражданам
18 января 10 12:57

В журнале CIO вышла статья с интервью Ильи Пономарева про data.gov.ru плюс у него в ЖЖ развернулось обсуждение этой и другой статьи.

Жаль Илья не упомянул что в России инициативы схожие с data.gov тоже есть, пока это только мой opengovdata.ru, но думаю что будут и другие.

Я акцентирую внимание на другом. Илья говорит о том что data.gov – это некий депозитарий с XML интерфейсами и это конечно правда, но правда не вся. Главное там не интерфейсы, и тоже не XML, главное – это публичнось и машиночитаемость. Причём эта машиночитаемость может быть достигнута как в виде веб-сервиса, так и полным раскрытием датасетов в XML, CSV, KML (формат публикации ГИС данных для Google Maps) и иных форматов пригодных к последующей автоматической обработке.

И главный акцент во всём этом не в автоматизации ведомств, а в вовлечении бизнеса и граждан в создании социально и коммерчески востребованных продуктов. Например, если бы Мосгортранс предоставлял бы информацию о маршрутах в городе Москве в машиночитаемой форме, то сервисов для удобного подбора маршрутов было бы не раз-два, а десятки и была бы реальная конкуренция.

Если бы департаменты и министерства экологии в регионах раскрывали бы информацию по экологической обстановке, авариях и замерах почвы, то можно было бы накладывать эти данные на карту, и, в частности, иметь дополнительный инструмент для принятия решения при организации бизнеса в том или ином районе, или переезде туда на проживание.

Если бы нормативно-правовые акты в ГСРПА публиковались бы не куцыми документами с отметками только о дате публикации, названием и документом, а раскрывались бы в машиночитаемой форме, то и сами ведомства могли бы предоставлять их всем желающим для поиска и навигации, и появилась бы наконец возможность нормально работать с документами не используя, ни Гарант, ни Консультант.

Если бы статистика Росстата публиковалась в машиночитаемой форме, то была бы возможность полноценно сравнивать статистические данные с теми которых у Росстата нет в принципе – цены на фондовом рынке, статистические данные других стран, дополнять этими данными Википедию, банки данных, накладывать на карты и, в принципе, предоставлять в удобной для граждан форме.

Иначе говоря я считаю что  первичны должны быть интересы граждан, а не повышение качества построения электронного правительства.

Originally published at Иван Бегтин. You can comment here or there.

Российская геополитическая онтология. Первый драфт
13 января 10 09:55

Возвращаясь к теме онтологий государства и его устройства о которых я писал ранее, не буду скрывать что и сам я моделированием онтологий занимаюсь, нельзя сказать что профессионально, ибо это у нас нигде не учат, но для себя и как хобби, почему бы и нет?

Итак, в качестве пробного камня, я разместил на OpenGovData.ru геополитическую онтологию Российской Федерации. Онтология основана на геополитической онтологии FAO (http://www.fao.org/countryprofiles/geoinfo.asp) и моделирует административно-территориальное деление субъектов Российской Федерации.

Скачать её можно тут: http://schema.opengovdata.ru/core/regions.owl, а также воспользоваться документацией сгенерённой TopBraid Composer можно тут – http://schema.opengovdata.ru/core/doc/regions/index.html

Что входит в онтологию:

  • классы объектов: федеральный округ, субъект федерации включая республики, области, автономные округа и области, военные округа, экономические регионы, муниципальные образования;
  • индивидуальные объекты федеральных округов, военных округов, экономических зон, субъектов федерации, городов административных центров субъектов федерации;
  • во всех объектах указаны официальные сайты администраций, их коды ОКАТО, КЛАДР, код субъекта федерации по конституции, коды регионов по ГОСТ 7.67-2003 и ISO 3166-2:RU, коды ОКТМО для муниципальных образований, автомобильные коды, временные зоны в виде смещения от UTC;

Особенности:

  • сейчас границы указаны только для федеральных округов и не указаны для субъектов федерации;
  • код субъекта федерации codeSubjecty дублируется кодом налоговой службы taxCode поскольку код региона налоговой службы администрируется отдельно даже при полном совпадении;
  • у каждого объекта есть nameRU название на русском и nameEN название на английском языке;
  • нет почтовых кодов, но предполагаются при последующих изменениях;
  • федеральные округа наследуются от класса adm_region предполагая что они входят в административно-территориальное деление РФ хотя это и не совсем так так как их коды есть, к примеру, в КЛАДР, но отсутствуют, и в ГОСТ 7.67-2003, и в ISO 3166-2:RU, и в ОКАТО.
  • объект city сейчас используется только для указания административного центра региона поскольку тут имеется некое несовершенство терминологии и при указании административного центра субъекта никто и никогда не указывает его как муниципальное образование, везде пишется именно «город» вне зависимости от формального его статуса. Поэтому city – это эдакий вспомогательный класс все объекты которого в дальнейшем будут сведены в одну модель с муниципальными образованиями при их моделировании.

К вопросу зачем это нужно и почему не сделать то же, но как-нибудь попроще. Потому как попроще неинтересно, попроще вы можете сделать сами взяв эти данные и преобразовав во что угодно.

Что это даёт? Это базовая онтология. Используя её проще промоделировать онтологию любого отдельного региона, промоделировать конституцию в которой есть ссылки на субъекты федерации и моделировать отдельные федеральные ведомства.

Собственно что дальше. Я предполагаю, по мере времени туда добавить из DBPedia и других источников статистические данные, начать моделировать отдельные субъекты федерации.

Чуть позже, когда будет готова предварительная модель структуры органов государственной власти, на основе двух этих моделей будет промоделировано какое-либо отдельное ведомство.

Критика, предложения, идеи и просто комментарии приветствуются.

Originally published at Иван Бегтин. You can comment here or there.

Про сайты госорганов в Ведомостях
12 января 10 06:18

Ведомости опубликовали статью про сайты госорганов http://www.vedomosti.ru/tech/news/2010/01/12/922425 и их несоответствие 8-ФЗ, жаль лишь что статья неполная, явно моих постов на эту тему они не читали или же не обратили внимание, а зря.

Впрочем интереснее исследование МОО «Информация за всех» которое и рекомендую почитать вместо этой статьи – http://www.ifap.ru/library/book460.pdf

Там, правда, охватывается только тема прав на домен, в то время как проблемы с 8-ФЗ несколько глубже – ему, по большому счету, не соответствует 100% сайтов органов государственной власти.

И, кстати, обратите внимание что формализованного перечня всех органов государственной власти. На федеральном уровне ещё куда ни шло, а вот на региональном уже полный швах – единой базы всех существующих сайтов ОГВ нигде нет.

Originally published at Иван Бегтин. You can comment here or there.

Генплан города Москвы или почему форма имеет значение
07 января 10 03:33

У Дмитрия в gorod21 увидел ссылку на обновлённый генплан города Москвы. Любопытным наверняка будет интересно  собственно вот сама ссылка – http://gpinfo.mka.mos.ru/.

Но что ещё более интересно, так это то что заглянув туда можно будет посмотреть сам генплан, в виде, вы удивитесь, отдельных страниц в JPEG’ах.

Я ещё понимаю что там есть картинки и графики которые никак кроме как виде графических файлов не покажешь, но кроме графиков там ещё выше крыши текста и таблиц.

А если заглянуть в документы которые там же опубликованы, например, в публичные слушания по принятию этого генплана вот тут – http://gpinfo.mka.mos.ru/hearings/index.html, то можно увидеть что другие документы опубликованы в виде текста который можно скачать в виде PDF файла. Да, PDF тоже не идеальный формат, но это уже не JPEG и его можно распознать и преобразовать, по нему можно искать, его можно скачать на телефон и читать там.

Учитывая что все нынешние документы давно уже готовятся не на печатных машинках и что их цифровые копии заведомо доступнее их бумажных которые потом сканируют.  Вопрос в том отчего же так?

У меня есть лишь два предположения:

- есть что скрывать.

- глубокая нелюбовь к согражданам которые с этими документами работают

Вариант что «так получилось» не рассматриваю, поскольку, как уже писал выше, там же опубликованы «нормальные документы».

А теперь на этом примере посмотрим почему форма подачи информации имеет значение

1. Почему вредно раскрытие документов в виде графических файлов?

Потому как это сразу же ограничивает пользователей по использованию информации. Они не могут искать информацию, а для того чтобы упомянуть текст, сослаться на него или использовать его в своей работе необходимо распознавание страниц Finereader’ом или аналогичными программами.

2. Почему вредна постраничная публикация документов?

Потому как при постраничной публикации невозможно проследить документ целиком, невозможно преобразовать его в формат который можно читать на телефоне, загрузить в свою систему, невозможно сопоставить различные участки документа и, в принципе, полноценно работать с ним целиком.

3. Почему нельзя таблицы публиковать в виде изображений?

Потому как табличные данные чаще всего содержат числа, значения сопоставленные по годам или различным критериям. Практическое их использование заключается не просто в том чтобы их увидеть, а в том чтобы была возможность их сравнить, а ещё лучше, представить наглядно – в графиках. Все это приводит к тому что наиболее оптимальные формы публикации таблиц – это файлы Excel и такие форматы как CSV с описанием их структуры.

Originally published at Иван Бегтин. You can comment here or there.

Итоги года
07 января 10 01:41

Собственно  вчера, 6-го числа, и я достиг своей 30-тней отметки. Самое время подвести, и новогодние, и личные итоги прошедшего года.

Что за этот годы было и что делается:

  • я окончательно решил не работать и с мая не работал в системных интеграторах и иже с ними ибо деньги не компенсируют отсутствия творческой деятельности и в необходимости в самоцензуре. Например, работая я там, не смог бы писать про ту же «латиницу в госзакупках».
  • в июне «заварив кашу» с госзакупками таки удалось привлечь внимание к этой теме граждан/СМИ и так далее. При том что пишу я о госзакупках уже 2 года и довольно давно в теме как и что там происходит. Тем не менее удалось. В том же что касается темы латиницы, то с июня месяца мало что изменилось.
  • создал проект opengovdata.ru куда постепенно вношу всё большее число источников информации. Проект точно будет переделываться и модернизироваться – поскольку сейчас он просто каталог, а должен быть ресурсом отвечающим на вопрос «где найти?» ту или иную информацию и, конечно, быть интегрированным в Semantic Web и Linked Data.
  • поучаствовал в iCamp 2009 – большое спасибо всем участникам за интересное знакомство!
  • всё больше интересуюсь Linked Data, Semantic Web и так далее. С удовольствием бы не только интересовался, а занимался профессионально, но у нас в стране, похоже, ещё нескоро это явление станет трендом.
  • одновременно продолжаю интересоваться тематикой e-Government и сбором и обработкой информации. Всё вместе это сочетается с трудом, но пока получается, пока ещё есть на всё это время.

И, наконец,  сейчас занимаюсь одним долгосрочным проектом непосредственно связанным с открытыми данными. Делаю это в небольшой новой компании специализирующейся на работе с большими данными, аналитике и так далее.

И про прошлые проекты:

  • OpenGovData.ru будет продолжаться и развиваться. Основные цели – Linked Data и вовлечение пользователей. С первым всё, более менее, понятно, а вот как вовлечь к этой теме других – это вопрос. Может быть проект и в самом деле опережает события лет на 5, но и но, думаю что просто нужны наглядные примеры и будут такие примеры.
  • Проект sociorank.ru я по прежнему считаю очень интересным, но физически нет на него времени.  К тому же начни я его сейчас с начала, я бы его кардинально переделал. Надеюсь что ещё будут время и ресурсы чтобы это сделать.
  • Проект enotpoiskun.ru заморожен, навсегда или надолго. Коммерчески он себя не оправдал, а некоммерческая поддержка – весьма ресурсоёмка. Что-то новое если или когда и появится, то в другом формате, под другим названием.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Открытые данные по энергетике
05 января 10 04:47

Открылся интересный сайт – www.openei.org платформа для раскрытия открытой информации в области электроэнергетики.

Сам сайт сделан на MediaWiki, но видно что сильно доработан и с самого начала заявляется цель интеграции данных по энергетике в Linked Data

Заодно стоит взглянуть и на VIBE Virtual Information Bridge to Energy Efficiency and Renewable Energy. Это большая база данных по энергетике с графиками, таблицами, ссылками на официальные отчеты и прочими возможностями.

Originally published at Иван Бегтин. You can comment here or there.

Геополитическая онтология и российские онтологии
01 января 10 06:24

На сайте Продовольственной и сельскохозяйственной организации ООН (www.fao.org) появилась окончательная геополитическая онтология которую можно скачать вот тут , а также воспользоваться веб-сервисами сразу на всех языках ООН включая русский.

Сама онтология весьма интересная – с географическим и политическим разбиением стран, кодами ООН и ISO 3166 для каждой страны, макроэкономическими показателями и не только.

Также можно посмотреть на эту онтологию в html формате

Далее возвращаясь к российским онтологиям и их формализации в виде OWL что же и как описывать для России.

Лично я вижу что есть следующие срезы:

- геополитическая онтология – перечень всех регионов, их иерархии и, для каждого региона, отдельная онтология деления на муниципалитеты.

- бюджетная онтология – описывает получателей бюджетных средств.

- онтология конституции – должна включать все органы государственной власти и понятия там описанные. Причём здесь есть два подхода, или мы делаем первичной онтологию конституции и от неё строим структуру органов гос. власти, или же вначале формируем структуру и далее накладываем на неё онтологию конституции.

- онтология нормативно-правовых документов – какие, когда и по каким правилам документы исходят от органов власти.

- онтология структуры органов государственной власти. Перечень всех имеющихся ОГВ и таких образований как Центробанк

- онтологии отдельных органов государственной власти – описание структуры отдельного органа власти по департаментам, управлениям, территориальным управлениям

- онтология государственных данных – перечень форматов, видов баз данных, их статус, уровень секретности, степень доступности, перечень баз с привязкой к ответственным ОГВ, ссылки на открытые данные в сети

- онтология полномочий органов власти – на основе их уставов, перечни полномочий ОГВ, их взаимодействия и так далее.

- онтология правительства – структура правительства, должности и полномочия отдельных лиц, комиссии и так далее

- онтология государственных услуг – вначале с описанием базовых понятий таких как что такое услуга, её получатель, формы предоставления, требования к срокам, контролю, ответственности,  последовательности действий и документов.

- онтология процессов – сюда попадают процедуры согласования документов, нормативно правовых актов, весь документооборот, форматы и требования к нему

- онтология госзакупок – процессы закупочной деятельности ведомств. Планирование, размещение, подведение итогов, исполнение госконтрактов. Полномочия регулирующих и контролирующих ведомств, формализация ответственности и критерии оценки и сопоставления.

- онтология государственных предприятий – позволит описать структуру владения государством в различных отраслях экономики. Почти наверняка для неё нужна будет онтология юридических лиц, так как тут затрагивается вопрос структуры владения, формы собственности, организационно правовые формы и так далее.

А может быть я ещё какую-то онтологию упустил, прошу, добавляйте.

Лично я первое что вижу, это что каждая из этих онтологий – это один или несколько отдельных OWLфайлов и вначале важнее построить их иерархию для того чтобы потом можно было начинать их конструировать, что последовательно, что параллельно. Изначально исходя из позиции описания «как есть», и лишь далее и параллельно затрагивая вопрос «как должно быть».

В принципе, когда только появилась онтология oeGov я для тренировки и опыта в моделировании посредством OWL перевёл часть своих таблиц со структурой российских ОГВ в OWL формат, но пока это только черновик, однако любопытным могу его скинуть письмом/ссылкой.

Originally published at Иван Бегтин. You can comment here or there.

This Blog

Archives

Syndication