Декабрь 2010 - Posts

«Понятные расходы» – о Sunlight Clearspending
31 декабря 10 01:33

Как я и обещал по плану постов, расскажу о Sunlight Clearspending.




Clearspending – это проект-исследование по анализу множественных систем отчетности о государственных расходах в США и выявлению в них несоответствий. Проект был создан Sunlight Labs в 2010 году после того как появился государственный портал США по раскрытию информации о госрасходах – USASpending.gov

Проект можно посмотреть по ссылке – http://sunlightfoundation.com/clearspending/ и на скриншоте


В чём его основная суть?  Прозрачность государственных расходов начинается с их понятности и связано это, в первую очередь с тем, что сама тема госрасходов очень сложна, особенно в больших странах со сложной организационной и административно-территориальной структурой власти.

Фактически в Clearspending подходят системно к понятности расходов за счёт того что:

1. Тщательно описывают и раскрывают методологию исследования – http://sunlightfoundation.com/clearspending/methodology/

2. Изначально предполагают что могут ошибаться и включают раздел корректировок – http://sunlightfoundation.com/clearspending/corrections/ со списком изменений

3. Подробно описывают историю финансовой отчётности органов власти в США и историю создания проекта – http://sunlightfoundation.com/clearspending/background/

4. Описывают процесс выделения средств органами власти и последующей отчётности в форме анимированной презентации http://sunlightfoundation.com/clearspending/animation/

Собственно а вот и картинка с изображением этого процесса.


И, конечно, результаты – http://sunlightfoundation.com/clearspending/results/

Результаты разделились на 3 направления:

- Своевременность – соблюдение сроков отчётности о затраченных средствах.

- Связность/Логичность – наличие ошибок в отчётности.

- Полнота – наличие всей требуемой информации о расходах.

По всем трём направлениям результаты не самые утешительные.

Большая часть данных, до 66% в 2008 и 2009 годах публикуется с нарушением срока в 30 суток.

В ряде случаев не соблюдается контроль за вводом данных и некоторые суммы публикуются завышенными в десятки и сотни раз из-за опечаток.

Значительные объёмы выделенных средств не отражены в USASpending.gov, а также качество опубликованной там информации оставляет желать лучшего.

И, конечно, результаты исследования доступны в машиночитаемой форме – http://sunlightfoundation.com/clearspending/resources/

Исходный код Clearspending опубликован здесь – https://github.com/sunlightlabs/clearspending

Что можно сказать в итоге?

У Sunlight Labs, пожалуй, одни из самых мощных примеров того как системный подход вместе с технологиями могут обеспечивать прозрачность, в данном случае, прозрачность расходов США.

Originally published at Иван Бегтин. You can comment here or there.

Итоги года и планы на следующий
30 декабря 10 07:54

Пришёл и мой черед подводить итоги года.

Начну с того что удалось сделать в этом году.

Проекты

1. РосГосЗатраты (www.rosspending.ru) – проект по мониторингу государственных расходов выполненный по заказу ИНСОРа. Скажу честно этот проект я мечтал сделать последние года три и только в этом году мои мечты (и наработки) совпали с интересом заказчика и нашей команде удалось сделать этот проект в короткие сроки. Сейчас в стадии скорой готовности обновлённая версия проекта с данными за 2010 год, надеюсь что скоро её можно будет презентовать.

2. Гослюди (www.goslyudi.ru) – агрегатор блогов чиновников, депутатов и иных государственных людей. С рейтингами, открытым API, подробным каталогом и топом записей. Сделан по заказу интернет-издания Полит.Ру.

3. Государственная сеть (www.govweb.ru)огромный каталог государственных структур и их веб-сайтов. Также разработан по заказу Полит.Ру и доступен всем желающим для внимательного просмотра.

Все проекты были сделаны не мной одним, а «Лабораторией интеллектуального анализа данных» (http://www.idalab.ru) которую я возглавляю.

Публичная деятельность

- написал множество постов по теме государственного заказа, электронного государства, открытых данных и информационного общества http://ivan.begtin.name

- прочитал публичную лекция по «Открытым данным» в Киеве – http://polit.ua/articles/2010/12/23/begtin.html

- пообщался с Игорем Артемьевым по приглашению к общению с блоггерами от ФАС России http://ivan.begtin.name/2010/12/18/fas/

- выступил на конференции Gov2Russia (http://gov2russia.ru/) по открытым данным;

- выступил на конференции «Всероссийский практический форум. ‘Развитие информационного общества. Электронное правительство. Регион и муниципалитет’» – http://is-forum.ru

- плюс многое неучтённое вроде комментариев для СМИ, постов в блоге попавших в СМИ и так далее.

Темы и мнения

За год накопился ряд тем по которым я всё хотел высказаться да то небыло времени, то неформат. Так что прокомментирую сейчас.

Про ТакЗдорово.Ру

Я перестал писать на эту тему поскольку Дмитрий Дмитриев (ЖЖ – pravdep) целенаправленно и подробно раскрывает эту тему. Рекомендую ознакомиться с его последними публикациями.

В принципе же в этой истории, при всём моём негативном отношении к Игорю Ашманову лично, тем не менее совершенно точно «рыло в пуху» у представителей Минздравсоцразвития.

Про отмену конкурса на соц.сеть Минздравсоцразвития и отставку Симакова

Конечно, я надеюсь что и мой вклад сыграл роль в отмене данных конкурсов, но, скажу честно, это всё более чем скромные результаты. И причины проведения этих конкурсов в такие сроки скорее связаны с системными организационными проблемами в ответственных ведомствах, чем с коррупцией в чистом виде. Что даже хуже, поскольку фактически демонстрирует полное отсутствие полноценного проектного управления на большинстве российских ИТ проектов по разработке и внедрению ИТ систем в госсекторе. Все отчётные документы по ГОСТу скорее формальность, а даже если исполнители сертифицированы по ISO 9000, CMMI и так далее, это ещё не значит что у госзаказчика есть хоть один сотрудник понимающий что это такое.

Про Russian-Fires.ru и Holoda.info

В этом году, несомненно, очень заметным был проект Russian-fires.ru посвящённый помощи при пожарам и та же команда сейчас делает проект Holoda.info посвящённый проблем из-за резких холодов и тому подобных зимних катаклизмов. Мне повезло познакомиться с двумя людьми (из многих) за этим проектом Григорием Асмоловым и Анастасией Севериной и, скажу честно, я впечатления самые приятные. То что такие краудсорсинговые проекты запускаются и успешно работают  - это очень хорошо. Это значит что консолидация гражданской активности для решений конкретных проблем более чем возможна.

Про Rospil.info

Я, как и многие, видел анонс Алексея Навального по поводу этого проекта http://navalny.livejournal.com/541417.html и сам проект http://www.rospil.info/.  Лично я отношусь к этому проекту если не отрицательно, то весьма прохладно и вот почему.

Во-первых – это «обжелтение» темы проблем в государственном заказе. Вместо систематизации проблем и целенаправленных шагов по их решению, создание «жёлтого листка про самых-самых вонючих».

Во-вторых – это попытка краудсорсинга в теме где как раз требуется только экспертный подход, но большинство тех кто действительно понимает в проблемах госзаказов если и будут давать экспертные оценки, то анонимные.

Что пока не удалось и незавершено

Электрическое общество

http://www.ruelectric.ru/. Каталог всех гражданких eGovernment и eParticipation проектов, но пока ещё не удалось придать ему нужную форму и он слегка «подвис».

Геополитические онтологии

Разработка таких онтологий – это большая и длительная работа, особенно если их делать сразу в OWL, поэтому после нескольких экспериментов сейчас мои усилия нацелены на систематизацию основных понятий вокруг государства в форматах создаваемых проектов, а то есть всегда с очень практическим применением.

Открытые данные – медленнее чем хотелось бы

…Но быстрее чем могло бы быть. За этот год тему открытых данных вспоминали уже два чиновника регионального уровня, мне удалось донести эту идею до главы ФАС России, надеюсь он ей заинтересуется и я стараюсь донести её до максимально возможного круга лиц. Но развивается это медленнее чем бы мне хотелось.

Планы

Сейчас идёт активная работа над несколькими проектами. Какие-то будут анонсированы нами от Лаборатории, какие-то нашими заказчиками, какие-то проекты и идеи я анонсирую лично – в основном некоммерческие.

О некоторых проектам Вы можете догадываться по тем идеям что я публиковал у себя в блоге, некоторые проекты видели пока только единицы людей, но суть у всех одна – общественное благо.

Originally published at Иван Бегтин. You can comment here or there.

Малоизвестные API на государственых веб-сайтах
25 декабря 10 10:04

Мало кто знает, но на самом деле на некоторых государственных сайтов есть и открытые данные и API, просто они так не называются.

Дело в том что на многих госресурсах сейчас пошло в моду использовать флешовые карты и графики с подгрузкой данных из XML, соответственно это даёт возможность получать хотя бы какую-то информацию машиночитаемой.

Что значит машиночитаемой? Это, например, означает что информацию о новостях в регионах можно транслировать на региональных порталах, поскольку обычно в таких экспортах данных есть геопривязка в отличии от обычного экспорта в RSS (без расширений).

Вот несколько примеров.

Сайт Президента РФ (www.kremlin.ru)

Список новостей и визитов по регионам http://news.kremlin.ru/maps/russia_docs.xml

Возвращает в XML список новостей привязанных к данному региону.

Сайт Правительства РФ (www.government.ru)

Список регионов: http://government.ru/russia/xml/

Возвращает список регионов и их центров  страны в XML.

Сайт Председателя правительства РФ  (premier.gov.ru)

Поездки по России http://premier.gov.ru/visits/ru/xml/

Полный список поездок по стране с указанием даты, ссылки на предпросмотр изображения и на описание поездки.

МЧС РФ

Карта новостей МЧС http://www.mchs.gov.ru/mchs.xml

Возвращает в XML список главных управлений и их последние новости

P.S. Думаю что в каталоги открытых данных их тоже можно будет добавить. А если Вы знаете похожие примеры на госсайтах – оставляйте в комментариях, добавим в  общий список

Originally published at Иван Бегтин. You can comment here or there.

Twitter аккаунты управляющих компаний Ивановской области
25 декабря 10 09:53

Воистину чего только не бывает, вот и на сайте правительства Ивановской области обнаружился каталог Twitter аккаунтов организаций по управлению многоквартирными домами

Всего 45 организаций.

Посмотреть его можно тут – http://www.ivanovoobl.ru/materials.aspx?part=442

Из десятка просмотренных какую-либо активность я нашёл только тут – http://twitter.com/#!/garant_servis

в остальных, либо ничего, либо один приветственный твит. Впрочем, как я понимаю, открылись они только-только.

Честно говоря даже не знаю как к этому относится.

С точки зрения доступности информации для населения Твиттер аккаунтов не может быть достаточно, могли бы тогда и вести список контактов (телефонов и адресов) компаний и раскрытие их тарифов/работ заодно.

С точки зрения мониторинга информации – несомненно плюс. При наличии активных граждан-машаперов они теперь могут по этим твиттер аккаунтам отслеживать активности управляющих компаний, рейтинговать по активности и так далее.

Но тенденция интересная, это да.

Originally published at Иван Бегтин. You can comment here or there.

Итоги лекции в Киеве об открытых данных
23 декабря 10 11:50

Итак, вчера в Киеве завершилась моя лекция по открытым данным. Для меня это не первое выступление по этой теме, но, пожалуй, первое именно в формате лекции.

За её организацию спасибо Полiт.уа, их статью о лекции можно прочитать тут – http://polit.ua/articles/2010/12/23/begtin.html

Было немало вопросов, чувствовалось что в аудитории кто-то имеет опыт работы с информацией, но для большинства это было вновинку. Многие сомневались что на Украине подобная тема и такие проекты возможны, что меня, если честно сильно удивило, казалось бы, и специалистов в ИТ немало, и судя по AidData и другим источникам внешней помощи через НКО тоже немало.

В реальности, пока ещё ситуация хуже чем в России, поскольку пока нехватает энтузиастов желающих заниматься этой темой, да и госорганы раскрывают даже меньше информации чем их российские аналоги.

Однако будем надеятся что и на Украине когда нибудь появится data.gov.ua и громодяне смогут создавать свои проекты для общественного блага.

Originally published at Иван Бегтин. You can comment here or there.

Космический геопортал из Ада
23 декабря 10 09:39

Я как и многие увидел  »геопортал Роскосмоса» – если Вы его не посещали, то самое время сделать это сейчас http://geoportal.ntsomz.ru/index.php

Скажу честно, к Роскосмосу у меня давняя и сильная антипатия потому как из всех российских госструктур – именно Роскосмос бы основан на том советском наследии которым можно и не стыдно гордиться. И именно им достались архивы по космическим программам и до сих пор в открытом доступе находятся лишь крупицы информации.

И вот тут, ВДРУГ, сразу после падения ракеты со спутниками и скандалом по их страхованию появляется «Геопортал Роскосмоса».

На мой взгляд то что этот проект неудачен практически очевидно, но я всё же объясню:

1. Проект запускался без  подготовки к значительным нагрузкам, впечатление что проект запускали «впопыхах». Остаётся лишь гадать почему так – конец года или спутники упали, а результаты нужны.

2. Это же подтвержает отсутствие вменяемого описания проекта на его сайте и «адская инструкция» http://geoportal.ntsomz.ru/help/roscosmos_geoportal.rar которая: в архиве(!), в виде презентации(!!), в виде презентации экспортированной в HTML формат (!!!)

3.  Почитайте лицензию к материалам портала http://geoportal.ntsomz.ru/index.php/auth/license


Вся информация, размещенная в Геопортале Роскосмоса, предназначена для некоммерческого использования. При этом любое ее копирование, воспроизведение, переработка, распространение, размещение в свободном доступе (опубликование) в сети Интернет, использование в средствах массовой информации и/или в коммерческих целях осуществляется в соответствии с законодательством Российской Федерации.

Это что угодно, но совершенно точно не лицензия. В первую очередь по той причине что неуказан правообладатель информации.

4. Открытых данных там нет. Совсем нет.

Для сравнения NASA раскрывает совершенно нереальные объёмы информации через Data.gov http://www.data.gov/catalog/geodata/category/0/agency/183/filter//sort//page/1/count/10#data и массу собственных веб-ресурсов

Вопрос, всё ли можно давать открытыми данными и бесплатно? Если не все то большую часть можно точно.

Вот ещё пример. В США есть федеральный сайт Geodata.gov – http://www.geodata.gov где огромный каталог геоданных, как доступных онлайн, так и тех которые возможно приобрести, а также контакты тех у кого их можно получить. Это и есть _недискриминационный доступ_ к геоинформации.

5. Хотя открытых данных и нет, но, есть API. Правда непубличное и нигде открыто не описанное, но видна подгрузка данных через AJAX из скриптов «getObjectsSemantics.php» и так далее. А то есть пытливые умы скоро смогут выцепить оттуда что-либо интересное.

6. С API есть очень большая беда с безопасностью. Разработчики видимо совсем не в курсе зачем существует HTTPS и что нельзя передавать логин и пароль в каждом запросе.

Так вот если заглянуть в тело запроса что передаётся на сайт из браузера, товидно что с каждым обращением к  данным объектов через AJAX передаётся логин и пароль пользователя. Поскольку я там неавторизован то передаются логин: guest и хэш его пароля.

Для гостевого входа это безобидно, а вот если на этот портал начнут заходить коммерческие и официальные потребители информации под своими настоящими логинами и паролями – вот тогда любителям снифферов будет чем поживиться.

—-

Ну а в довесок ссылки на всякие Роскосмосовкие нехорошие интересности:

1. Отчёты Роскосмоса в Правительство об исполнении планов и показателей непубличны – http://www.roscosmos.ru/main.php?id=261. Дословно «информация ограниченного доступа»

Для сравнения, Минпромторгу публиковать их не западло – http://www.minpromtorg.gov.ru/ministry/plans/gov/1, такие отчёты публикуют в ФАС – http://www.fas.gov.ru/about/about-site/ и ФСТ РФ – http://www.fstrf.ru/about/activity/reports и многие другие.

2. А это вообще нормально что руководитель Роскосмоса Анатолий Перминов, одновременно является председателем совета директоров ОАО «Российские космические системы»  которые делали этот портал и вообще получают немалую долю в контрактах Роскосмоса? Проверить это легко, поскольку ОАО «Российские космические системы» это публичная компания, то и списки аффилированных лиц они публикуют – http://rniikp.ru/ru/pages/about/list_af2010-09-30.pdf

Originally published at Иван Бегтин. You can comment here or there.

10 ошибок при анализе данных с точки зрения кошачьей статистики
23 декабря 10 06:39

В прекрасном блоге о анализе данных и статистики в частности под названием «Stats with cata» (http://statswithcats.wordpress.com/) или «Статистика с кошками» появился пост под названием «10 фатальных ошибок при анализе данных» – http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/

Всячески рекомендую его прочитать.

А сам приведу краткую выжимку:

1. «Где говядина?»   Цифры, выборки и данные без целей, ответов на вопросы или желания «рассказать историю» – бессмысленны.

2. Фантомное население

3. Ненастоящие примеры

4. Достаточно значит достаточно

5. Потворство противоречиям

6. Сумашествие в методах

7. Торренты тестов

8. Значимые незначимости и незначимые значимости

9. Интоксикация экстраполированием

10. Невернонаправленные модели

В общем, рекомендую, и блог, и этот пост.

А ещё я вот о чём подумал. Это же какая гениальная делать блог со своими животными, но не о животных.

У меня тоже возникла гениальная идея – отдаю бесплатно, кто первым успеет её сделать.

Сделать что-то «Электронное правительсто с» и на выбор черепахами/козами/щенками/бобрами/крысами/рыжыми котами.

Например, вариант «Электронное правительство с козлами» и по русски хорошо звучит, а на английском будет «eGov with goats». Осталось только коз найти.

Или вот «Электронное правительство с рыжими котами». Нужен только рыжий кот с каким-нибудь популярным прозвищем на букву Ч, а на остальное фантазии хватит.

Ваши варианты?

Originally published at Иван Бегтин. You can comment here or there.

Открытые данные США по внешнеэкономической помощи
21 декабря 10 05:07

В США открылся портал ForeignAssistance.gov ( http://www.foreignassistance.gov ) как очевидно из его названия, посвящённый помощи США другим странам. Он включает данные таких их ведомств как USAID (http://www.usaid.gov/) и Department of State (http://www.state.gov/).

В частности у них есть информация по помощи отдельным странам, таким как Россия – http://www.foreignassistance.gov/OU.aspx?OUID=197&FY=2010#ObjAnchor в виде отдельных веб-страниц профилей под каждую страну.

Например, на 2011 год у них запланировано 68.7 миллиона долларов на помощь России из которых 35.2 миллиона долларов пойдут на развитие демократии. Для сравнения президентом России на поддержку НКО в 2010 году было выделено 1 миллиард рублей, или 33 миллиона долларов.

Также можно посмотреть профили и цифры по некоторым странам СНГ:

По остальным там тоже информация есть.

Что, впрочем, никогда не сравнится  с расходами на «Peace and Security» в Афганистане, Пакистане, Египте и Иордании.

Как бы то ни было портал любопытный, но не более того. Поскольку в отличии от Евросоюза в США до сих пор не раскрывают конкретных транзакций и организаций получателей средств. Все цифры что мы видим – это хоть и интересная, но обезличенная статистика.

Быть может, понимая это, на портале обещают добавить много новых данных, о чём можно прочитать здесь http://www.foreignassistance.gov/AboutWhatsComing.aspx

и кроме информации от USAID и Госдепартамента будут данные и от Департамента труда, Департамента обороны, Казначейства, Департамент Агрокультуры, Миротворческих сил, Банка экспорта-импорта США и Millenium Challenge Corporation (http://www.mcc.gov/) – это такой фонд помощи бедным странам.

Их данные и сейчас доступны в разных формах, например, тут http://www.mcc.gov/pages/countries или тут http://www.exim.gov/

А также информация о конкретных проектах и их статусе.

Originally published at Иван Бегтин. You can comment here or there.

Публичная лекция в Киеве по открытым данным
21 декабря 10 02:35

Завтра в 19:00 я буду в Киеве выступать с лекцией про открытые данные и их важность – подробнее об этом мероприятии можно почитать тут – http://polit.ua/news/2010/12/16/begtin.html

Говорить я буду про то что такое открытые данные, их связь с открытым государством и многие другие связанные с этим явления. Я хочу также затронуть вопросы Semantic Web и Linked Data, но пока не очень представляю себе насколько аудитория будет готова к подобным понятиям.

Если есть какие-то вопросы, можно мне задать их заранее – я постараюсь их осветить в лекции.

Originally published at Иван Бегтин. You can comment here or there.

Проекты по открытым данными и не только
20 декабря 10 02:47

Продолжая тему открытых данных и их доступности, нельзя не отметить что открытые данные раскрывают не только государственные структуры и НКО, но и вполне себе крупные коммерческие компании такие как Google, Microsoft, Yahoo и другие. Причём если ранее они предоставляли данные, в основном, в виде срезов для каких-либо научно-технических конкурсов, то сейчас ситуация постепенно меняется и многие данные доступны всем онлайн и под лицензией Creative Commons.

Вот некоторые примеры и инициативы

Google NGram Datasets

Ссылка: http://ngrams.googlelabs.com/datasets

Большая подборка датасетов от Google с ngram’ами по множеству языков. Сами датасеты построены на базе Google Books. Данных там очень много, все они доступны под лицензией Creative Commons Attribution 3.0 Unported, а то есть их можно использовать в том числе и для коммерческих целей при условии указания откуда данные были взяты.

DataWiki

Ссылка: http://datawiki.googlelabs.com/

Пока ещё экспериментальный проект по созданию Wiki для хранения структурированных данных. На мой взгляд сильно проигрывает таким проектам как Socrata или Semantic Mediawiki, но тем не менее интересно.

Google Fusion Tables

Ссылка: http://www.google.com/fusiontables/Home

Это как раз прямой конкурент Socrata – таблицы от Google. Позволяет импортировать и хранить табличные данные. Визуализировать их и тому подобное. Не очень впечатляет по возможностям, во всяком случае пока. Но когда они расширят этот проект возможностями Google Refine, то картина будет совсем другой

Google Refine

Ссылка: http://code.google.com/p/google-refine/

Очень мощный и гибкий инструмент по очистке табличных данных изначально сделанный Metaweb который теперь куплен Google’ом.

IMDB Interfaces

Ссылка: http://www.imdb.com/interfaces#plain

Открытые данные распространяемые IMBD. Не бесплатно в общем случае, но бесплатно в некоторых случаях. Подробнее у них на сайте.

ImageNet

Ссылка: http://www.image-net.org/download

Огромный массив отклассифицированных изображений.

CommonCrawl

Ссылка: http://www.commoncrawl.org

Огромная база ссылок результатов сканирования веб-сайтов краулерами, в частности найденных ссылок. Скачать полностью, увы, нельзя, но в остальном очень круто.

Originally published at Иван Бегтин. You can comment here or there.

Ярмарка идей
20 декабря 10 01:59

В очередной раз у меня накопилась подборка идей по социальным и государственным (социально направленным проектам) проектам.  Да и просто идейки некуда девать.

Итак идеи:

1. Госпреимущества или ГосВыгода

Проект посвящённый тому каким образом гражданин может получить выгоду от взаимодействия с государством как частное лицо или представляя организацию. В проекте должны быть собраны все или хотя бы основные государственные и муниципальные программы по:

- льготному кредитованию;

- государственным субсидиям;

- госстипендиях;

- госзакупках;

- государственных и индивидуальных грантах;

- аренде государственного имущества;

- торгах конфиската и государственного имущества

и так далее. А то есть все возможность получить прибыль или съэкономить. При этом все инициативы должны быть отклассифицированы по субъектам федерации, госорганам которые за них отвечают и социальным группам или интересам граждан. Так чтобы любой зашедший на сайт мог бы открыть раздел «Для молодых учёных» и получить полный список возможностей по госстипендиям, конкурсам и так далее. Хотя бы на уровне ссылок где можно узнать более подробную информацию.

Впрочем об этом я уже писал в прошлой заметке про гранты.

2. Госсвязи

Проект который очень трудно сделать неполитическим, но может быть и получится. Госсвязи – это наглядное отображение общеизвестных связей существующих между ключевыми публичными людьми. Это включает семейные связи (братья, сестры, родители, дети, сватья и так далее), рабочие связи, учебные связи (школа, университет, курсы), коммерческие связи в виде совместного бизнеса и так далее.

Публикаций СМИ в которых была бы подобная информация, очень много и не все они достоверны, так что необходимо тут и предусмотреть вероятностные связи обязательные ссылки на первоисточники.

3. Русскоязычный Wordle

Есть такой прекрасный сервис как Wordle (http://www.wordle.net/), он позволяет создавать очень наглядные облака текстов. Одна незадача, если с английскими текстами всё просто, то в русских текстах каждая словоформа будет как отдельное слово, что неправильно. Собственно русскоязычный аналог Wordle очень бы пригодился, так чтобы брать текст, разбирать слова, приводить словоформы к базовым формам и на основе них уже строить облако текстов. А если ещё и уметь понимать хотя бы базовые словосочетания, то будет совсем красиво.

4. Автоматические видео таггер

Для видеозаписей, например, фильмов – автоматически определять людей и предметы запечатлённые на картинке и отмечать тэгами привязанными к определённому интервалу фильма. Так чтобы по этим тэгам можно было бы искать, показывать их в каком-либо интерфейсе при просмотре видео, автоматически определять длительность присутствия того или иного актёра (участника видео) и так далее.

Тут точно потребуется серьёзная алгоритмическая проработка, возможно также что такие разработки уже ведуться, однако в массовом потреблении я ничего такого не встречал.

Originally published at Иван Бегтин. You can comment here or there.

О грантах, прозрачности и открытых данных
19 декабря 10 04:41

Как я и обещал ранее по плану пишу пост про гранты, их публичность и то зачем тут нужны открытые данные.

Однако прежде чем разобрать проблемы в этой сфере будет большой вводный текст что и как сейчас присутствует.

Что такое грант?

Для начала,  посмотрим что такое грант, в Википедии (см. Грант) есть вполне точное определение звучащее как

Грант — безвозмездная субсидия предприятиям, организациям и физическим лицам в денежной или натуральной форме на проведение научных или других исследований, опытно-конструкторских работ, на обучение, лечение и другие цели с последующим отчетом об их использовании.

В данной заметке я затрону тему государственных грантов, а то есть грантов выделяемым различными государственными структурами.

В России есть 4 основных вида государственных грантов:

1. Научные гранты – гранты выделяемые учёным и научным школам на проведение научных исследований. Также часто называются научными конкурсами.

2. Образовательные гранты – гранты на поддержку образования, как правило индивидуальные гранты. Иногда они также называются государственными стипендиями.

3. Инновационные и научно-технические гранты – выделяются, как правило, малым и средним предприятиям на практическое внедрение научно-технических разработок.

4. Гранты для НКО – гранты выделяемые государством на поддержку некоммерческих неправительственных организаций для решения различных социальных и общественных задач.

Каждый из типов грантов предназначен для решения специфических задач и нацелен на вполне конкретную аудиторию. Например, научные гранты – нацелены на учёных, образовательные гранты – на одарённых детей, студентов и их родителей, научно-технические гранты – на то что называют инновационными компаниями и как правило нацелены на достижение коммерческого успеха за счёт внедрения новых технологий и гранты для НКО – это инструмент влияния государства на общество через некоммерческие организации.

Кем распределяются и где и как найти информацию о грантах?

Государственные научные гранты распределяются через:

  • Совет по грантам Президента Российской Федерации – http://grants.extech.ru
  • Российский Гуманитарный научный фонд – http://www.rfh.ru
  • Российский Фонд Фундаментальных исследований – http://www.rfbr.ru/

На сайте каждой из этих организаций можно найти подробности организации конкурсов и финансирования проектов. Большая часть грантов направлена на физических лиц, однако многие идут на научные организации.

Также научные гранты могут выделяться и в субъектах федерации. Например, в Самарской области выделяются Губернские гранты – http://www.ssc.smr.ru/ssc_grant.html на поддержку науки и техники. Все эти гранты индивидуальные.

На уровне федерации я чаще встречал термин государственная стипендия, но в отдельных субъектах федерации существуют фонды и программы поддержки граждан именно в форме грантов.

Итого:

Также существует множество грантовых и стипендиальных программ у отдельных ВУЗов, например, у ГУ ВШЭ – http://www.hse.ru/org/hse/aspirant/stip.

В случае с инновационные и научно-технические гранты ситуация несколько отличается. Основной государственный грантодатель в этой области – это Фонд содействия развития малых предприятий в научно-технической сфере (в обиходе его обычно упоминают как «Фонд Бортника» по  рук-люнаблюдательного совета Ивану Михайловичу Бортнику) http://www.fasie.ru. Данный фонд проводит ежегодно серию конкурсов для научно-технических предприятий.

И, наконец, государственные гранты для НКО. В России гранты для НКО выделяются президентом ежегодно через список утверждённых фондов – операторов. Список операторов утверждается каждый раз ежегодно и, например, в этом году их было пять – можно посмотреть их тут http://oprf.ru/interaction/nko_list/1274/

Каждый из операторов публикует информацию о конкурсе, требования к конкурсантам, интересующие темы заявок и результаты отбора в виде списка победителей и журнала заявок.

Эти материалы можно найти на их сайтах:

Плюс есть несколько операторов которые уже не операторы, но были ими ранее и публиковали отчётные материалы. Это:

В чём особенность и специфика именно информации о грантах

После того как картина с государственными грантами в России стала чуть более понятной, пора перейти к особенностям и нюансам которые не всегда видны на поверхности:

1. Средства выделяемые государством на все формы грантов сравнительно невелики. Если сравнивать с объёмом средств идущих на госзаказ, то расходы на гранты будут десятыми долями процента, не более того.

2. Подавляющее число грантов выделяется в виде очень небольшим сумм. До 10 миллионов рублей на одну организацию и до 200 000 рублей на человека. Очень редко когда больше.

3. В отличии от государственного заказа, контроль за грантами гораздо ниже. Например, области госзакупок контроль осуществляют:

  • Федеральная антимонопольная служба РФ
  • Генеральная прокуратура РФ
  • Контрольный комитет при Президенте РФ
  • Федеральное Казначейство
  • Счетная Палата РФ
  • Росфинмониторинг

Однако в случае грантов ничего подобного не происходит. Это в какой-то степени объясняется небольшими средствами идущими по грантам, но одновременно делает грантовые деньги «несвязанными», а то есть обладающими значительно меньшими персональными рисками для получателей чем средства выделяемые по госконтрактам.  Это в первую очередь применимо к грантам получаемым организациями в научно-технической сфере и к грантам для НКО.  В этих случаях несоблюдение каких-либо условий при получении гранта, несвоевременное представление отчётности и так далее, скорее несёт риски не получения грантов в будущем, чем серьёзной ответственности перед законом.

Проблемы публичности

В случаях всех видов грантов одной из ключевых проблем их общественного представления является недостаточная публичность процессов подготовки, отбора и конечной отчётности грантополучателей. Недостаточность публичности во всех случаях обусловлена отсутствием так называемых «стандартов раскрытия информации» в которых определялись бы правила публикации ключевой информации и возможность последующего её использования гражданами и заинтересованными организациями.

1. Отсутствие реквизитов организаций

Например,  в случае грантов для НКО все пять операторов публикуют по итогам конкурсов списки победителей, однако если взглянуть на эти списки на сайтах операторов, то можно обратить внимание что только один оператор – «Государственный клуб» указывает ИНН организации победителя и, соответственно, только их результаты можно сравнительно быстро проверить по реестру НКО Минюста, ЕГРЮЛ и иным публичным ресурсам. Все остальные публикуют лишь название НКО и регион её местонахождения.

Примечание:

Российское законодательство не ограничивает юридические лица в изменении названий организаций, а также допускает существование организаций с идентичными названиями. Чтобы убедиться в этом достаточно заглянуть в ЕГРЮЛ тут – egrul.nalog.ru/fns/index.php, ввести «Ромашка» в название организации и выбрать регион «Москва».  Поэтому если в перечне организаций приводится только её название без адреса и/или реквизитов, то невозможно гарантировать актуальность данной информации в будущем.

Итого, для сопоставления информации о победителях конкурсов для НКО с другими базами данных требуется значительное число ручных усилий. А в случае опечаток в названиях вполне возможно что и не все организации удасться найти в ЕГРЮЛ.

2. Отсутствие публичной отчётности.

Эта проблема присутствует в той или иной форме для всех видов грантов, однако для научных и образовательных грантов отчётность, как правило, ограничена авторским правом и законом о персональных данных. В случае научно-технических грантов также присутствуют требования о соблюдении коммерческой тайны.

А вот в случае грантов для НКО (ННО) отсутствие публичной отчётности всегда настораживает поскольку вышеописанных ограничений здесь нет, но есть точное понимание что публикация отчёта должна повышать доверие к НКО, оператору и грантодателю (Президенту РФ).

Однако нельзя сказать что усилия не предпринимаются, например, отчётность о грантах публикуется на www.nkozakon.ru в разделе «Прозрачность» – http://www.nkozakon.ru/transparency/, конкурса для НКО «Точка отсчёта» – http://www.portal-nko.ru/nko/refpoint и там же отчёты от НКО – http://www.portal-nko.ru/nko/reports.

Однако можно обратить внимание что из-за отсутствие «стандартов раскрытия информации» некоторые отчёты, мягко говоря, «для галочки», например, отчёт «Башкирского экономическо-юридического техникума» – http://www.portal-nko.ru/nko/_organization/?id=34956&items=reports это просто сканы их фин. отчётов в Министерства Юстиции РФ, в которых полностью отсутствует информативная часть о характере деятельности организации. Кроме того число отчётов там существенно меньше числа победителей конкурсов для НКО за последние годы. В разы меньше.

3. Ограничения в возможности проверки публичности организаций.

С появлением Интернета и возможности создавать сайты для организаций вопрос их публичности – это вопрос их доброй воли или требований которые к ним предъявляются. Я думаю что ни у кого не вызовет сомнений что наличие собственного веб-сайта у НКО (ННО) повышает её публичность, а отсутствие наоборот повышает недоверие. Соответственно, в списках победителей мы не видим адресов их организаций, и каких-либо их контактов, невозможно понять опыт этой организации, кто ей руководит и так далее.

4. Непрозрачность отбора организаций грантодателей.

Если, опять же, сравнивать отбор операторов НКО с государственными закупками, то тут та же ситуация с непрозрачностью отбора. Почему именно эти 5 операторов, почему не другие? Как и кем проводился отбор? Какие критерии рассматривались? Где можно найти стенограмму заседания комиссии по отбору операторов? Что это была за комиссия?

И так далее. В конце то концов, не президент же лично отбирал операторов для НКО и вписывал в своё распоряжение.

5. Недостаточная отчётность о работе комиссий операторов по отборе НКО

Во всех операторах по распределению средств для НКО результатами работы комиссии являются два публичных документа. Это «Список победителей» о котором ранее уже шла речь о недостаточной информации о реквизитах организаций и «Журнал приёма заявок» в котором фиксируются все поступившие на конкурс заявки и присваиваются номера заявок, а также проверяется соответствие формальным требованиям. Из всех операторов только, всё тот же, «Государственный клуб» публикует в журнале приёма заявок результаты рассмотрения каждой из них, включая описание формального несоответствия критериям если они есть. Их журнал можно посмотреть по ссылке – http://www.gosclub.ru/konkurs%202010/GOSCLUB_zurnal%20zayavok%202010.xls и сравнить с журналами других операторов:

Можно обратить внимание что различия в объёмах раскрываемой информации весьма существенные.

6. Отсутствие машиночитаемости

И вот мы пришли к открытым данным. Всё что публикуется по грантам всех типов у нас в стране совершенно не является машиночитаемым. Данные об отборе НКО публикуются в виде веб-страниц и изредка файлов Excel (у ИПГО http://www.inpgo.ru/495/610/776/). То же самое касается научных грантов, образовательных грантов и грантов в научно-технической сфере. Машиночитаемости материалов и их пригодность к последующему анализу очень невелика. Фактически единственная полноценная возможность работать с ними – это «вырезать» (screen scraping) из веб-страниц, что и было сделано в проекте РосГосЗатраты – http://rosspending.ru/grants/oprf/

Мировой опыт

Наиболее интересный мировой опыт раскрытия информации о грантах есть в Евросоюзе – это проекты:

В США информация о грантах раскрывается на нескольких ресурсах:

Главное отличие опыта США и Евросоюза от России в том что информация о выделяемых средствах собирается в форме пригодной для последующего анализа, а теперь ещё и публикуется для граждан в машиночитаемой форме.

Что дальше?

Я считаю что есть два наиболее важных направления действий в том что касается публичности информации о грантах.

Первое – общественная дискуссия по вопросам стандартизации раскрытия информации и обеспечению публичности процессов выделения государственных средств в виде грантов и субсидий. Я считаю что наиболее верным результатом подобной дискуссии было бы появление требований к обязательному раскрытию информации о грантах, обязательной публикации отчётов о проделанной работе и машиночитаемость публикуемых данных

Второе – систематизация информации о грантах и иных возможностях предоставления помощи государства гражданам и организациям. Фактически нехватает информационного ресурса/веб-проекта на котором гражданин мог бы найти информацию о том какие возможности и выгоду он может получить взаимодействия с государством. Это включало бы:

  • получение грантов, государственных стипендий и субсидий;
  • государственный заказ;
  • торги по аренде государственного и муниципального имущества;
  • льготные кредиты;
  • индивидуальные государственные программы вроде «утиль за деньги»;
  • субсидии начинающим предпринимателям;

и так далее.

В США, кстати, есть нечто подобное в виде двух проекта – Benefits.Gov и ничто не мешает нам создать подобный проект в России.



Originally published at Иван Бегтин. You can comment here or there.

Встреча с главой ФАС – Игорем Артемьевым
18 декабря 10 07:10

Вчера была встреча Игоря Артемьева и представителей общественности и блоггеров.

От общественности и блоггеров там были я, Роман Фролин (http://www.facebook.com/roman.frolin) и ждали что появится Катерина Аксенова (http://www.gov-gov.ru), но Катерину подвело в этот день здоровье.

Общение было очень открытым. В пресс-службе мне с самого начала сказали что ограничений на вопросы нет, спрашивайте что хотите. Да и сам Артемьев от вопросов не уходил, говорил открыто и по существу. Впрочем, те кто знает сколь много я писал у себя в блоге про 94-ФЗ и ФАС думаю догадываются что не будь желания к открытому диалогу, то и меня бы на эту встречу не звали, а провели бы «протокольную встречу» с подготовленными гражданами. Эта же встреча протокольной не была ни на секунду.

О чём говорили:

1. Меня поблагодарили за найденные случаи «латиницы» в госзакупках и в реестре недобросовестных. Артемьев упоминул что в новой версии сайта госзакупок этой проблемы не будет в принципе.

2. Артемьев услышал и заинтересовался моими предложениями по открытым данным. А я предложил размещать в машиночитаемой форме реестры которые ведёт и публикует ФАС РФ, а также при выработке требований к публичности организаций вводить требования по машиночитаемому раскрытию информации. Например, в том что касается информации о тарифах. По моим ощущениям есть ненулевая вероятность что в ФАС про открытые данные не забудут.

3. Из интересного про госзакупки – был вопросов по поводу несовершенства 94-ФЗ и в частности, я спрашивал, про причины отсутствие полноценных двухэтапных процедур. На что, кстати, услышал очень понятный ответ о том что 94-ФЗ никогда не ограничивал госзаказчиков проводить предварительные консультации с поставщиками. Единственное же отличие в том что при двух-этапных процедурах на следующий этап допускаются только прошедшие первый, а при текущих процедурах с кем бы не консультировались на следующих этап попадают все.

4. Оказывается Артемьев не знал про проект РосГосЗатраты (http://www.rosspending.ru) впрочем я о нём рассказал.

5. Также шёл разговор про присутствие ФАС РФ в сети, их сообщество в Facebook’е, аккаунт в Twitter и так далее. Как я понял они останавливаться на этом не собираются, единственно сам Артемьев заводить блог не планирует.

6. Была интересная дискуссия про мониторинг цен и про сложности с которыми ФАС сталкивается в этой задаче. Основные проблемы как я понял тут кроются в неавтоматизированности этого мониторинга и маштабности задачи при том что годовой бюджет службы более чем скромен.

7. Ещё речь шла про «разворачивание» структуры цены товаров для потребителей. В частности Артемьев рассказывал про то что ФАС проводили исследования по анализу структуры цены и по многим товарам получали картину значительно завышенной стоимости из-за значительного числа посредников.

Конечно, это не все темы на которые я задавал вопросы, но пожалуй все самые интересные.

За организацию встречи спасибо пресс-службе ФАС РФ Елене Нагайчук и Ирине Кашуниной.

Для меня многое в работе антимонопольной службы стало куда более понятным.

Originally published at Иван Бегтин. You can comment here or there.

Исследование по открытым данным в США
16 декабря 10 10:24

Катерина Аксенова меня опередила уже написав (http://gov-gov.ru/?p=2119) про недавно вышедший отчёт компании Socrata (http://www.socrata.com/benchmark-study/download-report/) про использование открытых данных в США.

Правда, Катерина сделала акцент на политиках и, я думаю, что она права – у нас политикам открытые данные не помогут. Однако в отчёте кроме политики есть и другие интересные моменты.

Например, все таблицы из этого отчёта можно скачать в машиночитаемом виде со специального сайта - http://benchmarkstudy.socrata.com/

А также, они провели опрос граждан, представителей госорганов и разработчиков на предмет того какие именно виды открытых данных им нужны более всего и, что немаловажно, ответы существенно отличались.

Я не поленился и попробовал подсчитать собственно разницу между этими ответами и получилось следующее.

Самыми спорными являются 3 темы:

  • Gov Svcs (where, when, how Svcs can be accessed) – Госуслуги
  • Education (e.g. school tests) – Образование
  • Transportation (e.g. parking, transit, traffic) - Транспорт

В случае госуслуг – они на первом месте приоритетов у чиновников, на 5-м месте у граждан и только на 12-м у разработчиков. У меня есть подозрение что в России похожая ситуация. Во всяком случае на словах.

В случае образования - это лишь 10-я по приоритетности тема для чиновников, 4-я для граждан и 15-я (последняя) для разработчиков.

И транспорт является11-й по приоритету темой для чиновников, 13-й для граждан и на 2-м месте у разработчиков. Понятно почему – обилие картографических сервисов позволяет работать с данными о транспорте и трафике сравнительно удобно.

Да, разумеется, это американский рынок и американские открытые данные. Равно как и нельзя забывать тот факт что в США, в отличии от России, граждан потребителей открытых данных немало и само это понятие известно. Однако этот отчёт показывает насколько ожидания и приоритеты чиновников, граждан и разработчиков могут несовпадать.

Все расчёты я выложил на тот же самый сервис Socrata и их можно посмотреть тут http://opendata.socrata.com/Government/Differences-in-between-government-stakeholders-dev/dgsw-isxi

Originally published at Иван Бегтин. You can comment here or there.

Все-Европейский портал открытых данных и weGovernment
16 декабря 10 05:25

Вице-президент ЕС Нэлли Кросс выступила с программной речью «My vision for eGovernment, and how to make it real» в которой она сформулировала концепцию weGovernment – «Мы государство».

Раскрываемую как создание пан-Европейского портала открытых данных и активное вовлечение граждан и бизнеса к использованию открытых данных.

Обсуждения пан-Европейского портала уже начались.

http://cordis.europa.eu/fp7/ict/content-knowledge/docs/report-ws-pan-eu-dat-porta_en.pdf

Лично я считаю что наиболее высокие шансы на контракт по этому порталу будут у Open Knowledge Foundation, благо им удалось инициировать множество национальных порталов работающих на их платформе и они сейчас наиболее мощный центр компетенции по открытым данным в Европе.

Думаю что этот портал с высокой вероятностью появится в первой половине 2011 года.

Originally published at Иван Бегтин. You can comment here or there.

Информация об аукционах в машиночитаемой форме
16 декабря 10 01:51
К вопросу об открытых данных, машиночитаемости и государственном заказе. Я не раз писал и говорил о том что будь данные о текущих торгах доступны в машиночитаемой форме – это было бы куда более серьёзным решением против «латиницы» и других способов сокрытия торгов, чем все текущие усилия ФАС или Минэконромразвития.
И, вот в одной из электронных торговых площадок, а конкретно на Единой Электронной Торговой Площадке http://etp.roseltorg.ru/ оказывается разделяют моё мнение и прислали мне для бета тестирования инфорфейс к данным с текущими торгами.
Поскольку бета-тестирование, то ссылку на сам интерфейс пока дать не могу,
но приведу кусок XML который оттуда извлекается.
<?xml version1.0« encodingutf-8«?>
<auctions updated2010-12-16T13:31:14+03:00«><auction><organizer_title>ГУ ДВРПСО МЧС России</organizer_title><subject>Выполнение работ по монтажу системы автоматической установки охранно-пожарной сигнализации и системы оповещения и управления эвакуацией людей в случае пожара (2-го типа)</subject><registration_end_datetime>2010-10-27T21:00:00+03:00</registration_end_datetime><start_price>500000.00</start_price><link>http://etp.roseltorg.ru/trade/view/?id=MOS19101000030</link></auction><auction><organizer_title>Управление Федеральной налоговой службы по Новосибирской области</organizer_title><subject>Капитальный ремонт административного здания ИФНС России по Октябрьскому району г. Новосибирска</subject><registration_end_datetime>2010-10-28T10:00:00+03:00</registration_end_datetime><start_price>11877344.85</start_price><link>http://etp.roseltorg.ru/trade/view/?id=MOS06101000095</link></auction>

Как видно – всё очень просто.  Что и неплохо, поскольку при наличии API другие ресурсы могут ретранслировать эту информацию у себя на сайтах фильтруя по ключевым словам, а площадка, соответственно, имеет возможность привлечь большее число поставщиков и получить с этого профит.
Плюс, как я понимаю, в будущем планируют выдавать и всю инфу по прошедшим процедурам.
Я лишь надеюсь что они сделают это API бесплатным, но, на самом деле, даже если доступ к API/Экспорту будет предоставляться на коммерческой основе – это куда лучше, чем когда данные совсем недоступны что мы наблюдаем в случае всех остальных ЭТП.

Originally published at Иван Бегтин. You can comment here or there.

Вопросы по электронным аукционам на ГосБуке
15 декабря 10 10:23

На Госбуке опубликовали множество весьма актуальных вопросов по электронным аукционам и вообще госзакупкам.  Я также ответил на часть из них. А также там есть ответы Александро Бойко и, я надеюсь, будут ответы других лиц.

Всячески рекомендую к прочтению тут http://www.gosbook.ru/node/12553 и к участию в обсуждении тоже. А если кто-то захочет также ответить на них  - ещё лучше.

Кстати, я ранее писал про планы http://ivan.begtin.name/2010/12/13/plans/ того о чём хочу написать.

В частности одной из тема была тема электронных торговых площадок.

И, большего аппетиту, у меня тоже есть несколько вопросов, скорее риторических:

1. Есть ли хоть одна из электронных торговых площадок из отобранных для проведения торгов по главе 3.1 94-ФЗ которая бы не нарушала закон о персональных данных?

2. Чем вызвано то что лишь один из операторов ЭТП является публичной компанией в форме ОАО?

3. Кто на самом деле выигрывает от электронных торгов и, казалось бы, причём здесь банки?

Originally published at Иван Бегтин. You can comment here or there.

По материалам проверки Генеральной прокуратуры России возбуждено уголовное дело в связи с нарушениям
13 декабря 10 05:39

Новость отсюда http://genproc.gov.ru/news/news-13655/ приведу её целиком

Генеральная прокуратура Российской Федерации провела проверку материалов по факту ограничения конкуренции при проведении Министерством здравоохранения и социального развития России аукционов на право заключения государственных контрактов на поставку лекарственных средств. В ходе проверки были выявлены существенные нарушения законодательства о конкуренции.

Установлено, что при проведении в 2008–2009 гг. Минздравсоцразвития РФ указанных аукционов руководители ряда коммерческих организаций, осуществляющих поставки препаратов, включенных в перечень жизненно необходимых и важнейших лекарственных средств, незаконно осуществили согласованные действия, ограничивающие конкуренцию. В результате фактически произошел раздел фармацевтического рынка и сферы государственных закупок лекарств. Так, в 2008-2009 гг. министерством заключено 164 государственных контракта на сумму 66,3 млрд. руб., из них 127 контрактов на сумму 61 млрд. руб. – лишь с 6 поставщиками.

Министерство необоснованно отказывало в допуске к торгам организациям, не участвующим в этой схеме. Более того, при проведении торгов министерством изначально завышалась начальная (максимальная) стоимость лекарств.

Таким образом, указанные действия коммерческих организаций нарушают п.2 ч.1 ст.11 Федерального закона от 26.07.2006 «О защите конкуренции», согласно которому запрещаются соглашения между хозяйствующими субъектами, если они могут привести к повышению, снижению или поддержанию цен на торгах.

Указанные нарушения привели к поддержанию монопольно высоких цен на торгах, в результате чего федеральному бюджету был причинен ущерб на сумму около 3,4 млрд. рублей.

Информация об итогах проверки была направлена в Следственный комитет при прокуратуре Российской Федерации. По результатам доследственной проверки следственным управлением Следственного комитета при прокуратуре Российской Федерации по Центральному федеральному округу было принято решение о возбуждении уголовного дела по ст. 178 Уголовного кодекса Российской Федерации (недопущение, ограничение или устранение конкуренции).

Ход расследования уголовного дела контролируется Генеральной прокуратурой Российской Федерации.

На что можно обратить внимание:

1. Тут конечно, не без камня в сторону антимонопольщиков. Фактически если говорится о нарушение законодательства о конкуренции и о госзаказе, но не упоминается ФАС России, значит это не просто так.

2. Наконец-то хоть кто занялся этими самыми аукционами Минздравсоцразвития. Секрет то был полишинеля, впрочем если ещё и их конкурсы проверить, то много чего может всплыть.

3. Сумма в 3.4 млрд. слишком крупная что-бы после неё «уходили по собственному» директора департаментов. Тут уже всё по взрослому.

4. Относительно завышения начальной максимальной цены, то у  меня есть несколько иное мнение. Фокус был в том что Минздравсоцразвития организовывали аукционы на огромные суммы и с поставками сразу по всей стране, конечно в итоге участвовали только компании с логистикой во всех регионах и способные выплатить обеспечение заявки в десятки миллионов рублей и обеспечение контракта в сотни миллионов.

А чего далеко ходить – Минздрав и сейчас публикует электронные аукционы на Сбербансковской ЭТП.

Можно посмотреть тут – http://www.sberbank-ast.ru/purchaseview.aspx?id=59156

Или тут – http://www.sberbank-ast.ru/purchaseview.aspx?id=59159

И некоторых крупнейших поставщиков

http://www.rosspending.ru/fk/s/74b111eca86c11de8bed12313900ec48/

http://www.rosspending.ru/fk/s/05300acaa86d11deb4a112313900ec48/

http://www.rosspending.ru/fk/s/b3a3046ea87b11de82d712313900ec48/

http://www.rosspending.ru/fk/s/a0a2cb78a86d11de82d712313900ec48/

Есть правда во всём этом ещё один нюанс. Чтобы оценить происходящее объективно нужны оценки самих представителей фармрынка, поскольку если например, этого рынка на самом деле нет, а есть лишь крупные игроки, тогда отсутствие конкуренции – это не странно.

Originally published at Иван Бегтин. You can comment here or there.

Ближайшие планы, в том числе планы постов в блоге
13 декабря 10 05:18

Я для себя понял что пора переходить от событийных публикаций к планируемым. Не значит что событийных не будет, но будет больше подготовленного.

Мои планы постов на ближайшую переспективу декабря-января:

1. О раскрытии информации о государственных грантах.

То как это делается в мире, то как это делается у нас. О нюансах законодательства, вернее от отсутствии требований к машиночитаемости.

2. Об электронных торговых площадках по госзаказу

О том зачем они нужны и нужны ли. Особенности публикации информации. Прозрачности деятельности и так далее. Тема наболевшая и откладываю я её долго.

3. Об открытых данных в Словакии

У словаков весьма впечатляющие результаты и много активностей на этот счёт. Они одни из сильных драйверов открытых данных в Европе.

4. О ClearSpending

О том как Sunlight Labs сравнивали фактические госрасходы с данными в USASpending


Originally published at Иван Бегтин. You can comment here or there.

Открытые данные по субсидиям фермерам в Евросоюзе
13 декабря 10 02:27

Проект Farm Subsidy – http://farmsubsidy.org/

Один из примеров проектов построенных на открытых данных и очень похожий на базу PLAID, некоммерческий проект AidData (http://www.aiddata.org/) где собираются международные проекты/гранты по развитию и помощи.

Но в данном случае это ничто иное как помощь Евросоюза фермерским хозяйствам и обеспечение прозрачности этой помощи.

Там огромная база из более чем 20 миллионов получателей субсидий на 181 миллиард Евро.

Охватывают с 2006 по 2010 год. Есть открытое API, исходный код и возможность скачать первичные данные.

А делают этот проект в EU Transparency – http://eutransparency.org/

Они также делают проект Fish Subsidy – http://fishsubsidy.org/ по поддержки рыбодобычи и рыбопереработки. Тоже достойный внимания.

Они, безусловно, неидеальны – на мой взгляд при их объёме информации там требуется серьёзная работа над навигацией по сайту, графиками и аналитикой, но это всё компенсируется доступностью данных.

И, конечно, стоит взглянуть на блог/новостную ленту – http://www.followthemoney.eu/

Там можно увидеть описания этих проектов, их презентационные ролики и, в принципе, понять как работают такие НКО в Европе.

Originally published at Иван Бегтин. You can comment here or there.

Вопросы
12 декабря 10 06:16

У меня накопилось несколько вопросов для всех и каждого читающих мой блог. Буду рад узнать ваши мнения.

1. Какие темы касающиеся государства Вам интересны и хотелось бы узнать о них больше? Например, есть такие темы как госуслуги, госзакупки, государственные открытые данные, структура органов власти, как принимаются решения в госорганах, взаимодействия гос-ва и граждан и гос-ва и бизнеса и так далее. И также масса более узких тем. Вопрос в том что интересно и хотелось бы раскрыть больше именно Вам?

2. Как лучше подавать свои англоязычные материалы?

По результатам пережёвывания огромного количества материалов по мировому опыту у меня сложилось впечатление что e-Gov и Open Government в России во многом не хуже чем в других странах, конечно со своими перекосами и «нюансами», но очень многое весьма и весьма на хорошем уровне. У меня возникла идея хотя бы раз в неделю начать писать на эту тему на английском языке.  Не скрывая ни хорошего, ни плохого. Однако пока ещё не сложилось понимания как лучше это сделать. Пока я только участвую в переписке между энтузиастами открытых данных по всему миру, но это куда меньше того что возможно.

Какие есть варианты:

- завести отдельный англоязычный блог и публиковаться там;

- договорится с какой-нибудь международной блогоплощадкой по теме e-Gov, Structured Data и Open Government  и публиковаться там;

- сделать площадку для российских e-Gov блоггеров пишущих на английском языке.

Что посоветуете?

3. Какие проекты на основе открытых данных Вам бы хотелось увидеть?

У нас уже есть один каталог открытых данных OpenGovData.ru – http://www.opengovdata.ru/ плюс есть много данных которые разбросаны по региональным и муниципальным госсайтам. Много данных раскрываемых НКО и коммерческими компаниями.

Вопрос какие некоммерческие общественные проекты на основе открытых данных Вам было бы интересно увидеть?

Некоммерческие общественные проекты тут означает что это проекты которые могут создаваться без каких-либо коммерческих целей, возможно с открытым исходным кодом и направленные на общественное благо.

Originally published at Иван Бегтин. You can comment here or there.

Несколько минут назад на ЭТП Сбербанка
10 декабря 10 01:05

Несколько минут назад на площадке Сбербанк АСТ.
А ведь я ничего не делал, только набрал для поиска сумму в 800 000 000 рублей.

И это то на production системе, куда катится мир.

Вдогонку, обратите внимание на вот такой вот электронный аукцион http://www.sberbank-ast.ru/purchaseview.aspx?id=77500 . Оно вообще, как думаете нормально такое сопровождение на аукцион выносить, «типовая продукция»?

Там вообще много интересных аукционов от 1 миллиарда рублей. Загляните и на снижение цены посмотрите, не пожалеете.

Originally published at Иван Бегтин. You can comment here or there.

Про разницу в государственном заказе России и других стран
10 декабря 10 12:32

На днях я искал у себя материалы по сравнению того как устроена система госзаказа в России и в других странах и международных организациях.
Пожалуй лучшей иллюстрацией разницы будет вот эта презентация 2007 года представителя Всемирного Банка.

Её также можно найти по адресу http://siteresources.worldbank.org/INTRUSSIANFEDERATION/147270-1109938296415/21309632/kcasey-goszakaz-eng.pdf

Там довольно много всего – про закупку интеллектуальных услуг, про то что во всём мире не используют аукционы (обратные аукционы) и про отсутствие полноценных двухэтапных процедур в 94-ФЗ.

Заметьте – это 2007 год. Если к этому сравнению ещё и добавить накопившиеся изменения в 94-ФЗ, то будет уже совсем невесело.

Originally published at Иван Бегтин. You can comment here or there.

Русский Викиликс
09 декабря 10 03:39

Вот тут - http://ruleaks.net/

Конечно, каждый переведённый документ надо будет сопоставлять с оригиналом, на всякий случай, но…

Тенденция однако.

Originally published at Иван Бегтин. You can comment here or there.

Про закупку открытого ПО Евросоюзом (на русском)
09 декабря 10 03:32

На Хабрахабр появилась статья с переводом материалов по закупке открытого ПО Евросоюзом – http://habrahabr.ru/blogs/open_source/109681/

Я считаю что инициатива по переводу подобных программных документов – это правильно и автор проделал большую и важную работу.

А скачать документ и его перевод можно по ссылке – http://www.box.net/shared/dza6hl87d4

Originally published at Иван Бегтин. You can comment here or there.

Публичный лоббизм с США, его мониторинг и другие интересности
09 декабря 10 09:23

Известная американская НКО SunLight Labs какое-то время назад анонсировали  проект Foreign Lobbying  (http://foreignlobbying.org) который они запустили вместе с некоммерческой организацией ProPublica .

Этот проект посвящён конгрессменам, фирмам лоббистам, лоббируемым организациям и странам откуда эти организации происходят. Как можно понять из названия – это всё про лоббизм иностранных интересов в США.

Учитывая что их лоббизм в значительной степени публичен и легален, то и найти подобную информацию возможно.

Из любопытных материалов:

Всё, конечно, с открытыми данными. Их можно скачать в CSV.

И как раз это те данные которые будет интересно сопоставлять с Wikileaks. И как мы видим, их уже начали сопоставлять.

Вдогонку, несколько других интересных проектов ProPublica:

- «Dollars for Docs» (http://projects.propublica.org/docdollars/)Раскрытие информации о том сколько фармкомпании платят докторам (мед. учреждениям) за лоббирование (рекламу) их лекарств.

- «Stymulus» (http://projects.propublica.org/recovery) – отслеживание средств пошедших на стимулирование экономики и опубликованных на Recovery.gov

Originally published at Иван Бегтин. You can comment here or there.

Боливийский правительственный Викиликс
08 декабря 10 03:07

Вот такая штука

http://wikileaks.vicepresidencia.gob.bo/

взято отсюда http://wlcentral.org/node/558

Может быть и нашим завести что-нибудь вроде wikileaks.kremlin.ru или wikileaks.gov.ru .

История становится всё интереснее и интереснее

Originally published at Иван Бегтин. You can comment here or there.

МЭР предлагает хранить информацию с сайта госзакупок 10 лет
08 декабря 10 10:49
РИА Новости

МЭР предлагает хранить информацию с сайта госзакупок 10 лет

20:08
06/12/2010
Информация, размещаемая на сайте по госзакупкам, должна будет храниться 10 лет и ежедневно копироваться на резервные носители. Такие предложения содержаться в проекте приказа Минэкономразвития и Федерального казначейства. >>

А отчего не вечно то?

Впрочем, 10 лет – это разумный срок. Будет время сделать все копии.

Originally published at Иван Бегтин. You can comment here or there.

Про метаданные документов. Без примеров
08 декабря 10 10:45

Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.

Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.

Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно – примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.

Итак метаданные.

Если ранее я писал что есть два типа метаданных – метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше.  Вернее даже не метаданных, а информации идентифицирующей автора и окружение.

Фактически я бы разделил эту идентификационную информацию на 4 типа:

метаданные документа – свойства (properties)  документа которые обычно забывают удалить при сохранении и пересылке.

метаданные вложенных объектов – свойства вложенных OLE объектов и изображений.

маркеры – данные в гипертексте документа идентифицирующие его владельца.

скрытые данные - информация в участках документа недоступных для визуального просмотра.

Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.

1. Метаданные документа

Это свойства документа которые видны если открыть его «Свойства» в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть «чувствительную информацию» о том кто был на самом деле автором документа,

2. Метаданные вложенных объектов

Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты – это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.

Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию – это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ – это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.

Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel – значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.

Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через «Вставить объект», то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.

Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ – сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем  я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.

Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту – преобразовать в OpenXML, распаковать и заглянуть в папку media.

3. «Маркёры»

Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:

обсуждения и комментарии в режим правки. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.

ссылки. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на Desktop или же в папке «Мои документы«. Главное что такие ссылки позволяют узнать – локальное имя пользователя извлекаемой из пути к данному документу.

4. Скрытые данные

Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах.  Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.

В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.

А как собственно получить все эти данные?

Инструменты

Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье Document Metadata Extraction в Forensics Wiki -http://www.forensicswiki.org/wiki/Document_Metadata_Extraction здесь много ссылок на инструменты и библиотеки.

Набор инструментов:

MS Office 2007-2010 для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты

Strings - утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.

OffVis – это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel – незаменима. Скачать можно здесь http://download.techworld.com/3214034/microsoft-offvis-11/

Metadata Extraction Tool – бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё  http://meta-extractor.sourceforge.net/

Catalogue – собирает метаданные из разного типа файлов http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm

- Metadata Analyzer – извлекает метаданные (только базовые) http://smartpctools.com/metadata/

Document Trace Remover – убирает метаданные http://smartpctools.com/trace_remover/

- Oracle Outside In - инструмент для разработчиков, поддерживает около 500 форматов файлов http://www.oracle.com/us/technologies/embedded/025613.htm

Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.

Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.

Originally published at Иван Бегтин. You can comment here or there.

Исследование Еврокомиссии по участию малого и среднего бизнеса в госзакупках
07 декабря 10 12:29

На сайте Еврокомиссии появился отчёт с результатами исследования участия малого и среднего бизнеса (SME) в публичных конкурентных процедурах – иначе говоря в госзаказе размещаемом странами ЕС.

Исследование весьма подробное и прежде чем читать его целиком стоит посмотреть на выжимку из него здесь – http://ec.europa.eu/enterprise/newsroom/cf/itemlongdetail.cfm?item_id=4726

Далее исследование полностью – http://ec.europa.eu/enterprise/policies/sme/business-environment/public-procurement/

И три документа:

Full report 2010 pdf - 2 MB [2 MB]

Annex pdf - 606 KB [606 KB]

Executive summary pdf - 289 KB [289 KB]

Кроме результатов и выводов, к которым я вернусь ещё чуть позже, там есть много ссылок на ресурсы по госзаказам/госрасходам в ЕС.

В частности:

  • http://www.peppol.eu/ – Пилотный проект Еврокомиссии по кросграничному участию компаний Евросоюза в госзаказе.
  • https://www.marches-publics.gouv.fr/ – французская система электронных торгов

Там же в документе есть важный раздел европейских приоритетов в госзаказе.

Это раздел 6.2. – «Innovative elements in public procurement». В частности, там очень чётко разделены циклы подготовки, размещения и исполнения заказа и подробно расписан каждый.

К этому документу я определённо ещё вернусь. Там немало любопытного.

Originally published at Иван Бегтин. You can comment here or there.

Про Wikileaks тезисно.
06 декабря 10 11:12

Я решил привести все свои мысли по поводу Викиликс к тезисам и вот что получилось:

  • учитывая объём утечки информации в cablegate и то что в ней мало по настоящему цепляющей информации – почти единственный способ поверить в то что это не слив из ЦРУ, это если с Ассанжем «приключится что-то неприятное и болезненное» или же если его посадят. В остальных случаях подозрения останутся.
  • при этом, даже если эта утечка была санкционирована одной из американских спецслужб – врядли Ассанж не мог не понимать что в данном случае выступает «публичным врагом госдепартамента» (враг государства).
  • опять же ни одно государство не является монолитом. Если какая-либо из структур сливает подобного рода информацию – это далеко не факт что делается это для усиления США. Как вариант – это может быть инструментом подрыва доверия к администрации Обамы. И не столько из-за содержания документов, сколько из-за _необходимости_ применения очень непопулярных мер для борьбы с подобной утечкой.
  • что характерно, файл страховки (wikileaks insurance) играет не последнюю роль в этой истории. Фактически это игра на грани фола и месседж  Ассанжа госдепартаменту: «Не мешайте мне забивать вам по одному гвоздю в задницу в сутки, а если Вы попробуете забивать их мне – у моих друзей припасены самые отборные гвозди для Вас.». По русски говоря – это шантаж. Высокотехнологичный, неплохо спланированный, с идейной проработкой и общественной поддержкой, но шантаж.
  • кстати, интересно как предусмотрено срабатывание этой страховки. Я предполагаю наличие некой программы (может быть в нескольких экземплярах) которая если не получает подтверждения от Ассанжа раз в неделю – автоматически рассылает письмо с инструкцией и ключём дешифровки значительному числу адресатов – в основном журналистам. При этом подтверждение от Ассанжа может быть в виде введения ключевого слова на специальном сайте, отправки письма определённому адресату или ещё что-то подобное. Впрочем нельзя исключать что ключ для дешифровки просто есть у кого то кому Ассанж доверяет.
  • модели и паттерны давления на Wikileaks и сопротивления этому давлению достойны всяческого внимательного рассмотрения. Книги на эту тему будут раскупаться повсеместно да и во многих новых книгах будут упоминания этого события.
  • можно обратить внимание что государство в лице госдепартамента действует через 4 канала: прямые угрозы инициатору, давление на операторов инфраструктуры (Amazon, Paypal, EveryDNS и др.), начало уголовного преследования, DDoS атака на веб-сайты.
  • обратные меры со стороны Wikileaks и добровольных помощников, в основном нацелены на защиту от DDoS и преодоление инфраструктурных проблем. Пока ещё успешное преодоление.
  • преодоление за счёт: массового клонирования сайта, публикация материалов через торренты, публикация в форме предусматривающей простое и быстрое распространение, активная поддержка со стороны технически грамотных небезразличных добровольцев
  • кстати, массовое клонирование сайта Викиликс – это не новое явление, а реинкарнация эффекта Стрейзанд http://en.wikipedia.org/wiki/Streisand_effect и результат предсказуемый. Чем дольше идёт DDoS сайта Викиликс, тем больше популярности сайту и Ассанжу.
  • также интересно что в отличии от Китая с требованиями цензурировать выдачу по Тяньэньмынь – здесь ничего такого нет. Выдача Google, Bing, Yahoo не изменилась. Массово идут публикации в Twitter, в СМИ, в блогах и так далее. В отличии от давления на провайдеров инфраструктуры – США не могут ввести полноценную цензуру. Во всяком случае пока. Если же ситуация начнёт ухудшаться, то лично я не могу предсказать что будет если, к примеру, у Гугла потребуют убрать из выдачи все упоминания Викиликсов.

В любом случае эта история быстро не закончится.

Originally published at Иван Бегтин. You can comment here or there.

Страны СНГ и суммы из EU FTS
06 декабря 10 01:41

Для некоторой наглядности данных из EU FTS приведу цифры по средствам пошедших на страны СНГ, Литву, Латвию, Эстонию и Турцию.

Записи в таблице отсортированы по колонке amount. Все суммы в евро.

country_name tag_amount geozone_amount country_amount amount
Turkey 138946620,2 1274941,35 285672630 309839971,1
Georgia 248840475,6 114738184,06 181603900,4 306559979,8
Ukraine 157493838,8 59965517,21 115293151,9 298706497,1
Moldova 144202390,1 98002651,64 165515402,7 277121243,7
Lithuania 182733650,9 74700 270347177,4 271939088,2
Russia 130864809 20869677,54 46029957,27 173479839,8
Estonia 34961738,24 0 86326746,05 92946025,85
Armenia 58731965,14 38598667,75 46461168,86 90389290
Latvia 30571353,18 0 82159696,73 83937228,77
Tajikistan 48048176,08 21612781,44 24376182,69 64116950,32
Kyrgyzstan 39263210,31 14797283,87 32505548,48 58973368,33
Belarus 31560833,96 7894191,24 7402380,93 38256695,55
Azerbaijan 33223183,05 8198216,03 3032683,24 36798654,98
Kazakhstan 18340272,67 6745138,14 6664223,29 25902356,94
Turkmenistan 20372665,5 5776236,76 165703,5 22244349,26
Uzbekistan 18347494,55 2394746,56 271768,45 19120019,2

Что означают поля и цифры:

- tag_amount – сумма по обязательствам которые определены как относящиеся к определённой стране по ключевым словам/тэгам.

- geozone_amount - сумма по обязательствам для которых определена географической зоной данная страна

- country_amount – сумма по обязательствам направленным на получателей зарегистрированных в данной стране.

- amount – сумма всех обязательств для которых выполняется одно из следующих правил: геозона соответствует данной стране или получатель находится в этой стране или регионы страны упоминаются в тэгах и тексте предмета гранта.

Особенности:

1. Коды географических зон охватывают только данные за 2009 год, поэтому оценки только по геозонам будут неверными.

2. В таблице не учитываются обязательства направленные на более чем одного получателя средств.

Вот такие цифры получаются. Причём значение в поле amount – это скорее метрика политического и культурного влияния (стремления к влиянию) Евросоюза

3. Данные в tag_amount, скорее всего занижены так по некоторым обязательствам очень трудно понять где предполагается их исполнение.

Однако я думаю что как раз здесь наглядно видно что основные средства пошли на Грузию, Украину, Молдавию и Литву.

Originally published at Иван Бегтин. You can comment here or there.

Сотни зеркал Wikileaks
05 декабря 10 12:43

Ещё одно наблюдение за Wikileaks’ами – это то  что DDoS доменов их не закроет. И даже «административный рычаг» сработает очень плохо.

Почему? Проще показать ссылкой – http://savewikileaks.net/another-wikileaks-address/

Там ссылки на 424 зеркала Wikileaks из которых сейчас актуальны 74 – часть других ещё не обновились, часть прикрыли/отключили и так далее.

И вся соль ситуации в том что пока сайт сайт Wikileaks распространяется как «открытые данные» / «открытый код», то эту песню не задушить. Зеркала будут появляться непрерывно,

Я думаю что следующим шагом будет появление инструментов массового клонирования подобного рода материалов, децентрализация и проверка аутентичности и актуальности. Причём это будет, как используя P2P инструменты, так их отражение на Web реальность.

Страшная штука на самом деле.  Для борьбы с подобным потребуются какие-то немыслимые ресурсы.

Originally published at Иван Бегтин. You can comment here or there.

Открытые данные о расходах Евросоюза. Продолжение
05 декабря 10 10:45

Я помню что писал уже не раз про Financial Transparency System (FTS) Евросоюза http://ec.europa.eu/beneficiaries/fts/index_en.htm – это не так давно открытая система по всем публичным расходным обязательствам этого государственного образования.

Но кроме того что я об этом писал, одновременно эти же данные я использовал вначале для обработки и далее для анализа.

Скажу честно – ничего шокирующего там нет и я здесь буду рассказывать не о «прикольных находках», а об устройстве их системы отчетности.

Если в цифрах,то это:

- за 2007 год – 28114 обязательств на сумму 10 590 868 972 (10 миллиардов 590 миллионов 868 тысяч 972) евро

- за 2008 год – 32617 обязательств на сумму 16 931 942 364 (16 миллиардов 931 миллион 942 тысячи 364) евро

- за 2009 год – 53905 обязательств на сумму 20 257 139 114 (20 миллиардов 257 миллионов 139 тысяч 114) евро

И вот уже некоторые результаты имеются, но прежде чем их озвучивать немного расскажу о том какие особенности кроются в данных FTS.

1. В FTS публикуются _ бюджетные обязательства_, а не платежи. Платежи, фактически, должны публиковаться в европейском реестре контрактов, но в машиночитаемом виде их пока нет. Будут ли? Думаю что будут, но пока необходимо понимать что все оценки на основе обязательств являются максимальными.

2. Несмотря на то что эти данные являются обязательствами, тем не менее, в них не просто содержится описание направлений выделения средств, но и получатели этих средств. Особенность в том что по одному обязательству может быть более одного получателя и в ряде случаев нет детальной разбивки какой объём средств пошёл на отдельного получателя средств. В цифрах же всё выглядит так. У 107882 обязательств получатель только один, у 6754 получателей более одного. Из обязательств со множественными получателями только у 1814 есть детализация средств, у остальных 4940 такая детализация отсутствует.

В суммах это получается следующим образом. 91.6% средств по обязательствам направляются только для одного получателя, 4.4% средств на нескольких получателей с детализацией по каждому и на обязательства без детализации приходится 3,9% средств.

3. В FTS есть несколько идентификатором месторасположения. В записях получателя средств (beneficiary) всегда есть указание на страну его местонахождения (country) и может быть информация о его геозоне  (geozone), а также в предмете гранта (grant_subject) могут присутствовать ключевые слова идентифицирующие место его исполнения.

Однако есть много нюансов:

- местонахождение организации и геозона в пользу которой направлено обязательство  совершенно не обязательно совпадают. Например, по обязательству 2009 года SCR.CTR.200008.01.1 «Supplies for the production of E-passports in Georgia» получателем средств является SAFE ID SOLUTIONS AG* в Германии, но геозона там Грузия.

- поля геозоны присутствуют только в данных за 2009 год и это сильно ограничивает их применимость.

- во многих случаях страну/регион выполнения работ можно определить по ключевым словам, но это может быть непросто. Например, в  обязательстве CPM.043690-115601.1 упоминается - »Environmental Risk Management for Contaminated Marsh Land in Khanty-Mansiysk» однако это обязательство 2007 года и без указания геозоны, а в получателях указан шведский исследовательский институт.

- в некоторых случаях грант предполагает распространение на множество регионов. Например, обязательства по евпропейской программе «Erasmus Mundus» обычно охватывают несколько стран.  Так обязательство SI2.471980.1 охватывает Алжир, Морокко и Тунис, другие обязательства охватывают страны центральной азии, юго-восточной азии, восточной европы и так далее.

Итого – невозможно на 100% гарантированно оценить сколько средств уходит в определённую страну, можно лишь сделать несколько оценок от минимального до максимально потенциального объёма средств. Это потребует разработки специальной методики, но это, в общем-то, возможно.

4. Информация о том куда направляются средства имеет несколько классификационных кодов. Первый код – это Action type – фактически, это код программы Евросоюза и что является неким дальним аналогом наших нац. проектов и ФЦП. Второй код – это бюджетная строка фиксируемая как budget_line в которой содержится текст и код бюджетной строки по которой проходит данное обязательство. Всего в FTS упоминается 128 программ и 641 бюджетная строка.

5. Каждое из обязательств имеет обязательную привязку к отвечающему за него департаменту. Фактически это обязательство этого департамента и всего в FTS присутствует 46 департаментов.

6. У Европейцев есть особенность скрывать часть расходов пометками CONFIDENCIAL. Причём таким образом практически обычно (но не всегда) скрывают следующую информацию: название получателя, геозону, предмет контракта. Однако остаются доступными: страна получателя, код бюджета, департамент, программа, сумма.  Всего есть 559 обязательств с пометкой «CONFIDENCIAL» вместо предмета гранта и, возможно, большее число где законфиденциалена другая информация, а предмет гранта открыт. Пример конфиденциального гранта – это обязательство 2009 года SCR.CTR.215912.01.3 на сумму в 38.5 миллиона евро предоставленное в рамках финансовой помощи  Палестинским территориям или SCR.CTR.170770.01.1 где 5 миллионов евро было выделено Киргизии в 2009 году в рамках продовольственной безопасности.

7. У всех получателей отсутствуют какие-либо уникальные идентификационные коды юр.лиц. Единственное что позволяет более-менее точно определять уникальность – это составной ключ из полей названия получателя, почтового индекса (или адреса) и страны. Для физических лиц в названии всегда «Natural person», а из другой информации указывается только страна.

Что, зачем и почему.

Собственно я уже нашёл, то что меня интересовало – это устройство расходных обязательств  Евросоюза и их ограничения, что теперь более или менее понятно. Впрочем там хватает и немало данных касающихся непосредственно России, стран СНГ и пограничных стран.

Да, желающие могут скачать открытые данные на сайте FTS – http://ec.europa.eu/beneficiaries/fts/find_en.htm в XML.

Если же будут желающие в них покопаться, а XML разбирать не хочется – могу желающим передать их в JSON’е. А я рано или поздно всё равно выложу их результаты на github или другой хостинг кода и данных.

Originally published at Иван Бегтин. You can comment here or there.

Расходы британских парламентариев одним файлом
03 декабря 10 10:51

Guardian опубликовали у себя в Datablog заявки на расходы британских парламентариев http://www.guardian.co.uk/news/datablog/2010/dec/02/mps-expenses-every-claim-mp

там же более подробно написано про то откуда эти данные.

И непосредственно сами данные на Google Spreadsheet – https://spreadsheets.google.com/ccc?key=0AonYZs4MzlZbdEVGZ3pNbEVZWEFFSGdTTWFEQkRqOWc&hl=en#gid=0

Для тех кто хочет провести анализ того на что идут ИХ деньги – есть такая возможность – там более 20 000 запросов от 576 парламентариев. Очень вкусный датасет и _куда_более_точный_ чем просто декларации о доходах.

А наши сенаторы тем временем предлагают раскрывать доходы детей депутатов – http://www.lenta.ru/news/2010/12/03/family/

Не тем занимаются господа сенаторы – публикуй они _нормально_ уже раскрываемые данные, было бы куда интереснее, чем детские расходы.

Originally published at Иван Бегтин. You can comment here or there.

Дороги и трафик в Австралии
02 декабря 10 11:57

Ещё один пример наглядной пользы от открытых данных и того как их создают в Австралии.

Проект RTA Live Traffic http://livetraffic.rta.nsw.gov.au штата New South Wales

Создатели которого при помощи Google Maps транслируют на карту информацию о ключевых объектах на карте вроде парковок и знаков, а также информацию в реальном времени с камер, потоков трафика, проишествиях сейчас и проишествиях на выбранную дату.

Чем-то напоминает российские коммерческие сервисы вроде Яндекс.Пробок или международных вроде Гугла, однако отличие в том что всё официально. И не только.

В разделе для разработчиков http://livetraffic.rta.nsw.gov.au/#dev они транслируют через ленты ATOM последнюю живую информацию. А также у них есть ссылка на форму запроса лицензированного контента в формате GeoJSON.

Но и это ещё не всё. Буквально совсем недавно на сервисе Kaggle появился анонс конкурса от RTA http://kaggle.com/RTA с открытыми данными по трафику на дороге Sydney M4 Freeway и предсказанию этого трафика на период времени.

Конкурс немного-немало, а на 10 000 USD.

Вот вам и прямая польза от открытых данных.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на то как пользоваться Wikileaks разработчикам
02 декабря 10 10:15

Подборка ссылок:

Originally published at Иван Бегтин. You can comment here or there.

Мой комментарий к [открытым данным] законопроекту об образовании.
01 декабря 10 02:55
На сайте Zakonoproekt2010.ru началось обсуждение закона об образовании – смотрим вот тут  http://www.zakonoproekt2010.ru
Я тоже оставил свой комментарий, но он, похоже что проходит модерацию и пока ещё не отображается.
Пока он там не отобразился публикую его у себя в блоге.
Предлагаю все замечания, идеи и предложения поступившие от граждан и структуру документов публиковать в виде открытых данных – в форматах CSV и/или XML для возможности последующей независимой оценки того какого рода предложения поступают, какие из них в дальнейшем попадают в текст закона.
Это касается, и проекта федерального закона «Об образовании в Российской Федерации», и ранее прошедшего обсуждения закона о полиции.

Благодаря этому будет возможность сделать данный процесс максимально прозрачным и это закрепит доверие граждан к данной государственной инициативе.
Этот шаг позволит инициативным гражданам и общественным организациям создавать близкие веб-проекты с результатами анализа предложений, их результативностью и так далее.

Лично я, Иван Бегтин, готов на добровольной основе провести анализ подобных опубликованных данных и разместить результаты анализа онлайн в виде отдельных публикаций под лицензией Creative Commons и аналитического веб-проекта.

Всех кто со мной в этом согласен предлагаю оставлять там же свои комментарии об открытии данных или как-только появится мой комментарий – голосовать за него.  Я считаю что слова «открытые данные» должны крепко засесть в головах ответственных чиновников и вместе мы можем этого добиться!

Плюс ряд замечаний/соображений по самому сайту и инициативе:

1. Я считаю что прозрачность всегда должна обеспечиваться прозрачными методами. А то есть надеюсь что инициаторы обсуждений законопроектов выложат массивы данных предложений граждан для возможности автоматического анализа. Кстати, если в такой экспорт данных выложить всю неперсональную информацию такую как – страна, регион, образование, возраст и соц. положение, то потом эти данные можно будет очень красиво показать на графиках.

2. У сайта полностью отсутствуют контакты, то кем он разработан, для кого, от кого и так далее. Я считаю – это неправильно.  Особенно плохо отсутствие обратной связи с создателями/инициаторами сайта. А если у меня замечания к сайту, а не к закону?

3. Очень неудобно то что предложения пишуться «в воздух». После отправки предложения, оно идёт на модерацию, но нигде нельзя увидеть его статус – отмодерировано оно или нет, нет прямой ссылки на это предложение и так далее. Я, конечно, могу описать полный цикл того каким был бы идеальный процесс отправки предложения и интерфейс отображения, но пока на это времени нехватает. Но если кто-то опишет, будет очень неплохо.

Originally published at Иван Бегтин. You can comment here or there.

This Blog

Tags

Archives

Syndication