-
Итак, в OpenGovData.ru и его Вики появилось много нового.
1. За 4 дня было было создано 14 парсеров и, соответственно, у нас появилось 14 новых массивов машиночитаемых данных. Почти все были сделаны волонтёрами по своей инициативе. Я считаю что это очень круто и мы вместе делаем очень важное дело. Пусть и по маленьким кусочкам, но, свершилось главное идея создания машиночитаемых данных своими руками – работает.
Кстати, предлагаю всем подумать над тем как можно проанализировать и что можно из этих данных интересное сделать. Например, я лично уже копаюсь в реестре недобросовестных поставщиков, а кому могут быть интересны данные государственного регистра фильмов, базы запуска космических аппаратов или сводной налоговой отчетности. Предлагаю всем заглянуть в то что у нас уже есть тут в вики и в списках массивов данных.
2. В список источников opengovdata.ru я добавил ещё 10 новых. Их можно просмотреть в списке тут в основном это статистика ФСИН, МЧС и МВД. Присылайте новые мне или вносите в список в вики проекта тут
3. В разделе рецепты и инструменты добавились ссылки на примеры кода, фреймворки и движки по извлечению данных, их обработке и визуализации. Постепенно там будет собрана максимально обширная коллекция материалов. Если Вы видите что там чего-то нехватает, смело добавляйте или пишите мне – я добавлю.
4. Я начал вносить в Вики собственные парсеры накопленные мною за время работы над opengovdata.ru. Сейчас на странице со списком преобразованных данных я выложил парсер списка сайтов кредитных организаций (банков) с сайта Банка России.
А также вот тут http://gist.github.com/555510 можно посмотреть пример кода как автоматизировать извлечение очень простых таблиц с веб-страниц и примеры того как этот код помог в сборе данных о грантах для РосГосЗатрат. Фактически всё что нужно для простых таблиц – это ссылка, кодировка страницы и код xpath, как правило, очень простой.
—
Тем временем, пока мы вместо наших госорганов делаем данные открытыми и публичными, норвежские чиновники вот тут http://data.norge.no/blogg/2010/08/en-klausulbuffet-av-vilkar/ обсуждают вопросы лицензирования открытых данных отдавая предпочтение лицензии Creative Commons. Страница неплохо переводится на русский через Google Translate или же, разъяснения на английском, есть на общеевропейском портале.
Originally published at Иван Бегтин. You can comment here or there.
-
На EPSIPlatform сообщают что Кенийское правительство запустило портал по общественно значимой информации (Public Sector Information) или, проще говоря, портал по открытым данным. Посмотреть сам портал можно по ссылке – http://www.opendata.go.ke/

Портал сделан на Joomla и до полноценного портала по открытым данным всё ещё далёк, поскольку ничего кроме нескольких документов в XLS и PDF форматах там нет. Например, у них уже есть раздел со списоками всех кенийских школ http://www.opendata.go.ke/index.php?option=com_docman&task=cat_view&gid=54&Itemid=56
Правда проект всё ещё в стадии беты, так что ждём развития.
Жаль, конечно, что они не стали использовать один из имеющихся публичных движков вроде того что делали в Sunlight labs как National Data Catalog или же CKAN. Впрочем это именно что портал PSI, а там кроме датасетов ещё и публикуют разные нормативные документы как использовать информацию.
А я вот думаю что data.gov.ru обязательно появится. Если уж кенийцы смогли то.
Originally published at Иван Бегтин. You can comment here or there.
-
Мне тут в течении последних дней накидали ссылок на посты блоггеров нашедших на сайте МинКультуры (www.mkmk.ru) всякие «прикольные» названия фильмов в списке прокатных удостоверений.
Например:
Я пересмотрел пару десятку постов на тему того чё есть на сайте Министерства Культуры и не нашёл в них самого главного – а что там должно быть?
Ну прикольно, увидели слово из 3-х букв, посмеялись, нашли много других слов , но хоть кто-нибудь бы проанализировал проблему и предложил решения, если, конечно проблема есть.
Поэтому выступлю в качестве «адвоката дьявола» – лично я, в этой ситуации на стороне Министерства Культуры.
А теперь посмотрим на эту ситуацию, как есть.
1. Министерство культуры ведёт «государственный регистр фильмов» и предоставляет его в общий доступ всем гражданам Российской Федерации
2. Реестр содержит информацию о ВСЕХ фильмах которые только выходили.
3. В реестре фильмов известно кто производитель фильма, а в реестре прокатных удостоверений кто прокатчик. Или к прокатчикам и производителям претензий нет, и во всём МинКульт виноват?
Иначе говоря, как раз Министерство Культуры обеспечило полную публичность всем гражданам информацию о национальных и иностранных фильмах на территории России.
Так в чём проблема?
В том что Минкультуры слишком публично, а информацию по прокатным удостоверениям с «возрастными ограничениями» надо прятать? Товарищи да Вам не угодишь. Я вот считаю как раз в этом они молодцы.
Или может быть дело в том вообще такие фильмы на экраны выходят? Да, ну. Они выходят и выходили и будут выходить. Министерство в данном случае не ЦЕНЗОР, а РЕГИСТРАТОР. Если законы не нарушены и все правила соблюдены – они _не имеют права_ не внести фильм в реестр и не сделать его публичным в реестре. И если они не внесут – главное не забыть подать на них в прокуратуру и суд за несоблюдение нормативно-правовых актов утверждающих публичность данной информации
Может быть в том что при описании фильмов нет предупреждения что у него есть возрастные ограничения или же нет отдельного раздела для подобного рода фильмов? Это может быть резонно. Вот только помимо министерства почему бы не адресовать этот вопрос нашим депутатам которые и должны бы на уровне федеральных законов определять должна ли информация о фильмах с возрастными ограничениями публиковаться с соответствующими предупреждениями.
И, если дело именно в этом, отчего же так приключилось что никто из блоггеров об этом не написал?
Так что лично я не рассматриваю эту ситуацию как проблему Министерства Культуры. Это стресс-тест для Вашего ханжества уважаемые. На Вашу адекватность на публичность государства. На Вашу готовность к деятельной критике.
И ответьте сами себе на вопрос прошли ли Вы этот тест.
Originally published at Иван Бегтин. You can comment here or there.
-
Мне тут в течении последних дней накидали ссылок на посты блоггеров нашедших на сайте МинКультуры (www.mkmk.ru) всякие «прикольные» названия фильмов в списке прокатных удостоверений.
Например:
Я пересмотрел пару десятку постов на тему того чё есть на сайте Министерства Культуры и не нашёл в них самого главного – а что там должно быть?
Ну прикольно, увидели слово из 3-х букв, посмеялись, нашли много других слов , но хоть кто-нибудь бы проанализировал проблему и предложил решения, если, конечно проблема есть.
Поэтому выступлю в качестве «адвоката дьявола» – лично я, в этой ситуации на стороне Министерства Культуры.
А теперь посмотрим на эту ситуацию, как есть.
1. Министерство культуры ведёт «государственный регистр фильмов» и предоставляет его в общий доступ всем гражданам Российской Федерации
2. Реестр содержит информацию о ВСЕХ фильмах которые только выходили.
3. В реестре фильмов известно кто производитель фильма, а в реестре прокатных удостоверений кто прокатчик. Или к прокатчикам и производителям претензий нет, и во всём МинКульт виноват?
Иначе говоря, как раз Министерство Культуры обеспечило полную публичность всем гражданам информацию о национальных и иностранных фильмах на территории России.
Так в чём проблема?
В том что Минкультуры слишком публично, а информацию по прокатным удостоверениям с «возрастными ограничениями» надо прятать? Товарищи да Вам не угодишь. Я вот считаю как раз в этом они молодцы.
Или может быть дело в том вообще такие фильмы на экраны выходят? Да, ну. Они выходят и выходили и будут выходить. Министерство в данном случае не ЦЕНЗОР, а РЕГИСТРАТОР. Если законы не нарушены и все правила соблюдены – они _не имеют права_ не внести фильм в реестр и не сделать его публичным в реестре. И если они не внесут – главное не забыть подать на них в прокуратуру и суд за несоблюдение нормативно-правовых актов утверждающих публичность данной информации
Может быть в том что при описании фильмов нет предупреждения что у него есть возрастные ограничения или же нет отдельного раздела для подобного рода фильмов? Это может быть резонно. Вот только помимо министерства почему бы не адресовать этот вопрос нашим депутатам которые и должны бы на уровне федеральных законов определять должна ли информация о фильмах с возрастными ограничениями публиковаться с соответствующими предупреждениями.
И, если дело именно в этом, отчего же так приключилось что никто из блоггеров об этом не написал?
Так что лично я не рассматриваю эту ситуацию как проблему Министерства Культуры. Это стресс-тест для Вашего ханжества уважаемые. На Вашу адекватность на публичность государства. На Вашу готовность к деятельной критике.
И ответьте сами себе на вопрос прошли ли Вы этот тест.
Originally published at Иван Бегтин. You can comment here or there.
-
К вопросу о том есть ли в России энтузиасты работающие с открытыми данными и вообще умеющие их готовить.
В блоге n_fury появился небольшой обзор нескольких образовательных бюджетов. Частично на данных самостоятельно собранных автором, частично, в части бюджета Москвы, то что я автору переслал уже подготовленный датасет.
Для наглядности скриншот:

По моему это хороший признак – ещё одно подтверждение что востребованность в открытых данных есть.
Для интересующихся выкладываю сводную таблицу расходов по бюджету Москвы mos_fullbudget (Excel, 957KB).
В документе:
- В поле summ_str – сумма строкой в тысячах рублей
- В поле summ_rub – сумма числом в рублях
Скажу сразу – это не полностью готовые данные в моём понимании, а только дамп таблицы из документа бюджета с первым этапом обогащения информации – добавлен уровень, суммы переведены в из тысяч рублей в рубли.
Для простых исследований и преобразований этой таблицы должно быть достаточно.
Для сложных должно быть правильное описание структуры – над этим я работаю. Если у кого-то есть желание помочь в разработке форматов раскрытия бюджетов в машиночитаемой форме – деятельная помощь всячески приветствуется.
Originally published at Иван Бегтин. You can comment here or there.
-
К вопросу о том есть ли в России энтузиасты работающие с открытыми данными и вообще умеющие их готовить.
В блоге n_fury появился небольшой обзор нескольких образовательных бюджетов. Частично на данных самостоятельно собранных автором, частично, в части бюджета Москвы, то что я автору переслал уже подготовленный датасет.
Для наглядности скриншот:

По моему это хороший признак – ещё одно подтверждение что востребованность в открытых данных есть.
Для интересующихся выкладываю сводную таблицу расходов по бюджету Москвы mos_fullbudget (Excel, 957KB).
В документе:
- В поле summ_str – сумма строкой в тысячах рублей
- В поле summ_rub – сумма числом в рублях
Скажу сразу – это не полностью готовые данные в моём понимании, а только дамп таблицы из документа бюджета с первым этапом обогащения информации – добавлен уровень, суммы переведены в из тысяч рублей в рубли.
Для простых исследований и преобразований этой таблицы должно быть достаточно.
Для сложных должно быть правильное описание структуры – над этим я работаю. Если у кого-то есть желание помочь в разработке форматов раскрытия бюджетов в машиночитаемой форме – деятельная помощь всячески приветствуется.
Originally published at Иван Бегтин. You can comment here or there.
-
Хочу услышать Ваши мнения по поводу движка CKAN http://www.ckan.net
разработанного в OKFN http://www.okfn.org/
У него есть очень мощное преимущество в виде множества внедрений,
простой локализации, встроенного API, поддержке RDF описаний и так
далее.
Что думаете, стоит ли на него переводить OpenGovData.ru?
Как альтернатива можно создать отдельный портал на базе CKAN куда
включить открытые данные не только государственные, но вообще любые.
Originally published at Иван Бегтин. You can comment here or there.
-
На немецкие проекты ссылаются гораздо реже чем на англоязычные, но там тоже есть много чего интересного, например:
В довесок, проект по раскрытию информации в Болгарии http://www.aip-bg.org болгарский читать несложно, а материалов там много.
Originally published at Иван Бегтин. You can comment here or there.
-
Блоги:
Статистика
Открытые данные
Originally published at Иван Бегтин. You can comment here or there.
-
Дублирую сообщение из группы OpenGovData.ru
—
Из недавно опубликованного вот тут (http://www.slideshare.net/iponomarev/100125-e-government) системного проекта по Электронной России удалось извлечь таблицу с перечнем публичных массивов данных.
Многих из них ещё нет в OpenGovData.Ru, а многие вообще малоизвестны.
А также около половины из них до сих пор недоступны онлайн в какой-
либо форме.
Весь список можно получить тут.
в CSV - http://groups.google.com/group/opengovdataru/web/public_data_sources.csv
(кодировка Windows-1251)
в XLS - http://groups.google.com/group/opengovdataru/web/public_data_sources.xls
В ближайшее время данные оттуда перекочуют в OpenGovData.ru, а также
предлагаю подумать стоит ли регистрировать массивы данных которые
недоступны онлайн?
Как всегда – отклик, идеи и предложения приветствуются. Можно тут, можно в группе Google Groups, можно через Reformal (http://opengovdata.reformal.ru/)
Originally published at Иван Бегтин. You can comment here or there.
-
Игорь Артамонов буквально вот-вот запустил сайт http://www.datasetpublisher.com/ где будут публиковаться torrent’ы открых данных которыми бы хотелось поделиться и которые хотелось бы скачать.
Пока данных там немного, но уверен что будет больше.
Originally published at Иван Бегтин. You can comment here or there.
-
Недавно Катерина Аксенова написала про ряд проектов по раскрытию государственных данных в сети. Обратите внимание что большая часть этих проектов проходит в “англо-саксонских странах” США и бывших британских колониях. Незнаю чем это обусловлено исторически, но да, почему-то именно в них к публичным данным особенно внимательное отношение именно сейчас.
Я приведу в дополнение ещё ряд интересных проектов на ту же тему:
И другие интересные ресурсы на ту же тему:
И, наконец, российские ресурсы:
- http://www.opengovdata.ru – сайт созданный мною в мае 2009 и понемногу наполняющийся.
- http://www.mosclassific.ru – сайт ГУП “Социальный регистр” – предоставляют в открытом доступе все московские и общероссийские классификаторы. Московские можно скачать в XML и DBF (после бесплатной регистрации), а общероссийские доступны только в виде HTML страниц, но с более-менее удобным поиском.
Будет ли в России Data.Gov.Ru? Я бы переформулировал вопрос. А будет ли его кто-либо использовать?
Собственно это вопросы к читателям – если бы Data.Gov.Ru появился, то:
1. Какую информацию Вы бы хотели там увидеть?
2. Готовы ли Вы лично создавать проекты машапы на основе открытых данных?
3. Если готовы, то забесплатно, или же за деньги в виде конкурсов вроде “Apps for Russia”?
4. Какие машапы Вам было бы интересно увидеть как потребителям?

Originally published at Иван Бегтин. You can comment here or there.
-
В последние несколько месяцев от меня было куда меньше постов чем обычно по довольно простой причины – прямо сейчас я занимаюсь проектом довольно непростым понятийно и технически. Планировал я его несколько лет и только в этом году удалось приступить к реализации.
Проект, разумеется, связан с большими объёмами информации, её обработкой, классификацией и последующим представлением. Особенность этого в том что работа идёт с “живыми данными”, а то есть источников информации много, информация разноформатна, предоставляется в разном качестве, содержит ошибки в структуре и в значениях, обладает разными ограничениями и прочими особенности нетепличных данных.
В то же время это “живые данные” имеют массу специфики, при их сборе, подготовке, обработке и так далее. Приведу ряд соображений и размышлений для примера:
1. Для простых данных в виде плоских таблиц можно использовать различные SQL-базы с внешней обвязкой метаданными. Но, случаи когда используются только простые таблицы редки, чаще всего данные обладают иерархией и вложенностью. Эту иерархию и вложенность можно привести к SQL сильно увеличив число таблиц, или же использовать NoSQL подход брать за основу CouchDb, MongoDb или их аналоги или семантические triple-store.
2. До сих пор очень мало практических инструментов по работе с NoSQL данными. Практически нет ETL инструментов, BI движков, ORM библиотек и прочего разного. Во многом от того что сама концепция NoSQL только сейчас приобретает признаки тренда и нет единых стандартов по доступа к такого рода данным.
3. На самом деле обработка большого объёма разноформатной информации это ещё и до сих пор не решённая исследовательская задача. Большинство же практических систем, например, поисковых, либо нормализуют источники информации и получаемые данные, либо резко ограничивают их число и связывают информацию в этих источниках вручную. Например, поисковики вроде Google или Yahoo нормализуют весь веб к веб-страницам, а в WolfRam Alpha используется большое число массивов данных вручную нормализованных, в основном, по формам выдачи результатов. Задачу же автоматической или автоматизированной интеграции тысяч и десятков тысяч источников информации решить было бы очень интересно, но лично я понимаю всю её объективную сложность.
4. Онтологии – это правильно, хорошо и идеалистично. К живым данным они имеют весьма слабое отношение и тут скорее можно говорить об онтологии извлечения и обработки информации. Некой единой модели которая бы всё это описывала. Но это ещё одна большая и непростая исследовательская задача пока ещё далёкая от решения.
5. Один большой вопрос – это работа с аномалиями, когда получаемые из источника информации данные не соответствуют заявленному формату. Причём в случаях если подобные аномалии возникают в пределах данных, то это не то чтобы просто, но точно решается. А вот в случаях когда аномалии происходят на структурном уровне – последовательности полей или их разделения, то тут решается сложнее. Локализацией участка и ручному анализу или же разработкой правил анализа отклонений на основе ранее выявленных ошибок. Одно можно сказать точно, в живых данных такие аномалии встречаются.
6. Кстати, говоря об аномалиях, нельзя не отметить ещё и тот факт что они сильно зависят от формы носителя информации – контейнера и от представления информации в этом контейнере. В практическом плане это выражается в том что в файлах Excel или DBF есть четкое разделение полей и хранение метаданных о типах данных в этих полях, а вот в HTML и, в некоторых случаях, в CSV такого нет или же, если есть, то этим метаданным нельзя доверять безоговорочно. Также с точки зрения выявления аномалий можно рассматривать любые полуструктурированные тексты устоявшегося написания той или иной информации – адресов, фамилий и так далее.
Originally published at Иван Бегтин. You can comment here or there.
-
- Data.australia.gov.au – австралийский государственный портал открытых данных
- DataSF.org – неофициальный портал открытых данных города Сан-Франциско (США)
- Correlates of War – набор датасетов посвящённых истории военных конфликтов.
- Word Bank Data – данные публикуемые всемирным банком
- CloudMade – датасеты по геотематике по разным странам мира и в разнообразных форматах
- Kids Count DataCenter – аналитика и данные по числу детей в США в разрезах бедности, занятости, демографии, образования и здоровья
Originally published at Иван Бегтин. You can comment here or there.
-
Время от времени меня (как и многих) спрашивают чем я вообще занимаюсь, так сказать род деятельности. Я же на этот вопрос предпочитаю отвечать то чем я увлекаюсь. И вот на днях для всего этого я, похоже, подобрал наиболее точный термин – InfoGeek или Инфогик. Можно ещё сказать Datageek или Датагик, но суть сильно не изменится. Моё хобби – это информация во всех её проявлениях, способах её сбора, способах работы с ней, исследований основ и понимания МетаИнформации – где “мета” обозначает концептуальную модель её производства, существования и структуры.
Также, например, инфогик’ство проявляется в стремлении собирать и накапливать различные базы данных, анализировать способы их связывания и визуализации. У меня лично таким образом накапливаются самые разные датасеты из самых разных областей – государство, бизнес, Интернет, математика, медицина, социальные науки и прочие прочие.
Всего сотни и сотни гигабайт данных и источников их получения. А в некоторых случаях и способы её создания. Например, в моём понимании, Интернет – это огромный массив неструктурированной информации из которой можно извлекать свои жемчужины.
В России, к сожалению, инфогиков пока мало. Больше же всего их в англосфере, там и с доступностью информации попроще и школы по обработке и систематизации данных весьма сильны.
Так что на технологии, способы ведения проектов, программные продукты и так далее у меня взгляд именно с точки зрения информации. Как я могу их использовать чтобы собрать найти больше информации, обработать её быстрее или показать её более наглядно.
Кстати, большой плюс у такого хобби в его безграничности.

Originally published at Иван Бегтин. You can comment here or there.