Май 2010 - Posts

Новый сайт штата Калифорния ca.gov
31 мая 10 09:36

Буквально недавно обновился официальный сайт штата Калифорния http://ca.gov

и выглядит он теперь вот так

Картинка кликабельна.

Можно обратить на социальные медиа которых там много – аккаунты на Facebook, Twitter, MySpace и так далее.

Но кроме того если заглянуть на страницу со списком агентств штата http://ca.gov/CaSearch/Agencies.aspx (органы власти по нашему), то можно увидеть очень правильную картину контактов.

Картинка кликабельна

Обратите внимание на то как выстроен этот список. Каждому агентству соответствуют и отмечены, если есть: email, Twitter, Facebook, YouTube и RSS лента. Заодно это позволяет понять публичность каждого из агентств.

И конечно, портал раскрытия данных – http://www.data.ca.gov

Портал раскрытия, прямо скажем, пока не блеск, но он хотя бы существует – во многих штатах таких порталов пока ещё нет. Главное что есть обратная связь с гражданами через раздел Ideas.

Originally published at Иван Бегтин. You can comment here or there.

Про Белгородскую область и документы в TIFF и DJVU
31 мая 10 09:10

А вот ещё пара выдающихся примеров того как можно быстро и просто сделать информацию предельно недоступной и неудобной для граждан.

В Белгородской области на сайте департамента финансов размещён закон о бюджете области на 2010 год. И это, конечно, вроде как хорошо – граждане могут увидеть на что идут деньги. Вернее, могли бы увидеть, если бы не…

Нюанс в том что закон опубликован 3-мя TIFF-ами http://beldf.ru/activity/bud2010.html

и явно как есть сканировался бумажного документа с печатями. Разумеется провести анализ бюджета опубликованного в такой форме практически нереально. Нужно очень много усилий на то чтобы документы распознать FineReader’ом или вручную.

Итого в моей копилке «выдающихся» примеров прибыло и это лишнее подтверждение почему необходимо законодательно закреплять форматы публикуемых документов.

А вот в Белгородской областной думе пошли ещё дальше. Вместо DOC, RTF, ODT или PDF документов сразу же публикуют всё в DJVU http://www.belduma.ru/vyvod_z.php?soz=4&god=2010 и конечно же отсканированные бумажные копии.

Не, файлы DJVU конечно поменьше чем TIFF, но этим все плюсы и ограничиваются.

Originally published at Иван Бегтин. You can comment here or there.

Про Белгородскую область и документы в TIFF и DJVU
31 мая 10 09:10

А вот ещё пара выдающихся примеров того как можно быстро и просто сделать информацию предельно недоступной и неудобной для граждан.

В Белгородской области на сайте департамента финансов размещён закон о бюджете области на 2010 год. И это, конечно, вроде как хорошо – граждане могут увидеть на что идут деньги. Вернее, могли бы увидеть, если бы не…

Нюанс в том что закон опубликован 3-мя TIFF-ами http://beldf.ru/activity/bud2010.html

и явно как есть сканировался бумажного документа с печатями. Разумеется провести анализ бюджета опубликованного в такой форме практически нереально. Нужно очень много усилий на то чтобы документы распознать FineReader’ом или вручную.

Итого в моей копилке «выдающихся» примеров прибыло и это лишнее подтверждение почему необходимо законодательно закреплять форматы публикуемых документов.

А вот в Белгородской областной думе пошли ещё дальше. Вместо DOC, RTF, ODT или PDF документов сразу же публикуют всё в DJVU http://www.belduma.ru/vyvod_z.php?soz=4&god=2010 и конечно же отсканированные бумажные копии.

Не, файлы DJVU конечно поменьше чем TIFF, но этим все плюсы и ограничиваются.

Originally published at Иван Бегтин. You can comment here or there.

Про министерство культуры, мат на сайте и тест на адекватность
30 мая 10 02:12

Мне тут в течении последних дней накидали ссылок на посты блоггеров нашедших на сайте МинКультуры (www.mkmk.ru) всякие «прикольные» названия фильмов в списке прокатных удостоверений.

Например:

Я пересмотрел пару десятку постов на тему того чё есть на сайте Министерства Культуры и не нашёл в них самого главного – а что там должно быть?

Ну прикольно, увидели слово из 3-х букв, посмеялись, нашли много других слов , но хоть кто-нибудь бы проанализировал проблему и предложил решения, если, конечно проблема есть.

Поэтому выступлю в качестве «адвоката дьявола» – лично я, в этой ситуации на стороне Министерства Культуры.

А теперь посмотрим на эту ситуацию, как есть.

1. Министерство культуры ведёт «государственный регистр фильмов» и предоставляет его в общий доступ всем гражданам Российской Федерации

2. Реестр содержит информацию о ВСЕХ фильмах которые только выходили.

3. В реестре фильмов известно кто производитель фильма, а в реестре прокатных удостоверений кто прокатчик. Или к прокатчикам и производителям претензий нет, и во всём МинКульт виноват?

Иначе говоря, как раз Министерство Культуры обеспечило полную публичность всем гражданам информацию о национальных и иностранных фильмах на территории России.

Так в чём проблема?

В том что Минкультуры слишком публично, а информацию по прокатным удостоверениям с «возрастными ограничениями» надо прятать?  Товарищи да Вам не угодишь. Я вот считаю как раз в этом они молодцы.

Или может быть дело в том вообще такие фильмы на экраны выходят? Да, ну. Они выходят и выходили и будут выходить. Министерство в данном случае не ЦЕНЗОР, а РЕГИСТРАТОР. Если законы не нарушены и все правила соблюдены – они _не имеют права_ не внести фильм в реестр и не сделать его публичным в реестре. И если они не внесут – главное не забыть подать на них в прокуратуру и суд за несоблюдение нормативно-правовых актов утверждающих публичность данной информации

Может быть в том что при описании фильмов нет предупреждения что у него есть возрастные ограничения или же нет отдельного раздела для подобного рода фильмов? Это может быть резонно. Вот только помимо министерства почему бы не адресовать этот вопрос нашим депутатам которые и должны бы на уровне федеральных законов определять должна ли информация о  фильмах с возрастными ограничениями публиковаться с соответствующими предупреждениями.

И, если дело именно в этом, отчего же так приключилось что никто из блоггеров об этом не написал?

Так что лично я не рассматриваю эту ситуацию как проблему Министерства Культуры. Это стресс-тест для Вашего ханжества уважаемые. На Вашу адекватность на публичность государства.  На Вашу готовность к деятельной критике.

И ответьте сами себе на вопрос прошли ли Вы этот тест.

Originally published at Иван Бегтин. You can comment here or there.

Про министерство культуры, мат на сайте и тест на адекватность
30 мая 10 02:12

Мне тут в течении последних дней накидали ссылок на посты блоггеров нашедших на сайте МинКультуры (www.mkmk.ru) всякие «прикольные» названия фильмов в списке прокатных удостоверений.

Например:

Я пересмотрел пару десятку постов на тему того чё есть на сайте Министерства Культуры и не нашёл в них самого главного – а что там должно быть?

Ну прикольно, увидели слово из 3-х букв, посмеялись, нашли много других слов , но хоть кто-нибудь бы проанализировал проблему и предложил решения, если, конечно проблема есть.

Поэтому выступлю в качестве «адвоката дьявола» – лично я, в этой ситуации на стороне Министерства Культуры.

А теперь посмотрим на эту ситуацию, как есть.

1. Министерство культуры ведёт «государственный регистр фильмов» и предоставляет его в общий доступ всем гражданам Российской Федерации

2. Реестр содержит информацию о ВСЕХ фильмах которые только выходили.

3. В реестре фильмов известно кто производитель фильма, а в реестре прокатных удостоверений кто прокатчик. Или к прокатчикам и производителям претензий нет, и во всём МинКульт виноват?

Иначе говоря, как раз Министерство Культуры обеспечило полную публичность всем гражданам информацию о национальных и иностранных фильмах на территории России.

Так в чём проблема?

В том что Минкультуры слишком публично, а информацию по прокатным удостоверениям с «возрастными ограничениями» надо прятать?  Товарищи да Вам не угодишь. Я вот считаю как раз в этом они молодцы.

Или может быть дело в том вообще такие фильмы на экраны выходят? Да, ну. Они выходят и выходили и будут выходить. Министерство в данном случае не ЦЕНЗОР, а РЕГИСТРАТОР. Если законы не нарушены и все правила соблюдены – они _не имеют права_ не внести фильм в реестр и не сделать его публичным в реестре. И если они не внесут – главное не забыть подать на них в прокуратуру и суд за несоблюдение нормативно-правовых актов утверждающих публичность данной информации

Может быть в том что при описании фильмов нет предупреждения что у него есть возрастные ограничения или же нет отдельного раздела для подобного рода фильмов? Это может быть резонно. Вот только помимо министерства почему бы не адресовать этот вопрос нашим депутатам которые и должны бы на уровне федеральных законов определять должна ли информация о  фильмах с возрастными ограничениями публиковаться с соответствующими предупреждениями.

И, если дело именно в этом, отчего же так приключилось что никто из блоггеров об этом не написал?

Так что лично я не рассматриваю эту ситуацию как проблему Министерства Культуры. Это стресс-тест для Вашего ханжества уважаемые. На Вашу адекватность на публичность государства.  На Вашу готовность к деятельной критике.

И ответьте сами себе на вопрос прошли ли Вы этот тест.

Originally published at Иван Бегтин. You can comment here or there.

Пример использования открытых данных
29 мая 10 08:42

К вопросу о том есть ли в России энтузиасты работающие с открытыми данными и вообще умеющие их готовить.

В блоге n_fury появился небольшой обзор нескольких образовательных бюджетов. Частично на данных самостоятельно собранных автором, частично, в части бюджета Москвы, то что я автору переслал уже подготовленный датасет.

Для наглядности скриншот:

По моему это хороший признак – ещё одно подтверждение что востребованность в открытых данных есть.

Для интересующихся выкладываю сводную таблицу расходов по бюджету Москвы mos_fullbudget (Excel, 957KB).

В документе:
- В поле summ_str – сумма строкой в тысячах рублей
- В поле summ_rub – сумма числом в рублях

Скажу сразу – это не полностью готовые данные в моём понимании, а только дамп таблицы из документа бюджета с первым этапом обогащения информации – добавлен уровень, суммы переведены в из тысяч рублей в рубли.
Для простых исследований и преобразований этой таблицы должно быть достаточно.

Для сложных должно быть правильное описание структуры – над этим я работаю. Если у кого-то есть желание помочь в разработке форматов раскрытия бюджетов в машиночитаемой форме – деятельная помощь всячески приветствуется.

Originally published at Иван Бегтин. You can comment here or there.

Пример использования открытых данных
29 мая 10 08:42

К вопросу о том есть ли в России энтузиасты работающие с открытыми данными и вообще умеющие их готовить.

В блоге n_fury появился небольшой обзор нескольких образовательных бюджетов. Частично на данных самостоятельно собранных автором, частично, в части бюджета Москвы, то что я автору переслал уже подготовленный датасет.

Для наглядности скриншот:

По моему это хороший признак – ещё одно подтверждение что востребованность в открытых данных есть.

Для интересующихся выкладываю сводную таблицу расходов по бюджету Москвы mos_fullbudget (Excel, 957KB).

В документе:
- В поле summ_str – сумма строкой в тысячах рублей
- В поле summ_rub – сумма числом в рублях

Скажу сразу – это не полностью готовые данные в моём понимании, а только дамп таблицы из документа бюджета с первым этапом обогащения информации – добавлен уровень, суммы переведены в из тысяч рублей в рубли.
Для простых исследований и преобразований этой таблицы должно быть достаточно.

Для сложных должно быть правильное описание структуры – над этим я работаю. Если у кого-то есть желание помочь в разработке форматов раскрытия бюджетов в машиночитаемой форме – деятельная помощь всячески приветствуется.

Originally published at Иван Бегтин. You can comment here or there.

Больше источников открытых данных в OpenGovData.ru
28 мая 10 12:59

В OpenGovData.ru появились ссылки на новые источники данных:
http://www.opengovdata.ru/source/292/ – Документы Рособрнадзора
http://www.opengovdata.ru/source/291/ – Проекты документов
Рособранадзора
http://www.opengovdata.ru/source/290/ – Государственный кадастр
гражданского и служебного оружия и патронов к нему
http://www.opengovdata.ru/source/289/ – Российский технический
словарь ФСКП
http://www.opengovdata.ru/source/288/ – Перечень государственных
эталонов России
http://www.opengovdata.ru/source/287/ – ИНФОРМАЦИОННЫЕ РЕСУРСЫ
УПРАВЛЕНИЯ МЕТРОЛОГИИ РОСТЕХРЕГУЛИРОВАНИЯ
http://www.opengovdata.ru/source/286/ – Международные сличения
эталонов России
http://www.opengovdata.ru/source/285/ – Калибровочные и
измерительные возможности эталонов России
http://www.opengovdata.ru/source/284/ – Реестр Государственных
эталонов России

Originally published at Иван Бегтин. You can comment here or there.

CKAN или не CKAN?
26 мая 10 05:56

Хочу услышать Ваши мнения по поводу движка CKAN http://www.ckan.net
разработанного в OKFN http://www.okfn.org/

У него есть очень мощное преимущество в виде множества внедрений,
простой локализации, встроенного API, поддержке RDF описаний и так
далее.

Что думаете, стоит ли на него переводить OpenGovData.ru?

Как альтернатива можно создать отдельный портал на базе CKAN куда
включить открытые данные не только государственные, но вообще любые.

Originally published at Иван Бегтин. You can comment here or there.

Сообщества OpenGovData.ru во Вконтакте и в Facebook
26 мая 10 05:54

У OpenGovData.ru появились сообщества во Вконтакте – http://vkontakte.ru/club17958029 и в Facebook’е http://www.facebook.com/#!/group.php?gid=110788225632233

Всех приглашаю к участию, обсуждениям и деятельной критике.

Я надеюсь основное общение будет в Facebook’е – лично я из всех соц. сетей я активно пользуюсь только им и ЖЖ.

А заодно может быть кто-нибудь знает способ трансляции RSS лент в группы? Не хотелось бы ручками перепечатывать все новости.

А также напомню про обсуждения открытых данных в Google Groups – http://groups.google.com/group/opengovdataru

Originally published at Иван Бегтин. You can comment here or there.

Как правильно читать бюджеты регионов и не только
25 мая 10 05:18

Ранее в нескольких постах я приводил примеры визуализаций бюджета г. Москвы и отдельных его частей с помощью ManyEyes.

На сей раз я подробнее разберу то как правильно читать и анализировать те цифры которые Вы можете увидеть в бюджетах страны, регионов и муниципалитетов.

Это не всегда просто и понятно, но и до термоядерной физики по сложности далековато.

Итак о бюджете, вначале рассмотрим то что называется его расходной частью. Обычно это самое интересное.

Для наглядности я приведу пример из бюджета Москвы за за 2010 год – осторожно HTML документ на 7 мегабайт Приложение N6

ДЕПАРТАМЕНТ ТОПЛИВНО-ЭНЕРГЕТИЧЕСКОГО ХОЗЯЙСТВА ГОРОДА МОСКВЫ 20 5843270,2
Национальная экономика 20 0400 1041366,3
Топливно-энергетический комплекс 20 0402 1033097,5
Руководство и управление в сфере установленных функций органов государственной власти города Москвы 20 0402 0020000 107428,6
Функционирование исполнительных органов государственной власти города Москвы 20 0402 0020200 91927,7
Обеспечение деятельности исполнительных органов государственной власти города Москвы 20 0402 0020203 91927,7
Выполнение функций государственными органами 20 0402 0020203 12 70452,1

Описание структуры

Прежде чем начать анализировать записи, сделаю важное уточнение. Записи в таблице расходов в документе бюджета, на самом деле, неоднородны. Вернее, они однородны в рамках выбранной формы записи, но важно понимать что они являются ссылками на несколько справочников которых в документе бюджета нет.

В частности это следующие справочники:

  • Справочник ГРБС – это структура органов власти в части расходования средств в формате главных распорядителей бюджетных средств
  • Справочник разделов расходов бюджетов – основные 11 тем расходов средств
  • Справочник подразделов расходов бюджетов
  • Справочник целевых статей расходов бюджета – того на что тратятся деньги
  • Справочник видов расходов бюджетов – того как именно тратятся деньги

Итак, как правильно смотреть на эту таблицу.

1-я колонка – наименование. Это наименование записи из одного из справочников выше. В зависимости

2-я колонка – это код главного распорядителя бюджетных средств или код ГРБС. Чаще всего его описывают как код ведомства, но это не совсем верно. Поскольку по разным справочникам у ведомства может быть разное число кодов.

3-я колонка – состоит из 4-цифр которые деляться на по две цифры на раздел расходов и подраздел расходов.

Например:  04 – это раздел расходов «Национальная экономика», а 0402 – подраздел расходов «Топливно-энергетический комплекс».

Всего существует 11 разделов расходов и, например, в бюджете Москвы упоминаются 70 подразделов.

4-я колонка – это целевая статья расходов. Она описывается7 цифрами и имеет сложную структуру.  Первые 3 разряда  являются кодом статьи расходов, следующие 2 разряда – это код программы в рамках этой статьи расходов и последние 2 разряда – это код подпрограммы в рамках программы по данной статье расходов.

В нашем примере:

  • 0020000 – это целевая статья расходов «Руководство и управление в сфере установленных функций органов государственной власти города Москвы»
  • 0020200 – это программа «Функционирование исполнительных органов государственной власти города Москвы»
  • 0020203 – это подпрограмма «Обеспечение деятельности исполнительных органов государственной власти города Москвы»

Соответственно целевые статьи, программы и подпрограммы формируют иерархию которая и отображается в таблице расходов. Можно увидеть что если просуммировать средства выделенные на программу в рамках целевой статьи – результат будет совпадать с суммой средств выделенных на всю целевую статью, то же самое для подпрограмм в рамках программы.

В Московском бюджете присутствуют 74 статьи расходов, 219 программы и 223 подрограммы.

5-я колонка – вид расходов. Состоит из 3-х цифр и является плоским справочником без иерархии.  В бюджете Москвы присутствует 31 вид расходов

Как интерпретировать все эти данные?

Чтобы понять как данные можно интерпретировать, важно понимать какой иерархией обладают все вышеперечисленные виды записей и ограничения этой иерархии.

Далее тезисно:

1. Записи расходов бюджета обладают 4-х уровневой иерархией

- ГРБС -> Раздел-> Статья расходов -> Вид расходов

Эта иерархия, в частности, означает то что если просуммировать средства по любому из этих уровней, то они будут равны. А то есть все сумма всех средств по записям ГРБС будет равна сумме всех средств по разделам, равна сумме средств по статьям расходов и равна сумме всех средств по видам расходов.

2. Вспомним что разделы делятся на подразделы, а также возьмём за основу тот факт что разделы всегда делятся на подразделы. Итого связка Раздел/Подраздел – это поддерево внутри иерархии записей о расходах обладающее той особенностью что разделы всегда содержат подразделы.

В итоге мы имеем следующую 5-ти уровневую иерархию:

- ГРБС -> Раздел -> Подраздел -> Статья расходов -> Вид расходов

3. Вспомним что статьи расходов делятся на программы и подпрограммы, однако особенность этого деления в том что статья не всегда делится на них и есть статьи их не включающие.

В итоге у нас есть ещё один вариант 7-ми уровневой иерархии:

- ГРБС -> Раздел -> Подраздел -> Статья расходов -> [Программа] ->[Подпрограмма] -> Вид расходов

Подробнее смотрим на картинку выше. Зеленым отмечены типы записей которые присутствуют всегда и голубым те которые могут и не быть.

Как визуализировать?

Есть два способа – простой и сложный.

Простой способ заключается в визуализации только любого одного из уровней и средств потраченных по отдельным записям.  Это, примерно, то что я показывал на примере визуализаций бюджета Москвы в ManyEyes.

Также можно ограничить визуализацию фильтром и также взять любой из разделов.  Например, можно взять любой из ГРБС’ов и рассмотреть список видов расходов, разделов, подразделов или статей расходов в рамках которых он распоряжается средствами.

Можно взять любой вид расходов и рассмотреть список ГРБС’ов или разделов расходов в рамках которых они осуществляются. И так далее, это не очень сложно и вполне реализуемо.

Фактически простой способ ограничивается лишь иерархией в рамках описанного выше дерева.

Сложный способ отличается тем что мы рассматриваем записи не как иерархию, а как набор справочников и записей к ним привязанных. В этом случае ГРБСы, разделы, подразделы, статьи расходов и видов расходов являются срезами в рамках которых могут строиться многомерные графики. Фактически – это моделирование а ля OLAP.  Это требует

Остаётся лишь одна загвоздка – это в интерпретации и визуализации программ и подпрограмм.  Проблема в том что вкладывать их в многомерную структуру  неудобно и их необходимо интерпретировать отдельно.

Подход к их интерпретации и визуализации может быть разным:

1. По отдельности любая программа легко интерпретируется простым способом отмеченным выше, в этом случае

2. Если при интерпретации и визуализации делать оговорку что анализ средств только в рамках программ, то можно добавлять этот срез.

3. Можно строить гибридный срез из программ и статей расходов не содержащих программ.

4. Также можно строить гибридный срез из подпрограмм, программ не содержащих подпрограмм и статей расходов не содержащих программ и этот срез может использоваться вместо среза статьи расходов в 5-ти уровневой иерархии.

И так далее. Я не охватил здесь вопросы: визуализации данных по годам, сравнений версий бюджетов после принятия изменений, дополнительные группировки и срезы.

А если будут вопросы – задавайте.

Originally published at Иван Бегтин. You can comment here or there.

Пример программы-методики испытаний госпроекта / госсайта и некоторые размышления
25 мая 10 12:02

Большинство ведомств, чаще всего,  не публикуют программы-методики испытаний того что они заказывают по госконтрактам.

В ИТ, конечно, ситуация получше – иногда программа методики раскрывается на сайтах ФЦП в рамках которых работа проводилась, но далеко не всегда.

Поэтому просто в качестве примера.

Программа-методика испытаний для федерального портала управленческих кадров. Уверен что каждый найдёт в ней что-то недостающее.

Однако это просто документ, причём большинство подобных документов составляются самими исполнителями. Другой вопрос – может ли систематизация проведений испытаний быть одной из антикоррупционных мер?

Хотите расскажу как можно достичь не _экономии_, а повышения качества создаваемых госсистем? Довольно просто, на самом деле.
Обязать ведомства, для всех госконтрактов на сумму от 20 миллионов рублей и результатом которых является создание системы общего пользования, проводить приёмку (испытания) в формате публичных слушаний.

А то есть с предварительным анонсом их проведения не позднее чем за 7 дней и автоматическим доступом представителей СМИ и некоммерческих организаций.

Но это конечно, мои фантазии.

Originally published at Иван Бегтин. You can comment here or there.

И на десерт: Московские целевые программы за 2010 г. по расходным статьям
23 мая 10 11:52

В прошлом посте был график по весу целевых программ, но одно дело сама программа другое дело на что в рамках программы деньги пойдут и на этот вопрос отвечает массив где средства разбиты по статьям расходов.

В виде пузырьковой диаграммы
A501628a-663e-11df-b7d0-000255111976 Blog_this_caption
и полной картинкой http://manyeyes.alphaworks.ibm.com/manyeyes/files/thumbnails/a501628a-663e-11df-b7d0-000255111976.wm.png

И, в качестве эксперимента, в виде Treemap – древокарты.
Bf5cd330-663e-11df-8e88-000255111976 Blog_this_caption
и её же полноформатной картинкой http://manyeyes.alphaworks.ibm.com/manyeyes/files/thumbnails/bf5cd330-663e-11df-8e88-000255111976.wm.png

И ещё один график в «довесок» – это распределение средств по организациям по целевой программа «Профилактика правонарушений в г. Москве»
0213fbbe-6639-11df-a207-000255111976 Blog_this_caption
Картинка, как всегда, тут http://manyeyes.alphaworks.ibm.com/manyeyes/files/thumbnails/0213fbbe-6639-11df-a207-000255111976.wm.png

И, если кому-то будут нужны данные на основе которых графики строились, не устаю повторять – вскоре я их размещу на публике, как только доделаю мета-описания структур. А пока пишите на почту или комментариями – и Вы их обретёте.

Оригинальный бюджет Москвы доступен по ссылке – осторожно HTML файл на 7 мегабайт.

Originally published at Иван Бегтин. You can comment here or there.

Инфографика целевых программ города Москвы на ManyEyes
23 мая 10 12:11

Я помню что как-то упоминал о том что все пляски с бубном вокруг Электронной России, Электронной Москвы тем более смешны когда знаешь их реальные маштабы в сравнении с другими.
И вот выдалась возможность показать этот маштаб наглядно.

Я загрузил на ManyEyes ещё один датасет, на сей раз с целевыми программами города Москвы его можно увидеть щёлкнув на ссылку
3e4cb40c-65dc-11df-bf6f-000255111976 Blog_this_caption

или большой статической картинкой тут http://manyeyes.alphaworks.ibm.com/manyeyes/files/thumbnails/3e4cb40c-65dc-11df-bf6f-000255111976.wm.png

Я учёл замечания насчёт мусорных слов и названия программ обрезаны только до смысловых. Единственно, далеко не все массивы таким образом поддаются воздействию ибо делать это вручную очень накладно, а автоматически чревато ошибками.

Как бы то ни было.

Каждый может поиграть в игру «Найди Электронную Москву» и задуматься о вечном.

Опять же массив данных доступен на ManyEyes, желающим могу выслать его отдельно.

Оригинальный бюджет Москвы доступен по ссылке – осторожно HTML файл на 7 мегабайт.

Originally published at Иван Бегтин. You can comment here or there.

Бюджет Москвы 2010 на ManyEyes
22 мая 10 06:17

Сегодня я закинул таки на ManyEyes два датасета и сделал пару визуализаций.

Расходы города Москвы в 2010 году по департаментам
2179bd64-659d-11df-9f81-000255111976 Blog_this_caption

и доходы города Москвы по видам доходов, по кодам КБК второго уровня (ох и чувствую надо будет как-нибудь написать большой пост про то как вообще правильно читать законы о бюджете и что значат все эти цифры).
А картинка тут:
3ba26b8a-65a9-11df-9b6f-000255111976 Blog_this_caption

Датасеты можно также скачать с ManyEyes там есть ссылки рядом с каждой визуализацией.

Если кому-то будет неудобно скачивать оттуда – пишите мне, перешлю в виде CSV/TSV.

И да, те кто пользовался ManyEyes – ничего необычного не увидят.
Да и визуализировать _очень просто_ – сложно подготовить данные, учитывая что в Москве, (догадайтесь почему) публикуют приложения к закону о бюджете с таблицами в виде HTML причём не самом удобном для работы и там много работы по чистке данных, построению иерархии и так далее.

А сам закон Москвы о бюджете можно почитать по ссылке – осторожно огромный HTML файл на 7 мегабайт

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 22.05.2010. Открытые данные и проекты в Германии и не только
22 мая 10 11:32
На немецкие проекты ссылаются гораздо реже чем на англоязычные, но там тоже есть много чего интересного, например:
  • http://www.deutschland-api.de – API Германии. Веб сервисы для доступа к различной государственной и политической информации
  • http://opendata-network.org – блог и вики посвящённые открытым данным в Германии
  • http://offenedaten.de – большой каталог открытых данных в Германии на базе движка CKAN
  • https://wiki.opendata-network.org/index.php/Apps4Democracy – APP4Democracy. Инициатива по разработке некоммерческих проектов на базе открытых данных
  • http://www.wahl.de/ – германский аналог Гослюдей, но более прокачанный и включающий политиков кандидатов
  • http://www.gov20.de/ – Правительство 2.0 в Германии

В довесок, проект по раскрытию информации в Болгарии http://www.aip-bg.org болгарский читать несложно, а материалов там много.

Originally published at Иван Бегтин. You can comment here or there.

Cnews про ТК22 Ростехрегулирования
21 мая 10 12:29

В Cnews вышла статья про ТК22 – http://www.cnews.ru/news/top/index.shtml?2010/05/21/392272

в том числе и с моими комментариями.

Я кстати, склонен согласится тут с Ольгой Усковой – вероятность что стандарты разработанные в ТК22 будут использоваться в требованиях по госзакупкам совсем ненулевая. В этом случае интерес Майкрософт вполне себе понятен – они могут продвигать там OpenXML и OData, да и другие свои стандарты.

И логика тут вполне понятная, вендоры лоббируют свои стандарты делятся собственным опытом и проводят формализуют свои наработки в которых у их продуктов есть преимущество.

Далее начинается нормативно-правовое закрепление стандартов в виде требований в конкурсной документации.

На федеральном уровне через постановления правительства, но к тому что на федеральном уровне делается внимания гораздо больше поэтому я больше склонен полагать что логичнее будет когда использование стандартов будет закрепляться на уровне субъектов федерации также постановлениями губернаторов/глав администрации.

И, конечно, индивидуально эти стандарты могут упоминаться в конкурсной документации даже без нормативно-правового закрепления.

Originally published at Иван Бегтин. You can comment here or there.

Проект закона города Москвы «Об обеспечении доступа к информации о деятельности государственны
21 мая 10 11:37

Для интересующихся – 18 мая этого года вышло постановление правительства Москвы с проектом закона «Об обеспечении доступа к информации о деятельности государственных органов города Москвы и органов местного самоуправления в городе Москве».

Конечно, опять же, про машиночитаемое раскрытие информации ни слова, но пропустить такой документ было нельзя.

PDF документ для загрузки: http://ivan.begtin.name/wp-content/uploads/2010/05/mosinfo_open.pdf

Originally published at Иван Бегтин. You can comment here or there.

Прокуратура г.Клина внесла представление в адрес Администрации г.Клина по факту нарушения права жите
19 мая 10 10:26

Какая интересная новость нашлась

—-
В январе представители общественности – клинские отделения: МОД «Крестьянский фронт», Общества охраны природы Московской области, партии «ЯБЛОКО» обратились в прокуратуру г.Клина Московской области с жалобой на то, что Администрация Клинского муниципального района грубо нарушает нормы ФЗ Российской Федерации от 9 февраля 2009 г. N 8-ФЗ «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления».  Закон вступил в силу с 1 января 2010 года и устанавливает в том числе и  перечь информации, которая должна быть общедоступна в сети Интернет.  Однако Администрация Клинского района, продолжая свою политику сокрытия информации от населения и СМИ, не выполнила требований законодательства…

Полностью тут - http://www.klineco.ru/klininfo/index.php?go=News&in=view&id=160

—-

А интересно это по той причине что началось, то чего давно ждали – запросы в прокуратуру по поводу несоблюдения 8-ФЗ органами власти. Ну а поскольку хуже всего ситуация обстоит с муниципалитетами, то с них и начали. Жаль лишь что большую активность проявляют политические партии, а не общественные организации – ну да польза есть в любом случае.

И это, конечно, ещё не машиночитаемое раскрытие, но уже прогресс.

А также:

Итак процесс раскрытия данных госорганами начался и прокуратура в этом крестовом походе наш союзник.

Originally published at Иван Бегтин. You can comment here or there.

Аудитор Александр Пискунов про «защиту национальных данных»
19 мая 10 09:18

Александр Пискунов (аудитор Счетной Палаты России) рассуждает про Росстат и его влияние на развитие страны

На видео с 15:30 он рассуждает о «защите национальных данных».
При всём уважении к г-ну Пискунову (а его есть за что уважать, например, за вот этот документ – http://www.ach.gov.ru/userfiles/bulletins/10-buleten_doc_files-fl-1750.pdf )
я с ним тут несогласен.

При нашей закрытости, говорить надо не о защите, а о «публичности национальных данных».
Однако его доводы и логика среди российских чиновников весьма популярны и, кое-где, даже резонны, но это ещё не значит что они верны.

P.S. И обязательно посмотрите с 25:00 про систему контроля Счетной Палаты, почему её нет и кто ей мешает.

Originally published at Иван Бегтин. You can comment here or there.

Про экономию в госзакупках на примере
19 мая 10 02:57

Цитирую дословно новость с сайта Южной Транспортной прокуратуры http://www.utprok.ru/ne_4421042/

—-

Таганрогским транспортным прокурором по результатам проверки в сфере размещения заказов на выполнение работ, оказание услуг для государственных нужд установлено, что в сентябре 2008 года заместителем начальника Таганрогской таможни по тыловому обеспечению В. заключен договор купли-продажи на приобретение недвижимого имущества, а именно трехкомнатной квартиры общей площадью 63,6 кв.м. в г.Таганроге. Стоимость приобретаемой квартиры составила 2 900 000 рублей.

Между тем рыночная стоимость вышеуказанной квартиры на момент заключения договора купли-продажи составляла 2 040 000 рублей, что на 860 000 рублей меньше оплаченной суммы.

Таким образом, установлено, что В., являясь заместителем начальника Таганрогской таможни по тыловому обеспечению — начальником отдела тылового обеспечения (отдела инициатора) и выступающим в качестве государственного заказчика, в нарушение своей должностной инструкции ненадлежащим образом выполнил свои обязанности, вследствие чего в конкурсную документацию была включена явно завышенная начальная цена государственного контракта на приобретение недвижимого имущества, что повлекло причинение ущерба государству в сумме 860 000 рублей.

По данному факту следователем Ростовского следственного отдела на транспорте ЮСУТ СК при прокуратуре РФ возбуждено уголовное дело в отношении В. по признакам преступления, предусмотренного ч.1 ст. 293 УК РФ (ненадлежащее исполнение должностных обязанностей).

Постановление о возбуждении уголовного дела Таганрогским транспортным прокурором признано законным, расследование уголовного дела взято на контроль.

—-

Я было поискал эту закупку на во втором по значимости Позоре Рунета – http://www.zakupki.gov.ru, но поиск там совсем плохо пашет – из 7 поисковых запросов ни один не прошёл, все превысили таймауты ожидания. Чую надо будет как-нибудь запустить Screen Recorder и показать этот …… наглядно.

Однако что мы имеем в подобных случаях – заказчик все процедуры соблюдает и закупку размещает как положено, но вот незадача, покупает он в итоге всё равно по цене больше рыночной. А всё по той простой и очень банальной причине что процесс утверждения начальной максимальной цены закупки (НМЦ) по большинству видов закупок просто отсутствует, в принципе и как факт.

В результате происходит следующее:

1. Заказчик завышает НМЦ – сознательно или по причине отсутствия квалификации.

2. Если поставщик свой или знающий что конкуренция ему не грозит, то он выигрывает с минимальным снижением цены.

3. Если всё таки конкуренция есть, то цена сильно снижается и возникает ЭКОНОМИЯ! и ФАС доволен и своё начальство довольно.

В обоих случаях сплошные плющки.

Вот только главное только прокуратуре при этом не попасться, а то может получиться как в случае выше.

Я всё это исключительно к одному простому факту – сейчас госзаказчик не мотивирован к качественному планированию расходов, а вся «суперэкономия» от недостаточности квалификации.

Originally published at Иван Бегтин. You can comment here or there.

Почему Россия не Америка с точки зрения открытых данных
18 мая 10 11:35

Вначале я думал о том чтобы написать про проблему открытых данных в России, но потом понял что просто описать проблемы – это не наглядно. Так что рассмотрю открытые данные в примерах и сравнения. Того на

Итак почему же в США уже есть Data.gov и много других ресурсов на государственном и частном уровне, а мы, скажем так, отстаём.

  • потому как ключевой федеральный закону о свободе доступа к государственной информации был принят в США почти 44 года назад 6 сентября 1966 года и называется FOIA (Freedom of Information Act)  о котором можно прочитать здесь  http://en.wikipedia.org/wiki/Freedom_of_Information_Act_(United_States)
  • потому как свои законы о свободе доступа к государственной информации есть во всех штатах США и всех можно найти, например, здесь http://sunshinereview.org/index.php/State_sunshine_laws
  • потому как если чиновник нарушает закон, то наказание возрастает при рецидивах. Например, в разделе C.47:1A-11 закона Нью Джерси http://www.nj.gov/grc/act.html прописаны штрафы от 1000 до 5000 долларов.
  • потому как есть Министерство Юстиции ведёт полный реестр персон http://www.justice.gov/oip/foiacontacts.htm _ответственных_ за соблюдение FOIA в федеральных органах власти с телефонами, адресами и email
  • потому как в Министерстве юстиции есть отдельный департамент отвечающий только за соблюдение FOIA – http://www.justice.gov/oip/index.html
  • потому как существует множество некоммерческих организаций ориентированных на контроль за соблюдением FOIA госорганами. А также есть огромное число проектов на этом основанных. Например, http://www.wikifoia.org/ , http://www.getgrandpasfbifile.com/, http://www.getmyfbifile.com/,
  • потом как большая часть этих некоммерческих организаций существуют на частные пожертвования иногда достигающие до 3 и более миллионов долларов в год http://sunlightfoundation.com/funding/
  • потому как уже почти год существует специальный офис OGIS (Office of Government Information Services) http://www.archives.gov/ogis/ отвечающий за регулирование раскрытия информации и выступающий медиатором между гражданами и юрлицами запрашивающими данные через FOIA и федеральными ведомствами.
  • потому как в США весьма велика роль образовательных учреждений в работах по публичности государства и открытых данных. Благодаря чем существуют такие проекты и веб-ресурсы как http://ucblibraries.colorado.edu/govpubs/gd/publicrecords.htm, http://www.sciencecommons.org/, http://data-gov.tw.rpi.edu, http://libraries.ucsd.edu/ssds/, http://www.icpsr.umich.edu/icpsrweb/ICPSR/access/index.jsp и многих других
  • потому как из-за ранней компьютеризации и государственной стабильности в США есть много данных непрерывных статистических наблюдений и публичных записей за десятки и и даже сотни лет

Я могу продолжать и далее, однако я думаю что и так понятно что в части публичности государства мы отстаём от США не на 5, а на 40, если не большее число лет.

Поэтому когда я слышу критику публичности государства в  OpenGovData.ru в плане того что в России общество и государства к этому не готово , я лично _очень хорошо_ понимаю _насколько_ мы к этому не готовы. Вот только я знаю ещё и тот факт что если начать предпринимать усилий сейчас, то можно хоть как-то скомпенсировать информационный разрыв, если же ничего не делать, то ничего и не изменится.

Originally published at Иван Бегтин. You can comment here or there.

Технический комитет по стандартизации «Информационные технологии»
18 мая 10 08:46

Для интересующихся как справочная информация – Ростехрегулирование утвердило состав технического комитета по стандартизации «Информационные технологии».

Кстати, обратите внимание что Майкрософт там есть, а всяческих IBM’ов, Adobe’в, Apple и всех остальных нет совсем.

Originally published at Иван Бегтин. You can comment here or there.

Неприятная сторона публичности государства
17 мая 10 09:46

Я долго думал стоит ли, а потом всё же решился и в сегодня в Полит.Ру вышла моя статья «Чернуха на госсайтах» одноимённая моему же посту от 7 мая http://ivan.begtin.name/2010/05/07/чернуха-на-госсайтах/, но на сей раз с примерами и подробностями. С тем размещать или нет подобное я долго тянул не имея желания сводить её до «попсовости». Вопрос то серьёзный и кроме критики нужны и конкретные предложения.

В самой статье, конечно, есть предупреждения кому не стоит её читать,  обязательно прочтите это предупреждение прежде чем ходить по указанным там ссылкам. Материалы действительно _ОЧЕНЬ_ неприятные и детей от мониторов лучше убрать.  Равно как и всех кому нет 16, и людей с неустойчивой психикой.

А вот и сама ссылка на статью http://www.polit.ru/analytics/2010/05/17/chernuxa.html

Написанное там – это и есть оборотная и неприятная сторона когда публичность деятельности госорганов представлена бессистемно и, в результате, имидж ведомств не улучшает, а только портит.

Поэтому лично я считаю что работы по систематизации раскрытия информации органами власти должны дополняться работой по установлению правил правил доступа к контенту который многие граждане сочтут крайне нежелательным.

Тем кто по статью всё же рискнул прочесть, предлагаю обсудить как минимизировать проблему конкретно в случае с МВД. Одно решение я привёл в статье, но думаю что оно не единственное.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 15.05.2010. Сайты региональных органов власти
16 мая 10 12:24

Продолжаю подборки ссылок по регионам, самые наглядные примеры сайтов региональных органов власти. Не по всем регионам, конечно, но по нескольким:

  • Департамент Промышленности транспорта и связи Брянской области http://www.debryansk.ru/~dpromtra/ . Наличествует отсутствие дизайна.  А не послать ли этот сайт Артемию Лебедеву на бизнес-линч?
  • Управление по делам архивов Брянской области – http://www.archive.debryansk.ru/. Тоже дизайн из 90-х
  • Управление культуры Брянской области – http://grbc12.fin.brl.ru/. А здесь совсем непонятно что к чему. Вроде есть сайт, но какой-то странный.
  • Военный комиссариат Новгородской области http://voenkomat.nov.ru/ и военный комиссариат Республики Татарстан http://voenkom.tatar.ru/ возможно единственные комиссариаты имеющие свои отдельные сайты в сети
  • Хотя нет, ещё есть военный комиссариат Одинцово http://www.ovk-odintsovo.ru у которого даже есть электронная приёмная http://www.ovk-odintsovo.ru/reception/ и списки уклонистов http://www.ovk-odintsovo.ru/uklonist/. Насчёт последнего, а не нарушают ли они закон о персональных данных?
  • Массовый наплыв Мэров блоггеров в Ленинградской области на сайте Леноблинформа – http://www.lenoblinform.ru/. Скоро всех внесём в гослюдей.
  • Управление ЗАГС Пензенской области.  http://zags.sura.ru/ Весь сайт в сердечках. Нда.
  • Управление природных ресурсов и охраны окружающей среды Пензенской области – http://www.priroda-pnz.ru/ Весьма неплохой дизайн и иконки

Originally published at Иван Бегтин. You can comment here or there.

Систематизация публичных сведений о доходах чиновников
15 мая 10 10:43

Один из запросов в для OpenGovData.ru – был в отсутствии в нём  всяческой попсовой информации, сведений о зарплатах чиновников и бюджете.

Закрыть этот пробел возможно, но проблема в том что структурированной  информации очень мало или совсем нет и прежде чем её опубликовать на  OpenGovData.ru её необходимо собрать.

Поэтому у меня возникла идея почему бы не проверить на практике наличие гражданской активности, к тому же президент, судя по указу номер N561 (http://www.rg.ru/2009/05/20/ukaz561-dok.html) именно её и предполагал.

Итак чтобы собрать эту информацию нужны коллективные усилия от тех у кого есть время и желание это сделать.

Для этой цели я предлагаю использовать следующую форму
http://spreadsheets0.google.com/viewform?formkey=dEtuVEV0c0tUU3R3STdq…
в которую любой желающий мог бы внести ссылку и описание публикации
сведений о доходах на официальном сайте органа власти.

Данные внесённые в эту форму попадают в документ в Google Docs который
публично доступен здесь - http://spreadsheets.google.com/pub?key=tKnTEtsKTStwI7jZANo_cGw&output…

а также список будет опубликован в OpenGovData.ru

А вот когда будет собрана информация по источникам можно будет подумать о
том как превратить множество разноформатных справок в общий банк
данных.

Также если кто-то хочет помочь то есть несколько важных тем помощь в которых необходима:

1. Предложить/обсудить того в каком формате наиболее адекватно публиковать подобную информацию органами власти – Excel, CSV, XML, PDF и так далее

2. Сделать описание структуры отчета о доходах в виде XML схемы, или хотя бы структурного описания в JSON или предложить свой формат. Инициатива всячески приветствуется

И, конечно, предложения/замечания/критика написанного выше всячески приветствуются.

Originally published at Иван Бегтин. You can comment here or there.

О стандартах раскрытия информации в виде примера
15 мая 10 12:20

Я всё думал как бы написать про то как правильно публиковать открытые данные и то как их публиковать _неправильно_ и вот касательно неправильности нашёлся один небольшой, но яркий пример.

Предлагаю вашему вниманию Службу Республики Коми по тарифам. На её сайте (http://www.komirec.ru/) есть один весьма заметный раздел который так и называется Стандарты раскрытия информации (http://www.komirec.ru/standarts/index.asp?sub=standarts).

В этом разделе есть документы:

Далее, внимание вопрос, а есть ли гражданам польза от этого раскрытия? Можно ли вообще каким-либо осмысленным способом использовать эту информацию?

Чтобы ответить на этот вопрос рассмотрим эти документы и разберём их.

Далее тезисно:

1. Стандарт раскрытия отсылает нас к Постановлению правительства России от 30 декабря 2009 года N1140 которое является исключительно содержательными и каких-либо технических деталей раскрытия не содержит, только перечни раскрываемой информации и упоминания о том что она может раскрываться на сайте естественной монополии или сайте регулирующего органа власти.

2. Стандарт раскрытия службы не уточняет эти требования, не устанавливает форматов, не содержит технических спецификаций, а, фактически, лишь указывает на существование форм на сайте службы.

3. В стандарте нет никаких указаний на версионность поступающей информации и хранение исторических данных.

4. Указанные формы раскрытия – это шаблоны для Excel, которые, хотя и не так удобны для автоматической обработки как XML/JSON/CSV, но всё же их можно обрабатывать.

5. Согласно стандарту представители естественных монополий передают информацию по шаблонам в бумажном и дублируют её в электронном виде.

6. При этом все без исключения раскрытые данные заполненных форм опубликованы в формате PDF.

7.  И, что даже хуже, – это PDF из отсканированных страниц!

Итого что мы имеем.

- Стандарт раскрытия, по существу, стандартом не являющийся.

- Приемлимые формы раскрытия информации.

- И полностью бесполезный каталог раскрытых данных поскольку пользоваться ими можно только если их распечатать или прогнать через Abbyy FineReader.

А конечный результат таков что мы не имеем возможности:

- искать по раскрытым данным

- сравнивать тарифы естественных монополий

- строить на их основе графики, сравнивать с историческими данными

Вопрос. А где же «дыры» результате которых возникает такая ситуация?

Проблема в самом документе называемом «стандартом» который не фиксирует:

- хранение исторических данных.

- форму предоставления данных по электронной почте. Что означает что представители монополии могут печатать заполненные формы, подписывать, сканировать, засовывать в PDF и так отправлять в службу по тарифам. В результате, и «стандарт соблюдён», и данные представлены максимально неудобно для граждан.

- форму публикации полученных данных на сайте службы. В результате сотрудники службы могут публиковать не присланные им заполненные Excel файлы, а отсканированные бумажные копии.

Итого – здесь нет никакого полноценного «стандарта раскрытия информации».

P.S.

Ещё одна большая и больная тема – это 5-ти летний срок хранения информации закреплённый в постановлении правительства, но об этом я ещё напишу отдельно.

Originally published at Иван Бегтин. You can comment here or there.

Административный регламент… в виде ролика
14 мая 10 04:40

Замечательный пример регионального креатива – флэш-ролик про исполнение административного регламента найденный мной на  сайте Комитета Ставропольского края по делам архивов – http://www.stavkomarchiv.ru/

Чудесный ролик не правда ли?  А если его дополнить двумя-тремя кадрами, то он волшебно превращается в историю любви между рыжей секретаршей и любителем футбола.

У меня где-то была коллекция ссылок на разные забавные региональные ролики, но такого как этот я ещё не встречал.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 13.05.2010. Сайты и материалы по eGov
14 мая 10 09:23
Не всё новое, но всё ранее мною не упоминавшееся:
  • Обнаружился сайт Россвязи http://www.rossvyaz.ru ссылка на который появилась на сайте правительства – http://www.government.ru/power/67/, в позоре Рунета – http://www.gov.ru/main/ministry/isp-vlast44.html, но всё ещё отсутствует на сайте Минсвязи где по прежнему существует соответствующий раздел http://www.minsvyaz.ru/departments/rossvyaz/
  • Тем кто интересуется автоматизацией органов власти можно посоветовать заглядывать в раздел «Совет главных конструкторов» http://www.pvti.ru/sgkri-sessions.htm на сайте ВНИИ ПВТИ. Там, в подразделах заседания, есть много презентаций их участников. По большей части они скучноваты, но заглянуть и посмотреть стоит
  • Кстати, сам ФГУП ВНИИПВТИ несмотря на то что подведомственен Минкомсвязи не упомянут таковым на сайте министерства тут http://minkomsvjaz.ru/ministry/about/ что неправильно и вообще нехорошо.
  • Есть такое учреждение  Государственное научно-исследовательское учреждение «Совет по изучению производительных сил» (http://www.sopssecretary.narod.ru/) весьма необычного толка поскольку создавалось оно совместно Минэкономразвития и РАН. Однако в списках подведомственных МЭРу организаций (http://www.economy.gov.ru/minec/about/organizations/nii/) он отсутствует. Кстати сам сайт этого совета весьма примечателен, видно что не менялся он лет 10.
  • Вышел закон ХМАО о обеспечении доступа к информации – http://www.garant.ru/hotlaw/hant/241970/ с отсылками на 8-ФЗ
  • Официальный сайт города Тамбова по продаже и аренде имущества http://prodagi.city.tambov.gov.ru/
  • Учитель новой школы – http://teacher.edu.yar.ru весьма прилично сделанный сайт всероссийского интернет-проекта
  • Сайт управления по развитию перерабатывающей промышленности Тамбовской области – http://regadm.tambov.ru/oiv/per/ на нём все тексты заменены картинками. Почему/зачем – непонятно, зато становится понятно почему требование того что информации можно копировать с сайтов надо закреплять законодательно.

Originally published at Иван Бегтин. You can comment here or there.

Австралийский исторический государственный поиск
13 мая 10 07:15

К вопросу о том каким может быть государственный поиск взглянем на существующие примеры и, конкретно, на поиск национальной библиотеки Австралии который можно посмотреть и попробовать по ссылке http://trove.nla.gov.au

и щёлкнуть по скриншоту чтобы увидеть крупнее.

Этому проекту всего лишь год – он появился 15 мая 2009 года

Его поиск отличается тем что не конкурирует с различными коммерческими поисковиками по той причине что он с самого начала построен поверх большого числа структурированных массивов данных – банков документов, книг, фотографий, видео и аудио, оцифрованных газет, статей и исторических карт, а также информации о исторических персонах и организациях и даже  архивам веб-сайтов.

Ко всему прочему там есть возможность оставлять комментарии и сами комментарии – http://trove.nla.gov.au/recentComments?lastDays=31 активно проводящаяся разметка содержимого тэгами – http://trove.nla.gov.au/tag?added=last+week, возможно вносить правки в тексты отсканированных документов, специальные расширенные формы поиска – http://trove.nla.gov.au/ndp/del/search?adv=y, возможность выгружать статьи в формате Marc XML и многое другое.

А также там весьма неплохой фасетный поиск с возможностью детализации формата, доступности материалов, языка и страны.

Фактически – это не совсем поиск, а поисковая надстройка над множеством банков данных по которым можно не только искать, но и просто просматривать их в разных формах.

По статистике самого сайта там идёт порядка 5600 поисковых запросов в час. А то есть невостребованным его никак не назовёшь.

К чему я привожу этот пример. Поиск который можно назвать «государственным» может быть сделан очень по разному. Можно сделать его по событийным и общего вида данным и тем самым конкурировать с существующими куда более продвинутыми коммерческими поисковыми системами, а можно с самого начала брать только структурированный контент и подавать его в удобной и наглядной форме, такой как это сделано в Trove.

Поэтому лично я пока не увижу что же задумано в «национальной поисковой системе» (http://www.rbcdaily.ru/2010/03/26/media/466886), то и критиковать её или наоборот хвалить не собираюсь.

А чуть позже планирую привести несколько разной степени полезности/бесполезности госпоисков по странам. Если кто-то знает наглядные госпоиски – предлагаю кидать комментариями к этому посту, соберём коллекцию и обсудим каждый.

Originally published at Иван Бегтин. You can comment here or there.

Счетная Палата России на YouTube
11 мая 10 01:04

Ссылка: http://www.youtube.com/user/AccountsChamber

Обращение Сергея Вадимовича Степашина

Очень, кстати, правильный шаг с их стороны. Личный видео-канал у ведомства – это правильно. К тому же для комментариев он открыт. Почти что блог Степашина

Originally published at Иван Бегтин. You can comment here or there.

Предположим есть государственный сайт хостящийся в Испании?
11 мая 10 10:01

Рассмотрим гипотетическую ситуацию есть орган государственной власти, неважно какого уровня, федеральный, региональный или муниципальный и у этого органа власти есть свой официальный веб-сайт.

И всё бы хорошо у этого веб-сайта, но есть одна особенность – хоститься он где-нибудь в Испании или другой стране далёкой от России и даже СНГ. Причин может быть много:

- решили съэкономить на хостинге и нашли подешевле

- заключили договор с российским хостером, а тот пользуется серверами в облаке или выделенными серверами в других странах

- вообще не в курсе что где хоститься так как отдали всё на откуп разработчикам сайта, а те особо не заморачивались

- просто разгильдяйство – у кого-то из сотрудников был там свой хостинг и сразу сделали сайт там чтобы не тратить лишнее время/силы

При этом, если вспомним, то, ни 8-ФЗ, ни постановления пр-ва, ни приказ Минэкономразвития вопросы хостинга, физического сопровождения госсайтов никак не регулируют.

Но нормальна ли эта ситуация ? Лично я считаю что нет. Потому как если бы какой-то из госорганов хостился бы, к примеру, в Киргизии на период беспорядков, то и сайт его был бы с высокой вероятностью недоступен. Это помимо того что получается что орган власти начинает зависеть от иностранной инфраструктуры со всеми вытекающими рисками.

Предлагаю опрос и обсуждение на тему правильно ли это и кто и как на это должен реагировать.


Ссылка опроса если у кого-то он не отобразиться http://poll.fm/1w8s4

P.S. Конечно у этой гипотетической ситуации есть вполне реальные жизненные примеры, но о них чуть позже.

Originally published at Иван Бегтин. You can comment here or there.

FreeBase Gridworks released
10 мая 10 12:27

Появился исходный код Gridworks – http://code.google.com/p/freebase-gridworks/ , а также всяческие интересные примеры там же, в Wiki проекта. Этой такой инструмент по очистке и преобразованию данных сделанный внутри Metaweb’а, компании разработчика проекта Freebase.

И инструмент уж больно интересный и полезный, особенно учитывая что он теперь и с открытым кодом однако я лично попал на баг с тем что в локализованной винде имена юзеров на русском языке и, похоже что, у Gridworks из-за этого не сохраняется история работы с проектами да  и, в принципе, не работают все операции требующие сохранение на диск так как не находится путь куда сохранять.

Багу я им уже зарегистрировал, но сколько ждать придётся неизвестно.

Originally published at Иван Бегтин. You can comment here or there.

Обезличенный Twitter – это не Twitter
08 мая 10 02:23

В Ведомостях появилась статья про присутствие в Twitter’е двух наших федеральных ведомств – ФАС России и ФСФР.

ВЕДОМОСТИ

Чиновники защебетали

Российские госорганы начинают публиковать информацию на Twitter. Ресурс уже освоили ФАС и ФСФР, третьим может стать президент Дмитрий Медведев

Федеральная служба по финансовым рынкам (ФСФР) начинает публиковать свои новости в сети микроблогов Twitter, сообщил руководитель ведомства Владимир Миловидов.
Читать целиком

Эта статья в блогах [?]

ifap_ru

Соответственно Twitter ФАС – http://twitter.com/rus_fas, а Twitter ФСФР – https://twitter.com/FFMS_News

Я честно говоря вначале подумывал о том чтобы проигнорировать это замечательное событие,  потом задумался не написать ли на эту тему более подробную статью, но не удержался и решил написать сразу в блоге.

Для начала я Вам задам лишь один вопрос, а как Вы собираетесь использовать эти Twitter’аккаунты?

Читать через Twitter клиент? Ну так там нет полноценного Twitter’ного потока – там частота публикаций не более чем в трансляции новостей через RSS, а то есть около 1-3 новостей в сутки.

Аггрегировать, по аналогии с тем что мы делаем в Гослюдях? А смысл, если это не более чем дубли новостей на сайтах и аггрегировать новости можно сразу с сайтов RSS лентами и в большем объёме.

Ретвитить? Да, это может быть полезно, но только кнопка «Retweet» как и вообще кнопки с кодом для размещения в блогах, закладках, Twitter’е, Facebook’е и так далее помогли бы тут более.

Общаться с представителями госорганов? Как бы не так. Обратите внимание – это _трансляции_ новостей, не более того. Сделать такие трансляции очень несложно, я сам могу за сутки сделать трансляции в Twitter со всех официальных сайтов центральных органов власти, но не вижу в этом великого смысла. В первую очередь по той причине что Twitter, как и любой другой блог эффективен только и исключительно в том случае если он не обезличен.

В чём особенность необезличенности? В том что у блога и микроблога есть автор. И есть надежда что этот автор пишет от себя и что он может ответить на вопросы ежели они будут. Иначе говоря – обезличенность ведения блога/микроблога не предусматривает обратной реакции. Это только поток от ведомства всем остальным. Причём совсем ничего особенного в этом потоке нет, кроме слова Twitter, конечно.

К примеру, прозрачность  ФСФР достигается вовсе не их Twitter лентой, а тем что Владимир Миловидов лично ведёт свой блог (http://www.investor.ru/user_content/publication/32476) и отвечает на комментарии посетителей. Вот это да, это впечатляет. Респект и уважуха. На его фоне трансляция ФСФР новостей в Twitter – слегка полезное дополнение, но не более того.

А вот у ФАС, как ни удивительно, никто и руководства публичных блогов не ведёт. Ни сам Игорь Артемьев, ни кто-либо из его заместителей. А то есть обратная связь тут, как бы и не задумана, а всё живёт по старинке – представители ФАС вещают через СМИ или статьями на сайте, а с гражданами общение, что, только по контактному телефону? Лично мне не удалось на сайте ФАС’а даже контактный email найти, не то что форму для обращений.

И на этом фоне трансляция новостей службы в Twitter, как бы так помягче сказать…, в общем, я думаю, вы меня поняли –  несерьёзно это выглядит, настолько несерьёзно что несерьёзней некуда. Потому как обезличенный Твиттер в виде новостной ленты – это такой недо-твиттер.  Чувствую ещё чуть-чуть и пора будет вводить ещё один антирейтинг. Антирейтинг бесполезных Twitter’ов.

Originally published at Иван Бегтин. You can comment here or there.

SEO’шники Тульского госзаказа
07 мая 10 09:19

Вот на сайте госзакупок Тульской области (http://www.goszakaz.tula.ru/) обнаружился «замечательный» пример с размещением SEO ссылок на госсайтах.

Собственно эти самые ссылки спрятанные за display:none видны и сейчас на главной странице сайта. Некрасивая история получается, прямо скажем. Как впрочем и во всех случаях размещения коммерческой рекламы на государственных веб-ресурсах

А за ссылку на скриншот спасибо Роману Рыбальченко (http://roma.net.ua/)

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 1 Comments    
Filed under:
Чернуха на госсайтах
07 мая 10 08:32

Я поскольку много госсайтов читаю и просматриваю чуть ли не каждый день и о них же пишу тут , у себя в блоге, то периодически натыкаюсь ещё и на материалы резко отличающиеся от всех остальных.

Одна из тем – это самая что ни на есть «чернуха». Материалы которые детям только показывать нельзя, как и психически неуравновешенным взрослым, да и нормальным взрослым людям сильно приятно от них не будет, а вот наоборот вполне может.

Ссылки, сознательно приводить не буду, тем кому _очень_ интересно – могу прислать их в личку. Предупрежу сразу – аппетиту они не прибавлят. Однако все материалы, то там публичны, что и удивительно…

При этом вспомним что наши законодатели любят порегулировать то что можно или нельзя публиковать в СМИ.

Поэтому предлагаю френдам и читателям вопрос – должна ли нормативно регулироваться публикация на государственных веб-ресурсах или печатных изданиях материалов – оскорбительного, жестокого или порнографического характера ?

Originally published at Иван Бегтин. You can comment here or there.

Автоматизированное выявление порнографии?
07 мая 10 08:16

Я тут в сообществе ifap_ru углядел интересный пост про разрабатываемую в Саратовском государственном университете методику экспертизы для выявления порнографии. Вот тут можно её прочитать – http://www.sgu.ru/node/51877

а некоторые фразы оттуда достойны внимания:

В лаборатории математического моделирования правовых явлений и процессов Саратовского государственного университета имени Н.Г. Чернышевского ведется разработка методики нового вида экспертизы – экспертизы кино- и видеоматериалов порнографического характера. Методика содержит формализованную оценку динамики изображения порнографического характера на основе автоматизированного способа выявления классификационных признаков.

Меня лично больше всего «прёт» от формализованной оценки немного-немало, а динамики! и от автоматизированного способа. Нет, конечно, очень нравится что способ не автоматический, а то, не дай Бог, придумает кто-нибудь как выявлять порно автоматически и лишат миллионы людей развлечения.

Просто интересно, сколько же фильмов отсмотрели специалисты лаборатории для составления этого списка признаков? Список то там немалый и весьма подробный.

Originally published at Иван Бегтин. You can comment here or there.

Открытые мемориальные дощечки
07 мая 10 07:25

Возвращаясь всё к тому же вопросу о повторном использовании государственных данных и разных соц. иниативах.

В качестве примера, есть такой проект, Open Plaques, в дословном переводе, «открытые мемориальные дощечки». Его авторы собрали большую базу мемориальных дощечек вначале по Великобритании, а потом и по другим странам.

Даже на логотипе видна «синяя дощечка/тарелка» используемая для отметки мемориальных зданий в Великобритании.

Причём собрали они эти данные с сайта English Heritage http://www.english-heritage.org.uk/server/show/nav.001002006005/chooseLetter/All, а далее их расширили найденными на Flickr’е, присланными другими людьми и… запросами к местным властям используя Freedom of Information requests которые можно посмотреть здесь – http://www.whatdotheyknow.com/user/frankie_roberto

И, да, что немаловажно – проект с полностью открытым исходным кодом и общедоступными машиночитаемыми первичными данными которые можно найти на странице разработки тут http://code.google.com/p/openplaques/.

Например, там есть дощечки:

Лично мне вот такой простой и незамысловатый проект весьма нравится.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 7.05.2010. Европа
07 мая 10 10:51

Блоги:

  • Президент Евросоюза – http://vloghvr.consilium.europa.eu/. Из-за отключеннёх комментариев в Гослюдях бы попал в антирейтинг
  • Андрис Пиебалгс – http://blogs.ec.europa.eu/piebalgs/. Пишет не чаще раза в неделю, комментариев очень мало, живого текста тоже маловато. Не жжёт…
  • Кристалина Георгиева – http://blogs.ec.europa.eu/piebalgs/. Комментариев больше, пишет чаще
  • Вице-президент Еврокомиссии Neelie Kroes – http://blogs.ec.europa.eu/neelie-kroes/. Комментарии запрещены
  • http://blogs.ec.europa.eu/ – остальные блоги членов Еврокомиссии и Евродепутатов

Статистика

Открытые данные

  • Проект по раскрытию публичных данных в Евросоюзе - http://www.epsiplatform.eu
  • Там же рейтинги/оценки уровня повтороного использования информации -http://www.epsiplatform.eu/examples/scorecard. UK выделяется огромным отрывом от всех остальных.
  • OpenElectionData - http://openelectiondata.org/. Британский проект помощи местным властям в раскрытии информации о выборах.
  • Я не особенно понимаю по норвежски, но похоже что http://data.norge.no/ на норвежский аналог data.gov.uk
  • Открытые данные Франкфурта – http://www.frankfurt-gestalten.de/

Originally published at Иван Бегтин. You can comment here or there.

МЭР, справочник по ценам и не-открытые данные
05 мая 10 08:44

Буквально сегодня  Александр Пироженко, руководитель Департамента по развитию конкуренции и анализу конъюнктуры цен у себя в блоге написал про то что вышел доклад по ценам в 2009 году.

Процитирую:

Вчера из типографии доставили свежий и красивый «Доклад по ценам в 2009 году. Стабилизация под воздействием спроса и конкуренции». В количестве 500 экз. Наконец-то мы сделали его! Мне нравится – получилось то, что задумывалось – профессионально, симпатично и доходчиво (надеюсь).

и проиллюстрирую

И всё бы хорошо, и графики красивые, и даже фотография министра есть. Вопрос в другом – а есть ли от этого польза?

Мой комментарий в блоге Александра находится тут: http://alex-pirojenko.livejournal.com/39024.html?thread=268656#t268656

А в этом посте я этот комментарий продублирую:

Александр, во всём мире сейчас идёт движение за раскрытие данных в форме пригодной для повторного использования чтобы любой мог загрузить их в Excel или иной удобный инструмент и самостоятельно проанализировать, сопоставить, отрисовать и так далее. А Вы вместо этого рисуете красивые буклеты с графиками. Да они посимпатичнее чем если их просто отрисовать в Excel’е, но вот только почему меня не покидает уверенность что пользы от этой информации было бы на порядок больше опубликуй Вы её в Excel, XML, CSV или ином пригодном для работы формате.

Я Вам больше скажу – была бы первичная информация доступна, можно было бы хоть конкурс устраивать по аналогии с Design for America и получить графики не худшего качества, а скорее всего из-за _конкуренции_ между инфодизайнерами, то и лучшего качества.

Поэтому впечатления от этой брошуры – кошмарные если не ужасающие.

Честно говоря стыдно, Александр, за Ваше ведомство.

При том что МЭР это далеко не самое закрытое наше ведомство, но есть огромная разница между тем и в какой форме предоставлять информацию – гражданам, экспертам, специалистам. Есть большая разница в публичной машиночитаемой доступности информации и графиками.

Поэтому, несмотря на симпатичные картинки – я считаю что подобный подход, публикации в печатном виде, крайне ограниченным тиражом информации которая могла бы быть общественным благом – это неверные действия.

Если кто-то со мной несогласен, приглашаю прокомментировать у меня в блоге. Если согласны – предлагаю написать комментарием к посту Александра что хорошо бы эти данные раскрыть публично, в Интернете и в формате пригодном для последующего использования. А те кто отрисуют на основе их красивые графики найдутся.

Originally published at Иван Бегтин. You can comment here or there.

Систематизация распознавания пола и этноса по ФИО
04 мая 10 05:03

Какое-то время назад я эту тему поднимал в посте «Распознавание национальности по имени» – http://ivbeg.livejournal.com/119528.html

Но там было нечто вроде результатов экспериментов, сейчас же затрону тему систематизации того как можно обрабатывать ФИО и какую информацию можно на основе ФИО извлечь.

Предыстория этого текста исключительно практическая, поскольку я очень много с данными работаю, то периодически возникают задачи по тому как обогатить, улучшить, извлечь и отклассифицировать данные.  Так, например, анализ  ФИО даёт возможность  добавить как минимум 2 новых среза – гендерный и этнический (более правильное название определения национальности).

В задачах по визуализации гендерный срез особенно интересен, поскольку при наличии большого числа дополнительных характеристик можно показать различия весьма наглядно.

Этнический же срез интересен только на больших выборках, но поскольку эту информацию хотя бы частично можно извлечь, то опишу этот процесс.

Почему систематизация ? Лично я придерживаюсь того мнения что систематизации мало не бывает. Иногда это вредит – поскольку приводит к значительному углублению в детали, но чаще это помогает поскольку позволяет лучше понять предметную область и прежде чем приступать к воплощению в коде каких-либо алгоритмов – понять, с чем же имеем дело и как обеспечить простоту анализа данных в сочетании с максимально возможным охватом.

В случае ФИО, начало систематизации начинается с шаблонов.

Шаблоны

Форм записи ФИО не очень много и они вполне поддаются систематизации и укладываются в несколько шаблонов которые, в свою очередь, разделяются на несколько элементов.

Этих элементов немного и их можно перечислить:

s – Фамилия (surname)

f – Личное имя (first name)

m – Отчество (midname)

S – Однобуквенная запись фамилии

F – Однобуквенная запись имени

M – Обнобуквенная запись отчества.

Далее при анализе ФИО я буду исходить из того что ФИО – это не только фамилия, имя и отчество, но в реальной жизни это гораздо большее число форм написания того же.

При этом у использования этих элементов есть свои особенности в частности есть устоявшиеся сочетания в которых они присутствуют. Далее я приведу перечень шаблонов для определения этих сочетаний:

sfm – Фамилия, имя и отчество. Например, Пилипенко Мария Геннадьевна

fms – Имя, Отчество, Фамилия. Например, Александр Аронович Хромов

sFM – Фамилия и по первой букве от имени и отчества. Например, Васильев И. И. или Минниханов Р Е

FMs – первые буквы от имени и отчества и фамилия полностью. Пример: А. Ю. Макаренко, Н.Г. Буранов

sfM – фамилия и имя полностью и первая буква от отчества. Примеры: Ефимов Борис А., Карманова Мария В.

Fs – Первая буква имени и фамилия. Например, А. Румянцев или В Ручкин .

sF – фамилия полностью и первая буква от имени. Примеры: Борисов Г., Рахмонова Е.

s – только фамилия. Например: Хазанов, Минниханов, Дудкина, Малых

fs  - имя, фамилия. Например: Арут Карапетян, Борис Рыбин

sf – фамилия, имя. Например: Климов Максим, Мирных Алексей, Дудяк Елена

fm – имя, отчество. Например: Иван Петрович, Василий Аркадьевич, Рахиль Альбертовна

f – личное имя. Примеры: Иван, Петр, Алексей, Равиль, Аслан и т.д.

SFM – по первой букве от фамилии, имени, отчества. Примеры: В.Р.Е, Е.Н.М.

Является ли этот список шаблонов исчерпывающим? Весьма вероятно что нет, однако все остальные случаи будут достаточно редкими чтобы рассматривать их как исключения и систематизировать именно с точки зрения исключений.

Правила разбора ФИО

Когда известны все основные шаблоны и есть входящий поток для разбора можно приступать к описанию логики анализа.

Прежде чем определять пол персоны или этнос важно разложить ФИО на элементы и для этой цели необходимо определить каким шаблоном ФИО написано. Как это сделать?

1. Вначале разбить ФИО на элементы исходя из того что разделителями могут выступать пробелы и точки.

2. Определяется количество частей после чего идёт ветвление на проверку по шаблонам. Если 1 часть (1 слово) – то шаблон s или f. Если две части, то sf, fm, fs, sF или Fs

3. Для ФИО из 3-х частей проводится простая проверка не состоят ли какие-либо части из одной буквы. Если да и более двух, то быстро определяются такие шаблоны как SFM, sFM и FMs

4. Далее как определить какая из частей каким типом элементов является. Есть два способа и их комбинация.

Способ 1. Базы имён, фамилий и отчеств

Всего уникальных имён сравнительно немного – десятки тысяч. То же самое с отчествами. Сложнее с фамилиями – их могут быть сотни тысяч и миллионы. Однако при наличии значительных массивов возможно создание баз имён, фамилий и отчеств, а далее ручная и полуавтоматическая разметка по полу и этносу.

Способ 2. Регулярные выражения

Для отчеств – окончания на -вич и -вна. Для фамилий выражений больше. Например, таки как: ^(.*)(о|е|ё)в$, ^(.*)швили$ и так далее, несколько десятков.  А также есть набор выражений для имён, но там всё несколько сложнее и это отдельная тема.

Для каждого из выражений может быть сопоставление его с полом или этнической группой.

Способ 3. Использование баз и выражений совместно

Если запись находится в базе – исходить их признаков в базе, если нет – применять разметку регулярным выражением.

-

5. После идентификация шаблона мы имеем его описание и, если его идентификация потребовала определения типа элементов, то и предположения о поле и, возможно, этносе персоны. Для полноты картины необходимо проверить все остальные элементы регулярными выражениями и/ли по базам.

6. В конечном итоге результатом являются:

- выявленный формат шаблона

- размеченные элементы (фамилия, имя, отчество)

А также, или все имеющиеся или один производный признак пола и, при возможности определения, этноса.

Или же возврат,  и производного, и всех признаков. Об особенностях определения признаков в следующем пункте.

Особенности

Все было бы очень просто если бы не некоторые особенности которые важно помнить и учитывать.

1. Есть множество случаев когда пол определить невозможно даже определив шаблон и отдельные элементы. Связано это не с несовершенством методов проверки, а с тем что далеко не всегда информация о поле содержится в ФИО. Вот несколько примеров: Малых А.А. – имя и отчество присутствуют только в виде первых букв, а фамилия Малых является универсальной и может принадлежать, как женщине, так и мужчине. Точно также с фамилиями на -ко, -их и множестве других. Фактически во всех случаях шаблонов sFM, FMs, Fs, sF и s у нас недостаточно элементов несущих информацию и определение ограничено имеющейся информацией. В виду этого результатом метода по определению пола по ФИО могут быть 4 варианта ответа: женский, мужской, универсальный и неизвестно.

2. Есть множество региональной специфики в том что касается написания имён и отчеств. В частности в  азербайжанских казахских ФИО часто присутствует «Оглы» или «Кызы». Например, Асланов Ази Ахад оглы

3. Много специфики в именах используемых в национальных республиках России и бывшем СССР. Точность распознавания будет зависеть от наличия датасетов по регионам.

4. Описанный подход не охватывает случаи намерянных и случайных искажений. Например, когда вместо точки используют запятую или указывают ФИО вроде «Гадя Петрович Хренова». А также случаи с опечатками – это несколько более сложная, но не сверхсложная задача.

5. Определения этноса задача сложная, в первую очередь, в виду значительных объёмов классифицируемой информации. Фактически её можно разделить на принципы определения различных этнических особенностей в ФИО разных народов. Например, окончания фамилий на «-ян» у армян или «-дзе» и «-швили» у грузин. А также на основе баз имён разных народов.  Однако есть много случаев когда определить этнос сложно поскольку имя может указывать лишь на то из какого языка оно происходит. А в некоторых случаях имена могут иметь множественное значение. Например имя Артур – весьма популярно среди армян и это армянское имя переводящееся как «свет истины» и одновременно это нередкое современное имя в России среди русских.

Примеры

Собственно всё вышеперечисленное какое-то время я реализовал довольно давно в виде довольно простого закрытого веб-сервиса который на входе кушает текст, а на выходе выдаёт JSON с результатами. Работает это всё настолько просто назвать это алгоритмом у меня язык не поворачивается – просто «полезная штука», ничего более.

Вот несколько примеров.

Текст: Бегтин И.В.

Разбор в формате JSON:

{‘format’: ’sFM’, ‘gender’: ‘m’, ’sn’: u’Бегтин’, ‘fn_s’: u’И’, ‘text’: u’Бегтин И.В.’, ‘mn_s’: u’В’, ‘parsed’: True}

Текст: Иван Викторович Бегтин

Разбор в формате JSON:

{‘format’: ‘fms’, ‘gender’: u’m', ‘mn’: u’Викторович’, ’sn’: u’Бегтин’, ‘text’: u’Бегтин Иван Викторович’, ‘parsed’: True, ‘fn’: u’Иван’}

Где: fn – имя, sn – фамилия, mn – отчество, fn_s – первая буква имени, format – выявленный формат описания ФИО, parsed – флаг что формат был определён, gender – пол в виде одного из признаков m, f, u и «-» если определение пола не прошло.

Нет только признаков этноса, поскольку сейчас они присутствуют только для имён

Статистика

В качестве небольшого дополнения приведу некоторые статистические наблюдения.

Для проверки точности я взял небольшой массив примерно в  5 600 000 неуникальных записей из публичных официальных документов. А то есть с частыми повторениями одного и того же ФИО, но в разных формах. Например: где-то упоминается: Кудрявцев Е.В., где-то Кудрявцев Евгений, где-то Кудрявцев Евгений Викторович и так далее.

В результате сформировалась следующая таблица частот использования тех или иных форм записи.

<tr height="20"> <td width="64" height="20">Шаблон</td> <td width="64">Частота</td> </tr> <tr height="20"> <td height="20">sfm</td> <td align="right">49,38%</td> </tr> <tr height="20"> <td height="20">sFM</td> <td align="right">35,71%</td> </tr> <tr height="20"> <td height="20">FMs</td> <td align="right">13,42%</td> </tr> <tr height="20"> <td height="20">fms</td> <td align="right">1,24%</td> </tr> <tr height="20"> <td height="20">sF</td> <td align="right">0,069%</td> </tr> <tr height="20"> <td height="20">sf</td> <td align="right">0,055%</td> </tr> <tr height="20"> <td height="20">Fs</td> <td align="right">0,038%</td> </tr> <tr height="20"> <td height="20">sfM</td> <td align="right">0,029%</td> </tr> <tr height="20"> <td height="20">s</td> <td align="right">0,026%</td> </tr> <tr height="20"> <td height="20">fs</td> <td align="right">0,0010%</td> </tr> <tr height="20"> <td height="20">f</td> <td align="right">0.0007%</td> </tr>

Фактически можно увидеть что при 4 основных написания – sfm, sFM, FMs и fms лидируют по частоте встречаемости. Но, как я упоминал ранее, здесь есть специфика в официальности. Если же анализировать другие массивы, то распределение шаблонов по популярности будет иным.

В качестве резюме

В общем-то разбор ФИО – это довольно простой пример на уровне «систематизации очевидного». Куда сложнее задачи по разбору адресов или, например, товарных позиций. Но ничего неразрешимого нет при условии последовательного упрощения и шаблонизации форматов представления, иногда многоуровневой.

Originally published at Иван Бегтин. You can comment here or there.

Про прорыв нефти в Мексиканском заливе и открытые государственные данные
04 мая 10 05:00

Что мне лично куда более интересно со всей этой историей с Deepwater Horizon и с прорывом нефти в Мексиканском заливе – это не последствия для нефтедобычи и даже не экологическая катастрофа.

Это всё важно, но _лично для меня_ на втором плане.

На первом же – быстрая реакция EPA (Environment Protection Agency) и появление сайта посвящённого событию – http://www.epa.gov/bpspill/index.html

и раздел посвящённый проишествию на NOAA – http://response.restoration.noaa.gov/topic_subtopic_entry.php?RECORD_KEY(entry_subtopic_topic)=entry_id,subtopic_id,topic_id&entry_id(entry_subtopic_topic)=809&subtopic_id(entry_subtopic_topic)=2&topic_id(entry_subtopic_topic)=1

Там много материалов и ссылок на каналы в  Twitter, Facebook.

А также существование таких проектов как CrisisCommons – http://crisiscommons.org/ и http://www.piersystem.com/go/site/2931/

И, самое интересно, на всё том же сайте EPA открытые данные в CSV о результатах воздушного мониторинга http://www.epa.gov/bpspill/data.html

Особенно радует наличие открытых данных.

Это всё к вопросам о управлении информации в экстренных ситуациях.

Если вспомним в России события в Метро29 и катастрофу самолёта польской делегации, то реакция госорганов была гораздо меньше чем активность граждан. Значительно меньше.

А про открытые данные уже и говорить не приходится.

Originally published at Иван Бегтин. You can comment here or there.

Жизнь на данных (The Data-Driven Life)
03 мая 10 09:23

Прекрасная статья в New York Times ‘The Data-Driven Life’ -которую можно прочитать по ссылке http://www.nytimes.com/2010/05/02/magazine/02self-measurement-t.html

Особенно хороши примеры из реальной жизни. Очень рекомендую почитать чтобы понять существующий тренд в работе с данными.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 1.05.2010. Европейские проекты раскрытия данных
01 мая 10 06:26

Originally published at Иван Бегтин. You can comment here or there.

This Blog

Tags

Archives

Syndication