Декабрь 2009 - Posts

Про сайт Росреестра и сайт правительства
31 декабря 09 01:25

Для тех кто может быть пропустил это событие – в этом году на базе Роскартографии, Росрегистрации и Роснедвижимости теперь существует одна служба – Росреестр. А у Росреестра появился сайт – http://www.rosreestr.ru

И всё бы хорошо, но в который раз я убеждаюсь что на сайте правительства информацию обновляют с бооольшим запозданием – там этой ссылки до сих пор нет.

Например, если на картинке на схеме органов госвласти на сайте правительства щёлкнуть на картинку «Федеральная служба государственной регистрации, кадастра и картографии» то откроется карточка Росрегистрации с устаревшим описанием и уже недействительная, а не карточка Росреестра.

Чтобы найти же настоящую карточку Росреестра необходимо открыть карточку Минэкономразвития перейти по ссылке на список подведомственных организаций и открыть искомую карточку описания Росреестра.

Внимание вопросы:

1. Можно ли считать что на сайте правительства представлена достоверная информация если в одном из разделов сайта приводится информация  устаревшая на полгода?

2. Нарушен ли пункт 2 статьи 4 8-ФЗ (см. по ссылке)  ?

3. А за сайтом правительства тоже будет прокуратура надзирать? (см. пункт 3 статьи 24 8-ФЗ)

Кстати, ещё и в карточке Главного управления специальных программ президента теперь отсутствует ссылка на сайт ведомства при том что сам сайт никуда не делся, вот он – http://www.gusp.gov.ru/, а также он есть в списке сайтов ФОИВов на gov.ru.

В общем, неправильно это всё как-то.

Если честно, то я даже несколько расстроился поскольку время от времени проверяю изменение структуры органов власти,  в основном через диаграмму и далее переходя по ссылкам, а теперь придётся, видимо, заглядывать на сами сайты ФОИВов.

А блоггерам на заметку – 8-ФЗ вступает в силу с 1 января 2010 года вот и самое время создавать сообщества 8fz_news и 8fz_fans, ибо интересного там ещё многое может быть.

Всех с Наступающим!

Originally published at Иван Бегтин. You can comment here or there.

Сайт Росархива
30 декабря 09 10:09

Оказывается кроме Росалкогольрегулирования ещё одно ведомство наконец-то открыло свой сайт – это Росархив (Федеральное архивное агентство) и новый сайт их можно увидеть здесь  - http://archives.ru

Технически сайт сделан на Drupal’е, кто разработчик незнаю.

Originally published at Иван Бегтин. You can comment here or there.

Онтологии, semantic web и открытые данные
29 декабря 09 09:04

В прошлом посте мне откомментировали что онтологии это то нечто что нам ещё рановато и есть проблема в том может ли это сделать хоть кто-то.

Мне вспомнилось как несколько лет назад занимаясь разработкой одного из проектов, один из подрядчиков решил сделать форматы обмена информацией на RDF аргументируя что это ничуть не сложнее чем XML, но куда как инновационнее, лучше, круче и так далее.

Система была большая, решения принимал не я один, но было совершенно понятно что никто из других организаций вовлечённых в процесс с RDF раньше не работал и уж тем более про RDF понятия не имели конечные потребители системы. Иначе говоря в тот момент это было значительное переусложнение к которому никто готов не был. Так что в итоге подрядчик всё переделывал на plain XML.

К чему я об этом пишу.  Упоминая про онтологию гос-власти, я очень хорошо понимаю насколько все мы к этому не готовы.

У нас нет или же присутствует в крайнем дефиците:

  • квалифицированных заказчиков;
  • квалифицированных исполнителей госконтрактов по ИТ проектам и НИОКРам;
  • некоммерческих организаций заинтересованных в общественном мониторинге государственного ИТ;
  • e-Gov энтузиастов.

И онтологии тут – это, действительно, попытка забежать далеко вперёд, поскольку использование технологий Semantic Web RDF, OWL и Linked Data у нас не получило распространение даже в образовательных учреждениях (ВУЗах), библиотеках и в науке, везде где это они давно уже активно используются в США и Европе.

Чего уже говорить о системных интеграторах и госзаказчиках. Там, в лучшем случае, слышали такие термины и уж точно невелика вероятность что могут что-то сделать.

Но, что в этом случае, что во многих других важно и другое – если не начать об этом говорить, если не поднимать эту тему, то она, в высокой вероятностью, не получит своего воплощения.

Например, я начал писать про государственные закупки у себя в блоге ещё в 2007 году (пруфлинк) и 2 года, до июня 2009 года,  у меня ушло на то чтобы привлечь внимание к этой теме и только после публикации примеров с латиницей, по моим личным ощущениям, удалось зацепить аудиторию. При этом, разумеется, писал на эту тему не я один – это совокупные усилия, которые привели к некому вполне закономерному результату.

То же самое касается и других тем – открытые данные, онтологии, госуслуги и так далее и так далее. Если не формировать общественного мнения и не доносить свою точку зрения максимально наглядно – то и результата не будет.

И, относительно онтологии госвласти, а вернее OWL описания. Я внимательно посмотрел то что сделали в TopQuadrant в виде oeGov – там проведена сильная работа по систематизации, но и одновременно всё довольно просто, правда, к сожалению, не особенно применимо к российской власти и не жёстко формализована. Например, у нас в России есть такие идентификаторы у органов государственной власти как ОКОГУ и код ГРБС. При том что ОКОГУ морально устарел уже давно – он, худо бедно описывает иерархию ведомств. А код ГРБС идентифицирует ведомства с бюджетной росписью.

Для того чтобы полноценно описать ведомства и их взаимосвязь – нужна хотя бы базовая онтология их (не люблю это слово) нормотворчества, а то есть видов производимых ОГВ  документов. Поскольку у российской структуры власти своей специфики выше крыши, то, например, базовая Level 1 Ontology about Government из oeGov, к сожалению, не годится и её надо переделывать или расширять.

Но, по прежнему могу сказать, что базовая структура – без детализации отдельных ведомств и не затрагивая регионы, это вполне разрешимая задача. При том что любое её решение однозначно попадёт под критику специалистов по госуправлению, но когда есть что критиковать – есть и что исправлять и дополнять.

Кстати нашёл несколько любопытных ссылок:

Originally published at Иван Бегтин. You can comment here or there.

Онтологии для электронного государства
27 декабря 09 07:14

К вопросу о Semantic Web и его пользе. Компания TopQuadrant запустила проект oeGov на котором представлены онтологии государственной власти США, подробные онтологии ряда ведомств таких как DHS, DOE, USDA и других, а также онтологии Federal Enterprise Architecture и конституции США.

Объём смысловой и аналитической работы там огромен, а кроме того все материалы доступны под Creative Commons, интегрировано в Linked Data и так далее – подробнее в их октябрьском прессрелизе.

Я же хочу сделать акцент на том что всё это было проделано без какого-либо участия государства – просто как демонстрация их редактора TopBraid.

Что касается самих онтологий, то польза с них, в самом деле, велика – они позволяют понять структуру системы и расширять её в будущем. Например, у нас ничего близкого к этому нет. Есть масса государственных классификаторов и справочников вроде ОКОГУ или справочника ГРБС, но ни одного справочника охватывающего структуру, подотчетность и функции ГРБС’ов нет.

А почему? А потому как в госорганах нет людей понимающих необходимость выделять на это деньги и способных проконтролировать качественный результат, а организации которые были бы способны такую работу осуществить, вроде ГУ ВШЭ, РАГС или МГУ, не будут делать этого бесплатно.

Originally published at Иван Бегтин. You can comment here or there.

Semantic Data.Gov
24 декабря 09 02:21

Недавно нашёл ещё один интересный проект по данным. Группа энтузиастов/студентов обрабатывают данные из Data.Gov, классифицируют, анализиируют и интегрируют в семантический веб преобразуя их в RDF

Подробнее можно посмотреть тут – http://data-gov.tw.rpi.edu/wiki/The_Data-gov_Wiki

Конечно, было бы неплохо если бы и на data.gov появились бы семантические массивы и сам сайт был бы интегрирован в Linked Data, но и даже тот факт что данные раскрываются в структурированной форме – CSV, XML, KML и т.д. уже позволяет сделать последующее преобразование в RDF максимально просто.

Originally published at Иван Бегтин. You can comment here or there.

Про анализ кадрового резерва в графиках
22 декабря 09 12:05

На сей раз я посмотрел на этот самый кадровый резерв повнимательнее. Могу сказать что если там покопаться посерьёзнее, то много чего интересного будет, например, многие из представителей бизнеса хотя и представляют разные компании, но многие из этих компаний в общих холдингах.

А если навскидку, то вот такие любопытные наблюдения:

Соотношение мужчин и женщин составляет 87% к 13%.

Это можно посмотреть на графике.

ScreenShot046 Фактически, подавляющее число резервистов это мужчины. Что несколько странно. Например, я знаю многие госучреждения где доля женщин превышает 60%, и те где доля женщин ниже 20%. Но 13% это как-то совсем мало.

Большинство резервистов старше 34 лет, но все младше 51

ScreenShot047 При том что на графике видно что есть резервисты и 26  летнего возраста (в основном это депутаты), но подавляющее  их большинство в возрасте от 34 лет.

Практически все молодые резервисты – мужчины

ScreenShot048

На этом графике отображено распределение “резервистов” по возрасту и полу. Например, можно пронаблюдать что молодых женщин “резервистов” очень мало, а если пройтись по списку, то можно убедится что все они депутаты разного рода собраний.

Более 58% всех “резервистов” работают в Москве

На графике можно пронаблюдать распределение всех “резервистов” по регионам текущего места работы. Именно места работы, а не происхождения – это важно. Например, все депутаты Госдумы, сотрудники федеральных органов власти, за исключением региональных представительств и когда это не оговорено отдельно, относятся к Москве.

ScreenShot049

Желающим строить собственные графики готов переслать файл в Excel’е или CSV, отмечайтесь в комментариях – перешлю на email. В общий доступ пока не выкладываю, но если будут соображения что стоит – выложу.

P.S. Между прочим так, обращу внимание что кто-то из редакторов сайта kremlin.ru прощёлкал, не сказать по другому, Custom Properties у документа со списком кадрового резерва, того который называется “Список лиц, включённых в резерв управленческих кадров, находящихся под патронажем Президента Российской Федерации (кроме «первой сотни»)” и доступен по ссылке вот тут http://www.kremlin.ru/news/6409.

А в по этим Custom Properties видно ФИО публиковавшего и отметка Outlook’а _AdHocReviewCycleID.  Сверхстрашного, конечно, тут ничего нет, но лучше за такими мелочами следить и их не допускать.

Originally published at Иван Бегтин. You can comment here or there.

Анализируем топ 500 кадрового резерва Президента
21 декабря 09 05:19

На kremlin.ru недавно опубликовали очередную группу участников забега резерва управленческих кадров при президенте. На сей раз 500 человек, из совокупной тысячи.

Собственно посмотреть этот список можно тут: http://www.kremlin.ru/news/6409

Лично у меня пока ещё не дожли руки его подробно проанализировать, но рано или поздно (до конца года) дойдут. Пока же предлагаю любопытным поковырятся в разных данных взглянуть эту табличку с точки зрения того что туда можно добавить и какие выводы можно сделать.

Что добавить

1. Пол – обязательно указать пол, это можно сделать как в ручную по ФИО, так и автоматически. Автоматически, конечно, правильнее – задача то простая.

2. Возраст – из 2010 года надо вычесть дату рождения. Почему из 2010? Потому как он через 10 дней. Проще сразу из него

3. Национальность (?) - опять же можно определить по ФИО, но не особо представляю зачем. Но можно.

4. Тип организации – это верхнеуровневые категории которые там указаны

5. Организация - присутствует в описании замещаемой должности и описывается в нормализованной форме приводя к вышестоящей организации для филиалов. Например, если это подразделение ФНС по области, то организация это ФНС России

6. Регион работы – присутствует в описании должности. Необходимо привести в нормализованной форме

7. Отрасль организации – для представителей коммерческих организаций, укрупнённая отраслевая разбивка: банки, нефтегаз. сектор, химическая промышленность и так далее.

8.  Партия - партийная принадлежность. Для профессиональных политиков это присутствует в описании должности, для остальных, похоже, найти можно только где-либо в Интернет’е

Далее по каждому срезу можно провести анализ по распределению резервистов по разным категориям.

Из того что я лично вижу беглым просмотром списка:

а. Очень мало женщин, всего от 10 до 20%.

б. Возраст трёх резервистов составит 26 лет в 2010 году (1984 года рождения)

в. Нет ни одного человека возрасте более 60 лет (рождённых в 50-х)

г. Распределение по декадам:

- 1960-е : 248

- 1970-е: 221

- 1980-е: 31

Разумеется объём данных, сам по себе, небольшой. Будь побольше информации, побольше времени и ресурсов – получилась бы отличная инфографика.

P.S. Кстати, обнаружил в списке резервистов Алексея Кузовкина из Армады и Сергея Габестро из Фабрикант.Ру. Других представителей ИТ, вроде, нет

Originally published at Иван Бегтин. You can comment here or there.

Про портал госуслуг в передаче Точка на Эхе
21 декабря 09 02:18

В воскресенье был прямой эфир передачи Точка, которую ведёт Александр Плющев. На сей раз темой был портал госуслуг, гостем был советник министра связи РФ Илья Массух, а Катерина Аксенова (gov-gov.ru) и ваш покорный слуга (www.opengovdata.ru) выступили в качестве экспертов с вопросами по этому порталу.

Саму передачу можно послушать тут: http://echo.msk.ru/programs/tochka/642661-echo/

Самые интересные моменты:

1. Сайт обошёлся в 100 миллионов рублей.

2. Первые по настоящему электронные услуги планируются к 2012 году.

3. На сайте поставили счетчик Топ 100 Рамблера вместо Google Analytics. Подозреваю что не я один им на это указал у себя в блоге.

4. В передаче я озвучил предложение публиковать отзывы пользователей на услуги по аналогии с комментариями в блоге и составить рейтинг ведомств по времени отклика и исправления по этим отзывам.

5. Минсвязи и Ростелеком за точность и достоверность информации ответственности не несут – за всё отвечают сами ведомства.

6. Сейчас на портале около 100 услуг и 400, остальные “оцифровываются”.

А вообще по госуслугам я хочу дождаться момента пока там не появится что-то осмысленное – вроде личного кабинета и хотя бы одна услуга полностью.

Жаль лишь я не успел ничего спросить насчёт того что данные – это не услуги и надо бы создать data.gov.ru, только Катерина успела чуть затронуть эту тему, за что ей спасибо.

Originally published at Иван Бегтин. You can comment here or there.

Про “Атлас Москвы”
18 декабря 09 02:59

Попробовал сегодня открыть недавно анонсированный сайт Atlasmoscow.ru.

Честно говоря, учитывая что начали появляться приличные госсайты вроде сайта президента, Минфина или Минздравсоцразвития – так вот этот Атлас выглядит как-то, не очень, мягко скажем.

Я ещё понимаю несколько лет назад полноценно работающих GIS систем на Flash было немного, но сейчас то когда есть карты Google, Яндекса и даже Rambler’а и Microsoft, после всего этого ощущения от Autodesk’овской карты на ActiveX самые что ни на есть неприятные.

Но мало того что он сайт работает только в IE, так и даже в IE там глюки. С чем я столкнулся сразу же.

Здесь сбоит  кодировка.

ScreenShot044

А тут сразу Access Violation в OCX.

ScreenShot045

А по щелчку на карту браузер просто глухо падает. Во всех случаях ничего особенного не делалось, просто сайт был в IE открыт, а ActiveX компонент установлен.

Там же на сайте, кстати, приводится Распоряжение мэра о вводе его в промышленную эксплуатацию и там первой фразой идёт пункт.

В целях обеспечения публичного доступа к открытой  части  интегрированных  пространственных данных города Москвы (электронного Атласа города Москвы) через порталы глобальной сети Интернет

Нужно ли этот сайт исправлять? Я считаю что нет. Пусть будет как есть, вместо этого у меня есть контр предложение московскому правительству.

А Вы вместо ГИС системы начните наконец публиковать открытые данные которые каждый бы мог наложить на карты того же Яндекса. Вот и будет публичный доступ и распространение в глобальной сети Интернет. И денег на это практически не потребуется – всего один раз описать структуры таблиц и предоставить в открытый доступ.  А там глядишь и до портала открытых данных города Москвы дойдёт.

Originally published at Иван Бегтин. You can comment here or there.

Про госуслуги ничего, про сайт что-то
16 декабря 09 03:21

Про госуслуги и портал (www.gosuslugi.ru) пока ничего писать не буду – по моему ещё просто рано, пусть там хотя бы одна появится и ей можно будет воспользоваться.

А вот использование счетчика Google Analytics на государственном сайте и отсутствие документа под названием “Политика конфиденциальности”, прямо скажем, не радует.

Originally published at Иван Бегтин. You can comment here or there.

8-ФЗ и портал Красноярского края и Росавиации.
16 декабря 09 12:08

Журналистам на заметку.

с 1 января вступает в силу 8-ФЗ http://www.rg.ru/2009/02/13/dostup-dok.html Об обеспечении доступа к информации о деятельности органов власти и органов местного самоуправления.

А ещё в марте месяце я писал про то что у нас не все ОГВ и субъекты к нему подготовились, даже на самом формальном уровне. И с того времени ничего не изменилось.

Например, в законе есть  пункт:

5) официальный сайт государственного органа или органа местного самоуправления (далее – официальный сайт) – сайт в информационно-телекоммуникационной сети Интернет (далее – сеть Интернет), содержащий информацию о деятельности государственного органа или органа местного самоуправления, электронный адрес которого включает доменное имя, права на которое принадлежат государственному органу или органу местного самоуправления.

Если взглянуть на те сайты что я там приводил, то домен как минимум одного из них, Портал администрации Красноярского края (http://www.krskstate.ru)  по прежнему принадлежит Joint Stock Company “Intertax”. Проверяем тут https://www.nic.ru/whois/?query=KRSKSTATE.RU

Такая же картина с сайтом РосАвиации – http://www.favt.ru/ домен которого принадлежит ООО InfAvia https://www.nic.ru/whois/?query=favt.ru.

А также напомню из 8-ФЗ о том что:

3. Надзор за исполнением государственными органами, органами местного самоуправления, их должностными лицами настоящего Федерального закона осуществляют органы прокуратуры Российской Федерации в порядке, установленном Федеральным законом “О прокуратуре Российской Федерации”.

Понятно что в 8-ФЗ куда больше требований, но эти то просто прямо на поверхности.  Удивляюсь что никто из журналистов ещё не связывался с их пресс-службами, ведь формально с 1 января эти официальные сайты становятся не-официальными. Такая тема пропадает!

Originally published at Иван Бегтин. You can comment here or there.

Нормальная жизнь или магический театр
15 декабря 09 08:32

Я обычно пишу на всяческие ИТ темы, поскольку считаю их наиболее интересными, важными и так далее. Но это не значит что более нет ничего другого.

Так получилось что в течении буквально нескольких дней я практически одно за другим, вначале прочитал статью Леонида Костюкова “Нормальная жизнь” и посмотрел экранизацию романа Германа Гессе “Степной Волк”. Причём ранее этот роман я как-то всё упускал из внимания, слышал много, а вот прочитать или посмотреть спектакль или кино не удавалось.

А тут одно наложилось на другое, причём диаметрально противоположное. “Степной волк” – о стремлении подняться над обыденностью и мещанством, а “Нормальная жизнь” – это взгляд на окружающую действительность как раз с точки зрения нормальности обыденной и повседневной жизни.

Скажу честно меня это натолкнуло на довольно серьёзные размышления, поскольку по всему что я наблюдаю последние лет 5 не покидает чувство что нормальной жизни то и нет или очень мало.

По общественным критериям у меня и самого жизнь не вполне обыденна:

1. Я провожу за компьютером до 6 часов в сутки.

2. Не смотрю телевизор уже 2 года.

3. Не читаю газет кроме онлайновых.

4. Пишу про всяческие государственные темы у себя в блоге.

5. Давно уже не обладаю привязанностью к вещам за пределами создания необходимого рабочего комфорта.

Всяческие хобби, отдых друзья – это отдельно.

Но к творческим личностям я лично себя отнести не могу. Для меня это и есть нормальная жизнь, естественное состояние и направления для концентрации усилий.

А что для Вас нормальная жизнь?

Originally published at Иван Бегтин. You can comment here or there.

Карачинский про государство и госпроекты
15 декабря 09 01:51

На Cnews совершенно необычная лекция Александра Карачинского (главы IBS), где он довольно откровенно говорит и про госпроекты в частности. http://cnews.ru/news/top/index.shtml?2009/12/15/373408

Нет, я верю что в частных разговорах или в небольших лекциях есть те кто говорит откровенно, но публичная видеозапись да на Cnews – это что-то непривычное и необычное. Особенно учитывая число госпроектов сделанных IBS и её дочерними структурами за последние года 4. Не сотни, но десятки.

Просто интересно, сколько времени это видео на сайте Cnews провисит?

И что же случилось с Александром Карачинским, не слава же Дымовского стучит в его сердце?

Originally published at Иван Бегтин. You can comment here or there.

Росалкогольрегулирование
15 декабря 09 01:02

На сайте правительства наконец-то появилась ссылка на сайт РосАлкогольРегулирования (http://www.fsrar.ru/) и, если верить новостям на сайте, то существует он уже почти год во что лично я верю с трудом ибо мои предыдущие попытки его найти так и не увенчались успехом.

Как бы то ни было сайт вот он, есть. Сделан на Joomla, это видно невооружённым взглядом на текст страниц.

Выглядит же он пока страшновато – поиск нет, все документы одной кучей, контакты и реквизиты выглядят кошмарно – в общем видно что делался сайт своими силами.

А вот проект концепции государственной политики по снижению масштабов злоупотребления алкоголем и профилактике алкоголизма среди населения Российской Федерации на период до 2015 года там имеется – http://www.fsrar.ru/rosalcogolregulirovanie/45-informacionnoe-soobshenie-zloupotreblenie и даже можно присылать по нему замечания на предлагаемый ими email.

Там есть амбициозные разделы, например,

на втором этапе (2013-2015 гг.):

• ликвидация нелегального алкогольного рынка;

• снижение среднедушевого уровня потребления алкоголя ниже уровня, определенного Всемирной организацией здравоохранения, как представляющего собой национальную опасность;

• кратное снижение уровня потребления молодежью алкогольной продукции, в том числе пива.

Верится мне в этом с трудом, а сама концепция интересна с той точки зрения что это ещё одно подтверждение необходимости единого государственного или некоммерческого ресурса для обсуждения таких документов в том формате как это было с концепцией развития здравоохранения до 2020 года (http://www.zdravo2020.ru).

Originally published at Иван Бегтин. You can comment here or there.

Торрент трекер для датасетов и открытых данных
15 декабря 09 12:28

Игорь Артамонов буквально вот-вот запустил сайт http://www.datasetpublisher.com/ где будут публиковаться torrent’ы открых данных которыми бы хотелось поделиться и которые хотелось бы скачать.

Пока данных там немного, но уверен что будет больше.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Росграница повышает информационную открытость?
15 декабря 09 12:11

Читаю новости федеральных агентств и наткнулся на эту http://www.rosgranitsa.ru/node/1373

15-16 декабря 2009 г. в Новосибирске пройдут учебно-методические сборы сотрудников территориальных управлений Росграницы и ФГУ Росгранстрой, отвечающих за взаимодействие со средствами массовой информации.
Цель сборов – перейти на новый уровень коммуникации, расширить свои знания, навыки и возможности в области связей с общественностью. Основная часть сборов будет посвящена совершенствованию практических навыков. Преподаватели САУиМК проведут также несколько теоретических занятий по медиа планированию, организации мониторинга СМИ и подготовке аналитических материалов, а также выработке критериев и оценке эффективности использования средств коммуникации для различных информационных мероприятий и программ.

Меня одного не покидает чувство что информационная открытость это несколько иное?

Если бы речь шла о создании блога ведомства или о том чтобы документы нормативно-правовой базы (http://www.rosgranitsa.ru/about/regulatory)  можно было не только смотреть, но и искать, или о публикации квартальных или ежемесячных отчетов о деятельности или же о соответствии 8-ФЗ который вступает в силу с 1 января 2010 года или же если бы карта пунктов допуска (http://www.rosgranitsa.ru/apdb) была бы не на движке OpenLayers с совсем не впечатляющей визуализацией, а предоставлялся бы KML файл который каждый желающий мог бы наложить на карты Google или Яндекс или какие угодно, как угодно, где угодно.

Думается мне что путать работу со СМИ и понятие “информационная открытость” неправильно.

Originally published at Иван Бегтин. You can comment here or there.

Wanted Data 2
15 декабря 09 11:54

Wanted Data – это информация которая, как я лично считаю, должна быть общедоступна, машиночитаема и доступна без лицензионных и правовых ограничений.

Последний список я публиковал в сентябре и туда входили данные по экомониторингу, перечни строек и адреса госучреждений.

Продолжу его поплнять. Какая ещё информация является актуальной и социально значимой:

1.  Региональные и муниципальные сводки МВД. Без персональных данных, с огрублённым указанием места происшествия - с точностью до улицы или муниципалитета, но с обязательной классификацией тяжести преступления, времени, числа пострадавших/погибших и так далее.  Сейчас МВД и ГИБДД публикуют лишь агрегированную информацию и 2-3 примера происшествий из нескольких сотен. Эта информация выглядела бы вполне к месту на портале 112.ru.

2. Аналогичные сводки МЧС. Также без персональных данных и с огрублённым указанием места происшествия.  Достаточно должно быть распоряжения президента о раскрытии подобного рода информации, если конечно не окажется что она попадает под гостайну.

3. Всё законодательство или, канцелярским языком, вся “нормативно-правовая база“. Должно быть доступно с указанием метаданных. Для этого достаточно принятия постановления правительства о раскрытии данных из ГСРПА (Государственной системы распространения правовых актов) в машиночитаемой форме. Правда я думаю что создатели коммерческих продуктов, таких как Гарант и Консультант будут биться здесь насмерть чтобы этого никогда не случилось.

4. ГОСТы и техрегламенты – должно быть обеспечено не просто раскрытие документов, а с четкими требованиями как, в каких форматах и с какими метаданными.

5. Общероссийские классификаторы – в обязательном порядке и в открытом доступе. Пример того как это реализуется можно посмотреть на http://www.mosclassific.ru/ где все московские классификаторы публикуются в DBF и XML форматах. Даже при том что для того чтобы их скачать надо зарегистрироваться (бесплатно), но всё равно им за это респект и уважуха  большое человеческое спасибо.

6.

Originally published at Иван Бегтин. You can comment here or there.

Языки программирования и регулярные выражения
15 декабря 09 02:22

Оказывается на http://shootout.alioth.debian.org/ публикуют метрики большинства современных языков программирования из тех что можно запустить на Ubuntu, а то есть практически всех.

Из особенно интересного там есть метрики применения регулярных выражений – http://shootout.alioth.debian.org/u32q/benchmark.php?test=regexdna&lang=all&box=1 на Intel QuadCore Q6600.

Кстати, там много и других интересных сравнений реализаций алгоритмов.

Ну а для регулярных выражений, судя по тестам, там лидирует V8 JavaScript engine из Chromium. Ещё в феврале этого года они писали про движок Irregexp у себя в блоге и то что там реализовали компиляцию регулярных выражений в промежуточный автомат.  Что и говорить, результаты впечатляющие, обгоняют даже C++ реализацию на Boost, а мой любимый язык разработки Python так вообще отстаёт в 6 раз.

Как я вижу,  даже это шестикратное ускорение, на мой взгляд, недостаточно поскольку не решена другая немаловажная задача – построения индекса из регулярных выражений, дабы ускорить проверки текста и поиск по тексту когда выражений могут быть сотни.

С другой стороны, если промежуточный автомат они построили, то построить их индекс уже проще. Такие исследования и наработки уже были и в закрытых реализациях существуют.

P.S. Кстати, бегло посмотрев код могу констатировать тот факт что в другие языки irregexp вполне можно перенести и вся реализация там укладывается в 700 строк, и, конечно, важно проверить его работу на живых, а не синтетических примерах дабы понять производительность на не-ASCII символах.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Люди как “черные ящики”
13 декабря 09 04:17

Продолжая размышления о ближайшем будущем, приведу ещё несколько серий размышлений на эту тему.

Я ранее уже писал про то что наверняка появятся люди-камеры пишущие каждый свой шаг, но думаю что до того как они появятся будет другое явление “люди – черные ящики“. Что это такое?

Все, конечно, знают про черные ящики для самолётов, не так уж давно появились такие устройства для автомобилей, но следующий, наиболее очевидный шаг – черные ящики для людей. Да, живёт себе человек – ходит, спит, ест, работает и одновременно с ним находится устройство которое непрерывно пишет о нём информацию: сердечный ритм, температуру, иные параметры тела, окружающие звуки, видео, местонахождение и так далее.  Думаю что те кто играл в компьютерные игры и читал фантастическую литературу вспомнят что там это встречалось не раз. Я же сейчас хочу сделать акцент на том что всё это возможно уже сейчас и единственная причина почему до сих пор не популярно лишь в одном – отсутствии законченного технического решения и в отсутствии бизнес модели или “монетизации”.

Если говорить о технологии, то нужно то здесь по сути немногое:

1. Основное устройство записи информации, может быть совмещённое с телефоном/смартфоном, но скорее отдельное и с ним интегрированное.

2. Миникамера и диктофон в виде пуговицы, броши или диадемы – камеры схожего фактора есть, но пока больше для всяких шпионских целей.

3. Датчики состояния организма – уже давно существуют и активно используются для мониторинга хронических больных

Все устройства взаимодействуют с основным посредством протокола по аналогии с Bluetooth, но с предельно минимальным радиусом – максимум до пары метров.

Основное устройство хранит информацию за последние несколько часов, столько на сколько хватает памяти, и время от времени может сбрасывать накопленную информацию на сервер.

Что это даст:

1. Добавив к собираемым данным алгоритмы распознавания речи это даёт распечатки разговоров и возможность восстановить в памяти чей-либо контакт, вспомнить о чем был разговор и иметь возможность предъявить запись в случае спорных моментов.

2. Иметь улики в случае преступлений так как в случае ограблений или нападений информация о нападавших будет записана на устройство или даже сразу же передана на сервер – это возможно с развитием 3G

3. Сделав возможность включать и выключать запись можно обязать представителей правопорядка включать её перед задержаниями преступников.

4. В случае смерти человека – немедленное поступление информации о его местонахождении. Равно как и в случае бессознательного состояния.

5. Для военных – это достоверная информация при расследованиях гибели солдат.

Наверняка найдутся и другие применения, но суть в том что есть и недостатки. Ключевой из которых является нарушение приватность причём не только собственной, но и множества окружающих людей. В эту непрерывную запись может попасть многие кто бы туда попадать не захотел.

Но, при всём при этом, лично я убеждён что это обязательно появится. Причём вначале у американских военных, а далее перейдёт в частный сектор и будет пользоваться непрерывным спросом у всех кто опасается за свою жизнь, фриков, корпоративных шпионов и любителей самоорганизации.

Есть и ещё один коммерческий довод в пользу вышенаписанного. Уже существуют небольшие террабайтные SSD диски и, такими темпами, через пару лет будут террабайтные микродиски с очень низким потреблением, но сейчас реальной потребительской потребности в этих террабайтах нет, поскольку в мобильных устройствах ничего кроме видео не может занимать таких объёмах.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 1 Comments    
Ссылки на 10.12.2009: Проекты Microsoft
10 декабря 09 04:54

Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:

  • Codename Dallas  - http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные в большом количестве.
  • Microsoft Academic Search – http://academic.research.microsoft.com. Поисковик по научным работам в разных областях науки, в основном, околокомпьютерных. Мне понравилось наличие разных полезных срезов – по журналам и конференциям
  • eGov 2.0 kit – http://egov.codeplex.com/. Движок на базе Sharepoint’а по построению сайтов для eGov. При том что мне не особо нравится реализация, сама идея довольно разумна – CMS или полуфабрикат для госсайтов.
  • EntityCube – http://entitycube.research.microsoft.com/. Проект по выявлению “именованных сущностей”, различных осмысленных фактов о персонах и организациях. На мой взгляд он тесно пересекается идеологически и информационно с Powerset’ом купленным Microsoft недавно и интересно как дальше будут развиваться события. Будут ли их объединять в гибрид, например.

Кстати в Research  же занимаются ещё одной наработкой/небольшой библиотекой – Site Analyzer  http://research.microsoft.com/en-us/downloads/58e8953e-3626-4994-bf95-19039e978223/default.aspx

Проектом это назвать рановато, но возможность структурировать веб-страницы форумов, определять шаблоны URL’ов туда уже закладывается. А это уже ровно то же самое чем я занимаюсь, только подходы разные.

Они используют извлечение признаков, кластеризацацию и анализ коэффициентов сходства, в данном случае, коэффициентов Жаккара, а я использую модель предварительного выявления типовых шаблонов и построения карты микропризнаков или “объектной карты”.

Кстати, для анализа HTML в Site Analyzer’е свой парсер который кроме обычной информации об элементе DOM-дерева фиксирует поля о его глубине, числе потомков и так далее. Я знал, я знал что не один я об этом ломал голову, что приятно.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Data.gov – Concepts of Operations
09 декабря 09 10:28

В блоге SunLight labs появился интересный документ, драфт Concepts of Operations для Data.Gov.

Concept of Operations – это что-то вроде Vision (Концепции проекта) документ обзорный для формирования понимания.

В документе подробно расписывается зачем нужно раскрывать данные, как это делать лучше всего, в каких форматах и то какой будет следующая версия Data.Gov. Там всего 49 страниц, но упоминаются лучшие практики, техники Semantic Web, Wolfram Alpha и прочая и прочая.

Скачать его можно по ссылке тут: http://www.ideascale.com/userimages/sub-1/736312/ConOpsFinal.doc

А вот насколько отстаём мы по открытости информации? Лет на 5 не меньше. Причём главное отставание “в головах” ибо мало кто всё ещё понимает зачем это нужно и что это даёт.

Плюс добавлю ссылку на Open Government Directive – http://www.whitehouse.gov/omb/assets/memoranda_2010/m10-06.pdf

Это распоряжение Барака Обамы по поводу раскрытия данных. Его стоит почитать полностью, а также обратить внимание на следующий текст.

To the extent practicable and subject to valid restrictions, agencies should publish information online in an open format that can be retrieved, downloaded, indexed, and searched by commonly used web search applications. An open format is one that is platform independent, machine readable, and made available to the public without restrictions that would impede the re-use of that information

Итак там есть очень четкое определение: открытый формат – это формат который является платформо-независимым, машиночитаемым, публичным без ограничений накладываемых на повторное использование информации.

Это всё сильно отличается от нашего 8-ФЗ и воспоследовавшего ему постановления правительства.

Об этом же пишет Катерина в gov-gov.ru – http://gov-gov.ru/?p=1072

В любом случае – будущее за открытыми форматами и открытыми данными

Originally published at Иван Бегтин. You can comment here or there.

Алгоритмы, анализ Рунета и не только
08 декабря 09 12:29

Я тут постепенно отлаживаю свои алгоритмы построения “объектных карт сайтов”. Постепенно – поскольку приходится учитывать сотни разных параметров и заниматься микроклассификацией.  Что весьма увлекательно и в равной степени рутинно. Часть алгоритма – это определение CMS сайта для анализа его ссылочной структуры. Собственно главным является определение ссылочной структуры, а знание CMS в этом предполагается что помогает.

Причем то какая CMS используется определяется не просто по meta generator, а по нескольким десяткам правил, проверок и всяческим особенностям Рунета и так далее.  Плюс не все CMS можно определить достаточно просто, поскольку иногда нужно простучать до 10 страниц, а это может быть истолковано как проверка сканерами уязвимостей – хотя здесь цель совсем иная .

В результате  по тестовой выборке в 25 000 сайтов на 10% сайтов определяется CMS одна из 40 возможных по которым работает алгоритм и на 30% различные сервисы парковки которые, с некоторой натяжкой, тоже можно рассматривать как подвид CMS.

В общем-то определение CMS, задача, разрешимая и кроме меня ещё несколькими сервисами решённая, но для моих целей оказывается тупиковой ибо слишком невелик процент распознаваемых CMS в принципе. А то есть знание CMS сайта конечно может помочь в корректировке ряда других алгоритмов, но решающим знанием не является.

А вот то о чём я ранее писал, алгоритм определения коммерческой направленности ресурса наконец-то готов. Его смысл не в тематической классификации, а в ответе да/нет на простой вопрос “Сайт коммерческий?”.

Сейчас как раз идёт обработка тестовой выборки для этого алгоритма. Определяются таковыми примерно треть сайтов, по первоначальным произвольным проверкам ошибки первого рода не наблюдаются. Впрочем, детальная проверка займёт ещё пару дней, но основа уже готова.

Собственно его упрощенную версию я использовал при выявлении SEO-ссылок. Имея возможность определить является ли сайт коммерческим, зная его тематику и имея возможность сопоставить ключевые слова по ведущей на него ссылке тематике – это и есть основа определения таких ссылок. Всё остальное – лишь признаки для корректировки.

Итого Рунет можно классифицировать:

  • по структуре
  • по тематике
  • по коммерциализованности
  • по геометкам

И каждый из этих срезов по своему интересен.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Меряем DNS сервера namebench’ем
05 декабря 09 10:24

Слегка задумавшись над темой DNS серверов вообще нашёл такую программку как Namebench – http://code.google.com/p/namebench/

и проверил с её помощью какие DNS сервера работали бы наиболее эффективно.

Результат на картинке

ScreenShot028

Что характерно лидируют с отрывом DNS сервера Ростелекома. А вот то что касается Google Public DNS, то тут у меня тест не чистый поскольку параллельно у меня практически непрерывно работает краулер собирающий обучающую выборку для ряда алгоритмов и который как раз сейчас через Google Public DNS определяет домены, но субъективно среднее время отклика будет получше.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Google Public DNS
03 декабря 09 11:27

Тут оказывается Гугл организовал Google Public DNS. Почитать можно тут – http://code.google.com/intl/ru-RU/speed/public-dns/ или на Хабре – http://habrahabr.ru/blogs/google/77199/

Надо только прописать себе DNS сервера от Google вместо провайдерских и, вуаля!,  блокировки домена на стороне провайдеров не работают, да и скорость, по отзывам, у DNS от Гугл неплохо так работает.

Не то что бы идея новая, достаточно вспомнить про OpenDNS и массу открытых публичных DNS серверов в сети, но определённо впервые о том чтобы запустить публичный, быстрый и бесплатный сервис игрок уровня Гугла.

Но, что лично мне особенно интересно, как теперь будут работать многие провайдерские фильтры во многих странах и как провайдеры теперь будут считать свою статистику?

Варианты я вижу следующие:

1. Заблокировать Гугловские DNS сервера.  Плюс в том что быстро, минус в том что с распространением блогов трудно будет уйти от публичности. А то ведь пользователи это найдут и обязательно об этом напишут.

2. Редиректить на свои DNS сервера. Правда у меня нет 100% уверенности что с DNS запросами так можно и правильно поступать и это должно быть чуть сложнее.

Собственно Гуглу это должно дать прекрасную статистику пользовательской активности в сети. При этом подавая всё как полезный бесплатный сервис. Да, мне лично вспоминается статья Пола Грэхема Microsoft is Dead, а Гугл определённо рвётся в лидерство по большебратовости.


Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Обновление Скиура
01 декабря 09 12:49

Как многие заметили в последнее время Скиур не распознавал многие из новостных страниц.
Основной проблемой этого являлась нарастающая нагрузка на и увеличивающееся число страниц для распознавания что и приводило к таймаутам и т.д. до ненахождения информации.

Чтобы решить эту проблему Скиур был довольно серьёзно изменён внутри:
- заменён парсер на более быстрый
- оптимизированы алгоритмы работы с регулярными выражениями
- анализ страниц выделен в отдельный сервис и теперь происходит асинхронно отображением.
- страницы проверяются на обновление раз в сутки.
- улучшено распознавание кодировок

Визуально практически ничего не изменилось, за исключением того что теперь при запросе ссылки на распознавание установлен таймаут в 7 секунд.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    

This Blog

Tags

Archives

Syndication