Апрель 2009 - Posts

n/a
30 апреля 09 02:35

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно - число набранных студентом баллов - это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон “Об организации проведения встречи глав государств и правительств стран - участников форума “Азиатско-тихоокеанское экономическое сотрудничество” в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации”  за формулировкой “о внесении изменений в отдельные законодательные акты” скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык - можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного - лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент - CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

n/a
30 апреля 09 02:35

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно - число набранных студентом баллов - это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон “Об организации проведения встречи глав государств и правительств стран - участников форума “Азиатско-тихоокеанское экономическое сотрудничество” в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации”  за формулировкой “о внесении изменений в отдельные законодательные акты” скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык - можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного - лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент - CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

n/a
30 апреля 09 02:35

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно - число набранных студентом баллов - это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон “Об организации проведения встречи глав государств и правительств стран - участников форума “Азиатско-тихоокеанское экономическое сотрудничество” в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации”  за формулировкой “о внесении изменений в отдельные законодательные акты” скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык - можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного - лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент - CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

n/a
30 апреля 09 02:35

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно - число набранных студентом баллов - это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон “Об организации проведения встречи глав государств и правительств стран - участников форума “Азиатско-тихоокеанское экономическое сотрудничество” в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации”  за формулировкой “о внесении изменений в отдельные законодательные акты” скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык - можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного - лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент - CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

n/a
30 апреля 09 02:35

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно - число набранных студентом баллов - это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон “Об организации проведения встречи глав государств и правительств стран - участников форума “Азиатско-тихоокеанское экономическое сотрудничество” в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации”  за формулировкой “о внесении изменений в отдельные законодательные акты” скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык - можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного - лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент - CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

n/a
30 апреля 09 02:35

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно - число набранных студентом баллов - это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон “Об организации проведения встречи глав государств и правительств стран - участников форума “Азиатско-тихоокеанское экономическое сотрудничество” в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации”  за формулировкой “о внесении изменений в отдельные законодательные акты” скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык - можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного - лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент - CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

OpenGovData.ru - Банк документов и сообщества
27 апреля 09 10:58

Спасибо всем откликнувшимcя на предыдущие темы по OpenGovData.ru - я вижу что энтузиасты в стране есть, что не может не радовать. 

По проекту есть два анонса.

Первое - Для того чтобы обсуждения можно было вести ещё более открыто - появилось сообщество в Google Groups - http://groups.google.com/group/opengovdataru где я, в дальнейшем, буду в основном публиковать анонсы и информацию о развитии проекта и приглашаю всех принять участие в обсуждениях. 

Второе - появился банк документов (http://opengovdata.ru/laws/) где вместо присутствовавшего ранее закона 8-ФЗ, сейчас собранов 29 документов посвящённых темам раскрытия информации, персональным данных и государственным и муниципальным программам по информатизации. Много документов имеющих статус приказов федеральных министерств и законов регионов. 

Практический все документы сейчас в формате PDF (кроме плана Мининформсвязи по Электронной России- он в формате TIFF). Соответственно все документы открытые и публично доступные, но ранее разбросанные по сети.

Список документов можно фильтровать в нескольких разрезах и подписаться на появление новых документов посредством RSS - http://opengovdata.ru/laws/rss/ . Банк данных, внешне ещё будет меняться - появится возможность просмотра схожих документов и больше возможностей для поиска, но надо с чего- то начинать.

И если Вы знаете документы посвящённые раскрытия информации, положений об официальных сайтах и так далее находящихся в открытом доступе - присылайте на них ссылки или закидывайте их в сообщество и они обязательно попадут в общий банк данных.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
OpenGovData.ru: Основные принципы организации данных и развития
24 апреля 09 12:38

Продолжая тему OpenGovData.ru  - я продолжу несколько неформальное представление проекта и того как предполагается наполнять его данными и поддерживать.

Я постараюсь уделить больше внимания именно тому как и что будет происходить в развитии и ответить на ряд уже звучавших вопросов.

1. Долгосрочные цели - RDF/OWL/LinkedData

Долгосрочные цели проекта:

   - это перевод собираемых данных в формат пригодный к машинной обработке и навигации фактически -построение Россиийского сегмента Linked Data в части общедоступной государственной информации.

   - подготовку спецификаций и рекомендаций по законодательному закреплению раскрытия данных в машиночитаемых форматах;

   - информационное освещение вопросов раскрытия данных государством;

2. Движение малыми итерациями

Ответ на вопрос почему же не сразу RDF?

    Достичь всеобщей RDFизации и структурированности в один прыжок - это практически невозможно. Невозможно и по той причине что прежде чем придать данным подобную форму их надо в принципе получить.  Проект будет двигаться малыми итерациями - будут собраны источники информации, будут определены их основные типы и ответственные организации, будет преобразование информации в промежуточные форматы на основе которых далее массивы данных будут сводится к единым спецификациям.

3. Сбор источников и классификация источников

Это то то происходит сейчас пока идёт наполнение разделе с перечнем источников данных http://opengovdata.ru/sources/ . Это начальная и важная часть работы поскольку на сегодняшний день работа с публичными данными крайне бессистемна. Она бессистемна даже на уровне отдельных ведомств не говоря уже о государственных органах вцелом.

Помимо сбора источников информации будет происходить и их классификация, как то частота обновления, есть ли обновления в принципе (статический ли источник) и другая классификационная информация.

4. Разнородность информации - постепенное преодоление

Информация представляемая государственными органами да и вообще кем бы то ни было крайне разнородна. При том что в подавляющем числе случаев мы имеем дело с простыми табличными данными, тем не менее иногда присутствуют и сложные структуры - например данные о госзакупках или о строительстве. 

Также имеются свои особенности у данных уже доступных в структурированной форме, данных огромного объема, данных содержащих бинарные образы и так далее.

5. Формирование банка данных

Для перехода от источников информации к непосредственно  предоставлению массиво данных вскоре я представлю первый драфт спецификации и несколько массивов данных согласно  этой спецификации. После появления спецификации я надеюсь на обсуждение, её обновление по результатам обсуждения и  в дальнейшем раскрытие данных по этим спецификациям.

Предварительно могу озвучить 3 подхода к наполнению банка данных:

- ручная или полуавтоматическая подготовка данных;

   может применятся для источников непригодных для автоматической обработки

- автоматическое распознавание и обновление;

  внутри системы или в виде внешних агентов ряд программ/скриптов будут обрабатывать изначально неструктурированные данные и обновлять/пополнять ранее опубликованные данные

- импорт данных раскрываемых в специфицированных форматах;

 спецификация раскрытия позволит единожды зарегистрировав источник данных предоставлять их в общий банк. Принципы работы здесь будут близки к используемому ныне стандарту Sitemaps используемому в веб-разработке. Если или когда появятся государственные органы готовые раскрывать информацию в структурированной форме - они смогут это сделать.

6. Необработанные и первичные данные

Будут ли доступны необработанные и первичные данные в OpenGovData.ru? Их доступность будет зависеть исключительно от их объемов, но безусловно во всех случаях когда это можно будет обеспечить - это будет сделано. Одна из причин этого в том сейчас в России отсутствует какая-либо политика раскрытия информации - в результате, при обновлении государственного сайта или при реорганизации ведомств иногда огромные массивы данных просто исчезают, иногда безвозвратно.

7. Визуализация

Нужно ли обеспечивать визуализацию данных? На эту тему рекомендую почитать - Should Data.gov visualize? Probably not.  Скажу больше - есть масса государственных сайтов которые дают графики вместо информации. Плохие ли или хорошие графики, но именно они как раз и ненужны - нужны первичные данные.

8. Открытость и доступность

Все данные проекта будут доступны без каких-либо ограничений как сейчас, так и в дальнейшем. 

 

 

9.  Другие темы

   Начиная OpenGovData.ru я сознательно сделал начальный акцент ресурса именно на машиночитаемости данных. Во первых поскольку здесь царит практически вакуум информации и активности, во вторых эту тему я знаю не по наслышке.
   Тем не менее есть ещё ряд тем которые так или иначе на OpenGovData.ru будут затронуты. Например,
удобство информации на официальных сайтах и соблюдение законов о раскрытии, в частности, 8-ФЗ.
Моё личное мнение что мониторинг раскрытия и оценка его качества может осуществляться только и исключительно на следующих принципах:
  - публичная процедура сбора и группировки критериев оценки и их веса на качество раскрытия;
  - публичная процедура оценки качества раскрытия по критериям. 
  - открытое соотнесение любого рассматриваемого веб-сайта по данными критериям с последующей публикацией 
  - машиночитаемость результатов анализа;
  - доступность и воспроизводимость первичных данных анализа.
    Я знаю что мониторинг госсайтов требованиям 8-ФЗ был запланирован в программе Электронная Россия на конец 2009 года, хотя и не знаю кто именно его будет осуществлять. Надеюсь лишь что результаты будут доступны онлайн и их можно будет разместить и на OpenGovData.ru. 
    Относительно других мониторингов, например, того что делал/делает Институт Свободы Информации - я ещё раз выражу моё да и не только моё мнение.  До тех пор пока институт занимался доступностью  информации о ГОСТах я относился к его деятельности с определённым уважением,   с того момента как они начали публиковать свои “рейтинги открытости” по закрытым методикам и критериям с упоминанием анонимных “экспертов” иначе как самодискридитацией их деятельности я это назвать не могу.  Оценка открытости без открытости самой оценки - это нонсенс. 

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
OpenGovData.ru - ранний анонс
21 апреля 09 11:21

Дорога в тысячу ли начинается с одного шага.

Запустился в самой первой (альфа-редакции) сайт OpenGovData.ru  Те  кто читал мои размышления по data.gov.ru могут найти там самое начало старта подобного проекта на некоммерческой основе.

Что такое OpenGovData.ru? В первую очередь - это некоммеческий ресурс где сейчас собирается информация по всем общедоступных массивам данных, реестрам, перечням и статистической информации раскрываемой государственными органами и подведомственными ими организациями.

Сейчас основная тема сайта - это систематизация открытой информации предоставляемой государственными органами власти включая последующее раскрытие общедоступной информации в машиночитаемой форме.

Особенность раскрытия данных именно в России в том что качественных данных очень мало. Подавляющее число реестров, перечней и так далее раскрывается в форме непригодной к машинной обработке кроме как специальными средствами - разработанными парсерами.

Этапы сбора и систематизации открытой информации

Сейчас первый и предварительный этап проекта в течении которого происходит сбор информации о публично доступных массивах данных уже раскрываемых в сети. В базе проекта уже содержится информация о 186 различных источников федеральных органов власти, администраций субъектов Российской Федерации и администраций муниципальных образований. 

Информация об источнике информации включает следующие данные:

  • название;
  • описание и комментарии;
  • ссылку на подробности описания;
  • ссылку на постоянное местонахождение;
  • форматы;
  • тип источника (API / Массив данных / Каталог ссылок);
  • Язык;
  • Ответственная организация;
  • Копирайт/Условия использования;
  • Даты внесения и последнего обновления;
  • Тэги

 Плюс этот реестр будет активно пополняться - сейчас есть ещё около 130 источников ожидающих верификации и систематизации.Плюс, например, пока ещё нет ссылок на статистику раскрываемую Росстатом, а только там несколько десятков если не сотен таблиц.

Следующий второй этап начнётся с середины/конца мая 2009 года - в разделе открытые данные  будут появляться первые обработанные срезы в форматах TSV (Tab-Separated Values), XML, JSON и, возможно, YAML плюс спецификации данных.  Также продолжится сбор открытых источников информации в общий реестр. 

Некоторые данные у меня уже практически готовы для публикации, сейчас идёт их преобразование в разные форматы.

На третьем этапе данные прошедшие структуризацию будут проходить систематизацию и последующее преобразование в RDF плюс подключение к Linked Data. Точные сроки начала этого этапа сейчас назвать сложно, предположительно середина 2010 года

О других темах

Хотя сейчас на сайте основной акцент на машиночитаемых открытых данных, это не единственная тема которую предполагается там охватить. 

Конечный список предполагаемых тем:

  • публичные и открытые критерии оценки открытости и результаты мониторинга открытости государственных сайтов ;
  • юзабилити/удобство работы с государственными сайтами;
  • работа с персональными данными;
  • законодательство о раскрытии данных;

Каждая из тем велика сама по себе и я предполагаю каждую из них как отдельным подпроектом в opengov.ru в виде поддоменов или отдельных разделов сайта. Точные сроки их появления сейчас я привести не могу, но до конца этого года будет запущен хотя бы один из подразделов.  Если есть жела

Статус проекта

OpenGovData.ru - это некоммерческий и негосударственный проект.

Это означает что:

1.  На нём не будет рекламы.

2. Все размещаемые материлы кроме отмеченных отдельно будут доступны под Creative Commons Attribution 3.0 License.

3.  На нём не будет коммерческих сервисов.

Сейчас я начинаю его как частную инициативу и, если будут желающие/энтузиасты поучаствовать - приглашаю. 

Социальность

Пока в OpenGovData.ru нет возможностей для “социализации” как-то комментарии или а-ля соц. сеть и я лично сомневаюсь что они там нужны, но некая среда общения нужна будет. Это сейчас открытый вопрос и предложения приветствуются. 

Как можно помочь проекту

1. Самый простой способ - замечаниями и предложениями.

2. Просмотрев список источников данных и присылая мне новые на ibegtin@gmail.com, вскоре появится форма отправки на сайте.

3. Материально не сейчас, но когда будут появлятся открытые данные, начнётся их активная выгрузка и трафик начнёт съедать деньги.

4. Информационно - упоминая в принципе о появлении проекта и привлекая энтузиастов.


Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Будет книга по АнтиСЕО
17 апреля 09 12:40

Пособирав в последнее время  все имеющиеся материалы прихожу к выводу что на пару книг у меня их хватит. А если писать активно, а не как сейчас - 2-3 страницы в день, то и на большее число. 

Тем, в принципе много, но конкретно сейчас есть желание завершить книгу которую я начал ещё в середине 2008 года по тематике АнтиСЕО - название будет несколько отличаться, но смысл именно таков. 

Основные способы и последствия продвижения сайтов с точки зрения выявления SEO активностей и платных/SEO ссылок поисковыми системами. 

Что в книге будет:

  • информация необходимая для обнаружения платных ссылок;
  • более 50 правила обнаружения;
  • не менее одного примера по каждому правилу;

Чего в книге не будет:

  • в книге не будет формул;
  • описаний алгоритмов, кроме самых общих;
  • технические аспекты будут затронуты лишь самым общем образом.

Главная особенность книги в том что сам я лично не отношусь ни к SEO сообществу, ни к компаниям разработчикам поисковых машин. В противном случае в мне было писать её невыгодно или невозможно в виду NDA. 

Сама же книжка будет результатом проведённой мною серии экспериментов в 2008 году и то что я ранее публиковал, например, в Выявление ссылочного спама на основе анализа гиперссылок и предварительной классификации веб ресурсов. Но если в прошлых публикациях я как раз правила вообще не описывал, тот тут всё будет посвящено именно им - прямым и косвенным признакам обнаружения платных ссылок. 

Пока есть 20 страниц текста, но будет больше, сейчас собираю материалы для компиляции.

Зачем эта книга нужна лично мне? Большая часть использованных и определённых мной правил требует довольно много технологических усилий для реализации и имеют лишь ограниченное применение. 

Примерное содержания (не окончательное):

1. Вступление.

2. Введение

2.1. Зачем это нужно?

2.2. Мотивация участников рынка

2.3. Текущая ситуация

3. Основные определения

4. Необходимая информация для анализа

5. Правила анализа ссылок

5.1. Инструкции поисковым роботам

5.2. Происхождение и направление ссылки

5.3. Анализ структуры веб-страницы

5.4. Анализ текста ссылки и страницы

5.5. Анализ меток отношений и структуры веб сайтов

6. Технологии и практика

—-

Соответственно вопросы:

1. Интересна ли тема?

2. Знает ли кто-нибудь издательство которому было бы интересно такую книгу опубликовать?

3. Какие темы из перечисленных в содержании интересуют более всего?

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Отдам Социоранк в хорошие руки
14 апреля 09 11:29

Из размышлений над тем что делать с накопившимися у меня наработками - медленно, но верно выпал Социоранк - сервис тематического рейтингования пользователей в соц. сетях. На данный момент пользователей ЖЖ. 

Как я ни рассматривал куда его можно пристроить к другим своим проектам - получается что он выпадает из всех тем которыми я сейчас занимаюсь и развивать его будет означать жертвовать чем-либо ещё.

Поэтому рассматриваю вариант небезвозмездной передачи проекта тому кто может и хочет его развивать и дорабатывать.

Что в проект входит:

  • домен sociorank.ru;
  • веб интерфейс и база рассчитанных рейтингов;
  • подсистема/модуль сбора и обработки информации о рейтингах, расчётов рейтингов, расчёты кластеров сообществ и влиятия сообществ друг на друга;
  • если нужны - соображения по дальнейшему развитию проекта.

Если есть интерес - пишите на ibegtin@gmail.com - сколько готовы за него отдать и чего собираетесь с ним делать.

Соответственно, сам я от темы рейтингования в социальных сетях отдаляюсь ибо есть более интересные проекты.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Новое в Скиуре
14 апреля 09 11:01

Проект продолжает развиваться и недавно обновился сразу в нескольких областях:

Внешние изменения

  • появился букмарклет для запуска распознавания новостей через браузер - его можно перетащить на панель закладок по перейдя по ссылке - http://www.skyur.ru/tools/
  • появился каталог ранее распознанных RSS лент - http://www.skyur.ru/catalog/ 
  • у проекта появилось API для проверки можно ли страницу/сайта преобразовать в RSS. Само API пока закрыто, но для тех кому интресно - пример его работы можно посмотреть в каталоге ссылок http://enotpoiskun.ru/links/  где каждая ссылка была проверена на предмет наличия RSS и, при наличии, добавлено ссылкой на соответствующую страницу в Скиуре. Вскоре будет и публичное API

Внутренние изменения

  • проект прошёл серьёзную внутреннюю переработку и, если ранее использовался, движок баз данных Couchdb, то теперь все основные данные хранятся в MySQL, а Couchdb используется как вспомогательный инструмент. Соответственно это повысило скорость обработки RSS лент примерно на 20% и улучшило стабильность сервиса как такового.
  • значительно улучшилось распознавание кодировок и теперь в во многих случаях когда ранее алгоритм не срабатывал - это должно исправится.
  • добавлена поддержка дат в формате “d.m”, а то есть день и месяц. При этом автоматически подставляется текущий год.

Принимаются предложения и пожелания по дальнейшему развитию проекта. Также, если к примеру, у вас есть свой каталог ссылок и Вам бы хотелось дополнить его информацией о RSS лентах созданных Скиуром, то можно связаться со мной по ibegtin@gmail.com и договорится о бесплатном использовании API с оговоркой что оно ещё будет менятся и дорабатываться.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Ссылки на 13.04.2009
14 апреля 09 10:29

Интересное в сети

 

e-Gov

  • Toiletmap - Про австралийскую карту туалетов пишет Екатерина Аксенова в gov-gov.ru. Тема может показаться забавной, но австралийцы очень даже серьёзны поскольку проект создавался как дополнение другому их проекту “Кишки и мочевой пузырь” (Bladderbowel) посвящённому людям страдающих от расстройства данных органов. 
  • Премьер-министр Австралии и лидер оппозиции оба активно используют Twitter.
  • eGovShare - исследования и предложения по организации находимости (обнаружения) государственных ресурсов в сети. Discovery of e-gov resources
  • eGovernment Register - государственный реестр поставщиков, тендеров и продуктов программного и аппаратного обеспечения в Великобритании. Сайт увешан RSS, социальными закладками, вся информация доступна публично, есть разделы посвящённые интеграции продуктов. Очень серьёзные и систематизированный подход.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Букмарклет для Скиура
13 апреля 09 05:27

Для тех кому надоедает каждый раз заходить на сайт Скиура чтобы распознать новости - специальная ссылка букмарклет.  Достаточно её перетащить на тулбар и открывая страницу новостей кликать на неё - в этом случае сразу будет открыт Скиур с распознаванием страницы на которой Вы находились

Ссылка для перетаскивания: Распознать Скиуром

Пожелания/предложения/багрепорты приветствуются.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Материалы проверки не являются информацией (c)
13 апреля 09 04:06

Любопытная статья на сайте РекламаМама “ФУ на ваши деньги!”, но более всего там любопытен приведённый документ их переписки с госорганами.

… Ответ достоин того, чтобы привести его здесь полностью (см. иллюстрацию). «В соответствии со ст. 39 закона «О средствах массовой информации», редакция имеет право запрашивать информацию о деятельности государственных органов и организаций, их должностных лиц. Запра­шиваемые материалы проверки не являются информацией». …

Лично меня настораживает мятая бумага отсканированного документа и отсутствие на ней подписи, с другой стороны сама формулировка “материалы проверки не являются информацией” крышесносна. А что будет когда вступит в силу 8-ФЗ, там же чиновники будут вынуждены отвечать не только на запросы журналистов, но и граждан.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Госсайты, счетчики и иностранные сервисы
13 апреля 09 11:52

Когда чиновники говорят о принадлежности баз пользователей социальных сетей или систем коротких сообщений зарубежным компаниям, то важно не забывать что эта информация хоть и важная, но и не самая ключевая.

Поставим вопрос шире, а как создаётся и распространяется информация о пользователях в сети, с их ли согласия или без, какую информацию можно подтянуть по “длинному следу”?

Можно быть уверенными что очень немалую. Те же счетчики Google Analytics, Liveinternet, Mail.ru, Rambler.ru и метрика Яндекса позволяют отслеживать активность пользователей, а также по информации о ним в своих соц. сетях и профилях знать о его шаблонах поведения.

Но дело не только в этом, дело ещё и в том в каком виде и сколь долго эту информацию счетчики хранят и как используются. К примеру, даже если на государственном сайте  может быть раздел посвящённый правилам использования информации о пользователе в как логов с указанием сроков хранения, то если используется внешний сервис, то ничего такого нет и в помине. Госсайты повсеместно увешаны счетчиками самого разного толка, точно также они оставляют постоянные куки или используют внешние сервисы которые это делают. 

И в этом плане мы серьёзно отстаём от тех же США в части регулирования приватности - если у них выкладывание на сайте Белого дома видео с Youtube привело к иску со стороны активистов по борьбе за приватность которые указали на меморандум M-03-22 о запрете использоания persitent cookie и, в итоге, добились снятие Youtube с сайта Белого дома, а Google анонсировали сервис delayed cookie.

Но это в США, а у нас на сайте единого окна города Москвы, даже в, условно закрытом, HTTPS разделе висят счётчики Google Analytics и Spylog. Хорошо ещё если сайт организован таким образом что в GET запросах не передаётся приватная информация, но если это всё таки происходит, а у лично у меня уверености такой нет, то это необходимо проверять и тщательно. А то что Google что Spylog могут иметь доступ к персональной информации и о гражданах - вопрос достаточно серьёзный, не единичный и никак не проработанный.

Лично моё мнение прежнее - во всём что делает государство в Рунете, коррупции гораздо меньше чем бессистемности.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Статистика по госпредприятиям
09 апреля 09 11:26

Цифры по госпредприятиям в России для тех кто интересуется. 

Всего в России  государственных предприятий всех типов (ФГУП, ГУП, МУП)  - 5028

Из них в федеральной собственности, ФГУПов - 1314

В первоначальных оценках данные разнились из за того что названия многих организаций пишутся в 5-6 вариантах, в итоге много дублей - на сей раз цифры точные. Во всяком случае можно точно сказать что предприятий не меньше вышеперечисленного числа. 

Плюс, конечно, есть масса ОАО в госсобственности, но информацию по ним поднять куда сложнее.

По моим оценкам лишь у половины ФГУПов есть свои сайты и вообще какое-либо присутствие с сети,  для ГУПов и МУПов пропорция около 1/4.

Особенность любых госпредприятий в том что их форма собственности не предусматривает какого-либо публичного раскрытия информации. Фактически они подотчетны только вышестоящим ведомствам, контрольно-счетным палатам, налоговым органам и проверкам Минфина (тут не уверен). 

Соответственно все данные по открытым источникам, а если появится желание их где-либо упомянуть, то можно со мной связаться и я расскажу происхождение цифр.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Информационная архитектура наоборот и анализ форм
08 апреля 09 02:23

В прошлой заметке я писал про построение объектной карты сайта в практическом применении к поиску новостных страниц на сайтах для распознавания новостей. Разумеется, кроме этого применения есть и множество других, в основном не напрямую коммерческих или самозначных, но вспомогательных для других задач.

Интересно и другое - анализ веб ресурсов очень тесно перекликается с их информационной архитектурой, условной логикой их структуры и принципов наполнения. 

Фактически, практически любой веб сайт, может быть представлен в виде набора разного уровня сложности и вложенности шаблонов страниц, ссылок, принципов взаимодействия с другими сайтами и большого числа мета-информационных метрик характеризующих веб ресурс. 

В конечном итоге эти шаблоны поддаются анализу и последующей визуализации полностью автоматически или с минимальной ручной корректировкой. И здесь очень бы к месту пришлись наработки в области исскуственного интеллекта и просто “умные алгоритмы” действующие по принципу формирования гипотез и апробации их в действии вплоть до нахождения оптимального результата. 

Слабость этой идеи в слабой готовности как технически так и на уровне общего понимания. Если обработка информации предметной, как то космические снимки или анализ генов уже достигло области практического применения, то исследование принципов “создания и жизни информации” как явление, всё ещё изучено очень незначительно.  Фактически направления исследования информации можно разделить на те что ведутся поисковыми системами для повышения релевантности поисковой выдачи, поддержания сателлитных проектов и так далее, а также компаниями специализирующимися на обработке больших массивов данных из публичных источников.  

Анализ веб сайтов восстановление их информационной архитектуры за счёт автоматического анализа их содержимого применимо не только для этой задачи. Оно применимо для множества самых разных областей.

Например,  полгода назад, ища сайты по госзакупкам и объективно оценивая длительность поиска я с помощью небольшого автоматического скрипта искал такие сайты автоматически. Сейчас я знаю что большая часть работы которая шла в Еноте Поискуне по разбору веб страниц может быть доведена до автоматики на 90%. А то есть задача направленного индексирования с последующей структуризацией данных, может решаться без необходимости в разработке отдельных парсеров под каждый сайт, может решаться лишь с самым минимальным участием человека или же вообще без его участия.  

Впрочем направленное индексирование лишь одна из областей применения. Возвращаясь к распознаванию новостей, то у этой области есть простые и комплексные решения от распознавания только текста до деталей и медиаинформации. Единственная более-менее сложная задача в большом числе регулярных выражений.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Ссылки на 7.04.2009. Интересное в регионах
07 апреля 09 06:46
  • http://brand-kaluga.livejournal.com/ - в ЖЖ оказывается проходит “Областной конкурс на разработку  концепции использования конкурентных преимуществ Калужской области в целях  её  дальнейшего социально-экономического развития” анонсированный на сайте администрации области  вот уж случайно не найдешь.
  • В администрации Калужской области выкладывают огромные (необработанные) видеофайлы с заседаний и совещаний. Это поинтереснее чем видеоблоги, но качать много.
  • На сайте Орловской области у пресс-службы есть отдельный раздел - ответы и комментарии на публикации в СМИ с ответами на критические публикации. 
  • В Пензенской области есть своя ГИС,  удивительно что в регионах создают свои ГИС вместо использования Яндекс.Карты или Google Maps.
  • Там же на сайте Пензенской области интересно организован процесс приёма заявлений - с обязательным подтверждением принятия условий отправки - http://www.penza.ru/reception/message.
  • Тем у кого слово “анализы” ассоциируется только с медициной стоит посетить сайт министерства сельского хозяйства оренбургской области и посетить одноимённый раздел.
  • Оказыается первый заместитель Губернатора по социальной политике и вопросам агропромышленного комплекса, член Правительства Челябинской области Андрей Косилов, ведёт свой блог в ЖЖ
  • На сайте администрации Смоленской области по прежнему висят рекламные (SEO) ссылки на главной странице.
  • От сайта департамента финансов Смоленской области у меня ощущение что делали его инопланетяне. Посмотрите сами и зацените. Более всего жаль фотографию начальника департамента.
  • В Псковской области, на странице администрации висит откровенно рекламный баннер на коммерческий продукт для госзаказа. Фу, некрасиво.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Скиур и построение объектных сайтов карт в действии
07 апреля 09 03:57

Как пример того для чего Скиур может использоваться - в каталоге сайтов Енота Поискуна сейчас 2148 ссылок посвящённым тематике закупок и присутствия российского государства в сети.

В своё время, чтобы не делать каталог просто набором ссылок, для него был создан специальный скрипт который время от времени проходил по ресурсам в каталоге и занимался обнаружением RSS лент каковых набралось чуть более 170. 

Сейчас помимо этого скрипта на каталог был “натравлен” алгоритм автосоздания RSS из Скиура. Но, тут надо оговорится что хотя и многие новости публикуются на главных страницах сайтов, тем не менее далеко не всегда. Предупреждая эту проблему на практике используется сдвоенный алгоритм логика которго в следующих действиях:

1. Вначале проверяется можно ли сформировать RSS ленту по странице сайта в каталоге

2. Если не получается, то запускается алгоритм анализа страницы (и сайта) построения объектной карты сайта и из результатов его работы извлекаются разделы относящиеся к новостям.

3. Для найденных разделов проверяется можно ли по нему сформировать RSS ленту.

4. Если RSS лента формируется, то ссылка на неё добавляется в каталог и доступна для посетителей.

В итоге, примерно 20% всех распознанных лент идут не с главных, а с новостных страниц выявленных при анализе. При этом сам алгоритм построения объектной карты сейчас, объективно, несовершенен и всё ещё в работе, поскольку времени на него нужно больше чем у меня есть, но для узких задач вроде этой вполне уже применим.  

Распознавание новостей всё ещё идёт прямо сейчас, но как промежуточные итоги могу сказать что:

1. Распознаются новости у, примерно, 65% сайтов. Это много, это даже очень много, куда больше чем я ожидал. 

2. Причинами нераспознавания остальных 35% может быть, пока предварительно, поскольку требуется ручная проверка результатов:

  • 35% случаев - нет новостей на сайте или новости подаются без дат;
  • 15%  случаев - кодировка не распознаётся, а дата содержит русскоязычную часть, например, название месяца
  • 10% случаев - не распознаётся структура сайта. Обычно Скиур автоматически разбирает HTML и понимает как располагаются новостные блоки и как их собрать в RSS ленты, но есть случае когда этого сделать не удаётся;
  • 15% случаев - неизвестный формат даты. Эта проблема быстро решается за счёт снижения скорости распознавания и именно по этой причине не решена в онлайновой версии алгоритма;
  • 20% случаев - новости на сайте есть, но не на главной странице, а на новостных страницах, а алгоритм построения объектной карты эти разделы не нашёл;
  • 5% случаев - сайт недоступен или отвечает слишком долго (более 30 секунд).

Основной недостаток всего этого процесса - производительность. Объективно много времени уходит на распознавание новостных блоков, их выравнивание и на построение объектных карт. Причём здесь оптимизация имеет три составляющие:

1. Техническая - изменение библиотек разбора HTML, оптимизация кода и т.д.

2. Алгоритмическая - применение уже накопленных наработок для ускорения распознавания дат. Частично это уже применяется, но, тут ещё требуются исследования и довольно затратные

3. Промышленная - сбор метаданных о процессе анализа и предварительное обучение алгоритма с построением шаблонов распознаванием и с динамической перестройкой шаблонов при выявлении несоответствий. 

Плюс в процессе анализа сайтов определяются остальные их фичи - вроде ключевых разделов, коммерциализация, CMS, технология на которой он сделан, но это уже совсем другая история.

Пока что Скиур остаётся некоммерческим, но уже выходит из статуса экспериментального, а если походить по каталогу, то можно увидеть ссылки RSS лент ведущие на Скиур.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Блог по e-Gov на который стоит подписаться
06 апреля 09 01:36

Отдельно просто от подборок ссылок хочу отметить блог gov-gov.ru Екатерины Аксеновой. 

Если я пишу, в основном, в виде смеси разных тем - e-gov, ИТ, веб и алгоритмы, то Екатерина пишет целенаправлено и подробно именно об электронном государстве и многие интересные новости по теме e-Gov я узнаю читая именно её записи. 

Например, именно из её блога я узнал что ЦИК будет делать версию сайта для слабовидящих. А это немного-немало, а второй подобный сайт для российских госорганов что само по себе уже интересно.

Всячески рекомендую к ежедневному прочтению.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Фактические цифры по сокращению бюджетов в регионах РФ
06 апреля 09 10:51

Минрегион выкладывает онлайн результаты мониторинга бюджетов и ещё ряда показателей - их можно посмотреть по ссылке http://www.minregion.ru/WorkItems/ListNews.aspx?PageID=434

Интересны эти материалы сразу с 3-х точек зрения:

1. Реальные цифры падения бюджетов в регионах в их исчислении и исчислении МинРегиона. Это к вопросу статей на тему “госзаказ нас спасёт”. Смотря какой госзаказ и смотря кого - ситуация с госзакупками в ИТ и вообще не столь уж однозначна. Крупные вендоры, министерства и агенства,   интеграторы, конечно, будут лоббировать те или иные темы - как то информатизацию здравоохранения, электронное правительство и так далее, но объективно с денег хватит не на все и не всем.

2. Подача материала в Минрегионе, с одной стороны, не худшая по оформлению шаблонов, с другой стороны сами страницы очень ненаглядны. Те же данные можно было бы подать куда заметнее и понятнее. Особенно диаграммы совсем не впечатляют.

3.  На сайте лежать Excel файлы с первичными данными, жаль что не CSV или иные форматы пригодные для машинной обработки, но и Excel - это не так уж плохо, некоторые ведомства публикуют табличные данные в Вордовских файлах или в PDF, что куда хуже.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Скиур. Обновления
05 апреля 09 11:02

Скиур, экспериментальный проект по извлечению новостей из HTML обновился. Основные изменения были внутренними, но кое что будет заметно и пользователям сервиса:

  • вместо Couchdb теперь используется связка Couchdb + MySQL. Couchdb, конечно, прекрасный продукт, но производительность его пока оставляет желать лучшего. Поэтому иерархические данные, такие как веб страницы краулера хрянятся в Couchdb, а записи и ленты в MySQL;
  • теперь доступен каталог RSS лент - перечень текущих успешно распознаваемых Скиуром лент;
  • небольшие улучшения производительности;
  • добавлена поддержка формата даты “dd.mm” без указания года, при этом год автоматически проставляется текущий.

И существующие баги/особенности:

  • выявилось что в некоторых случаях Скиур не определяет автоматически структуру веб страницы даже когда распознаёт даты. Например, так не распознаются даты на странице Росгидромета - http://www.meteorf.ru/default.aspx. Причина пока неясна, но обязательно выяснится. 
  • пока не решена окончательно задача по распознаванию всех возможных видов дат;
  • примерно в 3% случаех кодировка веб страницы не распознаётся. 

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

О данных раскрываемых государством. Классификация информационных массивов
03 апреля 09 06:38

Размышляя про всё тот же data.gov.ru буду рассуждать тезисно в рамках не столько ведения сколько раскрытия информации. Рассуждения очень предварительные и дискуссионные:

Общие рассуждения

1. Информационный массив != информационная система. Несмотря на некоторое сходство, один массив может формироваться в нескольких системах, а в рамках одной системы может присутствовать несколько информационных массивов.

2. Информационный массив не может содержать жестких ссылок на используемые справочники если только эти справочники не являются его неотъемлимой частью. 

3. Информационные массивы могут и должны подразделяться на классификационные группы характеризующие их использование, принципы ведения, статус обновляемости и так далее.

4. Раскрытие информации может осуществляться в следующих формах (чем зеленее тем более открыто):

  • полное раскрытие без ограничений - влючает возможность просмотра и/или получения информационного массива полностью без необходимости в знании дополнительной информации об искомом объекте/объектах;
  • полное раскрытие с ограничениями - включает возможность получения исчерпывающей информации об искомом объекте/объектах при наличии идентифицирующей их информации;
  • частичное раскрытие - включает публичное раскрытие части информационного массива не являющейся информацией ограниченного доступа или иными данными, например, персональными. Остальные данные информационного массива предоставляются в рамках раскрытия по запросу.
  • раскрытие по запросу - предоставляет возможность получения информации по отдельному, регламентированному запросу, с проверкой возможности предоставления запрошенной информации запрашивающему. 
  • ограничение доступа к информации - информация предоставляется исключительно по закрытому списку, но факт существования информационного массива регистрируется.
  • полное закрытие информации - информация не распространяется ни при каких-условиях. Информация о существовании и регламенте ведения данного массива не подлежит раскрытию.

4. Автоматический доступ и машиночитаемые формы предоставления информации  могут быть обеспечены в рамках всех форм раскрытия за исключением закрытой информации.

Информация по запросу

5.  Информация раскрываемая по запросу может предоставляться в электронной форме только при идентификации запрашивающей информацию стороны - организации или персоны.

6. Информация предоставляемая по запросу касающаяся организации или физического лица может быть предоставлена по сетям общего доступа только в случае прямого подтверждения о желании её получения в подобной форме.

7. Предоставление информации из информационных массивов по запросу может быть реализовано в рамках государственной услуги в том числе платной (пример, получение выписок из ЕГРЮЛ).

8. Информация может быть предоставлена по запросу может быть предоставлена в электронном виде в случаях:

  • подтверждения права физического лица по ЭЦП;
  • подтверждения права физического лица по ЭЦП на допуск к информации от лица организации (отдельное ЭЦП или всё то же?);
  • подтверждение права физического лица личным присутствием и предъявлением идентификационных документов при наличии подтверждения от него о желании получить информацию в электронном виде.

9. Получение информации касающиеся деятельности организации физическим лицом требует регистрации в ЕГРЮЛ привязки к ЭЦП лиц допущенных к получению информации об организациях.

Машиночитаемое раскрытие информации

10. Во всех случаях когда информация может предоставляться в машиночитаемой форме, она должна предоставляться в машиночитаемой форме.

11. Раскрытие данные в машиночитаемых форматах должно содержать предельно детальные технические описания процесса и форм предоставления информации.

12. Машиночитаемое раскрытие информации должно предусматривать возможность полной автоматизации раскрытия включая поиск информационных массивов и получение как их полностью так и отдельных записей.

13.  Информация о всех типов информационных массивов (реестр реестров) за исключением закрытой информации может и должна регистрироваться включая формы их ведения, частоту обновлений, частоту добавления новых записей, организации ответственные за ведение, включая контактную информацию должна быть доступна в форме полного раскрытия без ограничений с предоставлением в машиночитаемой форме в открытом доступе без каких либо ограничений на её повторное использование.

Ограничения на доступ к информации

14. Во всех случаях когда доступ к информации может быть ограничен или ограничивается за исключением полностью закрытой информации, должны быть указаны причины закрытия информации включая полные тексты нормативных актов устанавливающих подобные ограничения.

15. Во всех случаях неполного раскрытия информации или раскрытия по запросу за исключением информации ограниченного доступа и закрытой информации, должен предоставляться перечень полей/разделов предоставляемых в общем доступе и предоставляемых только по запросу.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Раскрытие информации госорганами. То чего нет в 8-ФЗ
03 апреля 09 02:25

В течении последних двух недель было два моих доклада по теме 8-ФЗ - одна в рамках тематики Электронного муниципалитета, другая в рамках темы ОГВ.

В обоих случаях темы очень близкие - каким требованиям необходимо соответствовать госорганам с 1 января 2010 года.

Вообще мне лично очень интересно, а кто же этот закон писал. Дело в том что целый ряд его положений для госорганов вовсе не безобиден - начиная с требований к официальным сайтам, поскольку у многих органов сейчас сайты официальными не являются плюс ответственность за предоставление ответов на запросы гражданам и поднадзорность органам прокуратуры.

Я же сделаю акцент на том чего в 8-ФЗ нет:

1. Нет требований по раскрытию информации о контрактах заключаемых органом государственной власти. Да, эта информация есть в федеральном, региональном и муниципальном реестрах контрактов, но, учитывая что органы власти являются основными закупщиками, то просмотр информации о контрактах в публичном доступе - это возможность гражданам, общественным организациям и коммерческим организациям  отслеживать потенциально коррупционные контракты.  Здесь не всё однозначно в том “Как?” это необходимо делать поскольку это один из примеров областей где технологии имеют значение.

2. Нет никаких требований по открытости и доступности:

 

  • унитарных предприятий - ФГУПов, ГУПов, МУПов, ОУП (Областное унитарное предприятие) и так далее - находящихся на 100% в государственной собственности и выполняющие государственные функции;
  • ФГУ - федеральных государственных учреждений;
  • Научно-исследовательских институтов в разных правовых формах - ФГУПы, ФГУ и так далее.
  • университетов и иных образовательных учреждений существующих за счёт государственного и муниципального финансирования.
  • государственных фондов
  • любых иных организаций вне зависимости от организационно-правовой формы принадлежащих государству не менее чем 51% или же распоряжающимся государственными средствами.

Фактически это приводит к тому что органы власти не желающие светить те или иные расходы по своим бюджетам будут их проводить через подведомственными им учреждения которые раскрывать информацию не обязаны.  То же затрагивает вопросы раскрытия многих государственных реестров и предоставления государственных услуг, которые по факту ведутся и предоставляются унитарными предприятиями, а не органами государственной власти

3. Этот закон, фактически, уравнивает все органы власти в части раскрытия информации. При том что социальная значимость информации и статус этих органов принципиально различны. Например, мало вероятно что СВР, СпецСтрой, ГУСП или агенство по обустройству госграницы начнут раскрывать сразу раскрывать множество информации о себе.  Они не делали это в соответствии с 98-ПП и врядли начнут сразу соответствовать требованиям 8-ФЗ сейчас пока не примут все внутренние нормативные акты которые определят что можно публиковать, а что нет.

4. Есть ряд требований которые в законе явно не прописаны, но из него вытекают. Например, по всем требованиям необходим реестр запросов граждан и ответов статьи 18 и 19 его хотя и не упоминают, но упоминают необходимость регистрации и сроки регистрации запросов и отправленных госорганами ответов.

 

Далее моя презентация по 8-ФЗ. Конструктивная критика всячески приветствуется.

8-ФЗ. Раскрытие информации органами государственной власти

   </p>
View more presentations from ivbeg.

Чуть позже будут и дополнительные материалы по тому как именно необходимо раскрывать информацию так чтобы раскрытие не только соответствовало закону, но и здравому смыслу и удобству пользователей.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Метрики для анализа HTML
03 апреля 09 10:58

 

Я ранее неоднократно писал что при анализе HTML (да и любых других неструктурироанных/полуструктурированных данных) очень важен правильный подбор метрик для анализа. Часть из этих метрик и многие другие используются в Скиуре и ещё ряде алгоритмов анализа HTML о которых я ранее упоминал.

  Уровень тэга (tag level) - это характеристика тэга веб страницы определяющая глубину его нахождения в дереве тэгов начиная от корневого тэга html.

  Сдвиг тэга (tag shift) - это характеристика тэга веб страницы определяющая его позицию в списке потомков его родителя

  Уровень схожести пути тэгов (tags path similarity) - является характеристикой отношений двух тэгов когда в качестве оценки используется оценка числа тэгов находящихся от каждого из сравниваемых тэгов до общего родителя.

  Уровень схожести тэгов (tag similarity) - является характеристикой отношения двух тэгов основанной на сравнении их естественных  и назначенных атрибутов в соответствии с моделью сравнения.

  Глубина тэга (tag deepness) - определяет максимальную глубину тэга по совокупности всех его потомков

  Обратный путь (reversed path) - путь от тэга к его родителю в обратной нотации (или через xpath - parent)

  Путь сдвига (shift path) - путь от родительского тэга до выбранного основанный на сдвиге тэга потомка от родительского.    Путь сдвига записывается в виде массива цифр.   

  Число вхождений ключевых подтэгов  - это число вхождений в тэг таких тэгов как a, h1, strong и иных. Метрика может быть совокупной по всем типам ключевых тэго или быть преставленной в виде группы метрик.
  Положение тэга в тексте страницы (layout position) - это позиция тэга в тексте страницы при отображении его браузером. 
  Уникальность тэга -  это наличие id, наличие уникальных значений class, style или иных; наличие уникальных атрибутов у близлежащих тэгов. 

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Про ERP в органах государственной власти
01 апреля 09 11:38

Но, вот читаю на CNews статью про внедрение SAP в Тюменской области - http://cnews.ru/news/top/index.shtml?2009/03/31/342553 

Меня лично удивляет не сумма и не то что внедрение SAP не может столько стоить, удивляет другое -  а как оказалось что Тюменский МИАЦ является АНО (Автономная Некоммерческая Организация). Для сравнения, практически все МИАЦы в России - это государственные, областные, республиканские или муниципальные учреждения здравоохранения.

И почему никого не удивляет что именно АНО выигрывает конкурс на 220 миллионов. Я понимаю если бы это была коммерческая организация или ГУП/МУП/ФГУП, но АНО ?

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Работа с данными с нечеткой структурой
01 апреля 09 11:32

Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.

При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая при обучении на данных сайта не встречалась, но была с самого начала предусмотрена, например, “новое” или ещё что-либо не являющееся сменой CMS или реорганизацией структуры сайта, но затрагивающее HTML структуру ленты новостей.

Сейчас, чтобы обеспечить обработку новостной ленты  в любом случае, лента распознавание структуры Скиур производит каждый раз “на лету” полностью игнорируя любые ранее накопленные данные. Это позволяет обеспечить высокий уровень распознавания, ограниченный лишь числом поддерживаемых форматов дат и времени, но и накладывает ряд ограничений в числе которых:

  • более долгий процесс извлечения структурных блоков;
  • невозможность ручной корректировки шаблона распознавания в виду его отсутствия.

Это пример, ситуации и решения когда источник данных находится вне управления и возможности воздействия системы потребляющей его информацию и необходим ряд мер по приведению его к нормализованному виду за счёт предварительного или динамического распознавания структуры данных и приведение распознанной структуры к хранимых данных.

В случае новостной информации - это довольно просто и даже очень просто, поскольку структура транслируемых новостей давно уже определена в спецификациях RSS/ATOM, и то при распознавании достаточно 10% от специфицированных полей.  Кроме того отслеживание структурных аномалий для частного случая - это однократная и решаемая задача. Поиск решения для новостной информации закодированной в HTML у меня занял пару месяцев - в основном на анализ и систематизацию структуры данных в источниках. 

А вот в случае условно неограниченного числа данных различных по структуре, форме размещения/публикации, способу хранения и так далее, ситуация отличается в корне. Без автоматизации процесса распознавания, без формализации поиска отклонений в структуре данных, без совмещения динамического формирования шаблонов с шаблонами уже накопленными - решить эту задачу невозможно. Фактически полноценное решение требует системы близкой по логике к ETL, но отличной в том что в отличии от ETL источники данных там не фиксированы, структуры данных могут меняться, новые источники могут добавляться даже при неполном описании приходящих из них данных, а все ошибки в обработке яляются не предметом приостановки процесса импорта или игнорирования, а обучения.  При этом, разумеется, необходимы специальные методы распознавания структур данных, решение проблемы производительности использования больших баз регулярных выражений и так далее.  

К вопросу о том зачем всё это нужно? Это нужно, поскольку сейчас процесс организации данных в Linked Data и иных связанных машиночитаемых формах - весьма долгосрочен. В каждом случае - это связано с долгим ожиданием когда владелец/контролёр источника данных решит представлять его в более удобной форме. При том что есть множество энтузиастов которые могут оцифровать тот или иной срез данных - как, например, статистические данные США или России, в машиночитаемую форму - тем не менее систематизация источников данных позволит обеспечить доступность данных на потоковой основе. 

Или, говоря иначе, ненужно ждать пока государство начнёт отдавать данные в RDF или же общедоступные данные станут доступными в виде микроформатов или тех или иных срезов - необходимо создавать механизмы и программные продукты автоматизирующие процесс преобразования данных из Legacy форм в формы пригодные к последующей интеграции. 

Всё это к вопрос о том как лично я вижу data.gov.ru  примерно через пару лет, разумеется, в случае его появления.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

This Blog

Tags

Archives

Syndication