Июнь 2009 - Posts

Блоги по eGov и ОГИЦ
30 июня 09 03:40

В блогосфере посвящённой тематике государства и электронного государства в частности появился ещё один интересный блог за авторством Сергея Купцова, заместителя директора НИИ «Восход». Ранее я упоминал про статью с его интервью в журнале Финанс, а сегодня нашёл его блог в ЖЖ.

Помимо того что Сергей пишет про ОГИЦ, который сам по себе является интересной и большой темой, хочу здесь важно и другое.

Фактически, в России сейчас есть большой дефицит блогов, сообществ и иных способов донесения информации с возможностью обратной связи о государственных проектах в области ИТ, информационного и не только, а  некогда активное сообщество aeg_dev уже практически неактивное.  Поэтому появление блогов людей занимающихся в России тематикой e-Gov лично я считаю хорошей новостью.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Об информации на госсайтах и её доступности. Социальная составляющая
26 июня 09 03:17

По началу я планировал написать то же в виде статьи, но постоянно сталкиваюсь с проблемой – куда же можно направлять такие заметки на публикацию? Пока ограничиваюсь публикацией в своем блоге.

Буквально совсем недавно мне довелось принять участие в семинаре посвященном 8-ФЗ “Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления” и подготавливаемому МинЭкономРазвития постановлению правительства на эту же тему.

Доклады там были более чем интересными, а учитывая что присутствовали непосредственно разработчики  постановления (http://e-centr.ane.ru/), то их разъяснения отдельных его положений были весьма обстоятельными и интересными.   Не скрою что узнал много нового, а предложения по публикации всех документов с ЭЦП были даже радикальнее чем известные мне и используемые способы контроля за доступностью документов.

В принципе, там было многое что можно назвать более чем здравым, например,  лично я впервые узнал что существует не-экспертная методика анализа государственных сайтов, а на основе анкеты с перечнем проверки. Лично я очень надеюсь что она появится в вскоре в онлайне, что, конечно, будет зависеть от МинЭкономРазвития которое и было заказчиком этих работ.

Я же хочу предложить взглянуть на проблему с другой стороны.  Сколь бы ни была маштабной и серьёзной работа по анализу госсайтов и доступности информации, все сайты она не сможет охватить ни в коем случае. Государственных сайтов около десятка тысяч, а может и больше. Из них тех что попадают под 8-ФЗ и грядующее постановление – несколько тысяч. При всём желании МинЭкономРазвития провести анализ всех будет невозможно – невозможно физически, технически и финансово.

Здравый смысл

Более того, и в законе, и в постановлении, очень многое отдано на откуп здравому смыслу. Проблема в том что здравый смысл для гражданина в том чтобы получить информацию в как можно более удобной форме, а для многих чиновников в том чтобы соблюсти закон и только. Причём формальное соблюдение закона с точки зрения чиновника может быть исполнено здравого смысла, даже не с только с точки зрения сокрытия информации, сколько с точки зрения нежелания или невозможности систематизировать и реорганизовавывать собственную работу. Например, для соблюдения многих положений закона и постановления по срокам размещения информации ВСЕМ ведомствам придётся принимать регламенты размещения информации на официальных сайтах и, практически наверняка, внедрять системы документооборота.

Впрочем, здравый смысл, он на то и здравый смысл что далеко не всегда поддаётся систематизации, но его наличие или отсутствие заметно неангажированному человеку со стороны. Требовать здравого смысла невозможно, можно лишь рекомендовать и предлать методики  и надеятся на наличие квалифицированных людей способных применить это на практике.

Социальная и экспертная составляющая

В области госинформации и открытости государства в России есть уже два существенных и важных проекта с сильной обратной связью от пользователей.

Один из них – это блог президента и последующая его трансляция в Livejournal. После того как он появился блог буквально завалили комментариями, причём многие из них, вообще говоря, к деятельности президента отношения не имеют. К примеру, вопрсы экономики и торговли относятся к ведению правительству которое подотчетно премьеру, но вопросы про ЭКЛЗ или пенсии задают президенту потому как задавать их напрямую более некому! Я думаю что примеры реакции президента на отдельные обращения можно пособирать в СМИ – там они есть.

Второй пример – концепция здравоохранения МинЗдравСоцРазвития ( http://www.zdravo2020.ru ) и её продолжающееся открытое обсуждение. На мой взгляд, учитывая число комментариев – 2268 и предложений – 584, проект оказался более чем успешный.

В случае блога президента многие воспринимают его как чуть ли не прямой канал для связи на “самый верх”, а случае концепции здравоохранения – это возможность экспертам значительно упростить собственную работу собирая мнения сообщества.

Но главное что в обоих случаях – это возможность открытого обсуждения. Его отличие от обращений, писем и звонков в ведомства в том что открытость создаёт кумулятивный эффект. Когда комментарии открыты и общедоступны и их число превышает некий порог, то их просто невозможно игнорировать полностью поскольку тема начинает выходить в СМИ и доводится вышестоящими чиновниками до нижестоящих. Это если говорить о выгоде гражданина от такой модели обсуждения.

Вопрос – а в чём выгода чиновника/госучреждения? Главная выгода в исповедовании золотого принципа “Если нельзя бороться с явлением, необходимо его возглавить“. Граждане в любом случпе будут обсуждать, критиковать, осуждать (а где-то и хвалить) госорганы. Осуждение и критика помноженные на закрытость госоргана и отказ от комментирования и обсуждения чего-либо – стремительно возрастают поскольку очень часто раздражает не столько само явление сколько отсутствие реакции или её неадекватность на обсуждение этого явления.

Социальная составляющая для госсайтов

В ситцации когда объёмы наблюдений колосальны, здравый смысл относителен и уже есть примеры успешного использования коллективного знания – эта тема буквально “просится” к социализации.

Это не столь сложно создать веб-проект, где пользователи могли бы не просто увидеть соответствие госсайтов требованиям, но и просто имея возможность оставлять комментарии и предложения по их улучшению и по обеспечению доступности информации.

Вопрос в том как поддержать активность граждан и как обеспечить результативность этой обратной связи. Лично я вижу для этого следующие механизмы:

1. Необходимо обеспечить не просто сбор комментариев и предложений от граждан но и периодический их анализ и публикацию принятых мер. Например, в виде ежемесячного отчета с указанием предложения и какие действия по нему были сделаны регулирующим органом – МинЭкономРазвития или же самим органом власти или госучреждением ещё до принятий мер регулятором.

2. Должно быть нечто вроде рейтинга активностей граждан и, возможно, организаций где бы указывалось сколь много предложений пользователь сделал и сколь многие из них были приняты к рассмотрению.

3. Должна быть возможность модерации которая бы включала и группировку комментариев пользователей по группам – “Здравый смысл”, “Удобство использования”, “Доступность информации”, “Соблюдение законодательства” и так далее.

4. Пользователи должны иметь возможность голосовать за чужие предложения и должна быть возможность их просмотра по числу голосов а-ля Digg

5. Необходимо обеспечить размещение на каждом сайте госоргана ссылки, а ещё лучше баннера, на профиль этого сайта в системе сбора предложений.

Оценки и результаты

Внедрив и поставив на рельсы описанный выше подход можно будет говорить об открытости того или иного госсайта принципиально иначе. Кроме экспертных и аналитических метрик, появятся ещё и метрики социальные демонстрирующие:

  • суммы положительных и отрицательных оценок сайтам госорганов;
  • число предложений и их критичность для каждого сайта и госоргана;
  • адекватность восприятия критики госорганами – по числу исправлений и изменений сделанных по результатам предложений;

Альтернативы?

Если честно, то никаких действенных альтернатив кроме вовлечения граждан в процесс анализа госсайтов я не вижу. Экспертная работа по обработке мнений граждан будет огромной и серьёзной, но эффект от открытости будет будет большим чем только экспертная работа.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

ГОСТЫ и американские Code of Regulations
23 июня 09 08:05

В ЖЖ появился огромный архив ГОСТов на все случаи жизни http://walter-simons.livejournal.com/155498.html причём нельзя сказать что их нельзя было найти и раньше, но в таком объеме впервые.

Впрочем затрагивая тему технического регулирования нельзя не отметить что проблемы с доступностью информации есть не только в России, но и во многих довольно развитых странах. Все они проистекают от наличии коммерческих интересов у основных держателей информации.

Например, данные Code of Regulations (американских документов аналогичных ГОСТам и СНИПам) мне удалось найти в систематизированном виде только в http://bulk.resource.org/codes.gov/

Лично я считаю что в России эта информация должна быть доступна на постоянной основе на data.gov.ru (ссылка не откроется ибо его ещё не существует). Также как и статистическая информация, так же как и законы, реестры и классификаторы.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Практическое сжатие электронных документов
21 июня 09 07:10

В прошлой заметке я писал о метаданных скрываемых в офисных документах (см. Извлечение скрытых метаданных из MS Office), на сей раз я подробнее остановлюсь на сжатии электронных документов.

Да, многие могут сказать что пользы от сжатия документов немного учитывая текущую стоимость носителей и средств хранения информации, но всё же есть ситуации когда это может быть необходимо:

1. Пересылка документов по электронной почте.

2. При публикации документов на сайтах, потребность в экономии трафика.

3. Экономия дискового пространства в случаяъ когда замена или добавление средств хранения затруднительно. Например, подобное бывает когда выбить бюджет под капитальные расходы непросто, а дискового пространства нехватает.

Приведённые далее способы относительно практичны, поскольку описываются методики, а не конкретные рекомендации делать это вручную. Большая часть описанных действий поддаются автоматизации и автоматизируются.

Итак  далее о способах уменьшения размеров документов.

Простой способ

  • Для начала необходимо понять какого рода документы имеются в наличии. Если документы представлены в формате Rich Text (.RTF) или форматах MS Office 2003 (.DOC, .XLS, .PPT) и так далее, то задача решается довольно просто, необходимо преобразовать их, либо в форматы OpenDocument, либо в форматы OpenXML в зависимости от среды где они будут использоваться. За счёт того что и OpenDocument и OpenXML хранят данные внутри ZIP-контейнера, то выигрыш в объёмах файла может быть весьма существенным. Для текстовых документов, файл может сжаться в 2-2.5 раза. При этом фажно помнить что в некоторых случаях преобразование в OpenXML и OpenDocument может не помогать, например, в случаях когда документы содержат множество уже сжатых изображений.

Продвинутые способы

Если документы уже преобразованы в OpenDocument или OpenXML или же сжатия достигнутого преобразорванием в них недостаточно, то можно продожить сжатие следующими способами:

  • “Пережать” документ другим архиватором ZIP. Фокус в том что ни OpenOffice, ни MS Office всех версий при сохранении документов OpenXML и OpenDocument сжимают их довольно слабо. В этом можно убедится распаковав любой из документов любым распаковщиком ZIP файлов и снова сжав содержимое итоговой директории архиватором. Лично я для экспериментов использовал 7-ZIP в режиме максимальной компресии. В итоге, для документов с большими объёмами текстов и небольшими объёмами изображений, документ может быть “дожат” ещё на 25%.
  • “Пережать” изображения. В большинстве случаев, самые большие файлы электронных документов те которые содержат изображения в самых различных форматах. Чаще всего эти изображения в форматах JPEG, PNG и GIF и они могут быть существенно уменьшены существующими инструментами. Например, JPEG файлы пережимаются со степенью сжатия 85 и удалением данных EXIF, а PNG файлы могут быть уменьшены вдвое с помощью таких инструментов как pngcrush или pngout. В итоге размеры файла могут быть уменьшены от 10 до 50% в зависимости от объёма сжимаемых изображений. В файлах OpenXML изображения хранятся в папке ppt/media – для презентаций, doc/media – для документов, xl/media – для файлов таблиц, Resources/Images – для файлов XPS
  • Преобразование векторной графики. Особенность документов подготавливаемых в MS Office, наличие в них изображений не в растровом, а в векторных форматах. Так зачастую документы содержат .WMF и .EMF (Windows Metafile и Enchanced Metafile) весьма значительными по объёму. Несмотря на то что эти векторные форматы хорошо сжимаются и внутри ZIP контейнера могут быть уменьшены в 10 раз, но за счет преобразования их в растровые форматы JPG или PNG они могут быть уменьшены ещё больше. Недостаток этого подхода в том что преобразование не проходит незаметно и растрового изображения может быть хуже чем у векторного, но всё ещё приемлимо для просмотра.
  • Удаление изображений предпросмотра (thumbnail). Что OpenOffice, что MS Office сохраняют в документах небольшие изображения для их предпросмотра. Для файлов OpenXML такое изображение хранится в JPEG формате и располагается в папке “docProps” в виде файла thumbnail.jpeg. Этот файл можно удалить или пережать. При его удалении необходимо также удалить на него ссылку в “_rels/.rels“. Для файлов OpenDocument файл предпросмотра хранится в папке “Thumbnails” св формате PNG и с именем “thumbnail.png”. Этот файл можно также сжать или удалить. При удалении также необходимо удалить ссылку на него из META-INF/manifest.xml. Файлы предпросмотра, как правило, невелики, в пределах  4-15 килобайт.  Их удаление актуально лишь при большом числе небольших документов.

Сложные способы

Далее ещё ряд сложных способов применимых лишь в ограниченном числе задач, например, для долгосрочного хранения

  • Переупаковка в другой контейнер. Как упоминалось ранее, все файлы OpenXML и OpenDocument – это, по факту, коллекция файлов собранная по определённым правилам и упакованная в ZIP файл.  Соответственно объём файла во многом зависит от алгоритма и степени сжатия и для ZIP файлов имеет свои ограничения. Если те же файлы переупаковать другим архиватором, например, Stuffit, Winrar или 7-Zip, то размер файла результата может быть существенно меньше чем ZIP, от 10 до 50%. Недостаток такого преобразования  в том что прежде чем использовать любой из документов его необходимо будет пересобрать – распаковав из используемого контейнера обратно в ZIP.
  • Специальное дожатие JPEG. JPEG файлы обладают той особенностью что редко хорошо сжимаются “обычными архиваторами”. В принципе, инструментов способных дожать JPEG файлы хотя на 10% немного – это Stuffit Deluxe и packJPG, которые, в отличии от способов оптимизации JPEG’ов, cоздают архивы в своих форматах и для того чтобы восстановить итоговый документ необходима будет обратная распаковка JPEG’ов внутри документа что нельзя реализовать в рамках существующих форматов и необходимо использовать некий промежуточный архивный формат хранения.

Оригинал заметки на DPLabs ( http://www.dplabs.ru/blog/2009/jun/21/doccompress/ )

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Архитектура: Техническое задание для Recovery.gov
21 июня 09 01:49

К вопросу о создании сайтов за государственный счет, приведу техническое задание администрации Обамы на создание Recovery.gov.

Чуть попозже можно будет провести детальный его анализ, пока же можно обратить внимание на наличие отдельного раздела разделения ответственности контрактора и агентства и детальные технические требования.

RAT Board Solicitation

Ссылка на документ: http://www.scribd.com/doc/16515421/RAT-Board-Solicitation

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Ссылки. Интересное ПО и сервисы
18 июня 09 10:51
  • XML Редактор Serna скоро станет OpenSource впрочем его уже сейчас можно скачать и попробовать для различных задач.
  • Появилась бесплатная версия редактора онтологий Top Braid Composer – http://www.topquadrant.com/products/TB_free_download.html . Для тех кто интересуется Semantic Web – это может быть интересным.
  • Должен признать что Windows 7 – объективно лучше Висты в разы. С Вистой на борту мой нетбук мог проработать от батареи не более 2-х часов, даже в экономных режимах, с W7 – работает по 4 часа. Плюс значительно шустрее.
  • Google Wave – это определённо интересная штука, онлайн коллаборации вообще очень интересная тема, но я лично пока не могу понять её практическую применимость. Но ещё более интересен Wave Protocol и опубликованные спецификации.
  • Bing конечно выглядит и ищет лучше чем live.com, но в отличии от Гугла не ищет по новым форматам для офиса – ищем по filetype:docx и видим что результатов нет. Я так думаю что это непорядок. Вообще Гугл в плане индексирования разноформатных данных куда полнее. Он не только docx и xlsx’ы индексирует, но и DBF файлы.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Ссылки. Интересное ПО и сервисы
18 июня 09 10:51
  • XML Редактор Serna скоро станет OpenSource впрочем его уже сейчас можно скачать и попробовать для различных задач.
  • Появилась бесплатная версия редактора онтологий Top Braid Composer – http://www.topquadrant.com/products/TB_free_download.html . Для тех кто интересуется Semantic Web – это может быть интересным.
  • Должен признать что Windows 7 – объективно лучше Висты в разы. С Вистой на борту мой нетбук мог проработать от батареи не более 2-х часов, даже в экономных режимах, с W7 – работает по 4 часа. Плюс значительно шустрее.
  • Google Wave – это определённо интересная штука, онлайн коллаборации вообще очень интересная тема, но я лично пока не могу понять её практическую применимость. Но ещё более интересен Wave Protocol и опубликованные спецификации.
  • Bing конечно выглядит и ищет лучше чем live.com, но в отличии от Гугла не ищет по новым форматам для офиса – ищем по filetype:docx и видим что результатов нет. Я так думаю что это непорядок. Вообще Гугл в плане индексирования разноформатных данных куда полнее. Он не только docx и xlsx’ы индексирует, но и DBF файлы.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Извлечение скрытых метаданных из документов MS Office
18 июня 09 12:40

Я, ранее, чуть-чуть упоминал про то что во многих офисных документах сохранятся метаданные несмотря на различные способы их удаления, об этом можно прочитать по ссылке – техническое. Форматы файлов и сжатие

Сейчас же я опишу как увидеть скрытые метаданные без использования специального ПО.

Для начала немного о самих метаданных.

Метаданные можно разделить на два типа: метаданные документов и метаданные связанных объектов.

Метаданные которые также называют свойства документов (document properties) – это набор данных идентифицирующий автора кем был создан документ, его организацию, кем он редактировался последним и так далее. Многие поля добавляют системы документооборота, но чаще присутствуют лишь те что добавляются программами из поставки MS Office.

Метаданные связанных объектов – это те данные которые присутствуют внутри мультимедиа файлов. Например, Adobe Photoshop сохраняет xmpmeta, в создаваемых им TIF и JPG файлах, в JPG файлах фотографий часто не удаляют данные EXIF – в результате можно узнать когда фотография была произведена, плюс много разного о том как каким фотоаппаратом она снималась и тому подобного.

Чаще всего метаданные связанных объектов менее злободневны чем метаданные документов – поскольку неперсонифицированы, но всех задач и ситуаций где они могут понадобится предусмотреть нельзя поэтому упоминаю их всех.

Итак как получить метаданные из документов MS Office.

1. Необходимо открыть документ в MS Office 2007 или выше (например в 2010 Technical Preview) и пересохранить его в один из форматов OpenXML. То есть файл .doc надо сохранить в .docx, файл .xls в .xlsx, файл .ppt в .pptx и так далее.

2. Итоговый файл необходимо переименовать в аналогичный с расширением .zip.

3. Полученный ZIP файл распаковываем с помощью любого любимого ZIP архиватора в отдельную директорию. На Windows платформе я пользуюсь 7-Zip’ом, но тут без особой разницы что использовать.

4. Заглянем в итоговую директорию после распаковки. В зависимости от типа документа, состав папок там будет отличаться. Для файла .pptx будет присутствовать папка ppt,  для .docx папка word, для .xlsx папка xl.  Нам нужно именно в эту папку, заходим туда и ищем папку embeddings.

5. В папке embeddings будут файлы с названиями “oleObjectNN.bin” где NN – это номер объекта. Наличие этих файлов означает что в документе содержались контейнеры с метаданными в виде OLE объектов (в качестве отступления для людей далёких от ИТ.  OLE объекты – это те данные которые вы вставляете через команды “Вставить” или Insert в офисных программах. Таблица, документ или график – это всё OLE объекты). Все файлы .bin необходимо переименовать в .xls. Здесь необходимо оговорится – большинство .bin файлов на самом деле не будут файлами Excel, но для нашей задачи это не имеет значения поскольку все OLE объекты имеют схожую структуру и то как показывать из них метаданные, программы решают не по расширению файла, по фактическому содержимому вне зависимости от того что это за файлы – таблицы Excel, диаграммы Visio или документы Word

5. Теперь когда у нас в папке есть файлы для просмотра для каждого из них мы щелкаем правой кнопкой мыши в Эксплорере, открываем его свойства и смотрим в подробнее.  Во многих случаях Вы там ничего не увидите, поскольку это может быть OLE объект MSGraph.Chart который метаданных не содержит (или мы просто пока не знаем как их извлечь), но в случаях когда были вставлены диаграммы Visio, таблицы Excel и так далее – мы сможем увидеть фактические свойства вложенных документов, узнать кто их автор и так далее.

Нюансы:

1. Всё вышеперечисленное работает только в случае сложных документов, под которые подпадают большинство презентаций со вставленными таблицами, но простые документы содержащие только текст.

2. В случае новых форматов OpenXML ситуация немногим лучше. При вставке одного офисного документа в другой они сохраняются не как бинарные образы OLE объектов, а как файлы OpenXML. Например, после вставки документа Excel, он оказывается в папке embeddings в формате xlsx. Метаданные из него, конечно, никуда не исчезают и при чистке главного контейнера не удаляются.

3. Возможно схожая ситуация с WordPad’ом, хотя он и слишком прост чтобы работать со сложными структурами. Это требует проверки.

4. Можно ли вышеперечисленное повторить в OpenOffice? Очень может быть – правда насколько я знаю OpenOffice проводит преобразования OLE объектов для их переносимости, но опять же всё требует проверки.

Как этого избежать?

1. Анонимизировав себя в  MS Office удалив информацию о себе как об авторе или же заменив её на заведомо нерелевантную, например, “Мустава Рукоплясова” с организацией ООО “Сиреневый кузнечик”. В зависимости от Вашей фантазии и серьёзности читающих документы.

2. Вычищая метаданные из каждого из документов который вкладывается друг в друга. Это означает что нельзя просто вставить Excel файл в презентацию. Надо вначале его заполнить, потом сохранить, удалить из него все метаданные и лишь потом вставлять через Cut & Paste.

3. Заменять объекты на их упрощённые формы. Вместо таблицы Excel, вставить в презентацию просто таблицу, вместо диаграммы Visio – её изображение и так далее.

P.S.

И, заодно, для тех кто интересуются – свою деятельность по извлечению и анализу данных я переношу сейчас в DPLabs (http://www.dplabs.ru) где эта и другие мои заметки будут оформлены в виде статей.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Госзакупки, орфография и ФАС - результаты
17 июня 09 12:52

Хочу сказать всем спасибо, вся эта ситуация с орфографическими ошибками показала что открытость информации и социальные медиа вместе способны сделать больше чем любые отдельные обращения по инстанциям.

Касательно же темы “опечаток” приведу ссылки на последние публикации по этой теме:

Я лишь надеюсь что ФАС не просто займутся проверками, но  законодательно закрепят требования к раскрытию информации о госзакупках со всеми подробностями, нюансами и возможностью общественного контроля.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

OpenGovData.ru: Отложенные обновления и развитие
15 июня 09 07:11

Мне в последнее время задают много вопросов для чего OpenGovData.ru был создан и, если ответить вкратце, то как основа для будущего data.gov.ru которого, пока ещё, не существует, но как я надеюсь рано или поздно он появится.

Соответственно, принципы именно этого проекта в том все данные представляются открыто, бесплатно и машиночитаемо. Подробнее можно прочитать в принципы открытия данных государством .

При этом сам проект OpenGovData прибыли или выгоды точно не может принести, его задача в другом - предоставить данные для построения социальных и коммерческих машапов, интернет сервисов которые бы в итоге предоставляли аналитику по этим даных, показывали бы их в привязке к ГИС (Google Maps или Яндекс.Карты) и так далее.

В самом же проекте точно не будет ни аналитики, ни карт, ни машапов - если только они не будут завязаны на непосредственно сбор данных.

Изначально я планировал что к концу мая появится часть системы где были бы видны уже подготовленные данные, сейчас эти сроки приходится сдвинуть на конец июня/июль, я не ожидал что мои посты по госзакупкам вызовут такой резонанс так что много времени ушло только на дачву комментариев по теме. Но точно могу сказать что данные обязательно появятся.

В дальнейшем сейчас одной из ключевых задач я вижу конкретизацию требований к раскрываемой информации и детализации принципов раскрытия.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Техническое. Про форматы файлов и их сжатие
15 июня 09 12:08

В последнии дни несколько раз сталкивался с различными, в том числе в новых форматах файлами. К тому же была потребность в преобразовании нескольких сотен документов и презентаций  из .doc, .ppt в OpenDocument и OOXML.

Не в последнюю очередь чтобы оценить экономию места при полном преобразовании своих архивов для долгосрочного хранения.

Далее некоторые наблюдения:

  • файлов в формате XPS (XML Paper Specification) в Рунете всё ещё единицы. Впрочем подозреваю что скоро их станет много, учитывая что в Windows 7 и Vista есть XPS принтер. Под Linux’ом его поддерживает Okular и GhostXPS . В то же время хранить в XPS оказывается выгодно только если нужен формат для замены PDF и документ нужен только для просмотра. Причём с некоторых точек зрения XPS даже удобнее PDF поскольку работать с ZIP структурой проще чем разбирать PDF файлы. Интересно где Adobe с их PDFXML форматом?
  • то какой из форматов оптимальнее для хранения документов - это более чем дискуссионный вопрос. Например для презентаций получается что уровень сжатия лучше у каждого из форматов - ODT и PPTX через раз. А вот для документов и файлов таблиц состоящих только из текстов, обычно, OOXML сжимает данные лучше, что особенно заметно на небольших документах до 100 килобайт. Но! всё сильно зависит от того как документы создавать и в какой программе.
  • существенная специфика OOXML в том что XML файлы созданные в нём поддаются гораздо лучшем сжатию чем для OpenDocument.
  • как ни странно, WordPad для Windows 7 генерирует более малые ODT файлы чем OpenDocument. Но секрет раскрывается достаточно просто - OpenOffice по умолчанию в каждый ODT файлы закладывает thumbnail (картинку для предпросмотра в PNG). Как отключить это я так и не нашёл.
  • на самом деле всё гораздо сложнее чем разница в форматах. Что OpenOffice, что MS Office разных версий сохраняют файлы в данных форматах в разной степени “недожатости” и по структуре и по способу использования форматов. Например, открыть документ в MS Office, сохранить его в DOCX, потом открыть его в WordPad и снова сохранить в DOCX, то, заглянув внутрь структуры, можно убедится что файлы XML файлы стилей и содержимого существенно отличаются при незаметности для конечного пользователя.
  • ни старый офис (MS Office 2003), ни новый (MS Office 2007) и плагины к ним не удаляют всех метаданных, некоторые из них, я полагаю они и не могут удалить. Например, xmpmeta в файлах подготовленных в фотошопе. Персональной информации там немного, но некоторую информацию можно извлечь, например, даты создания картинок. Впрочем, если покопаться глубже, то можно найти и более интересную информацию, но автоматически, увы, это сделать сложно. Подробнее как-нибудь в другой раз.

Как резюме моё личное мнение, для долгосрочного хранения офисных документов в случае кейса - “храним долго, используем редко, экономим место” нужно использовать не OpenDocument и не OOXML, а делать свой формат.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Ссылки. Анализ и визуализация данных
10 июня 09 03:32

Анализ данных

  • Picalo - инструмент выявления аномалий и анализа данных, с открытым кодом на Python. Главный плюс - возможность использовать его Python API. Только на английском.
  • Deductor - один из немногих отечественных OLAP инструментов. Коммерческий. Стоимость студии до 29 000 рублей
  • Tableau - феноменальный продукт по возможностям и стоимости. Один из лучших в части визуализации и демонстрации на презентациях, но цена в $5000 кусается.
  • Weka 3 - применяется, в основном, для научных и исследовательских задач по классификации
  • Rapidminer - настольный продукт для data mining, есть коммерческий, есть open source.
  • LispMiner - академический продукт для анализа данных
  • R Project - язык программирования R. Набирающий популярность на западе и интегрируемый с массой других продуктов и языков программирования.
  • Omniscope - коммерческий продукт похожий на Tableau. Также позволяет удобную визуализацию
  • QLickView - ещё один коммерческий продукт по анализу и визуализации
  • Tibco Sportfire - ещё один аналитический продукт, на сей раз от Tibco. По цене чуть меньше Tableau - около $4700.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Темы для iCamp Russia
10 июня 09 11:40
Я уже точно буду на iCamp Russia (тот который будет на пароходе).
И предполагаю там выступить со следующими темами:
1. OpenGovData.ru – систематизация раскрытия информации государством.
2. Государственный интернет. Требования к официальным сайтам.
3. Государственные закупки. Что это такое, как происходит и стоит ли участвовать?
4. Автоматическое преобразование HTML в RSS. Практика обработки неструктурированных данных.
5. Автоматическая геоклассификация веб-сайтов.
6. Анализ аудитории веб-сайта с точки зрения тематического таргетинга.
Про большую часть из них я много писал ранее у себя в блоге, плюс если будут другие интересные темы обсуждения - буду рад, пообщаться.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Про госуслуги и ОГИЦ
08 июня 09 03:22

В журнале Финанс вышла интересная статья Сергея Купцова Политика против технологий где коротко и очень точно изложены проблемы в появлении государственных услуг на ОГИЦ (Общероссийский Государственный Информационный Центр) и услуг вообще.

Как и во многих случаях развития e-Gov в России, все основные проблемы организационные и проистекают от того что государственных ведомства  с трудом договариваются между собой.

Как сейчас Минкомсвязи и тем более Росинформтехнологии, могут влиять на ФНС, МВД, ФТС или МЭР? Связисты в состоянии лишь предложить сервис.
В постановлении № 931 прописано, что министерства и ведомства обязаны подключаться к ОГИЦ. Но не подключаются. И это вопрос не технологический, а политический.

Так оно и есть,  что ФАИТ, что Минсвязи не могут приказать и заставить другим ведомствам подключаться в ОГИЦ. Так как те находятся в подчинении у правительства (а силовые органы власти у Президента) и могут регулироваться только постановлениями и указами, но и только.

Пассивно себя ведут те, у кого все в порядке, есть хороший информационно-вычислительный центр, и они сами предоставляют услуги. Например, Росстат владеет собственной информацией и зарабатывает на ней деньги. Им невыгодно выходить во внешнюю среду. Хотя Росстат должен пуб ликовать эти данные на портале.

Росстат вообще пример характерный. У них есть порталы Мультистат и Инфостат (распространяющее данные по эксклюзивному праву). В то же время найти что-либо на самом портале Росстата более чем неудобно. Во многих других ведомствах ситуация похожая, Росстат лишь наиболее яркий пример.

Спасибо Екатерине Аксеновой - gov-gov.ru за ссылку.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Про госзакупки и их сокрытие. Комментарии
07 июня 09 06:28

Поскольку тема всё ещё актуальна и интересна, ряд вопросов раскрою подробнее, заодно напишу про то, что не попало непосредственно в СМИ.

1. Различным приёмам сокрытия закупок уже много лет. Лично я не ожидал что столь много людей об этом не знало, как факт проблема в сложном доказательстве и необходимости систематической работы над выявлением подобных случаев. В то же время замена русских букв на латиницу ещё хоть как-то поддаётся автоматическому и автоматизированному выявлению, куда сложнее когда в именовании закупок, лотов и прочей индексируемой поисковиками информации  в принципе отсутствует ключевые слова для поиска или же присутствуют сложные опечатки - как то перестановки букв или слипание слов.

Доказать умысел подобных действий крайне сложно и решить задачу находимости информации можно лишь за счёт автоматизированной модерации.

2. В файлах что я привёл не 1000 закупок, а поменьше поскольку там указывается по отдельному слову, а не по отдельной закупке. Впрочем подобных закупок много и я сделал выборку за короткий промежуток времени - несколько последних месяцев и только по zakupki.gov.ru

3. Автоматическая проверка орфорграфии и исправление - это не решение. Не решение по нескольким причинам. Во первых прежде чем что-либо автоматизировать необходимо убедится что слова будут исправляться именно корректно, а не заменятся одни похожие на другие. Во вторых сложные опечатки вроде “Закупка хлебной руки” вместо “Закупка хлебной муки” выявляться таким образом не будет. В третьих есть случаи когда слова могут состоять из смешения русских и английских букв, а также цифр. Чаще всего это названия деталей и некоторых станков/машин.

Поэтому здесь вопрос не автоматизма, а автоматизации. Необходим человек проводящий модерацию закупки до её опубликования и подтверждающий что вся информация введена верно и допускающий или не допускающий её к публикации. Подчеркну - модератор никаких изменений внести не имеет право, только отклонить или разрешить публикацию.

Также необходимы действия по автоматизированной проверки корректности закупки при публикации представителем заказчика.

При этом последовательность действий должна быть следующей:

- представитель заказчика подготавливает закупку и направляет на публикацию

- система автоматически проверяет закупку на предмет наиболее очевидных ошибок и на дополнительном экране запрашивает уточнение и исправление информации.

- после исправления информации представитель заказчика направляет закупку на публикацию

- модератор по уведомлению или из списка открывает закупку и проверяет корректность её заполнения

- в случае некорректного заполнения он отклоняет её от публикации со своими комментариями которые не публикуются, а идут только заказчику.

- в случае корректного хаполнения модератор разрешает публикацию.

- ФИО, номер или код модератора, а также дата модерации присутствуют в отдельном блоке описания закупки и доступны в публичном описании закупки.

При этом многие действия могут быть существенно автоматизированы, например, в виде кнопки “Проверить” на рабочем месте модератора, выполняющей проверки и подствечивающей ошибки автоматически. Подчеркну ещё раз - полный автомат тут не получится.

3. Проблема не только в ключевых словах, а в том что никак кроме как по ключевым словам искать закупки не получается. Эта проблема является следствием отсутствия наглядной рубликации закупок по типам заказов и, соответственно, неудобством для поставщиков в поиске заказов. При этом рубрикация далеко не обязательно требует от госзаказчиков производить дополнительные действия по выбору кодов классификации - она может быть полностью автоматизирована по ключевым словам в тексте закупки и названиях лотов, а также соотнесением кодов на сайте, использование которых сейчас крайне неудобно, тематическим рубрикам из рубрикатора.

4. В Газете.Ру (http://www.gazeta.ru/business/2009/06/06/3207676.shtml) на тему подобных искажений высказался Михаил Евраев, начальник управления ФАС России.  Так вот такие явления надо не выявлять, а не допускать включая контроль в процесс размещения государственного заказа. Это не сложно изменить программное обеспечение официального сайта (сайтов) таким образом чтобы о подобных закупках автоматически уведомлялись представители ФАС. И в принципе не так уж сложно встроить обеспечения контроля в процесс - достаточно, на начальном этапе, посадить несколько человек которые бы проверяли ВСЕ несостоявшиеся закупки (с одним участником выбранным по итогам) начиная с определённой цены, например, 20 миллионов и далее тщательно их проверять.

5. Следующей проблемой после сокрытия информации, идёт проблема неудобства её предоставления. Выкладка конкурсной документации в виде сканов, PDF файлов закрытых для копирования, в новых форматах вроде XPS (формат файлов направляемых на печать в Vista и Windows 7) и так далее.

6. Электронная цифровая подпись и ведение публичных журналов изменений позволяют отследить кто-же публикует информацию и в каком виде. В качестве примера могу привести сайт tender.mos.ru и ещё десяток региональных сайтов закупок которые обеспечивают данную возможность. В принципе, через официальные сайты предоставляется информация о миллиардах рублей и недоступность информации может приводить к миллионам убытков. Да, да, конечно “деньги то государственные”, но только их маштаб требует принципиально иных процедур учета всех операций. Фактически программное решение должно изначально строиться на изначельном недоверии к любому имеющему к ней доступ - будь то представитель заказчика, представитель оператора,  разработка продукта или регулирующего органа.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Ссылки на 05.06.2009. Датасеты
05 июня 09 02:01
  • OpenLibrary.org - экспорт в JSON всех авторов и изданий.
  • SocData.com - коллекция датасетов собираемых сообществом. Социальные данные
  • ILSP Greek Corpus - корпус греческого языка
  • European Climate Assesment - датасеты с данными по климату в Европе с ежедневным пополнением
  • SuperComputer Event Logs - датасеты логов событий на суперкомпьюетерах SNL за 2004 и 2005 годы

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Датасеты - дамп StackOverflow
05 июня 09 01:44

Может быть интересно для тех кто исследует социальные сети и вообще интересуется большими массивами данных - проект StackOverflow выложил в общий доступ датасет на 200 мегабайт сжатых 7Zip с коллекцией вопросов, участников, комментариев и результатов оценки.

Основная идея: Мы получаем данные от сообщества, мы возвращаем данные сообществу.

Для справки. StackOverflow - это одно из Q&A сообществ нацеленное на разработчиков ПО.


Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Закупки в латинице - существенное продолжение
04 июня 09 05:08

Вокруг темы возник существенный ажиотаж у меня только сегодня уже несколько изданий запросили комментарии.

Должен сказать что подобного внимания к теме я не ожидал, тем более что это был просто самый заметный пример - причём изначально найденный не мной, а  я лично увидел его на одном из форумов посвящённым госзакупкам. Его я привёл только для наглядности, самое же интересное можете посмотреть аттачем к этому посту.

Здесь приведены закупки где выявлены чередования русских и латинских букв в словах. Алгоритм не идеально точен, поэтому иногда попадаются слова где английские буквы чередуются со спецсимволами, но их не так уж много.

Структура файлов:
- слово
- название закупки
- ссылка на zakupki.gov.ru

В ZIP архиве HTML файл где русские и английские буквы подсвечены - русские зеленым, английские красным.
ruslat_pur.zip
ruslat_pur.xls

Я думаю что вопрос повышения грамотности госслужащих стоит как нельзя остро.
А многие кто задавал мне вопросы сколько же таких закупок - могут найти ответ на этот вопрос здесь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Мои комментарии для Slon.ru по теме госзакупок
03 июня 09 08:25

Для тех кому тема интересна, на Slon.ru вышла заметка с моими комментариями - http://slon.ru/articles/46692/

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Какой iCamp 2009 выбрать?
02 июня 09 05:07

Собираюсь на iCamp.  В этом году уже буду точно и не один

И вот неожиданно узнал что их два:

Вопрос: кто куда собирается и какой порекомендуете?

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Про то как проводить закупки так чтобы их никто не нашёл
02 июня 09 04:16

Помните я пару лет назад писал вредные советы при создании государственных сайтов?

Так вот было бы совсем смешно, не будь они правдой.

Теперь туда можно смело  добавить ещё один - искажение текста для его ненаходимости.

Пример: на право заключения государственного k0нтраkтa нa пр0д0лжeниe рeк0нcтрукции 0бъekтa “Рek0нcтрукция пр0изв0дствa тубeркулин0в для диaгн0cтиkи бakтeри0з0в у жив0тных”

Это вполне себе официальная закупка по адресу http://www.zakupki.gov.ru/Tender/ViewPurchase.aspx?PurchaseId=302551

Русские буквы “к” заменены на английскую”k” и русские буквы “о” заменены на цифру ноль “0″.

Это к вопросу о различных “нюансах” проведения торгов, о которых ни законодатели, ни регулирующие органы и не задумываются. А в самом деле, как это решать? Принудительной проверкой орфографией? Обязательной модерацией закупок до публикации? Иначе?

И ведь это ещё самый заметный пример, есть масса случаев где просто опечатки или же русские буквы могут быть заменены на латинские схожей формы - o, a, e, x, c.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Эксперименты с TinEye
02 июня 09 04:01

На днях я немного поэкспериментировал с  TinEye , сервисом от IDEE Inc по поиску похожих изображений. Фактически - это аналог антиплагиата для изображений. Сервис интересный и полезный и я решил опробовать его в деталях дабы понять принципы работы алгоритма.

Для начала было взято изображение которое точно детектируется TinEye - это картинка с сайта Министерства Энергетики (http://minenergo.gov.ru/resources/images/blob_cache/74.430×0.jpg) взятая создателями сайтов из какого-то банка изображений.

При проверке это изображение даёт список из 5 результатов.

Далее были созданы изображения на её основе со следующими изменениями:

  • изображение с инвертированными цветами;
  • изображение с левой половиной сущестующего изображения;
  • изображение с правой половиной сущестующего изображения;
  • изображение с верхней половиной существующего;
  • изображение с нижней половиной существующего
  • преобразованное с эффектом сепии
  • преобразованное в Grayscale
  • повернутое на 90 градусов (по часовой стрелке)
  • повернутое на 270 градусов (по часовой стрелке)
  • повернутое на 180 градусов
  • изображения с другими вставленными изображениями до 25% от размера основного

В результате оказалось что:

  • после инвертации цветов изображение не распознаётся
  • поиск по любой половине изображения даёт половину результатов (2 вместо 5)
  • преобразование в Grayscale не сказывается на распознавании - по GrayScale изображению находится
  • преобразование с эффектом сепии не сказывается на преобразование
  • изображения повернутые на 90, 180, 270 градусов не распознаются.
  • при проверке изображений куда были вставлены другие изображения - всё зависит от того где именно происходила вставка. Если, в одном из углов или же полностью занимала одну из частей изображения, то ситуация повторялась по аналогии со сравнением поиском половны изображения - выдавались лишь 2 или 3 результата из 5.  В то же время при вставке небольших изображения по основного центру оно более не распознавалась.

Конечно, окончательные выводы надо делать уже после более сложных и длительных экспериментов, но могу предположить что TinEye учитывает следующие характеристики:

1. Пропорции изображения используются как первичный фильтр для отсева наиболее релевантных.

2. В первую очередь анализируются цвета и переходы между цветами. Лично я полагаю что изображения тем или иным образом сегментируются и учитываются не столько сами цвета, сколько переходы цвета.

3. Форма имеет значение, поскольку, к примеру, изображения в Grayscale или с наложенным эффектом сепии распознаются и, в то  же время, инвертирование цветов делает распознание невозможным.

Вообще же очень интересная тема, требующая серьёзных исследований, но и способная существенно преобразить поиск по изображениям и видео.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Предлагаю номинировать Скартел (Yota) на премию Дарвина
02 июня 09 12:27

В декабре прошлого года я хвалил Yota , опробовав и успешно используя доступ в сеть по Wimax в течении нескольких месяцев, но сейчас вынужден признать добрые слова были сказаны зря, в лучшем случае очень преждевременно.

Как бы то ни было, то как в Yota умудрились (попытались) запустить сервис в коммерческую эксплуатацию это, на мой взгляд, если не совсем то близко к премии Дарвина по самоубийственности.

Впрочем начну с хронологии событий.

в течении марта - мая - периодически были сбои, недоступность, на один-два часа, но это вполне понятно ибо сеть работала в тестовом режиме да и практически “халява”. Единственное пожелание с которым я связывался с их тех. поддержкой - это возможность получения уведомлений о планируемых работах заранее письмом/SMS или, если они внештатные, то хотя бы отправка уведомлений в их начале. Это моё пожелание записывали два или три раза, но, ничего такого так и не появилось

29 мая - фактически сеть Yota была недоступна практически весь половину суток. После энного числа дозвонов до службы поддержки удалось выяснить что это не плановые работы, но произошла авария в причинах которой они разбираются и планируют решить ситуацию до конца дня. К концу дня сигнал появился, но, признаться, подобная ситуация за два дня до начала коммерческой эксплуатации меня малось удивила и немало насторожила.

30 мая - как и рекомендовалось на сайте Yota, заведомо проплатил на свой счёт 900 рублей за использование USB адаптера и получил SMS сообщение с подтверждением внесения денег на счет.  Далее не беспокоясь и планируя в понедельник активировать устройство я со спокойной душой 30 и 31 число пребывал в оффлайне.

1 июня - наиболее заметное изменение это то что сайт Yota не открывался, не открывался совсем, никак.

Далее по часам, примерно и по памяти.

В 10:00 сайт Yota не открывается, звонки в службу поддержки

В 11:00 сайт Yota начал открываться, но только публичная часть, где появилось сообщение что личный кабинет недоступен и что регистрация устройств начнётся с 12 часов. До службы поддержки дозвонится стало невозможно, все время занято

В 13:00 на сайте появилось сообщение что регистрация устройств начнётся с 14:00 и личный кабинет по прежнему недоступен. Дозвонится в службу поддержки стало невозможно в принципе - телефон просто автоматически сбрасывало при звонке на него.

В 14:00. С N-ной попытки удалось на короткое время залогинится в личный кабинет и так оказалось что переведённые на счёт деньги там отсутствуют. На этот раз я не поленился и нашёл на сайте Yota их телефон для связи со СМИ, через него узнал что у них теперь другой телефон, позвонил туда и дозвонившись до секретарши та переключила меня на их службу поддержки. Как я и предполагал, голос в трубке предлагал подождать не меньше 10 минут до того как освободится первый оператор. В 10 минут мне верилось слабо, и прождав несколько я убедился что сообщение это так и остаётся неизменным. Так что вместо дальнеших ожиданий удалось найти на их же сайте форму обращений в службу поддержки куда и было направлено описание ситуации.

После чего мне лично уже было не до Yota, благо дома достаточно резервных каналов, а при таких делах, думаю что протяну ещё один. Попытки же зайти в Личный кабинет в Yota стабильно выдавали подробности о о внутренних ошибках в Sun Glassfish на котором он сработан.

И, наконец, в около 22:00 появилось сообщение что Yota продлевает использование сервиса на 10 дней, а также приносит извинения. Хороший ход, правильный, меня же интересует два вопроса:

1. Кому же там пришло в голову запускать одномоментную регистрацию пользователей без проведения стресс-тестирования?

2. Где мои деньги?

Разумеется, на эти вопросы я ответа так и не получил.

Вообще же, первое знакомство обычно производит наиболее сильное впечатление и если ранее у меня были планы использовать два Yota адаптера для основного доступа и использовать пару недорогих проводных тарифов как резервные, то после такой свистопляски скорее всего или совсем буду отказываться от использования или же работать оставить только одно устройство для резервного канала и выбрать одного из проводных провайдеров (МГТС, Корбина, Акадо) как основной канал, благо подведены они все.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 4 Comments    
Filed under:

This Blog

Tags

Archives

Syndication