Browse by Tags

10 ошибок при анализе данных с точки зрения кошачьей статистики
23 декабря 10 06:39

В прекрасном блоге о анализе данных и статистики в частности под названием «Stats with cata» (http://statswithcats.wordpress.com/) или «Статистика с кошками» появился пост под названием «10 фатальных ошибок при анализе данных» – http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/

Всячески рекомендую его прочитать.

А сам приведу краткую выжимку:

1. «Где говядина?»   Цифры, выборки и данные без целей, ответов на вопросы или желания «рассказать историю» – бессмысленны.

2. Фантомное население

3. Ненастоящие примеры

4. Достаточно значит достаточно

5. Потворство противоречиям

6. Сумашествие в методах

7. Торренты тестов

8. Значимые незначимости и незначимые значимости

9. Интоксикация экстраполированием

10. Невернонаправленные модели

В общем, рекомендую, и блог, и этот пост.

А ещё я вот о чём подумал. Это же какая гениальная делать блог со своими животными, но не о животных.

У меня тоже возникла гениальная идея – отдаю бесплатно, кто первым успеет её сделать.

Сделать что-то «Электронное правительсто с» и на выбор черепахами/козами/щенками/бобрами/крысами/рыжыми котами.

Например, вариант «Электронное правительство с козлами» и по русски хорошо звучит, а на английском будет «eGov with goats». Осталось только коз найти.

Или вот «Электронное правительство с рыжими котами». Нужен только рыжий кот с каким-нибудь популярным прозвищем на букву Ч, а на остальное фантазии хватит.

Ваши варианты?

Originally published at Иван Бегтин. You can comment here or there.

Про метаданные документов. Без примеров
08 декабря 10 10:45

Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.

Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.

Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно – примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.

Итак метаданные.

Если ранее я писал что есть два типа метаданных – метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше.  Вернее даже не метаданных, а информации идентифицирующей автора и окружение.

Фактически я бы разделил эту идентификационную информацию на 4 типа:

метаданные документа – свойства (properties)  документа которые обычно забывают удалить при сохранении и пересылке.

метаданные вложенных объектов – свойства вложенных OLE объектов и изображений.

маркеры – данные в гипертексте документа идентифицирующие его владельца.

скрытые данные - информация в участках документа недоступных для визуального просмотра.

Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.

1. Метаданные документа

Это свойства документа которые видны если открыть его «Свойства» в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть «чувствительную информацию» о том кто был на самом деле автором документа,

2. Метаданные вложенных объектов

Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты – это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.

Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию – это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ – это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.

Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel – значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.

Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через «Вставить объект», то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.

Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ – сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем  я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.

Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту – преобразовать в OpenXML, распаковать и заглянуть в папку media.

3. «Маркёры»

Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:

обсуждения и комментарии в режим правки. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.

ссылки. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на Desktop или же в папке «Мои документы«. Главное что такие ссылки позволяют узнать – локальное имя пользователя извлекаемой из пути к данному документу.

4. Скрытые данные

Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах.  Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.

В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.

А как собственно получить все эти данные?

Инструменты

Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье Document Metadata Extraction в Forensics Wiki -http://www.forensicswiki.org/wiki/Document_Metadata_Extraction здесь много ссылок на инструменты и библиотеки.

Набор инструментов:

MS Office 2007-2010 для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты

Strings - утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.

OffVis – это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel – незаменима. Скачать можно здесь http://download.techworld.com/3214034/microsoft-offvis-11/

Metadata Extraction Tool – бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё  http://meta-extractor.sourceforge.net/

Catalogue – собирает метаданные из разного типа файлов http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm

- Metadata Analyzer – извлекает метаданные (только базовые) http://smartpctools.com/metadata/

Document Trace Remover – убирает метаданные http://smartpctools.com/trace_remover/

- Oracle Outside In - инструмент для разработчиков, поддерживает около 500 форматов файлов http://www.oracle.com/us/technologies/embedded/025613.htm

Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.

Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.

Originally published at Иван Бегтин. You can comment here or there.

ГП «Информационное общество». Сухой остаток
25 ноября 10 09:56

Я ранее обещал опубликовать картинки что у меня получались при моделировании ГП «Информационное общество», однако они получались, но не получились – наглядность в них недостаточная и без подтягивания материалов из ФЦП «ЭР» красиво не покажешь.

Однако кое-что я всё же выложу – описание госпрограммы в формате открытых данных.

В Excel файле infosoc_2010-1815 собрана и отструктурирована информация из большей части приложений. Где-то информация расширена, например, добавлена информация о подчинённости ФОИВ’ам правительству и президенту – это тоже любопытный разрез по которому можно делать наглядную визуализацию и для задач и ведомств добавлены цифры по числу мероприятий под них попадающих.

А заодно приведу некоторые наблюдения:

  • всего 136 мероприятий
  • из них по 60 мероприятиям ответственным выступает Минкомсвязь России
  • на Минкомсвязь России приходится более половины расходов из федерального бюджета (по приложению 3)
  • наибольшая доля расходов у подпрограммы «Построение электронного правительства и повышение эффективности государственного управления«
  • существуют всего лишь 3 мероприятия в котором участвуют по 2 ведомства – это:
    • создание единого интернет-портала для популяризации культурного наследия и традиций России – Минздравсоцразвития и Минкомсвязь
    • развитие государственной автоматизированной  системы «Правосудие» – Минэкономразвития и Минюст
    • актуализация цифровой картографической основы схем территориального планирования Российской Федерации – Минэкономразвития и Минрегионразвития

И ряд особенностей у файла что я размещаю:

  • суммы расходов по мероприятиям в прил. 3 в том числе и с  разбивкой по годам;
  • для каждого структурного элемента используется ключ с кодированием альфацифровым кодом.
  • данные, по возможности, денормализованы;

И проблемы о которых я уже упоминал:

  • отсутствует связь между индикаторами и такими понятиями как: ожидаемые результаты, ведомства, исполнители;
  • результаты мероприятий неструктурированы и не описаны для машинной загрузки и автоматизированного мониторинга;
  • индикаторы недостаточно формализованы и в ряде случаев вместо целочисленных показателей присутствуют относительные оценки;
  • в ряде документов существуют расхождения в наименовании подпрограмм
  • в приложение 3 вводится понятие «группа мероприятий» обладающее уникальным номером в пределах приложения, но нигде не описанном и  остаётся неясным сам выбор подобного формата описания;
  • в программных документах отсутствует кодирование отдельных структурных элементов;
  • публикуемые приложения изначально не предусматривают последующий полуавтоматический и автоматический анализ – отсутствуют машиночитаемые формы раскрытия
  • в ряде случаев используемая терминология нераскрыта. В частности используется термин «единый портал», без разъяснения что это единый портал госуслуг.
  • полностью отсутствует какое-либо упоминание открытых государственных данных, несмотря на то что многие из мероприятий предполагают создание баз данных, разработку справочников и классификаторов.

Originally published at Иван Бегтин. You can comment here or there.

Коллекция драфтов майндмапов
25 ноября 10 01:38

У каждого человека своё хобби. Моё хобби – это анализ окружающего мира и его структуризация, поэтому когда выпадает свободная минута времени, я обычно трачу её на рисование схемок и рисование майндмапов на разные интересные темы.

Некоторые из этих схем потом превращаются в проекты, но многие помогают мне лучше понять какую-то тему, а далее остаются невостребованными.

Я решил что лучше такими майндмапами делиться с сообществом, так что выкладываю сразу несколько.   Схемки эти делались в виде очень быстрых набросков, не все из них отражают моё текущее видение, но, тем не менее могут быть полезны.

А для тех кому очень захочется получить их не только картинкой – пишите, перешлю в формате для Xmind.

Итак схемки.

Метрополитен


Политическая онтология


Федеральные целевые программы


Государственные расходы


Онтология результатов госконтрактов

Originally published at Иван Бегтин. You can comment here or there.

Настоящие открытые данные по иностранной рабочей силе в Москве
23 ноября 10 10:21

Недавно новый градоначальник Москвы потребовал от Департамента труда и занятости начать публиковать информацию о том сколько и куда иностранных граждан запрашивается московскими компаниями и, что самое неожиданное, департамент эти данные действительно опубликовал.

Вот тут – http://www.labor.ru/?id=1064&mod_news_more=17 можно скачать данные за 2010 год и планируемые предложения о потребностях за 2011 год.

Или по прямым ссылкам:

- 2010 – http://www.eduprof.ru/userimages/books/forma_na_250_tys_s_izmeneniqmi_posle_korrekt_(2).zip

- 2011 – http://www.labor.ru/templates/userpic/irs1911104(1).rar

Причём вначале первая ссылка была другая и я её сохранил – это http://www.rostrud.ru/.cmsc/upload/docs/201010/26165360f.xls, но потом её поправили и переформатировали.

У меня, на всякий случай, копия этих данных сохранилась. На всякий случай.

Однако знаете что самое интересное? Самое интересное – это то, что кроме информации о неквалифицированных мигрантах там есть много информации о директорах фирм, руководителях отделов, юристконсультах, президентах фондов и так далее из очень многих крупных российских представительств западных компаний таких как «Майкрософт», «Шелл», «ПрайсВатерхаузКуперс».

Но всё не так просто. Если Вы откроете новый файл который на eduprof.ru, то обнаружите там что нет ни одной должности с размером оплаты труда выше 160 тысяч рублей, а в первой версии файла на rostrud.ru  _реальные зарплаты_ сотрудников крупных компаний в сотни тысяч и, кое-где, миллионы рублей в месяц.

Подозреваю что именно по этой причине новый файл на eduprof и корректировался, правда там ещё масса других интересных полей добавили, но самое интересное поле подрезали.

То же самое в файле за 2011 год, там все зарплаты выше 150 тысяч рублей приведены к сумме в 150 тысяч рублей.

Я могу лишь предположить что в департаменте труда и занятости сами-знаете-какого-города вовремя спохватились и решили перекрыть утечку информации пока их не засудили за раскрытие конфиденциальной информации.

Но настоящие открытые данные у меня остались. Все ходы записаны. Так что может департаменту труда и занятости Москвы в следующий раз так спешить не стоит.

Кстати, что Вы думаете – должны ли граждане знать о том сколько зарабатывают зарубежные высококвалифицированные специалисты и руководство или же эта информация _безусловно конфиденциальная_ и публиковаться не должна?

Originally published at Иван Бегтин. You can comment here or there.

Про ГП «Информационное общество». Часть 3-я
22 ноября 10 03:02

И промежуточно-завершающий пост на тему всё той же госпрограммы.

Ещё более внимательное прочтение приложения 3 показало что там весьма странная группировка мероприятий.

Фактически в таблице всего 4-колонки: номер задачи, задача программы, мероприятие программы и ответственный исполнитель.

Однако, на самом деле, вместо отдельных задач в колонке «задача программы»  находится несколько задач объединённых в группу и по этой группе задач и далее идут мероприятия. Например, группа 2 выглядит как: »Создание и развитие электронных сервисов в области здравоохранения. Создание и развитие электронных сервисов в области образования и науки»

и это две отдельных задачи из паспорта:

- Создание и развитие электронных сервисов в области здравоохранения

- Создание и развитие электронных сервисов в области образования и науки

Кстати по тексту эти группы являются не уникальными и, например, формулировка группы 10 соответствует формулировке группы 18, а то есть единственно уникальным тут является номер группы.

Не представляю себе кому пришло в голову группировать задачи таким образом , ибо это крайне неудобно – невозможно ссылаться на текст, необходимо ссылаться на номер группы задач из 3-го приложения.

Фактически это требует введения нового понятия – группа задач и его соответствуюшего кодирования. Я кодирую их как GR-[номер группы] по номеру из приложения 3, а мероприятия, соответственно в формате P3/GR-[номер группы]/A-[номер мероприятия в группе] уникальным кодом в пределах одной редакции госпрограммы.

Как итог – хотя даже текущий вид ГП можно визуализировать, у такой визуализации будет масса ограничений. В приложении 2 всего 45 мероприятий и их можно отобразить в рамках подпрограмм, задач и ведомств (включая их иерархию), а также с учётом числа мероприятий и сумм, но большая часть мероприятий в приложении 3 и там численным показателем остаётся только число мероприятий которое можно анализировать по подпрограммам, задачам и ведомствам.

Итого возможности для подобной визуальной аналитики ограничены и компенсировать их можно только если начать сопоставлять имеющиеся разрезы и цифры с информацией по прошедшей ФЦП «Электронная Россия», тогда ситуация будет наглядной, но, подозреваю что, не в пользу госпрограммы.

Кстати, нашлась базовая инфраструктура информационного общества, в приложении три она описана как подпрограмма «Преодоление высокого уровня различия в использовании информационных технологий регионами, различными слоями общества и создание базовой инфраструктуры информационного общества«, а вот и список мероприятий:

  • создание технологической возможности развития телерадиовещания (реализация комплекса мероприятий федеральной целевой программы «Развитие телерадиовещания в Российской Федерации на 2009 – 2015 годы»)
  • формирование современной инфраструктуры связи и телекоммуникаций, включая обеспечение широкополосного доступа к сети Интернет. Организация точек доступа Wi-Fi на базе таксофонов;
  • поддержка развития электронных средств массовой коммуникации;
  • разработка методологических, правовых и организационных основ деятельности общественного телерадиовещания в Российской Федерации
  • создание элементов типовой информационной инфраструктуры региона, в том числе в г. Сочи, связанных с подготовкой и проведением XXII Олимпийских зимних игр и XI Паралимпийских зимних игр 2014 года в г. Сочи;
  • обеспечение преодоления высокого уровня различия в использовании информационных технологий между субъектами Российской Федерации
  • мероприятия по популяризации новых возможностей информационного общества среди населения и бизнеса
  • создание сети региональных центров справочно-методической и технической поддержки общеобразовательных учреждений по использованию информационных технологий и электронных образовательных ресурсов в учебном процессе

как Вы уже догадались – все эти мероприятия кроме последнего идут через Минкомсвязь России.

Originally published at Иван Бегтин. You can comment here or there.

Про ГП «Информационное общество». Продолжение
22 ноября 10 11:24

Продолжу прошлый пост по анализу паспорта ГП и приложений.

Что также привлекло внимание.

1. В приложении 1 присутствует 22 индикатора и показателя, но при этом ни в этом приложении ни в других не представлена следующая информация:

- ведомства ответственные за достижения данного индикатора;

- мероприятия результативность которых отражается в данном индикаторе;

- сопоставление индикаторов и ожидаемых результатов мероприятий из приложения 2;

- какая-либо связь индикаторов и мероприятий из приложения 3.

Итого информации по индикаторам более чем недостаточно, отсутствие привязки к ведомствам позволит в случаях когда несколько мероприятий привязаны к одному индикатору ведомствам валить вину друг на друга за недостижение результатов.

2. В паспорте и в приложениях отсутствует таблица сопоставления подпрограмм и задач программы. Фактически это сопоставление можно провести по информации из приложений 2 и 3, однако эту таблицу приходится «делать ручками».

3. В принципе это наследственное у всех форм публикации паспортов и приложений по ФЦП и по этой госпрограмме – отсутствие альфацифрового кодирования ведомств, подпрограмм, задач, мероприятий. Это особенно неудобно когда названия эти весьма велики. Лично я сейчас при переводе этих таблиц в машиночитаемые присваиваю каждому объекту свой ключ из латинских букв и ключевых слов от 4 до 10 символов.

Например, ФСО России – G-FGS (Government Federal Guard Service) и подпрограмма «Построение электронного правительства и повышение эффективности государственного управления» кодируется как SP-EGOV (SubProgram E-Government)

Это быстрое-грубое решение, позволяющее ссылаться на конкретные объекты быстрее. Далее я думаю что буду использовать два быстрых кода – с латиницей и кириллицей.

Но то что ничего подобного нет в ГП – это неудобно.

4. Кстати среди мероприятий в приложении 3 нашлось такое «формирование инфраструктуры обеспечения семантической и технологической совместимости государственных информационных систем«. Семантическая совместимость – это мощно! Осталось только понять какую именно семантику тут имели в виду – смысловую совместимость, Semantic Web или это вообще семантика из лингвистики? Понятно, что ничего не понятно.

5. Я не могу понять как в ГП попало мероприятие N26 из приложения 3 – «создание элементов типовой информационной инфраструктуры региона, в том числе в г. Сочи, связанных с подготовкой и проведением XXII Олимпийских зимних игр и XI Паралимпийских зимних игр 2014 года в г. Сочи«. Что-то мне подсказывает что инфраструктура Сочи, особенно в период подготовки к олимпиаде НЕ является типовой ни в коем разе.

6. Возвращаясь к приложению 2. Ожидаемые результаты по мероприятиям в большинстве своём не привязаны к конкретным годам, а там где привязаны – вместо полуструктурированного или структурированного описания это указано просто текстом. Впрочем это всё опять же к вопросу о сопоставлении индикаторов мероприятиям.

7. Отсутствуют детальные требования по публичной отчётности по ходу действия ГП. В частности в паспорте есть упоминание «В рамках выполнения Программы формируется также информационный ресурс в сети Интернет, на котором публикуются сведения о ходе реализации (о стадии и промежуточных результатах) проектов и мероприятий Программы, а также годовой отчет.». То есть будет сайт на котором будут публиковаться промежуточные результаты, но как, в какой форме и когда – ничего подобного не определено.

Originally published at Иван Бегтин. You can comment here or there.

Про ГП «Информационное общество» подробнее
22 ноября 10 02:51

Итак, я закончил какую-то небольшую часть анализа финальной редакции госпрограммы.

«Нюансов» там набралось с избытком, в том числе и чисто бюрократических, но обо всём по порядку.

1. Подпрограммы ГП из её паспорта не идентичны и кое-где не соответствуют подпрограммам из приложения 2, в частности.

а. В паспорте указана подпрограмма «качество жизни граждан и условия развития бизнеса в информационном обществе» в приложении 2 она звучит как «Повышение качества жизни граждан и улучшение условий развития бизнеса в информационном обществе»

б. В паспорте указана подпрограмма «электронное государство и эффективность государственного управления«, в приложении 2 она описана как «Построение электронного правительства и повышение эффективности государственного управления«. Обратите внимание на разницу в терминах – электронное государство и электронное правительство.

в. В паспорте указана подпрограмма «российский рынок информационных и телекоммуникационных технологий» в приложении 2 она звучит как «Развитие российского рынка информационных и телекоммуникационных технологий, обеспечение перехода к экономике, осуществляемой с помощью информационных технологий«.

г. В паспорте есть подпрограмма «базовая инфраструктура информационного общества» и она полностью отсутствует в приложении 2!

д. В паспорте указана подпрограмма «безопасность в информационном обществе» в приложении 2 она описана как «Обеспечение безопасности в информационном обществе»

е. И, наконец, подпрограмма в паспорте «цифровой контент и культурное наследие» в приложении 2 изложена в форме «Развитие цифрового контента и сохранение культурного наследия«.

Также наименования подпрограмм присутствуют в 5 приложении и там они соответствуют паспорту программы, но не соответствуют названиям из приложения 2.

Я могу предположить подобные разночтения лишь неаккуратностью готовивших/правивших/вычитывавших данный документ, поскольку уж что-что, а терминологию юристы с которыми они согласуются обычно вычитывают очень тщательно.

2. Из 45 мероприятий финансируемых из федерального бюджета на Минкомсвязи России приходится 25 и на них же приходится более половины бюджета всей госпрограммы. Однако судя по составу участников – структура расходов практически не изменилась по сравнению с ФЦП «Электронная Россия», Минсвязи скушало долю ФАИТа, а процентные доли МЭР и ФСО остались примерно теми же.

3. В некоторых случаях реальный заказчик работ неочевиден. Например, это касается мероприятия N45 «создание единого интернет-портала для популяриза­ции культурного наследия и традиций России«. В приложении 2 упомянуты Минкультуры России и Минкомсвязь России, однако в приложении 4 упомянуто что всё финансирование по подпрограмме «Цифровой контент и культурное  наследие» идёт через Минкомсвязь России. Однако эта неочевидность могла бы быть устранена если бы в описании программы было бы чётко указано кто является ответственным за мероприятие, а кто функциональным заказчиком.

4. В приложении 3 полностью отсутствует информация о стоимости мероприятий и, соответственно, невозможно оценить объём средств затрачиваемый данными ведомствами на реализацию данной программы.

5. Можно обратить внимание что некоторые ведомства полностью отсутствуют в списках ответственных за мероприятия, например, отсутствует Росархив, хотя ряд мероприятий приложения 3 скорее их чем других ведомств, а также есть и другие примеры.

Например:

  • за мероприятие «создание централизованного хранилища информации о составе национального библиотечно-информационного фонда и обязательного экземпляра электронных изданий»  отвечает Минкомсвязи, а не Росархив или Минкультуы
  • за мероприятие «создание национального библиотечного ресурса с унифицированным каталогом на базе оцифрованных фондов Российской государственной библиотеки, Российской национальной библиотеки, Президентской библиотеки имени Б.Н.Ельцина, библиотек государственных академий наук Российской Федерации, а также государственных и муниципальных публичных библиотек» отвечает Минкультуры, а не Росархив
  • за мероприятие «создание электронного портала в сети Интернет «Гостелерадиофонд – достояние России», перевод архивных фондов аудио-видео произведений в электронный вид» отвечает Минкомсвязи, хотя Гостелерадиофонд является ФГУ в подчинении Роспечати.
  • за мероприятие «создание единой информационно-поисковой системы документов Архивного фонда Российской Федерации» отвечает Минкультуры, а не Росархив, чтобы было бы куда логичнее

Фактически у ряда министерств у которых в подчинении есть агентства и службы вместо профильных агентств и служб министерства перетянули работы на себя. Так нет ни одного мероприятия где участвовали бы ведомства в подчинении Минкультуры такие как Росархив и Росохранкультура, а также нет ни одного мероприятия с ведомствами в подчинении Минкомсвязи такими как Роспечать и Россвязь.

6. Я насчитал более 156 ожидаемых результатов на основе 45 мероприятий из приложения 2. При этом совершенно непонятно как эти результаты сопоставить с индикаторами, и особенно с повышением позиции России в мировых рейтингах.

7. Обратите внимание на мероприятия 35 и 36 в приложении 2. Первое касается развитие систем государственного заказа и на него выделено 115 миллионов рублей и курируется оно Минэкономразвития, второе получило 145 миллионов рублей на создание независимого регистратора действий на электронных торговых площадках и курируется Минкомсвязи. Чтобы было понятно – ещё несколько лет назад это было бы немыслимо, Минэкономразвития крепко держали тему госзакупок, а эту тему всё таки кто-то сумел пробить. В общем-то полная неожиданность.

8. Подпрограмма «Базовая инфраструктура информационного общества» совершенно пустая, я так и не понял зачем и почему это нужно.

В принципе же в госпрограмме очень много внимание уделено теме госуслуг (e-services) и мало внимания таким понятиям как eParticipation, eDemocracy и совсем ничего не сказано про открытые данные, открытые лицензии и тому подобном.

Чуть позже я ещё выложу получившиеся в результате анализа схемки.

Originally published at Иван Бегтин. You can comment here or there.

Google Refine – новое название для Gridworks
11 октября 10 09:40

Для тех кто может быть ещё не знает Google купили компанию Metaweb – создателей FreeBase и Gridworks.

Теперь Gridworks называется Google Refine и доступно по другому адресу https://code.google.com/p/google-refine/

Gridworks, а теперь Google Refine – это один из мощнейших и инструментов по очистке данных. Ему можно на вход подать данные в CSV формате и далее различными способами перетасовывать колонки, фильтровать, обогащать, формировать производные колонки с помощью встроенных интерпретаторов Jython и GEL.

В общем и целом очень мощная штука, пожалуй, лучшая из бесплатных.

Originally published at Иван Бегтин. You can comment here or there.

FreeBase Gridworks released
10 мая 10 12:27

Появился исходный код Gridworks – http://code.google.com/p/freebase-gridworks/ , а также всяческие интересные примеры там же, в Wiki проекта. Этой такой инструмент по очистке и преобразованию данных сделанный внутри Metaweb’а, компании разработчика проекта Freebase.

И инструмент уж больно интересный и полезный, особенно учитывая что он теперь и с открытым кодом однако я лично попал на баг с тем что в локализованной винде имена юзеров на русском языке и, похоже что, у Gridworks из-за этого не сохраняется история работы с проектами да  и, в принципе, не работают все операции требующие сохранение на диск так как не находится путь куда сохранять.

Багу я им уже зарегистрировал, но сколько ждать придётся неизвестно.

Originally published at Иван Бегтин. You can comment here or there.

Систематизация распознавания пола и этноса по ФИО
04 мая 10 05:03

Какое-то время назад я эту тему поднимал в посте «Распознавание национальности по имени» – http://ivbeg.livejournal.com/119528.html

Но там было нечто вроде результатов экспериментов, сейчас же затрону тему систематизации того как можно обрабатывать ФИО и какую информацию можно на основе ФИО извлечь.

Предыстория этого текста исключительно практическая, поскольку я очень много с данными работаю, то периодически возникают задачи по тому как обогатить, улучшить, извлечь и отклассифицировать данные.  Так, например, анализ  ФИО даёт возможность  добавить как минимум 2 новых среза – гендерный и этнический (более правильное название определения национальности).

В задачах по визуализации гендерный срез особенно интересен, поскольку при наличии большого числа дополнительных характеристик можно показать различия весьма наглядно.

Этнический же срез интересен только на больших выборках, но поскольку эту информацию хотя бы частично можно извлечь, то опишу этот процесс.

Почему систематизация ? Лично я придерживаюсь того мнения что систематизации мало не бывает. Иногда это вредит – поскольку приводит к значительному углублению в детали, но чаще это помогает поскольку позволяет лучше понять предметную область и прежде чем приступать к воплощению в коде каких-либо алгоритмов – понять, с чем же имеем дело и как обеспечить простоту анализа данных в сочетании с максимально возможным охватом.

В случае ФИО, начало систематизации начинается с шаблонов.

Шаблоны

Форм записи ФИО не очень много и они вполне поддаются систематизации и укладываются в несколько шаблонов которые, в свою очередь, разделяются на несколько элементов.

Этих элементов немного и их можно перечислить:

s – Фамилия (surname)

f – Личное имя (first name)

m – Отчество (midname)

S – Однобуквенная запись фамилии

F – Однобуквенная запись имени

M – Обнобуквенная запись отчества.

Далее при анализе ФИО я буду исходить из того что ФИО – это не только фамилия, имя и отчество, но в реальной жизни это гораздо большее число форм написания того же.

При этом у использования этих элементов есть свои особенности в частности есть устоявшиеся сочетания в которых они присутствуют. Далее я приведу перечень шаблонов для определения этих сочетаний:

sfm – Фамилия, имя и отчество. Например, Пилипенко Мария Геннадьевна

fms – Имя, Отчество, Фамилия. Например, Александр Аронович Хромов

sFM – Фамилия и по первой букве от имени и отчества. Например, Васильев И. И. или Минниханов Р Е

FMs – первые буквы от имени и отчества и фамилия полностью. Пример: А. Ю. Макаренко, Н.Г. Буранов

sfM – фамилия и имя полностью и первая буква от отчества. Примеры: Ефимов Борис А., Карманова Мария В.

Fs – Первая буква имени и фамилия. Например, А. Румянцев или В Ручкин .

sF – фамилия полностью и первая буква от имени. Примеры: Борисов Г., Рахмонова Е.

s – только фамилия. Например: Хазанов, Минниханов, Дудкина, Малых

fs  - имя, фамилия. Например: Арут Карапетян, Борис Рыбин

sf – фамилия, имя. Например: Климов Максим, Мирных Алексей, Дудяк Елена

fm – имя, отчество. Например: Иван Петрович, Василий Аркадьевич, Рахиль Альбертовна

f – личное имя. Примеры: Иван, Петр, Алексей, Равиль, Аслан и т.д.

SFM – по первой букве от фамилии, имени, отчества. Примеры: В.Р.Е, Е.Н.М.

Является ли этот список шаблонов исчерпывающим? Весьма вероятно что нет, однако все остальные случаи будут достаточно редкими чтобы рассматривать их как исключения и систематизировать именно с точки зрения исключений.

Правила разбора ФИО

Когда известны все основные шаблоны и есть входящий поток для разбора можно приступать к описанию логики анализа.

Прежде чем определять пол персоны или этнос важно разложить ФИО на элементы и для этой цели необходимо определить каким шаблоном ФИО написано. Как это сделать?

1. Вначале разбить ФИО на элементы исходя из того что разделителями могут выступать пробелы и точки.

2. Определяется количество частей после чего идёт ветвление на проверку по шаблонам. Если 1 часть (1 слово) – то шаблон s или f. Если две части, то sf, fm, fs, sF или Fs

3. Для ФИО из 3-х частей проводится простая проверка не состоят ли какие-либо части из одной буквы. Если да и более двух, то быстро определяются такие шаблоны как SFM, sFM и FMs

4. Далее как определить какая из частей каким типом элементов является. Есть два способа и их комбинация.

Способ 1. Базы имён, фамилий и отчеств

Всего уникальных имён сравнительно немного – десятки тысяч. То же самое с отчествами. Сложнее с фамилиями – их могут быть сотни тысяч и миллионы. Однако при наличии значительных массивов возможно создание баз имён, фамилий и отчеств, а далее ручная и полуавтоматическая разметка по полу и этносу.

Способ 2. Регулярные выражения

Для отчеств – окончания на -вич и -вна. Для фамилий выражений больше. Например, таки как: ^(.*)(о|е|ё)в$, ^(.*)швили$ и так далее, несколько десятков.  А также есть набор выражений для имён, но там всё несколько сложнее и это отдельная тема.

Для каждого из выражений может быть сопоставление его с полом или этнической группой.

Способ 3. Использование баз и выражений совместно

Если запись находится в базе – исходить их признаков в базе, если нет – применять разметку регулярным выражением.

-

5. После идентификация шаблона мы имеем его описание и, если его идентификация потребовала определения типа элементов, то и предположения о поле и, возможно, этносе персоны. Для полноты картины необходимо проверить все остальные элементы регулярными выражениями и/ли по базам.

6. В конечном итоге результатом являются:

- выявленный формат шаблона

- размеченные элементы (фамилия, имя, отчество)

А также, или все имеющиеся или один производный признак пола и, при возможности определения, этноса.

Или же возврат,  и производного, и всех признаков. Об особенностях определения признаков в следующем пункте.

Особенности

Все было бы очень просто если бы не некоторые особенности которые важно помнить и учитывать.

1. Есть множество случаев когда пол определить невозможно даже определив шаблон и отдельные элементы. Связано это не с несовершенством методов проверки, а с тем что далеко не всегда информация о поле содержится в ФИО. Вот несколько примеров: Малых А.А. – имя и отчество присутствуют только в виде первых букв, а фамилия Малых является универсальной и может принадлежать, как женщине, так и мужчине. Точно также с фамилиями на -ко, -их и множестве других. Фактически во всех случаях шаблонов sFM, FMs, Fs, sF и s у нас недостаточно элементов несущих информацию и определение ограничено имеющейся информацией. В виду этого результатом метода по определению пола по ФИО могут быть 4 варианта ответа: женский, мужской, универсальный и неизвестно.

2. Есть множество региональной специфики в том что касается написания имён и отчеств. В частности в  азербайжанских казахских ФИО часто присутствует «Оглы» или «Кызы». Например, Асланов Ази Ахад оглы

3. Много специфики в именах используемых в национальных республиках России и бывшем СССР. Точность распознавания будет зависеть от наличия датасетов по регионам.

4. Описанный подход не охватывает случаи намерянных и случайных искажений. Например, когда вместо точки используют запятую или указывают ФИО вроде «Гадя Петрович Хренова». А также случаи с опечатками – это несколько более сложная, но не сверхсложная задача.

5. Определения этноса задача сложная, в первую очередь, в виду значительных объёмов классифицируемой информации. Фактически её можно разделить на принципы определения различных этнических особенностей в ФИО разных народов. Например, окончания фамилий на «-ян» у армян или «-дзе» и «-швили» у грузин. А также на основе баз имён разных народов.  Однако есть много случаев когда определить этнос сложно поскольку имя может указывать лишь на то из какого языка оно происходит. А в некоторых случаях имена могут иметь множественное значение. Например имя Артур – весьма популярно среди армян и это армянское имя переводящееся как «свет истины» и одновременно это нередкое современное имя в России среди русских.

Примеры

Собственно всё вышеперечисленное какое-то время я реализовал довольно давно в виде довольно простого закрытого веб-сервиса который на входе кушает текст, а на выходе выдаёт JSON с результатами. Работает это всё настолько просто назвать это алгоритмом у меня язык не поворачивается – просто «полезная штука», ничего более.

Вот несколько примеров.

Текст: Бегтин И.В.

Разбор в формате JSON:

{‘format’: ’sFM’, ‘gender’: ‘m’, ’sn’: u’Бегтин’, ‘fn_s’: u’И’, ‘text’: u’Бегтин И.В.’, ‘mn_s’: u’В’, ‘parsed’: True}

Текст: Иван Викторович Бегтин

Разбор в формате JSON:

{‘format’: ‘fms’, ‘gender’: u’m', ‘mn’: u’Викторович’, ’sn’: u’Бегтин’, ‘text’: u’Бегтин Иван Викторович’, ‘parsed’: True, ‘fn’: u’Иван’}

Где: fn – имя, sn – фамилия, mn – отчество, fn_s – первая буква имени, format – выявленный формат описания ФИО, parsed – флаг что формат был определён, gender – пол в виде одного из признаков m, f, u и «-» если определение пола не прошло.

Нет только признаков этноса, поскольку сейчас они присутствуют только для имён

Статистика

В качестве небольшого дополнения приведу некоторые статистические наблюдения.

Для проверки точности я взял небольшой массив примерно в  5 600 000 неуникальных записей из публичных официальных документов. А то есть с частыми повторениями одного и того же ФИО, но в разных формах. Например: где-то упоминается: Кудрявцев Е.В., где-то Кудрявцев Евгений, где-то Кудрявцев Евгений Викторович и так далее.

В результате сформировалась следующая таблица частот использования тех или иных форм записи.

<tr height="20"> <td width="64" height="20">Шаблон</td> <td width="64">Частота</td> </tr> <tr height="20"> <td height="20">sfm</td> <td align="right">49,38%</td> </tr> <tr height="20"> <td height="20">sFM</td> <td align="right">35,71%</td> </tr> <tr height="20"> <td height="20">FMs</td> <td align="right">13,42%</td> </tr> <tr height="20"> <td height="20">fms</td> <td align="right">1,24%</td> </tr> <tr height="20"> <td height="20">sF</td> <td align="right">0,069%</td> </tr> <tr height="20"> <td height="20">sf</td> <td align="right">0,055%</td> </tr> <tr height="20"> <td height="20">Fs</td> <td align="right">0,038%</td> </tr> <tr height="20"> <td height="20">sfM</td> <td align="right">0,029%</td> </tr> <tr height="20"> <td height="20">s</td> <td align="right">0,026%</td> </tr> <tr height="20"> <td height="20">fs</td> <td align="right">0,0010%</td> </tr> <tr height="20"> <td height="20">f</td> <td align="right">0.0007%</td> </tr>

Фактически можно увидеть что при 4 основных написания – sfm, sFM, FMs и fms лидируют по частоте встречаемости. Но, как я упоминал ранее, здесь есть специфика в официальности. Если же анализировать другие массивы, то распределение шаблонов по популярности будет иным.

В качестве резюме

В общем-то разбор ФИО – это довольно простой пример на уровне «систематизации очевидного». Куда сложнее задачи по разбору адресов или, например, товарных позиций. Но ничего неразрешимого нет при условии последовательного упрощения и шаблонизации форматов представления, иногда многоуровневой.

Originally published at Иван Бегтин. You can comment here or there.

О событиях 29 числа с точки зрения информации на госсайтах
30 марта 10 11:24

В Полит.Ру вышла ещё одна моя статья/обзор про то как события ЧП 29 марта освещались на госсайтах. Прочитать её можно здесь – http://www.polit.ru/analytics/2010/03/30/metro29.html и под катом в этом посте.

Метро 29 через призму государственных сайтов

Чтобы понять как наше с Вами государство, а точнее, его органы, присутствуют в Интернете и насколько ощутимо и осознано их присутствие, рассмотрим информацию, публикуемую на официальных сайтах органов государственной власти в день самых чрезвычайных происшествий.

Сайт Минздравсоцразвития России
(www.minzdravsoc.ru)


На сайте Минздравсоцразвития информация нашлась сразу же и на первой странцие



А всего новостей было две.


Приказ Минздравсоцразвития http://www.minzdravsoc.ru/docs/52 и информация о пострадавших http://www.minzdravsoc.ru/health/katastrof/124.


Что важно — обе эти новости были сразу заметны и доступны за счёт того, что проходили по одной и той же категории на сайте — «медицина катастроф».




Сайт МЧС России
(www.mchs.gov.ru)


29 марта на 21:10 сайт МЧС выглядел вот так



С него исчезла вообще какая-либо иная информация о деятельности МЧС. Я могу предположить две причины, почему это могло произойти:



  • сайт не выдержал нагрузки из-за обилия посетителей и его пришлось срочно заменить на статический;

  • поскольку интерес к теме теракта сейчас ключевой, то руководство МЧС могло решить подать информацию более наглядно.

Несмотря на то, что на сайте нельзя подписаться на обновление информации, тем не менее то, что развёрнутая пояснительная записка по текущей ситуации исчерпывающе её описывает, и то как МЧС подало информацию — это скорее хорошо, чем плохо.




Сайт Генеральной Прокуратуры
(www.genproc.gov.ru)


На сайте Генеральной Прокуратуры быстро удалось найти новость, посвящённую теракту



Она была 3-й в списке из 4-х новостей за 29 марта



Во многом простота поиска была за счёт грамотного подхода на сайте Генпрокуратуры в разделении новостных потоков на основной и поток из субъектов федерации.


Однако и здесь не всё идеально, вот некоторые бросающиеся в глаза проблемы:



  • у сайта сломана подписка на новости по RSS http://www.genproc.gov.ru/rss.php

  • у новостей не указывается время их публикации, только даты

  • совсем немного информации об актуальных событиях



Сайт МВД России
(www.mvd.ru)


На 21:20 из чуть менее 50 новостей опубликованных на сайте МВД России 29 числа не было ни одной, посвящённой произошедшим терактам в Москве.



Единственное упоминание об этих событиях удалось обнаружить в обзорах СМИ.



В итоге от сайта МВД России остаётся удручающее впечатление отсутствия наиболее важной для граждан информации и огромного количества малозначащих новостей.


Поэтому даже наличие подписки на новости по электронной почте здесь не поможет — официальная информация на сайте МВД просто отсутствовала.




Сайт Федеральной Службы Безопасности
(www.fsb.ru)


Так выглядела страница новостей официального сайта ФСБ России 29 марта на 21:18.



Главная и остальные выглядели ничуть не лучше — какая-либо информация о произошедшем отсутствовала. Да и если обратить внимание на прошлые публикации пресс-службы, то может показаться, что значимые события почти не происходят, ибо 10 официальных сообщений за год — это немногим больше, чем ноль.




Сайт Национального антитеррористического комитета
(nak.fsb.ru)


На сайте Национального Антитеррористического Комитета пришлось постараться, прежде чем найти нужную информацию о текущих событиях, поскольку большая часть сайта занята объяснением того, зачем же он был создан.



И лишь в правом нижнем углу два анонса текстов



Мало того, что информации там немного, так она ещё и представлена крайне неудобно. А если заглянуть в раздел «Новости», можно убедиться, что обновляется он редко и странно, поскольку новости датированы 2008 годом.


Про подписку на обновления, например, с помощью технологии RSS или по почте также можно забыть. Там их просто нет.




Правоохранительный портал Российской Федерации
(www.112.ru)


На правоохранительном портале — всё тот же принцип единого потока новостей, что и на сайте МВД.



Однако, за счёт того что туда транслируются и новости с сайта МЧС, то несколько сообщений всё же туда попало — со списком погибших и с усилиями МЧС.


То, что у сайта нет RSS ленты, подписки, не выделены значимые новости –  делает его использование неудобным и для любого случайного посетителя, и для постоянных читателей.




Сайт Главы Правительства России
(www.government.ru)


Если на сайтах многих федеральных ведомств какая-либо реакция была минимальной или отсутствовала, то на сайте главы правительства было две новости в течении дня.



В 11:00 http://premier.gov.ru/events/news/9929/ об отслеживании ситуации


И в 15:00 http://premier.gov.ru/events/news/9936/ о видеоконференции премьер-министра из Красноярска.


Причём те, кто был подписан на RSS ленту новостей с официального сайта премьера http://premier.gov.ru/services/rss/ могли об этом сразу же узнать.




Сайт Президента России
(www.kremlin.ru)


29 марта на 22:10 на сайте Президента о теракте появились четыре новости и фотоматериалы совещания.



Но, пожалуй, самым важным было то, что первая новость появилась практически молниеносно после произошедших событий в 9:00 http://www.kremlin.ru/news/7259


А уже в 10:30 освещались совещания президента с членами правительства http://www.kremlin.ru/news/7260 и генеральным прокурором.


Итоги


Собрав всё описанное воедино, можно подвести некоторые итоги.


Во-первых, становится ясно — если в стране что-то случается, в первую очередь, новости о событии стоит искать на сайтах Президента и Главы Правительства, МЧС России и Минздравсоцразвития. Там информация публикуется оперативно, удобно для восприятия и есть возможность получать её сразу же по подписке с использованием технологий RSS.


А вот все остальные сайты вызывают самые разные чувства — от удивления, до полного непонимания причин столь неуважительного отношения к тем, кто ими пользуется, к собственным гражданам.


Остаётся очень много вопросов. Например, такие:



  • Почему на сайте Генпрокуратуры не появилось информации по результатам совещания генпрокура с Президентом? На сайте президента новость опубликована в 10:30, а на сайте Генпрокуратуры?

  • Отчего же государственные сайты настолько нетехнологичны, что у большинства из них нет, ни подписки по RSS, ни по электронной почте?

  • В чём польза от правоохранительного портала, если у новостей нет рубрик, приоритетов, если новости невозможно сортировать?

  • 29 марта на сайте МВД опубликовали почти 50 региональных новостей, почему же не нашлось возможности разместить новость о самом важном событии?

Екатерина Аксенова ведущая блог Gov-Gov.ru ещё 29 числа написала про ряд проблем с освещением событий о теракте на госсайтах http://gov-gov.ru/?p=1353


И приведу очень важное её замечание.


Социальные сети на государство сейчас не работают. Хотя официальные twitter-каналы могут быть полезными для оперативных оповещений, информации о машрутах объезда, предупреждениях и так далее.


Интернет наполнен множеством действенных и технологичных инструментов. Так что же мешает представителям государства, и особенно отдельных органов власти понять, что открытость, оперативность и качество публикации — это инструменты, с помощью которых они могут повлиять на отношение граждан к собственной деятельности? И чем больше граждан будет приходить в Интернет, чем в большей степени Интернет будет занимать их время — тем это будет заметнее.

Originally published at Иван Бегтин. You can comment here or there.

Про анализ кадрового резерва в графиках
22 декабря 09 12:05

На сей раз я посмотрел на этот самый кадровый резерв повнимательнее. Могу сказать что если там покопаться посерьёзнее, то много чего интересного будет, например, многие из представителей бизнеса хотя и представляют разные компании, но многие из этих компаний в общих холдингах.

А если навскидку, то вот такие любопытные наблюдения:

Соотношение мужчин и женщин составляет 87% к 13%.

Это можно посмотреть на графике.

ScreenShot046 Фактически, подавляющее число резервистов это мужчины. Что несколько странно. Например, я знаю многие госучреждения где доля женщин превышает 60%, и те где доля женщин ниже 20%. Но 13% это как-то совсем мало.

Большинство резервистов старше 34 лет, но все младше 51

ScreenShot047 При том что на графике видно что есть резервисты и 26  летнего возраста (в основном это депутаты), но подавляющее  их большинство в возрасте от 34 лет.

Практически все молодые резервисты – мужчины

ScreenShot048

На этом графике отображено распределение “резервистов” по возрасту и полу. Например, можно пронаблюдать что молодых женщин “резервистов” очень мало, а если пройтись по списку, то можно убедится что все они депутаты разного рода собраний.

Более 58% всех “резервистов” работают в Москве

На графике можно пронаблюдать распределение всех “резервистов” по регионам текущего места работы. Именно места работы, а не происхождения – это важно. Например, все депутаты Госдумы, сотрудники федеральных органов власти, за исключением региональных представительств и когда это не оговорено отдельно, относятся к Москве.

ScreenShot049

Желающим строить собственные графики готов переслать файл в Excel’е или CSV, отмечайтесь в комментариях – перешлю на email. В общий доступ пока не выкладываю, но если будут соображения что стоит – выложу.

P.S. Между прочим так, обращу внимание что кто-то из редакторов сайта kremlin.ru прощёлкал, не сказать по другому, Custom Properties у документа со списком кадрового резерва, того который называется “Список лиц, включённых в резерв управленческих кадров, находящихся под патронажем Президента Российской Федерации (кроме «первой сотни»)” и доступен по ссылке вот тут http://www.kremlin.ru/news/6409.

А в по этим Custom Properties видно ФИО публиковавшего и отметка Outlook’а _AdHocReviewCycleID.  Сверхстрашного, конечно, тут ничего нет, но лучше за такими мелочами следить и их не допускать.

Originally published at Иван Бегтин. You can comment here or there.

Сокрытие информации и бинарные форматы файлов
27 сентября 09 07:38

Не так у меня была заметка про то как извлекать скрытые метаданные, но, для объективности, можно сказать что это только одна сторона медали.

Далее будут рассуждения и не более.

Есть и другая и она заключается в том, какие же скрытые данные в принципе могут присутствовать в различного рода файлах.

Правильные ответ – любые, какие только могут вздуматься производителю ПО, до которых это ПО может добраться и объём которых укладывается в полезную ёмкость контейнера для рассматриваемого формата.

Термин полезная ёмкость контейнера взят из стеганографии и он определяет то какой объём информации мы можем поместить в файл при этом сохранив остальное его содержимое неизменным для программ и людей которые с ним будут работать.

Фокус в том что стеганографические способы сокрытия метаданных обычно применяют в мультимедиа файлах – видео, изображениях и музыкальных файлах, например, через Least Significant Bit и ещё ряд методов. Когда нужно скрыть сравнительно большие объёмы данных или же возникает потребность в “скрытом канале информации”, то по другому и не получится.

Но, вот в том то и хитрость что скрывать большие объёмы данных может потребоваться не всегда, а вот контроль и мониторинг действий пользователей можно обеспечить и малым объёмом наиболее важной информации.

И всё упирается в три простых понятия характеризующих любого разработчика ПО как компании работающего с такими форматами:

  1. Мотивация – есть ли у разработчика ПО потребность в получении скрытой информации о пользователе?
  2. Репутация – превышает ли потенциальная выгода от получения риск обнаружения?
  3. Квалификация – обладает ли компания квалифицированными кадрами чтобы обеспечить сокрытие информации?

Всё начинается с понятия мотивация и я приведу несколько потенциальных причин для её появления на неё влияющих:

1. Желание отслеживать “лицензионную чистоту” ПО по серийным номерам продуктов.

2. Желание отслеживать наличие/отсутствие ПО конкурентов.

3. Необходимость сотрудничества со спецслужбами, выполняя их требования по идентификации персоны по каким-либо оставленным файлам.

Иначе говоря, найти мотивацию возможно, и потенциальная выгода, в зависимости от ситуации, может быть довольно привлекательно, исходя из этого перейдём к другому понятию – репутация.

Главный риск любого тайного отслеживания пользователя в том что если это вскроется и получит огласку, то потом будет очень сложно доказать что всё это делалось для блага, а не с корыстными целями. Риски получения судебных исков будут более чем реальны и вопрос в том что же перевесит мотивация или репутация? Да, конечно, можно частично минизировать их, например, распространяя действие коммерческой тайны на форматы файла и запрещая дизассемблирование ПО. В этом случае репутационные риски могут возникнуть только в случае нарушения закона со стороны обнаруживших сокрытие данных. Как резюме – можно предположить ситуации когда производитель ПО может рисковать и использовать сокрытие информации несмотря на риски.

И, фактор третий, квалификация. Это ничто иное как способность программистов скрыть сам факт сбора информации и сохранение в файл. В квалификацию также можно включить наличие понимания того как определить полезную ёмкость информации для форматов файлов и использовать её.

При этом файл как контейнер для хранения этой скрытой информации будет обладать как очевидными так и неочевидными носителями информациями – участками и способами кодирования в которых скрытые данные могут передаваться.

Наиболее очевидными носителями информации будут:

  • Проприетарные участки файла для закрытых форматов
  • Резервные поля и блоки файла если формат является условно-открытым и часть описания присутствует, а часть нет.

Всё это довольно просто – если формат файла неизвестен никому или же в нём есть закрытые куски, то можно сохранять в нём куски из блока скрываемой информации подвергшиеся предварительному преобразованию – сжатию, кодированию, сглаживанию и так далее.

Но, кроме очевидных способов сокрытия данных найдутся и весьма неочевидные:

  • GUID’ы и UUID’ы – за счёт эмуляции псевдослучайных чисел присутствует по 16 байт на каждый уникальный идентификатор
  • уникальные идентификаторы объектов отличные от UUID, например, если формат файла XML подобен и внутри у записей есть уникальные идентификаторы используемые только внутри контейнера и не несущие смысловой нагрузки при интерпретации программами потребителями, то идентификаторы записей могут использоваться как носители скрытой информации.
  • использование особенностей чередования объектов/символов или стеганография пробелами для текстовых файлов.
  • сокрытие информации внутри бинарных объектов в файле контейнере, например, в мультимедиа файлах.

Иначе говоря, при необходимости можно скрывать информации даже в открытых форматах.

Собственно, а как это можно отследить и выявить?

1. Отслеживать обращения ПО к информации уникально идентифицирующей компьютер/персону. Например, выявлять попытки чтения адреса Ethernet или Wifi/Wimax адаптера, чтения CPUID, попытки доступа к хранилищам сертификатов, номерам лицензий ОС и других программных пакетов и так далее.

Но, во первых чтобы отследить все обращения нужен специальный софт который бы это мониторил, а во вторых, программы могут обращаться к такой информации не постоянно, а лишь единожды при запуске и далее сохранять её в памяти в неоднократно, но обратимо преобразованном виде.

2. Очисткой файлов от “бинарных блоков”, например, перекодированием изображений и перегенерация кодов GUID/UUID.

3. Анализ аномалий в потенциальных носителях информации, но это уже совсем другая история.

Пока же могу сказать точно что у производителей софта гораздо больше возможностей отслеживать пользователей, чем у пользователей возможностей это предотвратить.

Такие дела.

Originally published at Иван Бегтин. You can comment here or there.

Электронная Россия в сравнении редакций. Часть 1
20 сентября 09 03:30

Как многие знают вышла новая редакция Электронной России (прочитать и скачать её можно здесь – http://www.government.ru/content/governmentactivity/rfgovernmentdecisions/archive/2009/09/10/7594263.htm)

Но радость была бы не полной… Но одно дело когда текст представлен как текст и совсем другое данные для анализа. Я эти данные, потихоньку перевожу из DOC в Excel и далее CSV и прочие более полезные форматы.

Поэтому для ФЦП привожу первую порцию преобразованных данных как cравнение распределения расходов между редакциями от ПП 502 от 16 августа 2006 года и ПП 721 от 10 сентября 2009 года.

Плюс наиболее простой график на котором видны самые очевидные изменения в виде сокращении доли Росинформтехнологий и увеличение доли Минкомсвязи.

ScreenShot011

Впрочем используя данные из Excel’евского файла можно увидеть и меньшие изменения как-то сокращение капитальных расходов у Минэкономразвития и ФСО России, при сохранении прочих расходов и расходов на НИОКР.

Интересно, конечно, будет сравнить и изменение структуры мероприятий и ответственных за них, но это позже.

Кстати, тут имеется 4 уровня срезов данных – по постановлению правительства, по ведомству, по году, по виду расходов. Кто подскажет какой график лучше всего подойдёт для визуализации?

П.С. Если кто-нибудь занимается инфографикой или знает тех кто занимается, покидайте, плз, контакты/цены/ссылки на портфолио. Ибо есть у меня уже много данных и готовность заказывать их визуализацию.

Originally published at Иван Бегтин. You can comment here or there.

More Posts Next page »

This Blog

Tags

Archives

Syndication