Browse by Tags

Памятка по журналистике данных
22 мая 11 01:22

Возможно, кто-то из Вас уже ранее слышал этот термин «журналистика данных» или «data driven journalism«. Если нет, то всячески рекомендую начать со статьи Евгении Шевниной в Mediapedia, заметку в блоге NewMediaLine – 10 фактов о журналистике данных, а также статью в блоге Сергея Рачинского –  Журналистика баз данных: Модный тренд или будущее профессии?

Итак.

Что же такое журналистика данных?

Журналистика данных – это совмещение журналистом роли переводчика с экономического/государственного/цифрового языка в язык понятный всем и, одновременно, роли аналитика представляющего материалы в предельно наглядной форме. Это могут быть списки, графики, интерактивные карты, специальные веб-компоненты которые позволяют отображать данные разными специальными способами и так далее.  Во всех случаях текст здесь является вспомогательным, а не основным инструментом. Эта особенность существенно меняет и форму подачи материалов. Информацию гораздо сложнее сделать эмоциональной, но и одновременно она куда более наглядна, поскольку один список или одна картинка, один график могут быть куда более наглядными чем тысячи слов.

Зачем это нужно?

Первая и ключевая причина – это наглядность подобного способа представления информации. Это позволяет охватить и удержать аудиторию которая не всегда готова вчитываться в большие тексты, но хорошо понимает их визуальное представление. Это одновременно, и упрощение подачи материалов, и усложнение процесса их подготовки. Журналистика данных – это новый тренд, явление которое сейчас проявляется в очень многих странах мира, в виде отдельных проектов крупных медиахолдингов и в виде личных датаблогов посвященных визуализации различной общественно значимой информации. Иначе говоря, для многих журналистов – это возможность получить признание и занять пока ещё пустующие ниши в медиапространстве. Учитывая что журналистика данных сейчас на подъеме и к не приходят все большее число СМИ, это может более чем востребовано в ближайшем будущем.

Пример: Guardian Datablog

В качестве заметного примера можно привести блог данных газеты Guardian в Великобритании. Этот блог, который можно назвать также отдельной редакторской колонкой, существует уже более 2-х лет, в нем опубликовано более 1000 постов на тему открытых данных, визуализации существующей информации, графики и списки сделанные редакцией и многое другое.

Это блог который и изначально вел один журналист Симон Роджерс (Simon Rodgers), а теперь туда пишет более 5 журналистов Guardian и пишут ежедневно, от 2-х до 4-х публикацией в сутки.

Из последних примеров – список заключенных Guantanomo и дефицит бюджета Великобритании

Пример: Los Angeles Times: Data Desk

У Los Angeles Times есть свой проект по данным который называется Data Desk. Это в меньшей степени работа журналистов и в большей степени редактора и команды программистов поскольку в Data Desk публикуются данные  и списки, они накладываются на карту Калифорнии или делаются в иной интерактивной форме. Фактически – это сервисы, над открытыми данными. В некоторых из них они берут информацию из существующих общественных проектов и сужают срезы только до Лос Анжелеса или до Калифорнии.

В чем сложности и ограничения

Главное ограничение – это необходимость навыков работы с рядом аналитических и технических инструментов. Это включает такие инструменты как Excel, Google Docs, IBM ManyEyes, Wordle и многие другие. Далеко не все журналисты обладают  навыками работы с этими инструментами и большинство из тех кто такими навыками обладают понимают то как необходимо подавать материалы в понятном медиа-формате.

Второе ограничение – это сравнительно невысокая доступность баз данных по России. У нас далеко не столь много общедоступной информации в структурированном виде чем в Великобритании или в США. У нас нет общероссийского государственного портала по открытым данным, нет специальных разделов с открытыми данными на сайтах органов власти и так далее. Зачастую даже если информация есть, её необходимо искать и преобразовывать.

Впрочем, на мой взгляд, это не неразрешимая задача. Данных у нас немало, особенно данных касающихся различных финансовых вопросов – бюджетов, индикаторов Центробанка и даже статистики по сдаче ЕГЭ.

Поэтому главное ограничение всё таки человеческое, чтобы вести темы в журналистике данных нужны заинтересованные в этой теме журналисты.

Как начать?

Я знаю что некоторые издания в России публикуют инфографику и результат анализа некоторых госданных, но, пока это происходит несистемно. Не в сфокусиронованном формате на открытые данные, на публичность государства, на понятность того что пишется.

Если Вы журналист, то задуматься и попробовать вести блог в формате журналистики данных. Предложить такой формат Вашей редакции. Вполне может быть что этот формат окажется востребованным аудиторией.

Если Вы редактор, то вполне возможно что журналистика данных – это именно то чего нехватает Вашему изданию и этот пост хорошая точка для старта.

Важно задать правильный формат изначально. Установить формат именно как журналистики данных, делать это в контексте открытых данных во всем мире.

С чего начать

В августе 2010 года в Европе прошла конференция по Data Driven Journalism и её отчет доступен онлайн http://mediapusher.eu/datadrivenjournalism/pdf/ddj_paper_final.pdf

В этом документе есть много примеров того как журналистика данных работает и используется по всему миру. Там же немало ссылок на инструменты которые журналист данных может использовать в своей работе.

А также существует немало инструментов доступных онлайн, я перечислю ключевые из них:

1. Google Docs – https://docs.google.com/

Сервис работы с документами и таблицами от Google. Помимо того что позволяет публиковать таблицы из Excel’я онлайн, для всеобщего доступа, там также есть возможность строить графики на основе этой информации.

2. Wordle – http://www.wordle.net

Wordle – это сервис по созданию «карт текста». Вы загружаете туда документ, а он подсчитывает частоту упоминаемости слов и наглядно отображает их в виде инфографики.

Пример визуализации ответов Медведева с его пресс-конференции я приводил совсем недавно.

3. IBM ManyEyes – http://www-958.ibm.com/software/data/cognos/manyeyes/

IBM ManyEyes – это сервис визуализации данных в форме различных графиков, наложения их на карты (мира или США) и построения ряда редких и наглядных графиков вроде Bubble Chart.

В 2010 году я публиковал бюджет Москвы на ManyEyes и скажу Вам что для визуализации сравнений – это бесподобный инструмент и не самый сложный.

Приложение. Ссылки

Каталоги открытых данных

Ссылки по визуализации

Инструменты, большая подборка

Руководства/Рекомендации

Originally published at Иван Бегтин. You can comment here or there.

О проектах по контролю за госрасходами в Мире
16 мая 11 11:40

Примеры того как организации и граждане мониторят госзакупки/госрасходы/госконтракты в мире:

Частные и некоммерческие проекты:

  • AidData (http://aiddata.org) – собирают базу по всем расходам международных организаций и государств на поддержку и развитие других стран. Предоставляют все собранные данные в виде огромной базы с возможностью доступа через API, возможностью скачать все данные. Ранее этот проект существовал в виде базы PLAID, также доступной у них на сайте. У проект сильная методология сведения очень разнородных данных и сейчас они реализуют важную и сложную задачу геокодирования мест помощи, отмечая их на картах стран где идут международные программы.
  • Where Does Our Money Go (http://wheredoesmymoneygo.org/) – проект Open Knowledge Foundation (http://www.okfn.org), одного из наиболее заметных центров компетенции по открытым данным. В этом проекте собраны данных о бюджете Великобритании, Италии, Израиля, Германии и многих других стран. Много инфографики, в основном по Великобритании, и конечно доступность всего как открытых данных. А также материалы по их подходу к анализу госрасходов здесь – http://wiki.openspending.org
  • ClearSpending (http://sunlightfoundation.com/clearspending/) проект Sunlight Labs, одного из сильнейших центров компетенции по открытости государства и открытым данным в США. Они пошли по пути анализа качества раскрываемых данных и произвели детальный анализ соответствия раскрываемых данных по госзаказу и бюджетам ведомств. У них качественно поставлена методология и визуализация устройства бюджетного процесса – http://sunlightfoundation.com/clearspending/animation/
  • zIndex (http://www.zindex.cz/) – чешский проект активистов по мониторингу госзаказа. Они чем-то отдаленно похожи на Роспил.инфо, но без политического пиара. Каждый конкурс детально разбирается и преподается весьма детально и понятно. Почитайте его Wiki – http://wiki.zindex.cz и все станет на свои места. Да, материалы там на чешском так что лучше воспользоваться сервисами вроде Google Translate.
  • FedSpending (http://www.fedspending.org/) – проект по мониторингу госконтрактов в США. Один из первых подобных проектов в мире и именно он стал основой будущего правительственного проекта UsaSpending.gov
  • Disclosed.ca (http://www.disclosed.ca/) – канадский проект по агрегации всех госконтрактов. Не самый методологически проработанный, но работающий. Создан НКО – Visible Government, которые также отдают все данные как открытые данные (https://github.com/visiblegovernment)
  • Government Expenses (http://www.governmentexpenses.ca/) ещё один канадский проект визуализирующий бюджет. Тоже не забывают об открытых данных.
  • РосЗатраты (http://www.rosspending.ru) – российский проект созданный по заказу ИНСОРа.

Итого:

1. Всегда контроль госрасходов идет с акцентом на открытые данные. Их создание или их использование.

2. Главные акценты – доступность информации, разъяснения, сравнения, анализ.

3. Предельные выводы по перерасходу средств и другим нарушениям делаются только после детального анализа и публикации разъяснений. С обязательными оговорками что это предположения (пример, zIndex).

4. Ни один из проектов не является «политическим», вокруг них вообще нет PR и серьёзного внимания СМИ.

А вот то чего нехватает в России в части публичного мониторинга госрасходов так это мониторинг за ФЦП и другими госпрограммами и визуализация бюджетов.

Originally published at Иван Бегтин. You can comment here or there.

О проектах по контролю за госрасходами в Мире
16 мая 11 11:40

Примеры того как организации и граждане мониторят госзакупки/госрасходы/госконтракты в мире:

Частные и некоммерческие проекты:

  • AidData (http://aiddata.org) – собирают базу по всем расходам международных организаций и государств на поддержку и развитие других стран. Предоставляют все собранные данные в виде огромной базы с возможностью доступа через API, возможностью скачать все данные. Ранее этот проект существовал в виде базы PLAID, также доступной у них на сайте. У проект сильная методология сведения очень разнородных данных и сейчас они реализуют важную и сложную задачу геокодирования мест помощи, отмечая их на картах стран где идут международные программы.
  • Where Does Our Money Go (http://wheredoesmymoneygo.org/) – проект Open Knowledge Foundation (http://www.okfn.org), одного из наиболее заметных центров компетенции по открытым данным. В этом проекте собраны данных о бюджете Великобритании, Италии, Израиля, Германии и многих других стран. Много инфографики, в основном по Великобритании, и конечно доступность всего как открытых данных. А также материалы по их подходу к анализу госрасходов здесь – http://wiki.openspending.org
  • ClearSpending (http://sunlightfoundation.com/clearspending/) проект Sunlight Labs, одного из сильнейших центров компетенции по открытости государства и открытым данным в США. Они пошли по пути анализа качества раскрываемых данных и произвели детальный анализ соответствия раскрываемых данных по госзаказу и бюджетам ведомств. У них качественно поставлена методология и визуализация устройства бюджетного процесса – http://sunlightfoundation.com/clearspending/animation/
  • zIndex (http://www.zindex.cz/) – чешский проект активистов по мониторингу госзаказа. Они чем-то отдаленно похожи на Роспил.инфо, но без политического пиара. Каждый конкурс детально разбирается и преподается весьма детально и понятно. Почитайте его Wiki – http://wiki.zindex.cz и все станет на свои места. Да, материалы там на чешском так что лучше воспользоваться сервисами вроде Google Translate.
  • FedSpending (http://www.fedspending.org/) – проект по мониторингу госконтрактов в США. Один из первых подобных проектов в мире и именно он стал основой будущего правительственного проекта UsaSpending.gov
  • Disclosed.ca (http://www.disclosed.ca/) – канадский проект по агрегации всех госконтрактов. Не самый методологически проработанный, но работающий. Создан НКО – Visible Government, которые также отдают все данные как открытые данные (https://github.com/visiblegovernment)
  • Government Expenses (http://www.governmentexpenses.ca/) ещё один канадский проект визуализирующий бюджет. Тоже не забывают об открытых данных.
  • РосЗатраты (http://www.rosspending.ru) – российский проект созданный по заказу ИНСОРа.

Итого:

1. Всегда контроль госрасходов идет с акцентом на открытые данные. Их создание или их использование.

2. Главные акценты – доступность информации, разъяснения, сравнения, анализ.

3. Предельные выводы по перерасходу средств и другим нарушениям делаются только после детального анализа и публикации разъяснений. С обязательными оговорками что это предположения (пример, zIndex).

4. Ни один из проектов не является «политическим», вокруг них вообще нет PR и серьёзного внимания СМИ.

А вот то чего нехватает в России в части публичного мониторинга госрасходов так это мониторинг за ФЦП и другими госпрограммами и визуализация бюджетов.

Originally published at Иван Бегтин. You can comment here or there.

О проектах по контролю за госрасходами в Мире
16 мая 11 11:40

Примеры того как организации и граждане мониторят госзакупки/госрасходы/госконтракты в мире:

Частные и некоммерческие проекты:

  • AidData (http://aiddata.org) – собирают базу по всем расходам международных организаций и государств на поддержку и развитие других стран. Предоставляют все собранные данные в виде огромной базы с возможностью доступа через API, возможностью скачать все данные. Ранее этот проект существовал в виде базы PLAID, также доступной у них на сайте. У проект сильная методология сведения очень разнородных данных и сейчас они реализуют важную и сложную задачу геокодирования мест помощи, отмечая их на картах стран где идут международные программы.
  • Where Does Our Money Go (http://wheredoesmymoneygo.org/) – проект Open Knowledge Foundation (http://www.okfn.org), одного из наиболее заметных центров компетенции по открытым данным. В этом проекте собраны данных о бюджете Великобритании, Италии, Израиля, Германии и многих других стран. Много инфографики, в основном по Великобритании, и конечно доступность всего как открытых данных. А также материалы по их подходу к анализу госрасходов здесь – http://wiki.openspending.org
  • ClearSpending (http://sunlightfoundation.com/clearspending/) проект Sunlight Labs, одного из сильнейших центров компетенции по открытости государства и открытым данным в США. Они пошли по пути анализа качества раскрываемых данных и произвели детальный анализ соответствия раскрываемых данных по госзаказу и бюджетам ведомств. У них качественно поставлена методология и визуализация устройства бюджетного процесса – http://sunlightfoundation.com/clearspending/animation/
  • zIndex (http://www.zindex.cz/) – чешский проект активистов по мониторингу госзаказа. Они чем-то отдаленно похожи на Роспил.инфо, но без политического пиара. Каждый конкурс детально разбирается и преподается весьма детально и понятно. Почитайте его Wiki – http://wiki.zindex.cz и все станет на свои места. Да, материалы там на чешском так что лучше воспользоваться сервисами вроде Google Translate.
  • FedSpending (http://www.fedspending.org/) – проект по мониторингу госконтрактов в США. Один из первых подобных проектов в мире и именно он стал основой будущего правительственного проекта UsaSpending.gov
  • Disclosed.ca (http://www.disclosed.ca/) – канадский проект по агрегации всех госконтрактов. Не самый методологически проработанный, но работающий. Создан НКО – Visible Government, которые также отдают все данные как открытые данные (https://github.com/visiblegovernment)
  • Government Expenses (http://www.governmentexpenses.ca/) ещё один канадский проект визуализирующий бюджет. Тоже не забывают об открытых данных.
  • РосЗатраты (http://www.rosspending.ru) – российский проект созданный по заказу ИНСОРа.

Итого:

1. Всегда контроль госрасходов идет с акцентом на открытые данные. Их создание или их использование.

2. Главные акценты – доступность информации, разъяснения, сравнения, анализ.

3. Предельные выводы по перерасходу средств и другим нарушениям делаются только после детального анализа и публикации разъяснений. С обязательными оговорками что это предположения (пример, zIndex).

4. Ни один из проектов не является «политическим», вокруг них вообще нет PR и серьёзного внимания СМИ.

А вот то чего нехватает в России в части публичного мониторинга госрасходов так это мониторинг за ФЦП и другими госпрограммами и визуализация бюджетов.

Originally published at Иван Бегтин. You can comment here or there.

О проектах по контролю за госрасходами в Мире
16 мая 11 11:40

Примеры того как организации и граждане мониторят госзакупки/госрасходы/госконтракты в мире:

Частные и некоммерческие проекты:

  • AidData (http://aiddata.org) – собирают базу по всем расходам международных организаций и государств на поддержку и развитие других стран. Предоставляют все собранные данные в виде огромной базы с возможностью доступа через API, возможностью скачать все данные. Ранее этот проект существовал в виде базы PLAID, также доступной у них на сайте. У проект сильная методология сведения очень разнородных данных и сейчас они реализуют важную и сложную задачу геокодирования мест помощи, отмечая их на картах стран где идут международные программы.
  • Where Does Our Money Go (http://wheredoesmymoneygo.org/) – проект Open Knowledge Foundation (http://www.okfn.org), одного из наиболее заметных центров компетенции по открытым данным. В этом проекте собраны данных о бюджете Великобритании, Италии, Израиля, Германии и многих других стран. Много инфографики, в основном по Великобритании, и конечно доступность всего как открытых данных. А также материалы по их подходу к анализу госрасходов здесь – http://wiki.openspending.org
  • ClearSpending (http://sunlightfoundation.com/clearspending/) проект Sunlight Labs, одного из сильнейших центров компетенции по открытости государства и открытым данным в США. Они пошли по пути анализа качества раскрываемых данных и произвели детальный анализ соответствия раскрываемых данных по госзаказу и бюджетам ведомств. У них качественно поставлена методология и визуализация устройства бюджетного процесса – http://sunlightfoundation.com/clearspending/animation/
  • zIndex (http://www.zindex.cz/) – чешский проект активистов по мониторингу госзаказа. Они чем-то отдаленно похожи на Роспил.инфо, но без политического пиара. Каждый конкурс детально разбирается и преподается весьма детально и понятно. Почитайте его Wiki – http://wiki.zindex.cz и все станет на свои места. Да, материалы там на чешском так что лучше воспользоваться сервисами вроде Google Translate.
  • FedSpending (http://www.fedspending.org/) – проект по мониторингу госконтрактов в США. Один из первых подобных проектов в мире и именно он стал основой будущего правительственного проекта UsaSpending.gov
  • Disclosed.ca (http://www.disclosed.ca/) – канадский проект по агрегации всех госконтрактов. Не самый методологически проработанный, но работающий. Создан НКО – Visible Government, которые также отдают все данные как открытые данные (https://github.com/visiblegovernment)
  • Government Expenses (http://www.governmentexpenses.ca/) ещё один канадский проект визуализирующий бюджет. Тоже не забывают об открытых данных.
  • РосЗатраты (http://www.rosspending.ru) – российский проект созданный по заказу ИНСОРа.

Итого:

1. Всегда контроль госрасходов идет с акцентом на открытые данные. Их создание или их использование.

2. Главные акценты – доступность информации, разъяснения, сравнения, анализ.

3. Предельные выводы по перерасходу средств и другим нарушениям делаются только после детального анализа и публикации разъяснений. С обязательными оговорками что это предположения (пример, zIndex).

4. Ни один из проектов не является «политическим», вокруг них вообще нет PR и серьёзного внимания СМИ.

А вот то чего нехватает в России в части публичного мониторинга госрасходов так это мониторинг за ФЦП и другими госпрограммами и визуализация бюджетов.

Originally published at Иван Бегтин. You can comment here or there.

О проектах по контролю за госрасходами в Мире
16 мая 11 11:40

Примеры того как организации и граждане мониторят госзакупки/госрасходы/госконтракты в мире:

Частные и некоммерческие проекты:

  • AidData (http://aiddata.org) – собирают базу по всем расходам международных организаций и государств на поддержку и развитие других стран. Предоставляют все собранные данные в виде огромной базы с возможностью доступа через API, возможностью скачать все данные. Ранее этот проект существовал в виде базы PLAID, также доступной у них на сайте. У проект сильная методология сведения очень разнородных данных и сейчас они реализуют важную и сложную задачу геокодирования мест помощи, отмечая их на картах стран где идут международные программы.
  • Where Does Our Money Go (http://wheredoesmymoneygo.org/) – проект Open Knowledge Foundation (http://www.okfn.org), одного из наиболее заметных центров компетенции по открытым данным. В этом проекте собраны данных о бюджете Великобритании, Италии, Израиля, Германии и многих других стран. Много инфографики, в основном по Великобритании, и конечно доступность всего как открытых данных. А также материалы по их подходу к анализу госрасходов здесь – http://wiki.openspending.org
  • ClearSpending (http://sunlightfoundation.com/clearspending/) проект Sunlight Labs, одного из сильнейших центров компетенции по открытости государства и открытым данным в США. Они пошли по пути анализа качества раскрываемых данных и произвели детальный анализ соответствия раскрываемых данных по госзаказу и бюджетам ведомств. У них качественно поставлена методология и визуализация устройства бюджетного процесса – http://sunlightfoundation.com/clearspending/animation/
  • zIndex (http://www.zindex.cz/) – чешский проект активистов по мониторингу госзаказа. Они чем-то отдаленно похожи на Роспил.инфо, но без политического пиара. Каждый конкурс детально разбирается и преподается весьма детально и понятно. Почитайте его Wiki – http://wiki.zindex.cz и все станет на свои места. Да, материалы там на чешском так что лучше воспользоваться сервисами вроде Google Translate.
  • FedSpending (http://www.fedspending.org/) – проект по мониторингу госконтрактов в США. Один из первых подобных проектов в мире и именно он стал основой будущего правительственного проекта UsaSpending.gov
  • Disclosed.ca (http://www.disclosed.ca/) – канадский проект по агрегации всех госконтрактов. Не самый методологически проработанный, но работающий. Создан НКО – Visible Government, которые также отдают все данные как открытые данные (https://github.com/visiblegovernment)
  • Government Expenses (http://www.governmentexpenses.ca/) ещё один канадский проект визуализирующий бюджет. Тоже не забывают об открытых данных.
  • РосЗатраты (http://www.rosspending.ru) – российский проект созданный по заказу ИНСОРа.

Итого:

1. Всегда контроль госрасходов идет с акцентом на открытые данные. Их создание или их использование.

2. Главные акценты – доступность информации, разъяснения, сравнения, анализ.

3. Предельные выводы по перерасходу средств и другим нарушениям делаются только после детального анализа и публикации разъяснений. С обязательными оговорками что это предположения (пример, zIndex).

4. Ни один из проектов не является «политическим», вокруг них вообще нет PR и серьёзного внимания СМИ.

А вот то чего нехватает в России в части публичного мониторинга госрасходов так это мониторинг за ФЦП и другими госпрограммами и визуализация бюджетов.

Originally published at Иван Бегтин. You can comment here or there.

Про закупку открытого ПО Евросоюзом (на русском)
09 декабря 10 03:32

На Хабрахабр появилась статья с переводом материалов по закупке открытого ПО Евросоюзом – http://habrahabr.ru/blogs/open_source/109681/

Я считаю что инициатива по переводу подобных программных документов – это правильно и автор проделал большую и важную работу.

А скачать документ и его перевод можно по ссылке – http://www.box.net/shared/dza6hl87d4

Originally published at Иван Бегтин. You can comment here or there.

Про метаданные документов. Без примеров
08 декабря 10 10:45

Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.

Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.

Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно – примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.

Итак метаданные.

Если ранее я писал что есть два типа метаданных – метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше.  Вернее даже не метаданных, а информации идентифицирующей автора и окружение.

Фактически я бы разделил эту идентификационную информацию на 4 типа:

метаданные документа – свойства (properties)  документа которые обычно забывают удалить при сохранении и пересылке.

метаданные вложенных объектов – свойства вложенных OLE объектов и изображений.

маркеры – данные в гипертексте документа идентифицирующие его владельца.

скрытые данные - информация в участках документа недоступных для визуального просмотра.

Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.

1. Метаданные документа

Это свойства документа которые видны если открыть его «Свойства» в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть «чувствительную информацию» о том кто был на самом деле автором документа,

2. Метаданные вложенных объектов

Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты – это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.

Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию – это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ – это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.

Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel – значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.

Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через «Вставить объект», то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.

Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ – сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем  я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.

Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту – преобразовать в OpenXML, распаковать и заглянуть в папку media.

3. «Маркёры»

Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:

обсуждения и комментарии в режим правки. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.

ссылки. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на Desktop или же в папке «Мои документы«. Главное что такие ссылки позволяют узнать – локальное имя пользователя извлекаемой из пути к данному документу.

4. Скрытые данные

Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах.  Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.

В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.

А как собственно получить все эти данные?

Инструменты

Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье Document Metadata Extraction в Forensics Wiki -http://www.forensicswiki.org/wiki/Document_Metadata_Extraction здесь много ссылок на инструменты и библиотеки.

Набор инструментов:

MS Office 2007-2010 для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты

Strings - утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.

OffVis – это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel – незаменима. Скачать можно здесь http://download.techworld.com/3214034/microsoft-offvis-11/

Metadata Extraction Tool – бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё  http://meta-extractor.sourceforge.net/

Catalogue – собирает метаданные из разного типа файлов http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm

- Metadata Analyzer – извлекает метаданные (только базовые) http://smartpctools.com/metadata/

Document Trace Remover – убирает метаданные http://smartpctools.com/trace_remover/

- Oracle Outside In - инструмент для разработчиков, поддерживает около 500 форматов файлов http://www.oracle.com/us/technologies/embedded/025613.htm

Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.

Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.

Originally published at Иван Бегтин. You can comment here or there.

Техническое: про регулярные выражения и Яндекс PIRE
11 ноября 10 11:37

Что-то давно я не писал про технологии и алгоритмы.

А тем временем, на днях, представители Яндекса выложили в открытый доступ ряд open source проектов – http://clubs.ya.ru/company/replies.xml?item_no=30753

Самый интересный из которых, на мой взгляд – это PIRE, https://github.com/dprokoptsev/pire Perl Incompatible Regular Expressions Library.

Весьма интересная штука для тех кто когда либо прогонял через шаблоны большие объёмы текста/файлов/сетевого трафика и прочего файлового счастья.

Как я понимаю авторы обещают производительность до 400MB в секунду на «common hardware», конечно, с кучей ограничений по тому что в регулярных выражениях может быть, но тем не менее – это быстро. Жаль там нет враппера для Питона, я бы попробовал на своих данных, благо их у меня накопилось много и есть с чем сравнивать. Пока поверю авторам на слово и исхожу из того что это так и есть, благо подход описанный у них в документации вполне понятен и должен работать.

Однако, жаль что подобных открытых разработок небыло хотя бы пары лет назад. Когда я разрабатывал Скиур – http://www.skyur.ru (это такой сервис по преобразованию веб-страниц в RSS), то решал задачи для которых как раз были необходимы такие инструменты  поскольку частью алгоритма является большое число тогда ещё регулярных выражений. В совокупности чуть менее 200, точно не скажу поскольку происходит их сборка из некого базового набора.

Но не имея таких инструментов я пошёл другим путём с решением «в лоб», также оказавшего эффективным.

1. Все регулярные выражения были заменены на конечные автоматы

2. Собственно автоматы проанализированы и разбиты на повторяющиеся блоки.

3. Окончательная сборка шаблонов производится из группы базовых автоматов с добавлением к ним дополнительных блоков по набору правил.

4. На основе базовых шаблонов вручную формируется набор базовых правил заменяющих индекс. Фактически это замена для того же esmre для регулярных выражений. Которую, конечно, можно в дальнейшем автоматизировать.

То есть, фактически, это путь эффективен только в случае:

a.  Управляемости входного потока выражений.

б. Возможности разделения регулярные выражения на простые блоки и высокой повторяемости этих блоков.

Лично я нашёл что PyParsing - http://pyparsing.wikispaces.com при соблюдении описанных выше действий обеспечивает ускорение сравнения по сравнению с регулярными выражениями в разы. Собственно он и является весьма удобным конструктором.

Впрочем был бы PIRE или его аналог, пришлось бы гораздо проще. Впрочем и сейчас немало задач для которых такой инструмент необходим. Начиная от контроля сетевого трафика, задач из области поиска доказательств на компьютерах пользователей, классификационных задач, разбора различных полуструктурированных данных и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Про новый формат Гугла – WebP
02 октября 10 06:40

На OpenNews.ru перевод статьи http://www.opennet.ru/opennews/art.shtml?num=28138 одного из разработчиков проекта x264 в котором ведётся разработка кодировщика для H.264

Довольно подробный технический обзор плюсов и минусов с основным выводом в бессмысленности формата.

А на мой личный взгляд вокруг бренда Гугла формируется слишком много сверхожиданий. До Гугла были и другие ИТ лидеры (IBM, Microsoft) у которых были как удачные идеи так и весьма от удачных далёкие.

Например, SPDY так и не получил никакого развития, впрочем как я и предполагал.

С этим форматом я также сомневаюсь в его значимости, однако здесь, подозреваю, цели не технологические, а сугубо практические – уменьшение трафика приходящегося на картинки. Даже если доля предположить что WebP подходит не для всех ситуаций, то даже если он будет использоваться в 10% картинок и даст экономию в 25% на каждую картинку – это уже 2.5% экономии. Может быть это и немного, а может быть и весьма существенно.

В любом случае многое будет зависеть от поддержки формата основными браузерами.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 1 Comments    
Filed under:
Каким должен быть конкурс Apps for Russia и каким нет
21 сентября 10 10:31

Посмотрев подробнее на IT Прорыв, я понял что раскритиковать его мало, надо описать сразу как такие проекты делать _правильно_. Разумеется, всё написанное далее моё сугубо личное мнение и ничего более. Которое, впрочем, стоит рассматривать как приглашение к активной дискуссии.

Итак, недостатки ИТ прорыв.

1. Партийный проект и политика

Я лично с большим сомнением отношусь к деятельности вообще любых партий и к пониманию их руководством вопросов координации гражданской активности и технологий. Но главное что партийность у подобного проекта идёт наперекор всей мировой практике. В мире подобного рода инициативы исходят, либо от госструктур, либо, что чаще, от близких к ним некоммерческих организаций, но уж точно не от партий. И причины этого понятны – такой проект в лучшем случае соберёт участников той партии которая его запустила и точно не соберёт тех кому эта партия неинтересна. Конкретно «Единая России» ранее в своих инициативах в техническом и технологическом креативе замечена не была. Схожий проект – «Зворыкинский проект» (http://zv.innovaterussia.ru/) имеет государственный статус, четкие направления, понятные цели и интересный список проектов – http://zv.innovaterussia.ru/projects/list. Я готов поверить в то что и там не всё идеально, но то что это гораздо лучше чем ИТ Прорыв – это не подлежит сомнению.

Кроме того партийность проекта влияет на то как воспринимается его критика и перенос этой критики на партию. Вот мне, честно говоря, партия безразлична настолько насколько это только возможно, но критикуя проект всё равно мимо неё пройти не получается.

2. Странный выбор названия и домена

Проект называется IT Прорыв, а домен tvoystart.ru . Это весьма странно и остаётся ощущение что идея у инициаторов недозрела раз пришлось менять название на ходу.  Выглядит несерьёзно.

3. Недостаточная сфокусированность и нечёткое целеполагание

Есть целый ряд очень важных и ключевых тем которые можно было бы раскрыть и раскрыть очень хорошо, но они в проекте даже не обозначены. Кроме того нет ещё одного важного фокуса – общественное благо. Потому как, по сути, все идеи можно разделить по двум категориям. Нацеленные на извлечение прибыли и на создание общественного блага – в пределах своего населённого пункта, региона или страны целиком.

В этом плане зворыкинский проект хорошо понятен – там акцент на построении бизнеса на основе инноваций, и это вполне себе хорошая идеология.  Здесь же более подходит идеология «общественного блага» идеи из которых могут применятся и в бизнесе, но бизнес не должен быть ключевым, а главное – это польза для общества.

Например, те же Ростехнологии могли бы поднять на флагшток темы и идеи использования ГЛОНАСС (да и GPS) . Логично здесь смотрелись бы и темы энергоэффективности, использования суперкомпьютеров, сохранение культурного наследия и так далее.

Лично я считаю что ИТ само по себе не может быть отдельной темой. Это мощный инструмент помощи в других вопросах.

4. Отсутствие модерации

Если бы была модерация, то небыло бы такого http://www.tvoystart.ru/work/?ELEMENT_ID=7084 или решения личных вопросов – http://www.tvoystart.ru/work/?ELEMENT_ID=6480 или такое http://www.tvoystart.ru/work/?ELEMENT_ID=557

А вот чудо про чип в большом пальце с рождения реагирующий на матерные слова стоит почитать обязательно – http://www.tvoystart.ru/work/?ELEMENT_ID=8045. Креатив!

5. Недетские проекты от школьников

Стоит посмотреть на «Формирование электронного правительства детей Орловской области» – http://www.tvoystart.ru/work/?ELEMENT_ID=1368 мог ли такой текст написать школьник?

Или проект Антитеррор+ http://www.tvoystart.ru/work/?ELEMENT_ID=2175 В самом деле школьники оперируют понятиями «модуль» системы и разработкой ТЗ? Может тогда и сразу по ГОСТу 19 и 34, чего мелочиться то.

6. Смешение несмешиваемого

Я не могу понять зачем было смешивать обычные конкурсы рисунков (http://www.tvoystart.ru/works-catalogue/?nomination=4743) и эссе о технологиях (http://www.tvoystart.ru/works-catalogue/?nomination=4744) с проектами по «Электронной России» (http://www.tvoystart.ru/works-catalogue/?nomination=4104).

И так далее. Там ещё много всего наберётся, однако это всё будет не более чем внешние признаки изначально неправильного подхода. Вместо жёсткого отсева идей и проектов и отбора лучших и активных идёт целый ряд конкурсов на которые может подасться кто угодно.

Есть вопросы и к организации. На сейте нет ни указания какая именно организация его ведёт, ни подробного описания, ни «лица проекта». Сравните его с Code For America (http://codeforamerica.org/) где на главной странице выступление Тима О’Релли, а сам проект идёт от одноимённой некоммерческой организации под этот проект созданной.

Ключевой вопрос – а как же делать правильно?

Я считаю что есть несколько подходов основывающихся на одном единственном принципе – общественном благе.

Во первых проект должен идти от одной или нескольких некоммерческих организаций или госструктуры. Например, проект могли бы инициировать такие учреждений как ИРИО или ИНСОР или же иной некоммерческой организацией которая бы устанавливала правила и призовой фонд для участников. Такой организацией также может выступать какая-либо отраслевая ассоциация.

Почему так? Потому как крупные ИТ компании, как правило, в одной лодке плыть не любят. Если в проекте участвует Microsoft, значит Google там не будет. Если будет Яндекс, значит там не будет Mail.ru и так далее.

Во вторых проект должен быть очёнь чётко направленным. На первом этапе необходим отбор тем, на втором отбор проектов. В зависимости от тем и определяются партнёры-участники проекта от каждого из которых выступает один или несколько лиц кураторов темы ответственных за отбор проектов среди всех заявок.

В третьих – это акцент на открытом исходном коде. Не в концепции СПО где открытый исходный код у базовых продуктов – ОС, подготовка документов и так далее. А в концепции «общественного блага». Разработанные участниками конкурса проекты должны быть доступны с исходным кодом и возможностью для других их использовать

В четвёртых необходимо чётко развести сбор идей и проекты с практическими результатами. И те и другие необходимо представлять в виде структурированного описания. Не так как это сейчас сделано в проекте IT прорыв, а то как это работает в проекте StartupIndex.ru. В принципе, проект StartupIndex – это хороший пример такого подхода для коммерческих проектов. И в партнёрстве с ним или же на основе схожей идеологии может строиться и Apps For Russia с тем лишь отличием что первой строкой в нём идёт всё то же общественное благо и лишь дополнением является возможность коммерческого использования.

В пятых такой проект может идти в рамках госполитики, но не в рамках политики как деятельности партий поскольку целью его должно быть политически нейтральная поддержка наиболее активных.

В шестых фундаментом Apps For Russia должна быть одна базовая идея – открытые данные. Этот фундамент используется сейчас в большинстве таких проектов в мире и уже сейчас в OpenGovData.ru накоплено достаточно данных для того чтобы такой проект запускать.


Originally published at Иван Бегтин. You can comment here or there.

Civic Commons
10 сентября 10 03:05

У Катерины появился пост про Civic Commons (http://civiccommons.com/) проект появившийся как результат Code for America. В нём собраны многочисленные некоммерческие приложения с открытым кодом которыми могут воспользоваться госструктуры в построении решений и сервисов для граждан.

В некотором смысле это опенсорсный аналог apps.gov где собрано коммерческое ПО и сервисы полезные для госорганов в США.

Какая здесь польза для нас? А их две. Во первых – это кейс и пример того что Code for America успешен, во вторых сама идея весьма разумна и в России вполне мог бы появится свой Civic Commons.

P.S. В последние дни Катерина (gov-gov.ru) и Алёна Попова (http://www.alenapopova.ru/)  меня явно обгоняют по публикации разного вкусного и интересного по мировому и российскому e-Gov. Что впрочем не значит что я я не затаился со стратегическим запасом новостей  и только жду повода;)

Originally published at Иван Бегтин. You can comment here or there.

Новое в OpenGovData.ru – данные, заметки, источники и примеры
29 августа 10 12:23

Итак, в OpenGovData.ru и его Вики появилось много нового.

1. За 4 дня было было создано 14 парсеров и, соответственно, у нас появилось 14 новых массивов машиночитаемых данных. Почти все были сделаны волонтёрами по своей инициативе. Я считаю что это очень круто и мы вместе делаем очень важное дело. Пусть и по маленьким кусочкам, но, свершилось главное идея создания машиночитаемых данных своими руками – работает.

Кстати, предлагаю всем подумать над тем как можно проанализировать и что можно из этих данных интересное сделать. Например, я лично уже копаюсь в реестре недобросовестных поставщиков, а кому могут быть интересны данные государственного регистра фильмов, базы запуска космических аппаратов или сводной налоговой отчетности. Предлагаю всем заглянуть в то что у нас уже есть тут в вики и в списках массивов данных.

2. В список источников opengovdata.ru я добавил ещё 10 новых. Их можно просмотреть в списке тут в основном это статистика ФСИН, МЧС и МВД. Присылайте новые мне или вносите в список в вики проекта тут

3. В разделе рецепты и инструменты добавились ссылки на примеры кода, фреймворки и движки по извлечению данных, их обработке и визуализации. Постепенно там будет собрана максимально обширная коллекция материалов. Если Вы видите что там чего-то нехватает, смело добавляйте или пишите мне – я добавлю.

4. Я начал вносить в Вики собственные парсеры накопленные мною за время работы над opengovdata.ru. Сейчас на странице со списком преобразованных данных я выложил парсер списка сайтов кредитных организаций (банков) с сайта Банка России.

А также вот тут http://gist.github.com/555510 можно посмотреть пример кода как автоматизировать извлечение очень простых таблиц с веб-страниц и примеры того как этот код помог в сборе данных о грантах для РосГосЗатрат.  Фактически всё что нужно для простых таблиц – это ссылка, кодировка страницы и код xpath, как правило, очень простой.

Тем временем, пока мы вместо наших госорганов делаем данные открытыми и публичными, норвежские чиновники вот тут http://data.norge.no/blogg/2010/08/en-klausulbuffet-av-vilkar/ обсуждают вопросы лицензирования открытых данных отдавая предпочтение лицензии Creative Commons. Страница неплохо переводится на русский через Google Translate или же, разъяснения на английском, есть на общеевропейском портале.

Originally published at Иван Бегтин. You can comment here or there.

Вопросы и обсуждения по открытым данным
27 августа 10 12:46

Поскольку число обсуждающих всё ширится, я хочу поднять ряд вопросов которые возникли, озвучить своё мнение и предложить их к обсуждению.

1. Почему не Java, .NET и прочие и прочие?

В основном по той причине что есть ряд языков/платформ разработки крепко привязанных к компаниям их продвигающих. Так .NET прочно ассоциируется с Microsoft, а Java с Sun/Oracle. Учитывая что эти платформы в основном коммерческие то и, хотя разработчиков на них много, но многие самые интересные движки и библиотеки которые могли бы помочь – тоже коммерческие.

Я лично считаю что для инициативы создания общественного блага на этих платформах должны идти от их вендоров или при их поддержке. Но учитывая что тема имеет гражданское приложение, я слабо верю в то что кто-то из них на это решиться.

В остальном здесь ситуация следующая. Если кто-то по собственной инициативе сделает парсер данных хоть на Lua или Object Pascal и выложит его в открытый доступ, ему в любом случае, респект и уважуха и такие случаи я упомяну обязательно. Но в том что касается случаев когда я выделяю на перевод массива в машиночитаемый вид денежку, то тут точно нет. Моя цель – открытые данные и наиболее простые и понятные способы их создания.

2. Не упомянут Perl

Это правда, но не от нелюбви к нему, а по невнимательности. Конечно, на скрипты на Perl’е всегда приветствуются.

3. Почему не GPL?

Тут та же самая ситуация что и с вендорозависимыми платформами. Если кто-то по своей инициативе хочет сделать скрипт по перобразованию данных и выложить его в открытый доступ под GPL. Хорошо, в любом случае общественное благо. Но лично я рассматриваю лицензию GPL как ограничивающую возможности, а не расширяющие. Соответственно в тех случаях когда я публикую предложения преобразовать за деньги которые я выделяю лично – на GPL это не распространяется. Если же кто-то последует моему примеру и решится выделить средства или вообще организовать такую же инициативу, но GPL’ориентированную – организуйте её самостоятельно. Это тоже общественное благо, тоже респект и уважуха.

4. Почему не RDF и не Semantic Web?

Для спрашивающих, я в общем-то человек сам от Semantic Web’а не далеко ушедший и, например, моделировал геополитическую онтологию в формате OWL о чём можно узнать в моём блоге или в вики OpenGovData.ru.

Так вот, RDF’изация вселенной разумна и практична только когда у Вас _уже_ есть структурированные данные или если Вы формируете онтологии своими руками. Соответственно если у кого то возникнет желание и возможность переводить данные накопленные в OpenGovData.ru и уже преобразованные в форматы для Semantic Web – милости прошу. Лично я же считаю, и сужу по мировому опыту гражданских проектов, что для них достаточно принципиальное наличие данных в структурированной форме, желательно простой – CSV или JSON. Поэтому и все существующие проекты, например, Open Knowledge Foundation помимо RDF отдают данные ещё и в XML и JSON’е. Потому как пока ещё, к сожалению или к счастью, но RDF не стал массовым явлением.

Originally published at Иван Бегтин. You can comment here or there.

Ещё не конкурс, но обсуждение!
25 августа 10 10:35

В ВебПланете вышла статья про то что я уже организовал конкурс – http://www.webplanet.ru/news/service/2010/08/25/begtin.html.

Друзья, спасибо за привлечение внимания к идее. Только это ещё не конкурс, это был анонс обсуждения и сбор предложений как конкурс организовать. Обратите, внимание, на разницу.

Результаты обсуждения уже доступны тут http://ivan.begtin.name/2010/08/25/idearesults/

И конкурс будет проходить по описанной там схеме:

1. Я еженедельно буду публиковать список из 10 массивов в «плохих форматах» с предложением волонтёрам их преобразовать.  К волонтёрам просьба – если возьметесь за работу, отпишите мне – чтобы я соответственно отметил этот массив и укажите если Вы берётесь за это бесплатно.

2. В течении недели, если кто-то за преобразование берётся, я отмечаю в Wiki проекта что этими данными занимаются и потом там же публикую результаты – скрипт и массив данных.

3. В конце недели публикуют отчет с итогами. Какие данные преобразованы, а какие нет и следующий список из 10 массивов.

4. Если какие-то данные небыли преобразованы в течении недели. Например, были волонтёрами неинтересны или же массивы сложности, я публикую все непреобразованные данные списком с указанием суммы которую я готов подарить за их преобразование.

5. В случаях сложных и больших массивов данных каждый из них будет выносится на широкое обсуждение.

Если редактора ВебПланеты читают мой блог, поправьте, пожалуйста, у себя в статье.

Тем временем уже за короткий срок уже появилось 7 машиночитаемых массивов данных . Это очень круто, я не ожидал такого результата, если честно.

Originally published at Иван Бегтин. You can comment here or there.

More Posts Next page »

This Blog

Tags

Archives

Syndication