Сентябрь 2009 - Posts

Infogeeks / Инфогики
30 сентября 09 05:31

Время от времени меня (как и многих) спрашивают чем я вообще занимаюсь, так сказать род деятельности. Я же на этот вопрос предпочитаю отвечать то чем я увлекаюсь. И вот на днях для всего этого я, похоже, подобрал наиболее точный термин – InfoGeek или Инфогик. Можно ещё сказать Datageek или Датагик, но суть сильно не изменится. Моё хобби – это информация во всех её проявлениях, способах её сбора, способах работы с ней, исследований основ и понимания МетаИнформации – где “мета” обозначает концептуальную модель её производства, существования и структуры.

Также, например, инфогик’ство проявляется в стремлении собирать и накапливать различные базы данных, анализировать способы их связывания и визуализации. У меня лично таким образом накапливаются самые разные датасеты из самых разных областей – государство, бизнес, Интернет, математика, медицина, социальные науки и прочие прочие.

Всего сотни и сотни гигабайт данных и источников их получения. А в некоторых случаях и способы её создания. Например, в моём понимании, Интернет – это огромный массив неструктурированной информации из которой можно извлекать свои жемчужины.

В России, к сожалению, инфогиков пока мало. Больше же всего их в англосфере, там и с доступностью информации попроще и школы по обработке и систематизации данных весьма сильны.

Так что на технологии, способы ведения проектов, программные продукты и так далее у меня взгляд именно с точки зрения информации. Как я могу их использовать чтобы собрать найти больше информации, обработать её быстрее или показать её более наглядно.

Кстати, большой плюс у такого хобби в его безграничности.

Originally published at Иван Бегтин. You can comment here or there.

Про госзакупки и блоггерские активности
29 сентября 09 02:59

Недавно в ЖЖ я нашёл нечто вроде сообщества zakupki-news (http://zakupki-news.livejournal.com/) где публикуют разные интересные или необычные тендеры.

Да и в последнее время резко участились ссылки блоггеров на zakupki.gov.ru и другие аналогичные сайты, так что явно интерес к теме проснулся (спустя 4 года после принятия 94-ФЗ). Лично я все такие публикации уже давно мониторю и читаю.

Скажу честно, отношение к этому явлению у меня неоднозначное, так что я сформулирую его тезисно, кое в чем выступая в качестве “адвоката дьявола”:

1. Все разговоры о том что кто-то из госзаказчиков что-то закупает ненужное или очень дорогое, вместо того чтобы помогать пенсионерам, больным детям, бездомным, инвалидам и так далее – это ничто иное как популизм. Причём популизм дешёвый и неверный. По факту у каждого государственного учреждения есть лимиты выделяемых им из бюджетов средств в рамках которых они ведут свою деятельность, выплачивают зарплату и объявляют конкурсы, аукционы и прочие торги. При этом необходимо понимать что:

a. У них нет наличных денег. Все средства перечисляются из отделения казначейства которое выступает в качестве кассира и переводит их в безналичной форме.

б. Если деньги выделены на обеспечение деятельности бюджетного учреждения, но, не израсходованы полностью, то потратить их на что-либо кроме тем на которые они были зарезервированы невозможно кроме как нарушив закон невозможно. Просто напросто казначейство не одобрит платеж.

2. Эти же ограничения по тому на что и как можно потратить средства в равной степени относятся к словам ряда чиновников которые вещают про сильную экономию на аукционах и электронных аукционах. Даже если экономия есть – это экономия в рамках определенной статьи расходов и эффект от неё достигается только когда заведомо известно на что деньги будут потрачены по её результатам.

3. Ни одно бюджетное учреждение, на самом деле, не имеет стимулов к экономии так как чем меньше они потратят средств в течении года тем меньше они получат средств в следующем. Я думаю что понятно что любой чиновник, что честный, что коррупционной мотивированный – заинтересован в экономии не будет.

4. Надо понимать что российская система госзакупок одна из самых прозрачных в мире. Это ни капли не шутка. В некоторых вопросах возможно что даже самая прозрачная. Те кто не согласен, приведите ссылки на зарубежные сайты закупок с полной доступностью конкурсной и аукционной документации и протоколов.

Проблемы же у нас не с прозрачностью как таковой, а в том что без некой зрелости общества она не работает. Закон действует уже 4 года, а активный гражданский мониторинг закупок начался только сейчас. А главная российская особенность в высокой толерантности бизнеса к коррупции. Конкурсы подготовленные под определённого поставщика воспринимаются как норма, а не как исключения.

5. Поскольку, как я ранее упомянул, с прозрачностью у нас гораздо лучше чем с самоорганизацией бизнеса или граждан, то и есть вероятность что доступность информации в будущем может снизится. Сделать это можно как организационно, введя предварительную регистрацию на едином сайте который будет создаваться в 2009-2010 годах, так и технологически – выведя большую часть сайта из под индексирования, минимизировав возможности распространения информации не допуская пермалинков (постоянных ссылок) и так далее. Причём всё это может быть сделано под эгидой самых благих побуждений – минимизации нагрузки на сайт и так далее и тому подобное. Не стоит забывать про возможность законодательных ограничений, которые, впрочем, лично я считаю мало вероятными. Как бы то ни было гражданский мониторинг госзакупок не заработает без доступности информации, а доступность эта будет складываться из многих если.

6. В 2009-2010 году будет новая версия zakupki.gov.ru и сайт станет не только федеральным, но и вообще единым по закупкам государственных и муниципальных организаций в России. Причем планируется на него потратить 190 миллионов рублей. А желающие могут подробнее прочитать что и как будет создаваться в изменениях к Электронной России – http://www.government.ru/content/governmentactivity/insiderfgovernment/archive/2009/09/17/0d4a5909-4ed8-4aab-a4a9-bd7621ba4a8f.htm

Про доступность информации там, ожидаемо, ничего нет – ни в показателях, ни в описании системы.

И, самое главное.  Неважно какая форма торгов используется и даже неважно кто выиграл эти торги, как то:

1. Что предполагалось поставить, какие предоставить услуги и какие работы произвести.

2. Насколько работы оплата этих работ фактически соответствовала их рыночной стоимости

3. Какие контрольные точки были предусмотрены в процессе проведения работ. Какая отчетность была предоставлена.

4. Что было получено в результате? В каком состоянии? Является ли результат общедоступным?

и так далее.

А то есть главное – это контроль за результатами и предварительным планированием закупок.

И, напоследок, многие говорят про сертификацию поставщиков, например, по ISO 9000, а в ИТ есть ещё и CMMI. А вот знает ли кто-нибудь хотя бы одно государственное учреждение работающее по ISO 9000?

Учат ли этому хоть где-нибудь чиновников отвечающих за планирование, проведение и приёмку государственных проектов?

Есть ли само понятие проектных групп у госзаказчиков?

Разумеется, нет.

Отсюда и отношение к поиску “прикольных госторгов” у меня лично как к выведению родимых пятен у больного птичьим гриппом. Даже если сотню таких пятен вывести, больному это не поможет.

Originally published at Иван Бегтин. You can comment here or there.

Сокрытие информации и бинарные форматы файлов
27 сентября 09 07:38

Не так у меня была заметка про то как извлекать скрытые метаданные, но, для объективности, можно сказать что это только одна сторона медали.

Далее будут рассуждения и не более.

Есть и другая и она заключается в том, какие же скрытые данные в принципе могут присутствовать в различного рода файлах.

Правильные ответ – любые, какие только могут вздуматься производителю ПО, до которых это ПО может добраться и объём которых укладывается в полезную ёмкость контейнера для рассматриваемого формата.

Термин полезная ёмкость контейнера взят из стеганографии и он определяет то какой объём информации мы можем поместить в файл при этом сохранив остальное его содержимое неизменным для программ и людей которые с ним будут работать.

Фокус в том что стеганографические способы сокрытия метаданных обычно применяют в мультимедиа файлах – видео, изображениях и музыкальных файлах, например, через Least Significant Bit и ещё ряд методов. Когда нужно скрыть сравнительно большие объёмы данных или же возникает потребность в “скрытом канале информации”, то по другому и не получится.

Но, вот в том то и хитрость что скрывать большие объёмы данных может потребоваться не всегда, а вот контроль и мониторинг действий пользователей можно обеспечить и малым объёмом наиболее важной информации.

И всё упирается в три простых понятия характеризующих любого разработчика ПО как компании работающего с такими форматами:

  1. Мотивация – есть ли у разработчика ПО потребность в получении скрытой информации о пользователе?
  2. Репутация – превышает ли потенциальная выгода от получения риск обнаружения?
  3. Квалификация – обладает ли компания квалифицированными кадрами чтобы обеспечить сокрытие информации?

Всё начинается с понятия мотивация и я приведу несколько потенциальных причин для её появления на неё влияющих:

1. Желание отслеживать “лицензионную чистоту” ПО по серийным номерам продуктов.

2. Желание отслеживать наличие/отсутствие ПО конкурентов.

3. Необходимость сотрудничества со спецслужбами, выполняя их требования по идентификации персоны по каким-либо оставленным файлам.

Иначе говоря, найти мотивацию возможно, и потенциальная выгода, в зависимости от ситуации, может быть довольно привлекательно, исходя из этого перейдём к другому понятию – репутация.

Главный риск любого тайного отслеживания пользователя в том что если это вскроется и получит огласку, то потом будет очень сложно доказать что всё это делалось для блага, а не с корыстными целями. Риски получения судебных исков будут более чем реальны и вопрос в том что же перевесит мотивация или репутация? Да, конечно, можно частично минизировать их, например, распространяя действие коммерческой тайны на форматы файла и запрещая дизассемблирование ПО. В этом случае репутационные риски могут возникнуть только в случае нарушения закона со стороны обнаруживших сокрытие данных. Как резюме – можно предположить ситуации когда производитель ПО может рисковать и использовать сокрытие информации несмотря на риски.

И, фактор третий, квалификация. Это ничто иное как способность программистов скрыть сам факт сбора информации и сохранение в файл. В квалификацию также можно включить наличие понимания того как определить полезную ёмкость информации для форматов файлов и использовать её.

При этом файл как контейнер для хранения этой скрытой информации будет обладать как очевидными так и неочевидными носителями информациями – участками и способами кодирования в которых скрытые данные могут передаваться.

Наиболее очевидными носителями информации будут:

  • Проприетарные участки файла для закрытых форматов
  • Резервные поля и блоки файла если формат является условно-открытым и часть описания присутствует, а часть нет.

Всё это довольно просто – если формат файла неизвестен никому или же в нём есть закрытые куски, то можно сохранять в нём куски из блока скрываемой информации подвергшиеся предварительному преобразованию – сжатию, кодированию, сглаживанию и так далее.

Но, кроме очевидных способов сокрытия данных найдутся и весьма неочевидные:

  • GUID’ы и UUID’ы – за счёт эмуляции псевдослучайных чисел присутствует по 16 байт на каждый уникальный идентификатор
  • уникальные идентификаторы объектов отличные от UUID, например, если формат файла XML подобен и внутри у записей есть уникальные идентификаторы используемые только внутри контейнера и не несущие смысловой нагрузки при интерпретации программами потребителями, то идентификаторы записей могут использоваться как носители скрытой информации.
  • использование особенностей чередования объектов/символов или стеганография пробелами для текстовых файлов.
  • сокрытие информации внутри бинарных объектов в файле контейнере, например, в мультимедиа файлах.

Иначе говоря, при необходимости можно скрывать информации даже в открытых форматах.

Собственно, а как это можно отследить и выявить?

1. Отслеживать обращения ПО к информации уникально идентифицирующей компьютер/персону. Например, выявлять попытки чтения адреса Ethernet или Wifi/Wimax адаптера, чтения CPUID, попытки доступа к хранилищам сертификатов, номерам лицензий ОС и других программных пакетов и так далее.

Но, во первых чтобы отследить все обращения нужен специальный софт который бы это мониторил, а во вторых, программы могут обращаться к такой информации не постоянно, а лишь единожды при запуске и далее сохранять её в памяти в неоднократно, но обратимо преобразованном виде.

2. Очисткой файлов от “бинарных блоков”, например, перекодированием изображений и перегенерация кодов GUID/UUID.

3. Анализ аномалий в потенциальных носителях информации, но это уже совсем другая история.

Пока же могу сказать точно что у производителей софта гораздо больше возможностей отслеживать пользователей, чем у пользователей возможностей это предотвратить.

Такие дела.

Originally published at Иван Бегтин. You can comment here or there.

Про госзакупки и азартные игры
24 сентября 09 03:12

Катерина в gov-gov.ru пишет про российских watchdog’ов в госзакупках, в некоторой степени к ним можно отнести и меня, особенно после всех этих публикаций с латиницей и прочими искажениями.

С одним лишь нюансом – про госзакупки я знаю не только снаружи, но и долгое время разбирался как работает их механизм начиная от принятия бюджетов ведомств и заканчивая результатами.

Поэтому могу сказать лишь одно, те конкурсы или аукционы ссылки на которые периодически циркулируют в благосфере, не то чтобы ерунда, но, как бы сказать помягче, очень несерьёзно. И не потому что там не может быть потенциальной или фактической коррупции или аффилированности заказчиков и поставщиков, а по той причине что проблема с госзакупками системная и от текущего законодательства страдают не только граждане, но и те вполне добросовестные госзаказчики.

На самом же деле сейчас процесс госзакупок в России сродни азартным играм. Если кто помнит фильм “Статский советник” (а может кто и книгу читал), так вот там все рассуждения князя Пожарского они ох как актуальны. А главная мысль оттуда что русский человек он ох как азартен и к чиновникам это относится в полной мере.

Чтобы понять это достаточно прикинусь:

1. Сколько закупок в заключается в год

2. Число нарушений выявляемых ФАС в год и оценка последствий этих решений

2. Кто отвечает за результат работ, услуг или поставки товаров

3. Число нарушений выявляемых генпрокуратурой в год и оценка последствий этих решений

4. Число нарушений выявляемых контрольно-счетными палатами субъектов, муниципалитетов и СП РФ и их последствия

В результате получится матрица рисков по которой можно определить чем, как и с какой вероятностью рискует представитель заказчика.

И про 94-ФЗ. Скажу честно, когда я слышу от кого-либо слова в его защиту, то сильно настораживаюсь ибо, либо человек не понимает/не хочет понимать, либо всё прекрасно понимает, что даже хуже.

Так вот 94-ФЗ – это “прозрачность в рамках матрицы рисков”. Он позволил добавить ещё один фильтр проверки, в виде watchdog’ов, СМИ, особо активных граждан, но в нём всячески избегается любая систематизированная деятельность по выявлению “потенциальной коррупционной составляющей”. Просто в матрицу добавилась отдельная строчка.

Но, как я писал ранее, русский человек азартен. И то что появляется новый, сравнительно редкий по частоте, но потенциально значительный приводит не к снижению коррупции, а к увеличению откатов.

Потому как:

a. Увеличиваются риски

б. Контроль за результатами куда меньше контроля за процедурами.

Отсюда и мы имеем, то что мы имеем и отсюда же моё скептическое отношение к деятельности ряда федеральных ведомств.

Originally published at Иван Бегтин. You can comment here or there.

Электронная Россия в сравнении редакций. Часть 1
20 сентября 09 03:30

Как многие знают вышла новая редакция Электронной России (прочитать и скачать её можно здесь – http://www.government.ru/content/governmentactivity/rfgovernmentdecisions/archive/2009/09/10/7594263.htm)

Но радость была бы не полной… Но одно дело когда текст представлен как текст и совсем другое данные для анализа. Я эти данные, потихоньку перевожу из DOC в Excel и далее CSV и прочие более полезные форматы.

Поэтому для ФЦП привожу первую порцию преобразованных данных как cравнение распределения расходов между редакциями от ПП 502 от 16 августа 2006 года и ПП 721 от 10 сентября 2009 года.

Плюс наиболее простой график на котором видны самые очевидные изменения в виде сокращении доли Росинформтехнологий и увеличение доли Минкомсвязи.

ScreenShot011

Впрочем используя данные из Excel’евского файла можно увидеть и меньшие изменения как-то сокращение капитальных расходов у Минэкономразвития и ФСО России, при сохранении прочих расходов и расходов на НИОКР.

Интересно, конечно, будет сравнить и изменение структуры мероприятий и ответственных за них, но это позже.

Кстати, тут имеется 4 уровня срезов данных – по постановлению правительства, по ведомству, по году, по виду расходов. Кто подскажет какой график лучше всего подойдёт для визуализации?

П.С. Если кто-нибудь занимается инфографикой или знает тех кто занимается, покидайте, плз, контакты/цены/ссылки на портфолио. Ибо есть у меня уже много данных и готовность заказывать их визуализацию.

Originally published at Иван Бегтин. You can comment here or there.

Disqus и комментарии к OpenGovData
16 сентября 09 01:13

На днях я перевёл все свои основные блоги на систему комментариев от Disqus (http://www.disqus.com)

Теперь он запущен на:

Главные плюсы – простота установки, удобство комментирования, поддержка авторизации через OpenID и Twitter, гибкость модерации и ведения черных и белых список и так далее

Главные минусы – это то что комментарии на сайте подгружаются через JavaScript и не индексируются поисковиками, не весь интерфейс переведён, нет российской специфики вроде авторизации через Яндекс (впрочем, имхо, не особо она и нужна).

И, ещё один, возможно даже ключевой плюс. Disqus можно подключать не только к блогам, но и к сайтам, что и собственно было сделано в случае OpenGovData.ru.

Так что от всех интересующихся жду замечаний/пожеланий/предложений к источникам данных, документам и собранным датасетам.

Примеры того как комментарии выглядят есть тут – http://opengovdata.ru/opendata/5/

Кстати, по поводу блогов чиновников без комментариев.

А можно и сделать такой федеральный проект на много миллионов рублей, провести его под эгидой ФСО, нанять толпу модераторов и отслеживать все неанонимные мнения (с использованием российской криптографии, разумеется).

Но куда проще будет прикрутить возможность комментирования можно и с помощью Disqus’а и с помощью схожих конкурирующих сервисов.

Originally published at Иван Бегтин. You can comment here or there.

Мой список Wanted data
10 сентября 09 12:37

Одно дело собирать уже раскрываемые данные и куда важнее те данные которых в открытом доступе нет, а, в лучшем случае, есть их производные.

Причём по моему наблюдению и если говорить о государственной информации, то чуть ли не самые интересные данные находятся в ведении региональных и муниципальных властей.

Я собрал небольшую подборку того какая информация была бы наиболее интересна и социально-полезна.

1. Всё что касается экологического мониторинга.

Это результаты замеров загрязнения атмосферы, поверхности воды, почв и так далее в форматах пригодных для дальнейшей обработки.

Например, я знаю что в Москве такая информация точно собирается. Ещё до июля месяца на сайте Департамента природопользования и охраны окружающей среды (http://www.moseco.ru) были данные мониторинга со станций. Сейчас те что мне удалось найти ограничены июлем месяцем и нет ничего в машиночитаемой форме.

Зато масса графиков, наложений на карты и прочих производных. Но от графиков польза нулевая, а вот на основе первичных данных можно было бы построить интересные машапы вокруг темы экологии в городе. Подозреваю что в других регионах ситуация не сильно лучше.

Кое-что, правда, есть на сайте ГПУ “Мосэкомониторинг”, например, http://www.mosecom.ru/air/air-week/station/marin/ , но и это не машиночитаемые данные, а сравнительно легко извлекаемые из HTML таблицы.

2. Перечни всех городских строек.

Практически на всех стротельных объектах устанавливаются щиты с упоминанием кто является застройщиком, его контактные телефоны и т.д.

Вопросы:

а. Почему там нет их веб-сайта?  Это куда более важный канал информации чем телефон

б. Как узнать кто ведёт строительство и ремонт где в городе и когда он будет закончен? Вообще моё личное мнение что для того чтобы узнать кто из строителей шумит по ночам у меня под окнами я не должен идти и смотреть на эту табличку.

Помимо всего прочего эта информация позволит проводить мониторинг тех кто срывает сроки ремонта и строительства и учитывать идущие и планируемые стройки при переездах и тому подобное.

3. Актуальные перечни и адреса госучреждений и муниципальных (социальных) магазинов

Это перечни отделений департаментов соц. защиты, центров занятости, больниц и так далее. А то есть всех тех социально-значимых учрежений информация о которых людям необходима.

В значительном объёме эта информация и так уже публикуется, но если бы она публиковалась в машиночитаемой форме, то появились бы веб-ресурсы способные помочь людям которым эта информация необходима. Как минимум это могут быть специализированные машапы, а как максимум эта информация может пригодится и крупным поисковым игрокам для улучшения поисковой выдачи и собственных сервисов.

И так далее – это всё неполный список того что является Wanted Data для меня лично поскольку я точно знаю что нашёл бы применение перечисленным выше данным.

А что Wanted Data для Вас? Кому не сложно, напишите какие данные хотелось бы увидеть и были бы Вы готовы строить на них машапы, встраивать в свои сайты и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Статус информации на сайте
09 сентября 09 01:39

Некоторые пресс-службы министерств и ведомств жгут.

Сегодня прочитал вот тут – http://www.rosoez.ru/public_waiting_room/stat_info/

—-

3. Авторские права
Дизайн и структура интернет-страниц, составляющих интернет-сайт РосОЭЗ, а также иные их элементы, являющиеся объектом охраны по закону Российской Федерации об авторских правах и интеллектуальной (промышленной) собственности, не могут воспроизводиться или имитироваться полностью или частично для создания на их основе новых информационных объектов либо для каких-либо иных целей, нарушающих указанное законодательство. Изображения, графика, звуковая или видео информация не могут копироваться для размещения на иных интернет-сайтах (интернет-страницах) либо для распространения путем создания копий на бумажных или магнитных носителях без разрешения Пресс-службы РосОЭЗ.

….

5.1. Лица (организации), желающие разместить гиперссылку на интернет-сайт РосОЭЗ (либо на его отдельные интернет-страницы) в целях использования в качестве элемента информационной (содержательной) структуры своего интернет-сайта (например: в каталоге, предусматривающим реконструкцию текста; в виде самостоятельной тематической рубрики и т.п.), а также в виде графической ссылки (баннера), в обязательном порядке уведомляют об этом Пресс-службу РосОЭЗ.

—-

Originally published at Иван Бегтин. You can comment here or there.

Разное про госсайты
06 сентября 09 02:04

Правоохранительный портал

Минэкономразвития России заказало модернизацию правоохранительного портала http://www.112.ru/ причём в работах присутствует возможность оплаты штрафов через Интернет карточками Visa, но… только в качестве макета. Подробности по закупке здесь – http://www.zakupki.gov.ru/Tender/ViewPurchase.aspx?PurchaseId=488619

Придирки к формальным наименованиям

На сайте Минпромторга России в футере обнаружилось название министерства как “Министерство промышленности и торговли РФ”. На самом деле использование РФ – это жаргонизм. Правильные название всегда такие как прописаны в положении о ведомстве в кратной или полной форме. Хотя, конечно, во всех случаях кроме официальных документов я тоже предпочитаю сокращать.

То же самое на сайтах:

  • Минкомсвязи России – тоже РФ вместо полного название
  • Минэнерго России – упущено слова “России”
  • Минобороны России – на сайте повсеместно используется РФ где надо и где нет

У остальных, вроде, всё в порядке.

Антикартель.Ру

Оказывается ФАС собирается открыть портал Антикартель.Ру (anticartel.ru). Очень интересно было бы увидеть когда и где проходил конкурс/аукцион на его разработку, а также кто его будет делать. На закупки.ру информации нет, но и в то что ФАС будет его разрабатывать суммой до 100 рублей тоже верится с трудом.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 5.09.2009: Извлечение, обработка и анализ информации – Open Source и сервисы
05 сентября 09 06:05

Инструменты извлечения

  • BeautifulSoup – одна из лучших библиотек обработки HTML на Python.
  • RubyfulSoup – порт BeautifulSoup на Ruby
  • Lxmlещё одна библиотека для обработки HTML на Python
  • html5lib – библиотека обработки HTML с поддержкой HTML5. Интерфейсы на Python, Ruby, PHP

Инструменты преобразования и обработки данных

  • b2xtranslator -преобразователь устаревших форматов MS Word в OOXML
  • Mdp-toolkit – библиотека алгоритмов по обработке и классификации данных. Python.
  • Talend Integration Suite – инструмент ETL от Talend
  • Hadoop – один из наиболее известных инструментов по параллельной обработке данных

Инструменты анализа

  • Wekaинструмент для машинного обучения, использования классификационных алгоритмов и так далее
  • Rapid-I (бывший RapidMiner) – настольный инструмент для классификации и анализа данных
  • Picalo – инструмент для анализа данных, с упором на расширяемость с помощью Python.

Business Intelligence

  • Pentaho BI – наиболее известный BI продукт с открытым кодом
  • JasperSoft – производители системы построения отчетов и BI JasperReports, также с открытым кодом.

Инструменты визуализации

  • Google Chartsсервис Гугла для построения несложных графиков общего назначения.
  • VisIt – библиотека по визуализации научных данных
  • MayaVi2 – библиотека для 3D визуализации научных данных, в основном жидкостей, но и не только. Использует VTK и написано на Python
  • Chaco – библиотека для построения простых двумерных графиков. В основном научного применения.
  • Gnuplot – широко известный инструмент и библиотека визуализации научных данных с интерфейсами на множестве языков
  • Open Data Explorer (OpenDX) – open source версия инструмента визуализации от IBM. Позволяет строить сложные 3D графики и не только.
  • GGobi – мощный инструмент визуализации для языка R
  • Flare – библиотека по визуализации для ActionScript (Adobe Flash)
  • Processing – SDK для сложных изображений
  • NodeXL – плагин для Excel по визуализации социальных и других сетей
  • VisiFire – отличная библиотека с открытым кодом по визуализации для SilverLight. При всех остальных минусах Silverlight – низкая распространённость, одновендорность и так далее, вот этот весьма существенный плюс.
  • Degrafa – библиотека для Adobe Flex по интерфейсов, построению графиков, манипулированию графическими объектами и не только.
  • Axiis – библиотека для Adobe Flex по построению графиков. Ничуть не хуже VisiFire,
  • JuiceKit – SDK для Adobe Flex для различных визуализаций

Сайты поcвящённые визуализации данных

  • Data360некоммерческий ресурс с данными из различных реестров США представленных на разных графиках с акцентом на социальном и экономическом значении информации
  • Swivel – онлайн сервис визуализации данных. Можно загрузить/подключить данные и увидеть их на графиках.

Интересное на закуску

  • PionOpen Source инструмент по комплексной обработке сигналов. Применяется, например, для мониторинга посетителей сайтов  http://www.atomiclabs.com/

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Открытые данные: Расходы на ФЦП в бюджете 2009 в XLS и CSV
02 сентября 09 10:06
Продолжаю публиковать различные открытые данные.  На сей раз вашему вниманию предлагается небольшой датасет с данными по расходам на ФЦП заложенными в федеральный бюджет (данные на 1 июля 2009 года) .
  • fcp2009.csv – в формате CSV (разделитель ‘;’)
  • fcp2009.xls – в формате MS Excel

Файлы состоят из двух колонок: общая сумма и название ФЦП.  Всего 50 строк, строки рассортированы по убыванию.

Поскольку массив небольшой, то публикую его только у себя в блоге, а не в OpenGovData.ru.   В OpenGovData.ru будут более детализированные массивы, чуть позже.

Все цифры получены на основе открытых первичных данных публикуемых МинФином тут  - http://www1.minfin.ru/ru/budget/federal_budget/ за что МинФину отдельное спасибо.

P.S. Вообще данные буквально просятся под инфографику, но мне, увы, визуальные исскуства даются с трудом.  Если кто может что-нибудь красивое из них сотворить или же посоветовать как можно построить интересную инфографику какими-либо онлайн сервисами или программами – буду благодарен.

Originally published at Иван Бегтин. You can comment here or there.

Проверяем как работают блоги министров
01 сентября 09 01:12

Зарегистрировался в блоге Елены Скрынник (это министр сельского хозяйства России) и оставил комментарий вот такого содержания:

Елена Борисовна, Ваш блог – это первый в России блог министра и очень хорошо что такие блоги появляются, но хотелось бы обратить внимание что в текущей форме “видеообращений” – это не блог в общепринятом смысле этого слова.

Поясню почему:
1. Отсутствует трансляция публикаций через RSS или ATOM
2. Сильно затруднена процедура публикации комментариев. Вначале идёт модерация при публикации комментария, далее логин и пароль требуется вводить при каждом комментарии что неверно ещё и с точки зрения безопасности
3. Отсутствует трансляция в Livejournal или иной крупный блогохостинг.

Хочу также обратить Ваше внимание на обновившийся сайт Президента России – www.kremlin.ru, который может быть примером того должен выглядеть государственный сайт и видеоблог в частности.

С наилучшими пожеланиями,
Иван Бегтин

К слову регистрация в блоге заняла сутки. Вначале оставляешь заявку, потом тебе присылают пароль на следующий день. Чтобы оставить комментарий надо каждый раз вводить свои email и пароль.

Плюс масса других досадных мелочей. А теперь ждёт и смотрим появится ли мой комментарий вот тут – http://mcx.ru/videoblog/video/show/3.htm#comments и какой будет реакция на критику.

Кстати, предлагаю не полениться и оставить свои замечания/предложения там же дублируя у себя в ЖЖ/блоге.

Originally published at Иван Бегтин. You can comment here or there.

This Blog

Tags

Archives

Syndication