Browse by Tags

Ссылки на 05.03.2011. e-Government / Gov 2.0
05 марта 11 10:26
  • http://www.lgam.info/ – База муниципальных знаний Австралии (Вики)
  • http://nationbuilder.com – Nation Builder. Продвинутый сервис создания политических кампаний, сбора саппортеров и так далее (США)
  • http://eaves.ca/ – блог о e-Government в Канаде
  • http://spaghettitesting.ca/ – ещё один блог о e-Government и госсайтах в Канаде
  • http://innovativecouncil.wikidot.com/ – вики по практикам и инновациям в Австралийских муниципалитетах
  • http://www.metagovernment.org – MetaGovernment. Много интернациональных практик по e-Gov
  • http://www.votetocracy.com/ – Ветократия. Онлайн проект для граждан для голосования на какие проекты они бы хотели наложить вето. США
  • http://www.createdebate.com/ – Создай дебаты. Проект по обсуждениям актуальных тем онлайн (США)
  • http://www.egov.vic.gov.au/index.html – ресурсный центр по e-Government (Австралия)

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 16.02.2011. e-Gov, госзакупки, открытые данные
16 февраля 11 10:48
В России
  • http://www.gosbook.ru/node/16245 - На Госбуке инициированное мной обсуждение новой версии Zakupki.gov.ru
  • http://www.gosbook.ru/node/16246 – там же на Госбуке издание ГУ ВШЭ про государственно-частное партнёрство в области электронного правительства.
  • http://rosohrancult.ru/ – сайт бывшей РосОхранКультуры. Себе пометка – не забыть снять полную его копию пока его не снесли с сети. Как и остальные их проекты отсюда – http://www.govweb.ru/govbody/26/
  • http://federal.polit.ru/topic/informatsiya-i-svyaz/ – раздел официально по теме «Информация и связь» и http://federal.polit.ru/topic/bezopasnost/ раздел по теме Безопасность. В первом случае всякие технологические новости, во втором, фактически, сводка происшествий. Моя личная новостная лента начинается именно с них. Кстати, интересующимся могу порекомендовать подписываться на новости по разделам в Официально.

В мире

  • http://digitaliser.dk/news/450953презентации с датской конференции ODIS посвящённой открытым данным. Не стоит опасаться датского языка на странице, часть презентаций на английском языке. Особенно мне понравилась британская презентация – http://digitaliser.dk/resource/450829 и видео http://vimeo.com/channels/85099, но там уже всё на датском.
  • http://digitaliser.dk/resource/432100 – оттуда же, один из победителей конкурсов на ODIS это проект по поиску ближайшего туалета.  Я ранее уже давал на него ссылку, тем кто пропустил вот она – http://www.findtoilet.dk/.
  • http://earthquake.usgs.gov/earthquakes/catalogs/ – каталоги землятресений по всему миру, в частности все землятрясения за последние 7 дней во множестве форматов – KML, RSS, CSV
  • http://earthquake.usgs.gov/monitoring/netquakes/ – волонтёрская программа по мониторингу землятрясений.
  • http://www.data.gov/raw/4269 – отчёты об инспекциях ядерных реакторов в США. Excel файл с перечнем инспекций и ссылки на более чем 500 документов отчётов.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 12.01.2010: Интересные международные открытые данные
12 января 11 11:53
  • OECD Statistics - http://stats.oecd.org/Index.aspx. Статистика по странам ОЭСР, включая статистику по регионам и множество показателей производства, финансов, развития и экономической помощи. Конечно с экспортом в разные форматы.
  • ReliefWeb Financial Transparency System – http://fts.unocha.org/. Система раскрытия информации о международной помощи при катастрофах. В основном о финансовой помощи, но есть упоминания и о технической помощи. Материалы по России можно посмотреть здесь – http://www.reliefweb.int/rw/fts.nsf/doc105?OpenForm&rc=4&cc=rus
  • Mine Safety Inspections Open Data (USA) http://www.msha.gov/OpenGovernmentData/OGIMSHA.asp – огромный массив данных о проверках безопасности шахт в США (более 166 мегабайт в CSV).
  • Your Freedom discussions (UK) http://data.gov.uk/dataset/your-freedom-data – полный дамп предложений граждан с проекта Your Freedom http://yourfreedom.hmg.gov.uk/ где собирались «идеи для вашей свободы». Примечение: Это именно то что я предлагал для проекта zakonoproekt2010.ru в России, но там открытых данных нет, увы.
  • Central Government Workforce (UK) – http://data.gov.uk/dataset/central-government-workforce-initial-release информация о числе штатных сотрудников, контракторов и привлечённых подрядчиков в органах власти Великобритании.
  • PublicData.eu – http://publicdata.eu/. Анонсируемый и ожидаемый проект Евросоюза по открытым данным. Сейчас активно обсуждается в рассылках OKF
  • List of Vessels (WCPFC) – http://www.wcpfc.int/record-fishing-vessel-database. Список судов от Western and Central Pacific Fisheries Comission. В CSV формате
  • Euro foreign exchange referenca rates http://www.ecb.int/stats/exchange/eurofxref/html/index.en.html – курсы валют от Европейского центробанка.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 15.11.2010: Открытые данные и Semantic Web
15 ноября 10 11:49

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 05.08.2010: Работа с данными онлайн
05 августа 10 09:29
Инструменты
  • Socrata – проект с большим количеством «социальных данных». Наполняется пользователеями
  • InfoChimps – с некоторых пор не только коллекция банков данных, но и площадка для продажи своих массивов.
  • FreeBase Gridworks – удобный инструмент по чистке данных от команды Freebase
  • IBM ManyEyes – великолепный сервис графиков от IBM
  • OpenStructs – инструменты для работы со структурированными данными. Включая расширения для Drupal
  • Google Fusion Tables – сервис для работы с таблицами от Google
  • GeoCommons – визуальная аналитика по геоданным
  • Tableau Public – бесплатный продукт по визуализации данных от Tableau Software. Даже со всеми его ограничениями – загрузка только из Excel, Access и CSV и не более 100 000 записей, попробовать стоит.

Данные

  • Government Data Catalogs – каталог каталогов открытых данных от Sunlight Labs
  • Data.ed.gov – открытые данные департамента образования США

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Ссылки по e-Gov на 28.01.2010
28 января 10 12:45
Как обычно, подборка тематических ссылок с моими краткими комментариями.
  • http://www.openmuni.org – небольшое Wiki с рекомендациям муниципалитетам в США о том как лучше предоставлять сервисы и раскрывать данные.
  • http://www.rian.ru/economy/20100125/206146491.html – Правительство выбрало 5 площадок: правительств Москвы и Татарстана, Сбербанк-АСТ, РТС и ММВБ. Плюс Артемьев говорит про возможный выбор 6-й Санкт-Петербургской международной товарно-сырьевой биржи. Не буду комментировать всех «нюансов» происходящего, рекомендую же почитать статью на Cnews по этой теме – http://www.cnews.ru/news/top/index.shtml?2010/01/26/377312 и статья на Slon.ru (http://slon.ru/articles/249825/) где есть и мои комментарии
  • http://cnews.ru/news/top/index.shtml?2010/01/27/377582 – Руководитель ФАИТ, Владимир Матюхин уходит на пенсию. Теперь многое будет зависеть от того кто придёт на его место, останутся ли Росинформтехнологии и в каком виде.
  • http://www.publictechjobs.com –  банк ИТ вакансий и резюме для работы в государственных и муниципальных органах власти США.
  • http://www.publicgeodata.org/ – открытые гео данные и ссылки на репозитарии с открытыми гео данными.
  • http://www.epsiplatform.eu/ – Европейская программа по развитию повторного использования государственной информации. В основном там новости, законодательное регулирование, примеры использования, выступления, события и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 10.12.2009: Проекты Microsoft
10 декабря 09 04:54

Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:

  • Codename Dallas  - http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные в большом количестве.
  • Microsoft Academic Search – http://academic.research.microsoft.com. Поисковик по научным работам в разных областях науки, в основном, околокомпьютерных. Мне понравилось наличие разных полезных срезов – по журналам и конференциям
  • eGov 2.0 kit – http://egov.codeplex.com/. Движок на базе Sharepoint’а по построению сайтов для eGov. При том что мне не особо нравится реализация, сама идея довольно разумна – CMS или полуфабрикат для госсайтов.
  • EntityCube – http://entitycube.research.microsoft.com/. Проект по выявлению “именованных сущностей”, различных осмысленных фактов о персонах и организациях. На мой взгляд он тесно пересекается идеологически и информационно с Powerset’ом купленным Microsoft недавно и интересно как дальше будут развиваться события. Будут ли их объединять в гибрид, например.

Кстати в Research  же занимаются ещё одной наработкой/небольшой библиотекой – Site Analyzer  http://research.microsoft.com/en-us/downloads/58e8953e-3626-4994-bf95-19039e978223/default.aspx

Проектом это назвать рановато, но возможность структурировать веб-страницы форумов, определять шаблоны URL’ов туда уже закладывается. А это уже ровно то же самое чем я занимаюсь, только подходы разные.

Они используют извлечение признаков, кластеризацацию и анализ коэффициентов сходства, в данном случае, коэффициентов Жаккара, а я использую модель предварительного выявления типовых шаблонов и построения карты микропризнаков или “объектной карты”.

Кстати, для анализа HTML в Site Analyzer’е свой парсер который кроме обычной информации об элементе DOM-дерева фиксирует поля о его глубине, числе потомков и так далее. Я знал, я знал что не один я об этом ломал голову, что приятно.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Ссылки на 5.09.2009: Извлечение, обработка и анализ информации – Open Source и сервисы
05 сентября 09 06:05

Инструменты извлечения

  • BeautifulSoup – одна из лучших библиотек обработки HTML на Python.
  • RubyfulSoup – порт BeautifulSoup на Ruby
  • Lxmlещё одна библиотека для обработки HTML на Python
  • html5lib – библиотека обработки HTML с поддержкой HTML5. Интерфейсы на Python, Ruby, PHP

Инструменты преобразования и обработки данных

  • b2xtranslator -преобразователь устаревших форматов MS Word в OOXML
  • Mdp-toolkit – библиотека алгоритмов по обработке и классификации данных. Python.
  • Talend Integration Suite – инструмент ETL от Talend
  • Hadoop – один из наиболее известных инструментов по параллельной обработке данных

Инструменты анализа

  • Wekaинструмент для машинного обучения, использования классификационных алгоритмов и так далее
  • Rapid-I (бывший RapidMiner) – настольный инструмент для классификации и анализа данных
  • Picalo – инструмент для анализа данных, с упором на расширяемость с помощью Python.

Business Intelligence

  • Pentaho BI – наиболее известный BI продукт с открытым кодом
  • JasperSoft – производители системы построения отчетов и BI JasperReports, также с открытым кодом.

Инструменты визуализации

  • Google Chartsсервис Гугла для построения несложных графиков общего назначения.
  • VisIt – библиотека по визуализации научных данных
  • MayaVi2 – библиотека для 3D визуализации научных данных, в основном жидкостей, но и не только. Использует VTK и написано на Python
  • Chaco – библиотека для построения простых двумерных графиков. В основном научного применения.
  • Gnuplot – широко известный инструмент и библиотека визуализации научных данных с интерфейсами на множестве языков
  • Open Data Explorer (OpenDX) – open source версия инструмента визуализации от IBM. Позволяет строить сложные 3D графики и не только.
  • GGobi – мощный инструмент визуализации для языка R
  • Flare – библиотека по визуализации для ActionScript (Adobe Flash)
  • Processing – SDK для сложных изображений
  • NodeXL – плагин для Excel по визуализации социальных и других сетей
  • VisiFire – отличная библиотека с открытым кодом по визуализации для SilverLight. При всех остальных минусах Silverlight – низкая распространённость, одновендорность и так далее, вот этот весьма существенный плюс.
  • Degrafa – библиотека для Adobe Flex по интерфейсов, построению графиков, манипулированию графическими объектами и не только.
  • Axiis – библиотека для Adobe Flex по построению графиков. Ничуть не хуже VisiFire,
  • JuiceKit – SDK для Adobe Flex для различных визуализаций

Сайты поcвящённые визуализации данных

  • Data360некоммерческий ресурс с данными из различных реестров США представленных на разных графиках с акцентом на социальном и экономическом значении информации
  • Swivel – онлайн сервис визуализации данных. Можно загрузить/подключить данные и увидеть их на графиках.

Интересное на закуску

  • PionOpen Source инструмент по комплексной обработке сигналов. Применяется, например, для мониторинга посетителей сайтов  http://www.atomiclabs.com/

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Ссылки на 13.08.2009: Безсхемные базы данных (schema-less)
13 августа 09 01:39
  • CouchDb – это document-based база данных ориентированное на хранение данных как документов с иерархией структур и использования JavaScript для написание запросов. Из плюсов: поддержка IBM, один из проектов в составе Apache Foundation, удобство работы с данными. Из минусов: низкая производительность, недостаточно подробная документация. Написано полностью на языке Erlang
  • MongoDb – альтернатива Couchdb написанная на C++. Отличается лучшей производительностью, возможностью строить ad-hoc запросы, сохранением данных in-place и хорошо подготовленной документацией. К тому имеет коммерческую поддержку от компании 10gen. Ключевой минус: на 32-битных системах не позволяет создать базы размером более чем 2.5 гигабайта.
  • TokyoCabinet - база данных создававшаяся как современная замена dbm обладающая массой полезных возможностей в части маштабирования, устойчивости к сбоям, меньшего размера и так далее.
  • pykesto – безсхемная и транзакционная база для Python на базе TokyoCabinet.
  • ThruDb – ещё одна безсхемная база на Java
  • RDDb – безсхемная document-based база на Ruby
  • Oracle Berkeley Db – при определённой сноровке может использоваться для хранения безсхемных данных плюс есть редакция которая поддерживает работу с XML данными

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Ссылки на 17.07.2009. Интересные проекты + ярмарка идей
18 июля 09 09:28
Это будет эдакий совмещённый пост – интересного в сети и нескольких последних идей.
Ссылки
  • ShoeBoxed – небольшой стартап с хитрым ноу-хау. Вы отправляете им в конверте свои счета и визитки, а они с помощью специальных сканеров и алгоритмов все это оцифровывают, распознают и предоставляют Вам через веб интерфейс. Задумка более чем интересная, я как раз не так давно задумывался об автоматизации распознавания кассовых чеков
  • URLClassifier – сервис тематической классификации веб страниц. Явно использует словари и классификация у него двухуровневая, но! сама идея правильная и весьма полезная. Предоставляют API
  • Feedity – ещё один сервис по преобразованию HTML в RSS, на сей раз полуавтомат. Анализирует страницу и предлагает варианты. Скиур (моё творение) мне нравится больше, но “пусть растут 100 цветов”, пригодятся все.
  • ColourLovers – огромная база цветов, паттернов и палитр. Проектов таких много, но эти дают ещё и API.

Идеи

  • Если в поездах метро между стеклами вагонов поместить полупрозрачные экраны на которые можно было бы во время движения поездов  транслировать рекламу, то рекламодатели получили бы аудиторию в несколько миллионов человек ежемесячно.
  • Классификация по ключевым словам в названиях, моделях телефонов и их стоимости помноженное на накопленные статистические данные по демографии может позволить, с некоторой вероятностью, определять средний возраст людей присутствующих на заданной территории используя BlueTooth. Зачем? Например, рекламный таргетинг
  • Чтобы обеспечить контроль хоть как-то близкий к тотальному, то далеко ходить не надо – достаточно МВД потребовать от всех охранных агенств и вневедомственной охраны ведения электронных журналов учета посетителей. Так чтобы номера паспортов и ФИО вносились не в журнал, а в базы данных синхронизировались с центральной. Разумеется этого никогда не будет.
  • Карты покрытия сотовыми операторами “наоборот”. На них показывается где в городе (или местности) есть места где Вам гарантированно не смогут дозвониться. Для тех кто увлекается кратковременным дауншифтингом сервис будет незаменимым.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки. Интересное ПО и сервисы
18 июня 09 10:51
  • XML Редактор Serna скоро станет OpenSource впрочем его уже сейчас можно скачать и попробовать для различных задач.
  • Появилась бесплатная версия редактора онтологий Top Braid Composer – http://www.topquadrant.com/products/TB_free_download.html . Для тех кто интересуется Semantic Web – это может быть интересным.
  • Должен признать что Windows 7 – объективно лучше Висты в разы. С Вистой на борту мой нетбук мог проработать от батареи не более 2-х часов, даже в экономных режимах, с W7 – работает по 4 часа. Плюс значительно шустрее.
  • Google Wave – это определённо интересная штука, онлайн коллаборации вообще очень интересная тема, но я лично пока не могу понять её практическую применимость. Но ещё более интересен Wave Protocol и опубликованные спецификации.
  • Bing конечно выглядит и ищет лучше чем live.com, но в отличии от Гугла не ищет по новым форматам для офиса – ищем по filetype:docx и видим что результатов нет. Я так думаю что это непорядок. Вообще Гугл в плане индексирования разноформатных данных куда полнее. Он не только docx и xlsx’ы индексирует, но и DBF файлы.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Ссылки. Интересное ПО и сервисы
18 июня 09 10:51
  • XML Редактор Serna скоро станет OpenSource впрочем его уже сейчас можно скачать и попробовать для различных задач.
  • Появилась бесплатная версия редактора онтологий Top Braid Composer – http://www.topquadrant.com/products/TB_free_download.html . Для тех кто интересуется Semantic Web – это может быть интересным.
  • Должен признать что Windows 7 – объективно лучше Висты в разы. С Вистой на борту мой нетбук мог проработать от батареи не более 2-х часов, даже в экономных режимах, с W7 – работает по 4 часа. Плюс значительно шустрее.
  • Google Wave – это определённо интересная штука, онлайн коллаборации вообще очень интересная тема, но я лично пока не могу понять её практическую применимость. Но ещё более интересен Wave Protocol и опубликованные спецификации.
  • Bing конечно выглядит и ищет лучше чем live.com, но в отличии от Гугла не ищет по новым форматам для офиса – ищем по filetype:docx и видим что результатов нет. Я так думаю что это непорядок. Вообще Гугл в плане индексирования разноформатных данных куда полнее. Он не только docx и xlsx’ы индексирует, но и DBF файлы.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Ссылки. Анализ и визуализация данных
10 июня 09 03:32

Анализ данных

  • Picalo - инструмент выявления аномалий и анализа данных, с открытым кодом на Python. Главный плюс - возможность использовать его Python API. Только на английском.
  • Deductor - один из немногих отечественных OLAP инструментов. Коммерческий. Стоимость студии до 29 000 рублей
  • Tableau - феноменальный продукт по возможностям и стоимости. Один из лучших в части визуализации и демонстрации на презентациях, но цена в $5000 кусается.
  • Weka 3 - применяется, в основном, для научных и исследовательских задач по классификации
  • Rapidminer - настольный продукт для data mining, есть коммерческий, есть open source.
  • LispMiner - академический продукт для анализа данных
  • R Project - язык программирования R. Набирающий популярность на западе и интегрируемый с массой других продуктов и языков программирования.
  • Omniscope - коммерческий продукт похожий на Tableau. Также позволяет удобную визуализацию
  • QLickView - ещё один коммерческий продукт по анализу и визуализации
  • Tibco Sportfire - ещё один аналитический продукт, на сей раз от Tibco. По цене чуть меньше Tableau - около $4700.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Ссылки на 30.05.2009. Датасеты и наборы данных
30 мая 09 04:08
  • INRIA Datasets - большие коллекции изображений INRIA (1GB и 1.6GB)  собранные с Flickr
  • 1.5 миллиона небольших картинок - датасет который я уже упоминал, но менее интересным он от этого не становится (3.5 GB)
  • ImageNet.org - объединение WordNet и огромной базы в количестве 3,247,902 изображений и 5247 синсетов. Есть возможность запросить доступ к полной базе и API.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
n/a
30 апреля 09 02:35

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно - число набранных студентом баллов - это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон “Об организации проведения встречи глав государств и правительств стран - участников форума “Азиатско-тихоокеанское экономическое сотрудничество” в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации”  за формулировкой “о внесении изменений в отдельные законодательные акты” скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык - можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного - лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент - CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

More Posts Next page »

This Blog

Archives

Syndication