-
Дублирую сообщение из группы OpenGovData.ru
—
Из недавно опубликованного вот тут (http://www.slideshare.net/iponomarev/100125-e-government) системного проекта по Электронной России удалось извлечь таблицу с перечнем публичных массивов данных.
Многих из них ещё нет в OpenGovData.Ru, а многие вообще малоизвестны.
А также около половины из них до сих пор недоступны онлайн в какой-
либо форме.
Весь список можно получить тут.
в CSV - http://groups.google.com/group/opengovdataru/web/public_data_sources.csv
(кодировка Windows-1251)
в XLS - http://groups.google.com/group/opengovdataru/web/public_data_sources.xls
В ближайшее время данные оттуда перекочуют в OpenGovData.ru, а также
предлагаю подумать стоит ли регистрировать массивы данных которые
недоступны онлайн?
Как всегда – отклик, идеи и предложения приветствуются. Можно тут, можно в группе Google Groups, можно через Reformal (http://opengovdata.reformal.ru/)
Originally published at Иван Бегтин. You can comment here or there.
-
Игорь Артамонов буквально вот-вот запустил сайт http://www.datasetpublisher.com/ где будут публиковаться torrent’ы открых данных которыми бы хотелось поделиться и которые хотелось бы скачать.
Пока данных там немного, но уверен что будет больше.
Originally published at Иван Бегтин. You can comment here or there.
-
Недавно Катерина Аксенова написала про ряд проектов по раскрытию государственных данных в сети. Обратите внимание что большая часть этих проектов проходит в “англо-саксонских странах” США и бывших британских колониях. Незнаю чем это обусловлено исторически, но да, почему-то именно в них к публичным данным особенно внимательное отношение именно сейчас.
Я приведу в дополнение ещё ряд интересных проектов на ту же тему:
И другие интересные ресурсы на ту же тему:
И, наконец, российские ресурсы:
- http://www.opengovdata.ru – сайт созданный мною в мае 2009 и понемногу наполняющийся.
- http://www.mosclassific.ru – сайт ГУП “Социальный регистр” – предоставляют в открытом доступе все московские и общероссийские классификаторы. Московские можно скачать в XML и DBF (после бесплатной регистрации), а общероссийские доступны только в виде HTML страниц, но с более-менее удобным поиском.
Будет ли в России Data.Gov.Ru? Я бы переформулировал вопрос. А будет ли его кто-либо использовать?
Собственно это вопросы к читателям – если бы Data.Gov.Ru появился, то:
1. Какую информацию Вы бы хотели там увидеть?
2. Готовы ли Вы лично создавать проекты машапы на основе открытых данных?
3. Если готовы, то забесплатно, или же за деньги в виде конкурсов вроде “Apps for Russia”?
4. Какие машапы Вам было бы интересно увидеть как потребителям?

Originally published at Иван Бегтин. You can comment here or there.
-
В последние несколько месяцев от меня было куда меньше постов чем обычно по довольно простой причины – прямо сейчас я занимаюсь проектом довольно непростым понятийно и технически. Планировал я его несколько лет и только в этом году удалось приступить к реализации.
Проект, разумеется, связан с большими объёмами информации, её обработкой, классификацией и последующим представлением. Особенность этого в том что работа идёт с “живыми данными”, а то есть источников информации много, информация разноформатна, предоставляется в разном качестве, содержит ошибки в структуре и в значениях, обладает разными ограничениями и прочими особенности нетепличных данных.
В то же время это “живые данные” имеют массу специфики, при их сборе, подготовке, обработке и так далее. Приведу ряд соображений и размышлений для примера:
1. Для простых данных в виде плоских таблиц можно использовать различные SQL-базы с внешней обвязкой метаданными. Но, случаи когда используются только простые таблицы редки, чаще всего данные обладают иерархией и вложенностью. Эту иерархию и вложенность можно привести к SQL сильно увеличив число таблиц, или же использовать NoSQL подход брать за основу CouchDb, MongoDb или их аналоги или семантические triple-store.
2. До сих пор очень мало практических инструментов по работе с NoSQL данными. Практически нет ETL инструментов, BI движков, ORM библиотек и прочего разного. Во многом от того что сама концепция NoSQL только сейчас приобретает признаки тренда и нет единых стандартов по доступа к такого рода данным.
3. На самом деле обработка большого объёма разноформатной информации это ещё и до сих пор не решённая исследовательская задача. Большинство же практических систем, например, поисковых, либо нормализуют источники информации и получаемые данные, либо резко ограничивают их число и связывают информацию в этих источниках вручную. Например, поисковики вроде Google или Yahoo нормализуют весь веб к веб-страницам, а в WolfRam Alpha используется большое число массивов данных вручную нормализованных, в основном, по формам выдачи результатов. Задачу же автоматической или автоматизированной интеграции тысяч и десятков тысяч источников информации решить было бы очень интересно, но лично я понимаю всю её объективную сложность.
4. Онтологии – это правильно, хорошо и идеалистично. К живым данным они имеют весьма слабое отношение и тут скорее можно говорить об онтологии извлечения и обработки информации. Некой единой модели которая бы всё это описывала. Но это ещё одна большая и непростая исследовательская задача пока ещё далёкая от решения.
5. Один большой вопрос – это работа с аномалиями, когда получаемые из источника информации данные не соответствуют заявленному формату. Причём в случаях если подобные аномалии возникают в пределах данных, то это не то чтобы просто, но точно решается. А вот в случаях когда аномалии происходят на структурном уровне – последовательности полей или их разделения, то тут решается сложнее. Локализацией участка и ручному анализу или же разработкой правил анализа отклонений на основе ранее выявленных ошибок. Одно можно сказать точно, в живых данных такие аномалии встречаются.
6. Кстати, говоря об аномалиях, нельзя не отметить ещё и тот факт что они сильно зависят от формы носителя информации – контейнера и от представления информации в этом контейнере. В практическом плане это выражается в том что в файлах Excel или DBF есть четкое разделение полей и хранение метаданных о типах данных в этих полях, а вот в HTML и, в некоторых случаях, в CSV такого нет или же, если есть, то этим метаданным нельзя доверять безоговорочно. Также с точки зрения выявления аномалий можно рассматривать любые полуструктурированные тексты устоявшегося написания той или иной информации – адресов, фамилий и так далее.
Originally published at Иван Бегтин. You can comment here or there.
-
- Data.australia.gov.au – австралийский государственный портал открытых данных
- DataSF.org – неофициальный портал открытых данных города Сан-Франциско (США)
- Correlates of War – набор датасетов посвящённых истории военных конфликтов.
- Word Bank Data – данные публикуемые всемирным банком
- CloudMade – датасеты по геотематике по разным странам мира и в разнообразных форматах
- Kids Count DataCenter – аналитика и данные по числу детей в США в разрезах бедности, занятости, демографии, образования и здоровья
Originally published at Иван Бегтин. You can comment here or there.
-
Время от времени меня (как и многих) спрашивают чем я вообще занимаюсь, так сказать род деятельности. Я же на этот вопрос предпочитаю отвечать то чем я увлекаюсь. И вот на днях для всего этого я, похоже, подобрал наиболее точный термин – InfoGeek или Инфогик. Можно ещё сказать Datageek или Датагик, но суть сильно не изменится. Моё хобби – это информация во всех её проявлениях, способах её сбора, способах работы с ней, исследований основ и понимания МетаИнформации – где “мета” обозначает концептуальную модель её производства, существования и структуры.
Также, например, инфогик’ство проявляется в стремлении собирать и накапливать различные базы данных, анализировать способы их связывания и визуализации. У меня лично таким образом накапливаются самые разные датасеты из самых разных областей – государство, бизнес, Интернет, математика, медицина, социальные науки и прочие прочие.
Всего сотни и сотни гигабайт данных и источников их получения. А в некоторых случаях и способы её создания. Например, в моём понимании, Интернет – это огромный массив неструктурированной информации из которой можно извлекать свои жемчужины.
В России, к сожалению, инфогиков пока мало. Больше же всего их в англосфере, там и с доступностью информации попроще и школы по обработке и систематизации данных весьма сильны.
Так что на технологии, способы ведения проектов, программные продукты и так далее у меня взгляд именно с точки зрения информации. Как я могу их использовать чтобы собрать найти больше информации, обработать её быстрее или показать её более наглядно.
Кстати, большой плюс у такого хобби в его безграничности.

Originally published at Иван Бегтин. You can comment here or there.
-
Одно дело собирать уже раскрываемые данные и куда важнее те данные которых в открытом доступе нет, а, в лучшем случае, есть их производные.
Причём по моему наблюдению и если говорить о государственной информации, то чуть ли не самые интересные данные находятся в ведении региональных и муниципальных властей.
Я собрал небольшую подборку того какая информация была бы наиболее интересна и социально-полезна.
1. Всё что касается экологического мониторинга.
Это результаты замеров загрязнения атмосферы, поверхности воды, почв и так далее в форматах пригодных для дальнейшей обработки.
Например, я знаю что в Москве такая информация точно собирается. Ещё до июля месяца на сайте Департамента природопользования и охраны окружающей среды (http://www.moseco.ru) были данные мониторинга со станций. Сейчас те что мне удалось найти ограничены июлем месяцем и нет ничего в машиночитаемой форме.
Зато масса графиков, наложений на карты и прочих производных. Но от графиков польза нулевая, а вот на основе первичных данных можно было бы построить интересные машапы вокруг темы экологии в городе. Подозреваю что в других регионах ситуация не сильно лучше.
Кое-что, правда, есть на сайте ГПУ “Мосэкомониторинг”, например, http://www.mosecom.ru/air/air-week/station/marin/ , но и это не машиночитаемые данные, а сравнительно легко извлекаемые из HTML таблицы.
2. Перечни всех городских строек.
Практически на всех стротельных объектах устанавливаются щиты с упоминанием кто является застройщиком, его контактные телефоны и т.д.
Вопросы:
а. Почему там нет их веб-сайта? Это куда более важный канал информации чем телефон
б. Как узнать кто ведёт строительство и ремонт где в городе и когда он будет закончен? Вообще моё личное мнение что для того чтобы узнать кто из строителей шумит по ночам у меня под окнами я не должен идти и смотреть на эту табличку.
Помимо всего прочего эта информация позволит проводить мониторинг тех кто срывает сроки ремонта и строительства и учитывать идущие и планируемые стройки при переездах и тому подобное.
3. Актуальные перечни и адреса госучреждений и муниципальных (социальных) магазинов
Это перечни отделений департаментов соц. защиты, центров занятости, больниц и так далее. А то есть всех тех социально-значимых учрежений информация о которых людям необходима.
В значительном объёме эта информация и так уже публикуется, но если бы она публиковалась в машиночитаемой форме, то появились бы веб-ресурсы способные помочь людям которым эта информация необходима. Как минимум это могут быть специализированные машапы, а как максимум эта информация может пригодится и крупным поисковым игрокам для улучшения поисковой выдачи и собственных сервисов.
И так далее – это всё неполный список того что является Wanted Data для меня лично поскольку я точно знаю что нашёл бы применение перечисленным выше данным.
А что Wanted Data для Вас? Кому не сложно, напишите какие данные хотелось бы увидеть и были бы Вы готовы строить на них машапы, встраивать в свои сайты и так далее.
Originally published at Иван Бегтин. You can comment here or there.
-
Продолжаю публиковать различные открытые данные. На сей раз вашему вниманию предлагается небольшой датасет с данными по расходам на ФЦП заложенными в федеральный бюджет (данные на 1 июля 2009 года) .
Файлы состоят из двух колонок: общая сумма и название ФЦП. Всего 50 строк, строки рассортированы по убыванию.
Поскольку массив небольшой, то публикую его только у себя в блоге, а не в OpenGovData.ru. В OpenGovData.ru будут более детализированные массивы, чуть позже.
Все цифры получены на основе открытых первичных данных публикуемых МинФином тут - http://www1.minfin.ru/ru/budget/federal_budget/ за что МинФину отдельное спасибо.
P.S. Вообще данные буквально просятся под инфографику, но мне, увы, визуальные исскуства даются с трудом. Если кто может что-нибудь красивое из них сотворить или же посоветовать как можно построить интересную инфографику какими-либо онлайн сервисами или программами – буду благодарен.
Originally published at Иван Бегтин. You can comment here or there.
-
Ещё один новый массив данных в OpenGovData.ru – Структурированная номенклатура продукции для государственных и муниципальных нужд.
Номенклатура используется (должна использоваться) при прогнозирование объёмов закупок и в планах-графиках на размещение заказа.
В открытом доступе она есть на сайте zakupki.gov.ru (http://www.zakupki.gov.ru/Default.aspx?link=21) и ещё ряде региональных сайтов, но в машиночитаемой форме нигде нет.
И, к вопросу о наличии других данных в OpenGovData.Ru. Не скрою что данных у меня накопилось куда больше чем сейчас опубликовано, причём часть из них относительно несложно преобразовать из имеющихся форматов в открытые данные, но главные нерешённые вопросы остаются:
1. Как обеспечить обновление данных, например, общероссийских справочников?
2. Какие массивы данных наиболее востребованы?
3. Готов ли кто-нибудь создавать машапы на основе открытых данных или же навигацию по ним и визуализацию нужно будет также делать в OpenGovData.Ru?
Originally published at Иван Бегтин. You can comment here or there.
-
Ещё одно пополнение для OpenGovData.ru – государственный рубрикатор научно-технической информации в машиночитаемых форматах XML, CSV и TSV.
Это не совсем государственная информация в прямом понимании этого термина, но, учитывая что ГРНТИ регулируется ГОСТом 7.0.49-2007 – http://www.ifap.ru/library/gost/70492007.pdf, то, на мой взгляд, под формат OpenGovData.ru он подходит.
ГРНТИ, кстати – это один из примеров того что формат представления информации _имеет значение_. В Рунете есть множество ресурсов где он доступен или как документ Word/PDF или через поиск или навигацию, но в машиночитаемой форме найти было просто нереально. Теперь же машиночитаемая форма есть в OpenGovData.ru

Originally published at Иван Бегтин. You can comment here or there.
-
В статье на которую я ссылался в предыдущем посте об открытых данных как гражданском капитале есть одна важная мысль. Это то что одной из важнейшей причин их доступности является то что изначальная информация может быть рассмотрена с совершенно иных ракурсов и приводить нестандартным выводам.
Приведу пару таких выводов из собственной практики:
1. Не менее чем у 90% всех госучреждений отсутствуют свои сервера электронной почты
Большинство сотрудников госорганизаций пользуются бесплатными сервисами почты Mail.Ru, Yandex, Rambler, Google Mail и так далее. Причём с этих адресов ведётся вполне официальная переписка по служебным вопросам.
Откуда этот вывод? Всё просто. Для него достаточно было взять массив извещений о госзакупках и взглянуть с другого ракурса. Во всех этих извещениях чаще всего присутствует контактный email который очень редко указывает на домен принадлежащий ведомству.
2. До 99% конкурсных комиссий голосуют единогласно
Опять же не вполне очевидный вывод который можно извлечь анализируя протоколы закупок. Подавляющее число конкурсных комиссий всегда голосуют единогласно – за одобрение заявки участника или за отклонение заявки. Что это означает? Что в конкурсных комиссиях отсутствуют конфликты интересов и вопрос того как они формируются более чем интересен.
Что ещё можно было бы узнать?
Например:
- если бы были доступны данные сводок МЧС и МВД, то помимо банальных наложений их на территорию с оценками криминогенности и пожароопасности, можно было бы также оценивать проводить параллели с движением планет. Иначе говоря, связывать с предсказаниями астрологов.
- имея данные по статистике имён и популярности певцов/актеров/музыкантов/персонажей книг в эти периоды анализировать степень их влияния на общество.
- имея данные по юридическим лицам включающие их название и род деятельности в виде кодов ОКВЭД можно было бы составить частотность употребления различных ключевых слов по темам и создать алгоритм на основе которого, конечно, с высокой степенью допущения предсказывать отрасль компании.
и множество других применений.
Как резюме лишь добавлю что в России открытых данных, в том числе открытых государственных данных, очень много, сотни если не тысячи источников и те что удалось собрать в opengovdata.ru – это капля в море.
Ключевыми же остаются два вопроса:
1. Систематизация данных – того где и как их можно получить и применить.
2. Желание у граждан работать с данными. Создавать машапы, использовать в своей работе, анализировать и так далее.
Лично я считаю что оба этих вопроса разрешими.

Originally published at Иван Бегтин. You can comment here or there.
-
В GitHub проекте data-housing-crisis (http://github.com/hadley/data-housing-crisis/tree/master) появилась огромная подборка данных по ипотечному кризису в США.
Это результаты опросов, статистика, данные переписей и так далее. Суммарно на 10 гигабайт
Всё это вместе со скриптами по работе с данными на языке R.
Originally published at Иван Бегтин. You can comment here or there.
-
Вторую неделю экспериментирую с MongoDB . Для тех кто не знает – это такая экспериментальная база данных ориентированное на хранение в виде документов (document-based), похожая на CouchDb по идеологии и по принципам работы.
По результатам впечатления смешанные.
С одной стороны к плюсам можно отнести то что:
- MongoDb существенно быстрее чем CouchDb, и в части записи, и в части чтения
- гораздо удобнее хранить бинарные файлы и блоки так как вместо JSON используется формат BSON ориентированный как раз на двоичные данные.
- индексирование работает на любом уровне иерархии внутри объектов. А то есть если есть объект документ и внём подэлементы разделов и внутри их подъэлементы заголовков то можно построить индекс прямо по этим заголовкам. Выглядеть это будет примерно так coll.ensure_index(’document.topics.title’, 1)
- сервер вполне тянет базу в несколько миллионов объектов – я лично прогружал до миллиона и с базой до 3 гигабайт.
- простота маштабирования: примеры с несколькими экземплярами и распределением данных идут прямо в поставке
- подробная и качественная документация, большое число примеров и драйверов под все популярные языки: Java, CPP, Python, Perl, Ruby
Но, выявились и весьма существенные минусы:
- полнотекстовое индексирование отсутствует. Можно пойти путём описанном в вики проекта, а можно настроить внешний индексатор вроде того Sphinx через xmlpipe, но в любом случае требуются лишние существенные усилия.
- интеграция с тем же Sphinx’ом и рядом других приложений усложняется тем что по умолчанию в MongoDb все идентификаторы – это блок в 12 байт и нужно, либо заменять все ID на int32 у объектов, или добавлять свои параллельно.
- цена производительности MongoDB – надежнность. В частности при холодной перезагрузке компьютера во время записи в базу MongoDB вероятность что она потом читаться не будет очень высока. Лично столкнулся с этим когда мой ноутбук перегрелся и отключился во время одного из экспериментов – в результате база в несколько гигабайт пришла в неработоспособное состояние. Спасло лишь то что есть команда на восстановление, но для базы в 3 гигабайта выполняется она порядка 30 минут
- … ещё одно последствие упавшей базы в том что после восстановления как минимум у части объектов сменились уникальные ID. В результате там где в связках таблиц использовались они – нарушение связей и спасти тут может лишь использование собственных ключей.
Как резюме – инструмент интересный и полезный, но использовать его следует с оглядкой на проблемы выше.
Originally published at Иван Бегтин. You can comment here or there.
-
Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.
-
Может быть интересно для тех кто исследует социальные сети и вообще интересуется большими массивами данных - проект StackOverflow выложил в общий доступ датасет на 200 мегабайт сжатых 7Zip с коллекцией вопросов, участников, комментариев и результатов оценки.
Основная идея: Мы получаем данные от сообщества, мы возвращаем данные сообществу.
Для справки. StackOverflow - это одно из Q&A сообществ нацеленное на разработчиков ПО.
Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.