Browse by Tags

OpenGovData.ru: Большой список массивов госданных
18 февраля 10 01:04

Дублирую сообщение из группы OpenGovData.ru

Из недавно опубликованного вот тут (http://www.slideshare.net/iponomarev/100125-e-government) системного проекта по Электронной России удалось извлечь таблицу с перечнем публичных массивов данных.

Многих из них ещё нет в OpenGovData.Ru, а многие вообще малоизвестны.
А также около половины из них до сих пор недоступны онлайн в какой-
либо форме.

Весь список можно получить тут.
в CSV - http://groups.google.com/group/opengovdataru/web/public_data_sources.csv
(кодировка Windows-1251)
в XLS - http://groups.google.com/group/opengovdataru/web/public_data_sources.xls

В ближайшее время данные оттуда перекочуют в OpenGovData.ru, а также
предлагаю подумать стоит ли регистрировать массивы данных которые
недоступны онлайн?

Как всегда – отклик, идеи и предложения приветствуются. Можно тут, можно в группе Google Groups, можно через Reformal (http://opengovdata.reformal.ru/)

Originally published at Иван Бегтин. You can comment here or there.

Торрент трекер для датасетов и открытых данных
15 декабря 09 12:28

Игорь Артамонов буквально вот-вот запустил сайт http://www.datasetpublisher.com/ где будут публиковаться torrent’ы открых данных которыми бы хотелось поделиться и которые хотелось бы скачать.

Пока данных там немного, но уверен что будет больше.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Открытые государственные данные в сети
09 ноября 09 01:30

Недавно Катерина Аксенова написала про ряд проектов по раскрытию государственных данных в сети. Обратите внимание что большая часть этих проектов проходит в “англо-саксонских странах” США и бывших британских колониях. Незнаю чем это обусловлено исторически, но да, почему-то именно в них к публичным данным особенно внимательное отношение именно сейчас.

Я приведу в дополнение ещё ряд интересных проектов на ту же тему:

И другие интересные ресурсы на ту же тему:

И, наконец, российские ресурсы:

  • http://www.opengovdata.ru – сайт созданный мною в мае 2009 и понемногу наполняющийся.
  • http://www.mosclassific.ru – сайт ГУП “Социальный регистр” – предоставляют в открытом доступе все московские и общероссийские классификаторы. Московские можно скачать в XML и DBF (после бесплатной регистрации), а общероссийские доступны только в виде HTML страниц,  но с более-менее удобным поиском.

Будет ли в России Data.Gov.Ru? Я бы переформулировал вопрос. А будет ли его кто-либо использовать?

Собственно это вопросы к читателям – если бы Data.Gov.Ru появился, то:

1. Какую информацию Вы бы хотели там увидеть?

2. Готовы ли Вы лично создавать проекты машапы на основе открытых данных?

3. Если готовы, то забесплатно, или же за деньги в виде конкурсов вроде “Apps for Russia”?

4. Какие машапы Вам было бы интересно увидеть как потребителям?

Originally published at Иван Бегтин. You can comment here or there.

О живых данных
15 октября 09 12:35

В последние несколько месяцев от меня было куда меньше постов чем обычно по довольно простой причины – прямо сейчас я занимаюсь проектом довольно непростым понятийно и технически. Планировал я его несколько лет и только в этом году удалось приступить к реализации.

Проект, разумеется, связан с большими объёмами информации, её обработкой, классификацией и последующим представлением. Особенность этого в том что работа идёт с “живыми данными”, а то есть источников информации много, информация разноформатна, предоставляется в разном качестве, содержит ошибки в структуре и в значениях, обладает разными ограничениями и прочими особенности нетепличных данных.

В то же время это “живые данные” имеют массу специфики, при их сборе, подготовке, обработке и так далее. Приведу ряд соображений и размышлений для примера:

1. Для простых данных в виде плоских таблиц можно использовать различные SQL-базы с внешней обвязкой метаданными.  Но, случаи когда используются только простые таблицы редки, чаще всего данные обладают иерархией и вложенностью. Эту иерархию и вложенность можно привести к SQL сильно увеличив число таблиц, или же использовать NoSQL подход брать за основу CouchDb, MongoDb или их аналоги или семантические triple-store.

2. До сих пор очень мало практических инструментов по работе с NoSQL данными. Практически нет ETL инструментов, BI движков, ORM библиотек и прочего разного. Во многом от того что сама концепция NoSQL только сейчас приобретает признаки тренда и нет единых стандартов по доступа к такого рода данным.

3. На самом деле обработка большого объёма разноформатной информации это ещё и до сих пор не решённая исследовательская задача. Большинство же практических систем, например, поисковых, либо нормализуют источники информации и получаемые данные, либо резко ограничивают их число и связывают информацию в этих источниках вручную. Например, поисковики вроде Google или Yahoo нормализуют весь веб к веб-страницам, а в WolfRam Alpha используется большое число массивов данных вручную нормализованных, в основном, по формам выдачи результатов. Задачу же автоматической или автоматизированной интеграции тысяч и десятков тысяч источников информации решить было бы очень интересно, но лично я понимаю всю её объективную сложность.

4. Онтологии – это правильно, хорошо и идеалистично. К живым данным они имеют весьма слабое отношение и тут скорее можно говорить об онтологии извлечения и обработки информации. Некой единой модели  которая бы всё это описывала. Но это ещё одна большая и непростая исследовательская задача пока ещё далёкая от решения.

5. Один большой вопрос – это работа с аномалиями, когда получаемые из источника информации данные не соответствуют заявленному формату. Причём в случаях если подобные аномалии возникают в пределах данных, то это не то чтобы просто, но точно решается. А вот в случаях когда аномалии происходят на структурном уровне – последовательности полей или их разделения, то тут решается сложнее. Локализацией участка и ручному анализу или же разработкой правил анализа отклонений на основе ранее выявленных ошибок.  Одно можно сказать точно, в живых данных такие аномалии встречаются.

6. Кстати, говоря об аномалиях, нельзя не отметить ещё и тот факт что они сильно зависят от формы носителя информации – контейнера и от представления информации в этом контейнере. В практическом плане это выражается в том что в файлах Excel или DBF есть четкое разделение полей и хранение метаданных о типах данных в этих полях, а вот в HTML и, в некоторых случаях, в CSV такого нет или же, если есть, то этим метаданным нельзя доверять безоговорочно. Также с точки зрения выявления аномалий можно рассматривать любые полуструктурированные тексты устоявшегося написания той или иной информации – адресов, фамилий и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 7.10.2009: Интересные машиночитаемые данные
07 октября 09 02:26
  • Data.australia.gov.au – австралийский государственный портал открытых данных
  • DataSF.org – неофициальный портал открытых данных города Сан-Франциско (США)
  • Correlates of War – набор датасетов посвящённых истории военных конфликтов.
  • Word Bank Data – данные публикуемые всемирным банком
  • CloudMade – датасеты по геотематике по разным странам мира и в разнообразных форматах
  • Kids Count DataCenter – аналитика и данные по числу детей в США в разрезах бедности, занятости, демографии, образования и здоровья

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Infogeeks / Инфогики
30 сентября 09 05:31

Время от времени меня (как и многих) спрашивают чем я вообще занимаюсь, так сказать род деятельности. Я же на этот вопрос предпочитаю отвечать то чем я увлекаюсь. И вот на днях для всего этого я, похоже, подобрал наиболее точный термин – InfoGeek или Инфогик. Можно ещё сказать Datageek или Датагик, но суть сильно не изменится. Моё хобби – это информация во всех её проявлениях, способах её сбора, способах работы с ней, исследований основ и понимания МетаИнформации – где “мета” обозначает концептуальную модель её производства, существования и структуры.

Также, например, инфогик’ство проявляется в стремлении собирать и накапливать различные базы данных, анализировать способы их связывания и визуализации. У меня лично таким образом накапливаются самые разные датасеты из самых разных областей – государство, бизнес, Интернет, математика, медицина, социальные науки и прочие прочие.

Всего сотни и сотни гигабайт данных и источников их получения. А в некоторых случаях и способы её создания. Например, в моём понимании, Интернет – это огромный массив неструктурированной информации из которой можно извлекать свои жемчужины.

В России, к сожалению, инфогиков пока мало. Больше же всего их в англосфере, там и с доступностью информации попроще и школы по обработке и систематизации данных весьма сильны.

Так что на технологии, способы ведения проектов, программные продукты и так далее у меня взгляд именно с точки зрения информации. Как я могу их использовать чтобы собрать найти больше информации, обработать её быстрее или показать её более наглядно.

Кстати, большой плюс у такого хобби в его безграничности.

Originally published at Иван Бегтин. You can comment here or there.

Мой список Wanted data
10 сентября 09 12:37

Одно дело собирать уже раскрываемые данные и куда важнее те данные которых в открытом доступе нет, а, в лучшем случае, есть их производные.

Причём по моему наблюдению и если говорить о государственной информации, то чуть ли не самые интересные данные находятся в ведении региональных и муниципальных властей.

Я собрал небольшую подборку того какая информация была бы наиболее интересна и социально-полезна.

1. Всё что касается экологического мониторинга.

Это результаты замеров загрязнения атмосферы, поверхности воды, почв и так далее в форматах пригодных для дальнейшей обработки.

Например, я знаю что в Москве такая информация точно собирается. Ещё до июля месяца на сайте Департамента природопользования и охраны окружающей среды (http://www.moseco.ru) были данные мониторинга со станций. Сейчас те что мне удалось найти ограничены июлем месяцем и нет ничего в машиночитаемой форме.

Зато масса графиков, наложений на карты и прочих производных. Но от графиков польза нулевая, а вот на основе первичных данных можно было бы построить интересные машапы вокруг темы экологии в городе. Подозреваю что в других регионах ситуация не сильно лучше.

Кое-что, правда, есть на сайте ГПУ “Мосэкомониторинг”, например, http://www.mosecom.ru/air/air-week/station/marin/ , но и это не машиночитаемые данные, а сравнительно легко извлекаемые из HTML таблицы.

2. Перечни всех городских строек.

Практически на всех стротельных объектах устанавливаются щиты с упоминанием кто является застройщиком, его контактные телефоны и т.д.

Вопросы:

а. Почему там нет их веб-сайта?  Это куда более важный канал информации чем телефон

б. Как узнать кто ведёт строительство и ремонт где в городе и когда он будет закончен? Вообще моё личное мнение что для того чтобы узнать кто из строителей шумит по ночам у меня под окнами я не должен идти и смотреть на эту табличку.

Помимо всего прочего эта информация позволит проводить мониторинг тех кто срывает сроки ремонта и строительства и учитывать идущие и планируемые стройки при переездах и тому подобное.

3. Актуальные перечни и адреса госучреждений и муниципальных (социальных) магазинов

Это перечни отделений департаментов соц. защиты, центров занятости, больниц и так далее. А то есть всех тех социально-значимых учрежений информация о которых людям необходима.

В значительном объёме эта информация и так уже публикуется, но если бы она публиковалась в машиночитаемой форме, то появились бы веб-ресурсы способные помочь людям которым эта информация необходима. Как минимум это могут быть специализированные машапы, а как максимум эта информация может пригодится и крупным поисковым игрокам для улучшения поисковой выдачи и собственных сервисов.

И так далее – это всё неполный список того что является Wanted Data для меня лично поскольку я точно знаю что нашёл бы применение перечисленным выше данным.

А что Wanted Data для Вас? Кому не сложно, напишите какие данные хотелось бы увидеть и были бы Вы готовы строить на них машапы, встраивать в свои сайты и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Открытые данные: Расходы на ФЦП в бюджете 2009 в XLS и CSV
02 сентября 09 10:06
Продолжаю публиковать различные открытые данные.  На сей раз вашему вниманию предлагается небольшой датасет с данными по расходам на ФЦП заложенными в федеральный бюджет (данные на 1 июля 2009 года) .
  • fcp2009.csv – в формате CSV (разделитель ‘;’)
  • fcp2009.xls – в формате MS Excel

Файлы состоят из двух колонок: общая сумма и название ФЦП.  Всего 50 строк, строки рассортированы по убыванию.

Поскольку массив небольшой, то публикую его только у себя в блоге, а не в OpenGovData.ru.   В OpenGovData.ru будут более детализированные массивы, чуть позже.

Все цифры получены на основе открытых первичных данных публикуемых МинФином тут  - http://www1.minfin.ru/ru/budget/federal_budget/ за что МинФину отдельное спасибо.

P.S. Вообще данные буквально просятся под инфографику, но мне, увы, визуальные исскуства даются с трудом.  Если кто может что-нибудь красивое из них сотворить или же посоветовать как можно построить интересную инфографику какими-либо онлайн сервисами или программами – буду благодарен.

Originally published at Иван Бегтин. You can comment here or there.

Открытые данные: Структурированная номенклатура
31 августа 09 01:00

Ещё один новый массив данных в OpenGovData.ru – Структурированная номенклатура продукции для государственных и муниципальных нужд.

Номенклатура используется (должна использоваться) при прогнозирование объёмов закупок и в планах-графиках на размещение заказа.

В открытом доступе она есть на сайте zakupki.gov.ru (http://www.zakupki.gov.ru/Default.aspx?link=21) и ещё ряде региональных сайтов, но в машиночитаемой форме нигде нет.

И, к вопросу о наличии других данных в OpenGovData.Ru. Не скрою что данных у меня накопилось куда больше чем сейчас опубликовано, причём часть из них относительно несложно преобразовать из имеющихся форматов в открытые данные, но главные нерешённые вопросы остаются:

1. Как обеспечить обновление данных, например, общероссийских справочников?

2. Какие массивы данных наиболее востребованы?

3. Готов ли кто-нибудь создавать машапы на основе открытых данных или же навигацию по ним и визуализацию нужно будет также делать в OpenGovData.Ru?

Originally published at Иван Бегтин. You can comment here or there.

OpenGovData: Государственный рубрикатор научно-технической информации
31 августа 09 11:38

Ещё одно пополнение для OpenGovData.ru – государственный рубрикатор научно-технической информации в машиночитаемых форматах XML, CSV и TSV.

Это не совсем государственная информация в прямом понимании этого термина, но, учитывая что ГРНТИ регулируется ГОСТом 7.0.49-2007 –  http://www.ifap.ru/library/gost/70492007.pdf, то, на мой взгляд, под формат OpenGovData.ru он подходит.

ГРНТИ, кстати – это один из примеров того что формат представления информации _имеет значение_.  В Рунете есть множество ресурсов где он доступен или как документ Word/PDF или через поиск или навигацию, но в машиночитаемой форме найти было просто нереально. Теперь же машиночитаемая форма есть в OpenGovData.ru

Originally published at Иван Бегтин. You can comment here or there.

Нестандартные выводы из открытых данных
23 августа 09 12:46

В статье на которую я ссылался в предыдущем посте об открытых данных как гражданском капитале есть одна важная мысль. Это то что одной из важнейшей причин их доступности является то что изначальная информация может быть рассмотрена с совершенно иных ракурсов и приводить нестандартным выводам.

Приведу пару таких выводов из собственной практики:

1. Не менее чем у 90% всех госучреждений отсутствуют свои сервера электронной почты

Большинство сотрудников госорганизаций пользуются бесплатными сервисами почты Mail.Ru, Yandex, Rambler, Google Mail и так далее.  Причём с этих адресов ведётся вполне официальная переписка по служебным вопросам.

Откуда этот вывод? Всё просто. Для него достаточно было взять массив извещений о госзакупках и взглянуть с другого ракурса. Во всех этих извещениях чаще всего присутствует контактный email который очень редко указывает на домен принадлежащий ведомству.

2. До 99% конкурсных комиссий голосуют единогласно

Опять же не вполне очевидный вывод который можно извлечь анализируя протоколы закупок. Подавляющее число конкурсных комиссий всегда голосуют единогласно – за одобрение заявки участника или за отклонение заявки. Что это означает? Что в конкурсных комиссиях отсутствуют конфликты интересов и вопрос того как они  формируются более чем интересен.

Что ещё можно было бы узнать?

Например:

- если бы были доступны данные сводок МЧС и МВД, то помимо банальных наложений их на территорию с оценками криминогенности и пожароопасности, можно было бы также оценивать проводить параллели с движением планет. Иначе говоря, связывать с предсказаниями астрологов.

- имея данные по статистике имён и популярности певцов/актеров/музыкантов/персонажей книг в эти периоды анализировать степень их влияния на общество.

- имея данные по юридическим лицам включающие их название и род деятельности в виде кодов ОКВЭД можно было бы составить частотность употребления различных ключевых слов по темам и создать алгоритм на основе которого, конечно, с высокой степенью допущения предсказывать отрасль компании.

и множество других применений.

Как резюме лишь добавлю что в России открытых данных, в том числе открытых государственных данных, очень много, сотни если  не тысячи источников и те что удалось собрать в opengovdata.ru – это капля в море.

Ключевыми же остаются два вопроса:

1. Систематизация данных – того где и как их можно получить и применить.

2. Желание у граждан работать с данными. Создавать машапы, использовать в своей работе, анализировать и так далее.

Лично я считаю что оба этих вопроса разрешими.

Originally published at Иван Бегтин. You can comment here or there.

Датасет по ипотечному кризису в США
05 августа 09 11:13

В GitHub проекте data-housing-crisis (http://github.com/hadley/data-housing-crisis/tree/master) появилась огромная подборка данных по ипотечному кризису в США.

Это результаты опросов, статистика, данные переписей и так далее. Суммарно на 10 гигабайт

Всё это вместе со скриптами по работе с данными на языке R.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
MongoDB
04 августа 09 10:49

Вторую неделю экспериментирую с MongoDB . Для тех кто не знает – это такая экспериментальная база данных ориентированное на хранение в виде документов (document-based), похожая на CouchDb по идеологии и по принципам работы.

По результатам впечатления смешанные.

С одной стороны к плюсам можно отнести то что:

  • MongoDb существенно быстрее чем CouchDb, и в части записи, и в части чтения
  • гораздо удобнее хранить бинарные файлы и блоки так как вместо JSON используется формат BSON ориентированный как раз на двоичные данные.
  • индексирование работает на любом уровне иерархии внутри объектов. А то есть если есть объект документ и внём подэлементы разделов и внутри их подъэлементы заголовков то можно построить индекс прямо по этим заголовкам.  Выглядеть это будет примерно так coll.ensure_index(’document.topics.title’, 1)
  • сервер вполне тянет базу в несколько миллионов объектов – я лично прогружал до миллиона и с базой до 3 гигабайт.
  • простота маштабирования: примеры с несколькими экземплярами и распределением данных идут прямо в поставке
  • подробная и качественная документация, большое число примеров и драйверов под все популярные языки: Java, CPP, Python, Perl, Ruby

Но, выявились и весьма существенные минусы:

  • полнотекстовое индексирование отсутствует. Можно пойти путём описанном в вики проекта, а можно настроить внешний индексатор вроде того Sphinx через xmlpipe, но в любом случае требуются лишние существенные усилия.
  • интеграция с тем же Sphinx’ом и рядом других приложений усложняется тем что по умолчанию в MongoDb все идентификаторы – это блок в 12 байт и нужно, либо заменять все ID на int32 у объектов, или добавлять свои параллельно.
  • цена производительности MongoDB – надежнность. В частности при холодной перезагрузке компьютера во время записи в базу MongoDB вероятность что она потом читаться не будет очень высока. Лично столкнулся с этим когда мой ноутбук перегрелся и отключился во время одного из экспериментов – в результате база в несколько гигабайт пришла в неработоспособное состояние. Спасло лишь то что есть команда на восстановление, но для базы в 3 гигабайта выполняется она порядка 30 минут
  • … ещё одно последствие упавшей базы  в том что после восстановления как минимум у части объектов сменились уникальные ID. В результате там где в связках таблиц использовались они – нарушение связей и спасти тут может лишь использование собственных ключей.

Как резюме – инструмент интересный и полезный, но использовать его следует с оглядкой на проблемы выше.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Ссылки на 05.06.2009. Датасеты
05 июня 09 02:01
  • OpenLibrary.org - экспорт в JSON всех авторов и изданий.
  • SocData.com - коллекция датасетов собираемых сообществом. Социальные данные
  • ILSP Greek Corpus - корпус греческого языка
  • European Climate Assesment - датасеты с данными по климату в Европе с ежедневным пополнением
  • SuperComputer Event Logs - датасеты логов событий на суперкомпьюетерах SNL за 2004 и 2005 годы

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Датасеты - дамп StackOverflow
05 июня 09 01:44

Может быть интересно для тех кто исследует социальные сети и вообще интересуется большими массивами данных - проект StackOverflow выложил в общий доступ датасет на 200 мегабайт сжатых 7Zip с коллекцией вопросов, участников, комментариев и результатов оценки.

Основная идея: Мы получаем данные от сообщества, мы возвращаем данные сообществу.

Для справки. StackOverflow - это одно из Q&A сообществ нацеленное на разработчиков ПО.


Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
More Posts Next page »

This Blog

Tags

Syndication