Август 2009 - Posts

Про новый сайт Медведева
31 августа 09 10:52

Если кто-то ещё не знает то уже обновился сайт президента kremlin.ru .

Интересного там много, как по дизайну так и содержимому. На мой взгляд по дизайну он стал больше походить на Обамовские сайты.

Но ещё важнее что это один из немногих госсайтов с наличием раздела “О сайте” (http://www.kremlin.ru/about/sitedev) где есть информация:

  • о том из чего сайт состоит;
  • статус информации (копирайт);
  • как собираются и собираются ли персональные данные;

и так далее.

Очень качественно сделанный ресурс. Думаю что теперь именно на него начнут равнятся губернаторы и министры при обновлении свои сайтов.

Originally published at Иван Бегтин. You can comment here or there.

ReWiredState: Гики встречаются с государством
31 августа 09 03:26

Нашёл интересный и очень правильный проект http://www.rewiredstate.org/

Приведу дословно, то для чего проект создан и с правой стороны мой перевод.

Government isn’t very good at computers.
They spend millions to produce mediocre websites, hide away really useful public information and generally get it wrong. Which is a shame.
Calling all people who make things.
We’re going to show them how its done.
Власти не особенно хороши с компьютерами.</p>

Они тратят миллионы чтобы создать посредственные веб-сайты, скрывают действительно полезную публичную информацию и обычно делают дла неправильно. И это позор.

Созывая людей что способен создавать, мы собираемся показать им [властям] как это делается [правильно].

Одним словом энтузиасты собирают различные государственные и не государственные данные и делают правильно сайты которые государство обычно делает неправильно.

Мне лично нравится такой подход. Не критиковать, а делать так как делать правильно.

Originally published at Иван Бегтин. You can comment here or there.

Открытые данные: Структурированная номенклатура
31 августа 09 01:00

Ещё один новый массив данных в OpenGovData.ru – Структурированная номенклатура продукции для государственных и муниципальных нужд.

Номенклатура используется (должна использоваться) при прогнозирование объёмов закупок и в планах-графиках на размещение заказа.

В открытом доступе она есть на сайте zakupki.gov.ru (http://www.zakupki.gov.ru/Default.aspx?link=21) и ещё ряде региональных сайтов, но в машиночитаемой форме нигде нет.

И, к вопросу о наличии других данных в OpenGovData.Ru. Не скрою что данных у меня накопилось куда больше чем сейчас опубликовано, причём часть из них относительно несложно преобразовать из имеющихся форматов в открытые данные, но главные нерешённые вопросы остаются:

1. Как обеспечить обновление данных, например, общероссийских справочников?

2. Какие массивы данных наиболее востребованы?

3. Готов ли кто-нибудь создавать машапы на основе открытых данных или же навигацию по ним и визуализацию нужно будет также делать в OpenGovData.Ru?

Originally published at Иван Бегтин. You can comment here or there.

OpenGovData: Государственный рубрикатор научно-технической информации
31 августа 09 11:38

Ещё одно пополнение для OpenGovData.ru – государственный рубрикатор научно-технической информации в машиночитаемых форматах XML, CSV и TSV.

Это не совсем государственная информация в прямом понимании этого термина, но, учитывая что ГРНТИ регулируется ГОСТом 7.0.49-2007 –  http://www.ifap.ru/library/gost/70492007.pdf, то, на мой взгляд, под формат OpenGovData.ru он подходит.

ГРНТИ, кстати – это один из примеров того что формат представления информации _имеет значение_.  В Рунете есть множество ресурсов где он доступен или как документ Word/PDF или через поиск или навигацию, но в машиночитаемой форме найти было просто нереально. Теперь же машиночитаемая форма есть в OpenGovData.ru

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 30.08.2009: Федеральные целевые программы
30 августа 09 09:42
  • http://www.fcpk.ru/ – ФЦП “Научные и научно-педагогические кадры инновационной России” на 2009-2013 годы
  • http://www.kadryedu.ru/ – то ж самое, только другой сайт
  • http://www.fcpro.ru/ – ФЦП “Развитие образования” в 2006-2010 годах
  • http://www.fcp-pbdd.ru/ – ФЦП “Повышение безопасности дорожного движения” в 2006-2012 годах
  • http://fcpkultura.ru/ – ФЦП “Культура России” на 2006-2011 годы
  • http://www.fcpdom.ru/ – ФЦП “Жилище” на 2002-2010 годы
  • http://www.gks.ru/metod/fcp/fcp.html – ФЦП “Развитие государственной статистики России в 2007 – 2011 годах”
  • http://www.russianlang.ru/ – Федеральная целевая программа “Русский язык” на 2006-2010 годы
  • http://www.kadastr.ru/field_of_activity/program/program_passport/ - ФЦП  ”Создание автоматизированной системы ведения  государственного земельного кадастра и государственного  учета объектов недвижимости (2002-2008 годы)”
  • http://www.sport-fcp.ru – ФЦП “Развитие физической культуры и спорта в Российской Федерации на 2006 – 2015 годы”
  • http://fcpir.ru/ ФЦП “Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2012 годы”

Originally published at Иван Бегтин. You can comment here or there.

Про персональные данные и 2010 год
26 августа 09 08:40

У Екатерины Аксеновой в gov-gov.ru появилась запись про НТС по персональным данным в Минкомсвязи. Думаю что всем кто интересуется этой темой почитать будет  интересно и важно.

Вообще же скажу вам не тая что 1 января 2010 года многие давно ждут. Кто со страхом, кто в предвкушении, кто как неизбежного армагеддона.

В любом случае,  учитывая что вступают в силу, и закон о персональных данных, и 8-ФЗ, то, имхо, число исков на их основе должно резко вырасти, да и жаловаться граждане в прокуратуру начнут активно.

Так что можно запасаться попкорном.

Originally published at Иван Бегтин. You can comment here or there.

О законодательно-загадочном
26 августа 09 06:25

Просматриваю в очередной раз ряд сайтов федеральных органов власти и поражаюсь одному факту. На многих из них есть разделы “графических копий документов”, двух известных российских компаний причём никто не задаётся вопросами (что они делают на официальных сайтах??), а вот ссылок на ГРСПА (Государственная система распространения правовых актов) нигде нет!

При том что там есть все документы федерального законодательства и не в “графических копиях”, а в текстовой, пригодной для работы форме.

Вообще я лично ссылки на все эти веб сайты “с графическими копиями” собираю в отдельную коллекцию с двумя целями:

1. Наглядная демонстрация того факта что “формат имеет значение” и форма раскрытия государственной информации должна регулироваться.

2. Пример того как коммерческие компании продвигают свои бренды и, при этом, не повышают, а, по факту, понижают доступность информации в угоду собственным системам.

P.S. Лично я не люблю писать обращения к президенту, но для тех кто любит могу предложить вопрос, а почему же документы в http://document.kremlin.ru недоступны в текстовом формате?

Originally published at Иван Бегтин. You can comment here or there.

Автоматическое индексирование отсканированных документов
26 августа 09 06:01

Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.

Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск – например, вот так и щелкнув на ссылку “просмотреть” переходим в Google Docs где ещё одним щелчком на “Обычный формат HTML” документ возвращается в виде текста.

В общем, Google нашли себе ещё один большой срез данных. Осталось лишь дождаться когда поисковик начнет заглядывать в архивы, распознавать текст и объекты на картинках и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Нестандартные выводы из открытых данных
23 августа 09 12:46

В статье на которую я ссылался в предыдущем посте об открытых данных как гражданском капитале есть одна важная мысль. Это то что одной из важнейшей причин их доступности является то что изначальная информация может быть рассмотрена с совершенно иных ракурсов и приводить нестандартным выводам.

Приведу пару таких выводов из собственной практики:

1. Не менее чем у 90% всех госучреждений отсутствуют свои сервера электронной почты

Большинство сотрудников госорганизаций пользуются бесплатными сервисами почты Mail.Ru, Yandex, Rambler, Google Mail и так далее.  Причём с этих адресов ведётся вполне официальная переписка по служебным вопросам.

Откуда этот вывод? Всё просто. Для него достаточно было взять массив извещений о госзакупках и взглянуть с другого ракурса. Во всех этих извещениях чаще всего присутствует контактный email который очень редко указывает на домен принадлежащий ведомству.

2. До 99% конкурсных комиссий голосуют единогласно

Опять же не вполне очевидный вывод который можно извлечь анализируя протоколы закупок. Подавляющее число конкурсных комиссий всегда голосуют единогласно – за одобрение заявки участника или за отклонение заявки. Что это означает? Что в конкурсных комиссиях отсутствуют конфликты интересов и вопрос того как они  формируются более чем интересен.

Что ещё можно было бы узнать?

Например:

- если бы были доступны данные сводок МЧС и МВД, то помимо банальных наложений их на территорию с оценками криминогенности и пожароопасности, можно было бы также оценивать проводить параллели с движением планет. Иначе говоря, связывать с предсказаниями астрологов.

- имея данные по статистике имён и популярности певцов/актеров/музыкантов/персонажей книг в эти периоды анализировать степень их влияния на общество.

- имея данные по юридическим лицам включающие их название и род деятельности в виде кодов ОКВЭД можно было бы составить частотность употребления различных ключевых слов по темам и создать алгоритм на основе которого, конечно, с высокой степенью допущения предсказывать отрасль компании.

и множество других применений.

Как резюме лишь добавлю что в России открытых данных, в том числе открытых государственных данных, очень много, сотни если  не тысячи источников и те что удалось собрать в opengovdata.ru – это капля в море.

Ключевыми же остаются два вопроса:

1. Систематизация данных – того где и как их можно получить и применить.

2. Желание у граждан работать с данными. Создавать машапы, использовать в своей работе, анализировать и так далее.

Лично я считаю что оба этих вопроса разрешими.

Originally published at Иван Бегтин. You can comment here or there.

Мощь данных усиленная изобретательностью
21 августа 09 10:19

Читаю прекрасный текст от Джошуа Тауберера Open Data is Civic Capital: Best Practices for “Open Government Data” – http://razor.occams.info/pubdocs/opendataciviccapital.html

Текст посвящён ценности раскрытия данных и перечню причин почему и как это нужно делать.

Приведу небольшой участок текста.

“Мощь цифровой информации катализировать прогресс ограничена только мощью человеческого сознания. Данные не поглощаются идеями и инновациями порождаемые ими, но являются бесконечным топливом для созидательности. Малые биты информации, успешно найденные, могут произвести огромный скачок в созидательности. Мощь данных может быть усилена изобретательностью и приводить к применениям немыслимым авторами и далекими от изначальной предметной области.”
(”Сопряжение Мощи Цифровых Данных для Науки и Общества”), отчет рабочей группы Office of Science Technology Policy, Executive Office of the President, правительства США)

В оригинале это читается, конечно, лучше чем в моём непрофессиональном переводе. Тех же кого тема заинтересовала предлагаю совместно перевести текст на русский вот тут – http://translated.by/you/open-data-is-civic-capital-best-practices-for-open-government-data/into-ru/trans/

Originally published at Иван Бегтин. You can comment here or there.

Автоматический анализ онлайн дискуссий
19 августа 09 10:51

Недавно наткнулся на чрезвычайно интересное исследование – TLDR: Interfaces for large-scale online discussion spaces.

Интересное оно тем что авторы решили провести анализ того как же люди реагируют на публикации в соц. сетях. Структуру и характер их комментариев, продолжительность дискуссии и так далее.

Причём с помощью ряда алгоритмов определяется где идёт аргументированная дискуссия, где троллинг и какими являются оценки – позитивными или негативными.

В качестве примеров там приводятся дискуссии на Reddit и видео веб-интерфейса с визуализацией результатов анализа включая несколько паттернов – продолжительной дискуссии и успешного троллинга.

А интересно это всё тем, что такой анализ вполне может быть частью системы по анализу и коррекции стратегий вирусных продвижений чего либо: продукта, темы, политических вопросов и так далее.

Частью, поскольку для полноты картины её необходимо дополнить информацией о том была ли последующая внешняя реакция читатей, например, публикации в своих блогах или онлайн изданиях, типизация участников соц. сетей по их реакции и по возможным последствиям реакции. И другие практические применения.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 1 Comments    
Filed under:
Мысли дайджестом
15 августа 09 12:30

IT: Только что вернулся со встречи посвящённой ProfyClub организованной Павлом Рогожином (http://pavel.rogozhin.ru/?p=304). Общее впечатление что у затеи может быть будущее и некоммерческая организация – это неплохая задумка. Конечно, всё будет зависеть от того как пойдёт процесс, но поучаствовать в нём стоит.

—-

eGov: Cnews пишут что тема госуслуг переходит в Ростелеком (http://cnews.ru/news/top/index.shtml?2009/08/14/357647).  Это довольно таки серьёзное изменение для всей темы электронного государства в России. Слухи ходили конечно разные, но лично для меня эта новость стала неожиданностью. Как и тот факт что до конца года Ростелеком планирует запустить www.gosuslugi.ru. Интересно на каких технологиях и какой нормативной базе? К тому же госуслугами, как я помню, занимался (и занимается) и МинЭкономРазвития, но о нём, почему-то, упоминаний небыло.

—-

Технологии: Прямо сейчас я пытаюсь скрестить ужа с ежом и в одном из проектов одновременно пытаюсь добиться высокопроизводительного решения и реализовать его в условиях жёсткого дефицита аппаратных средств – так как реально доступнен лишь один сервер на Amazon AWS уровня “Small”. Что к тому же ограничивает один экземпляр MongoDb до 2.5 ГБ данных. Но результат вырисовывается, хотя и ценой длительных и продолжительных пересчетов данных.

Могу сказать лишь что связка MySQL + MongoDb + Memcached + Sphinx сильно облегчает жизнь для некоторых задач.

—-

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 13.08.2009: Безсхемные базы данных (schema-less)
13 августа 09 01:39
  • CouchDb – это document-based база данных ориентированное на хранение данных как документов с иерархией структур и использования JavaScript для написание запросов. Из плюсов: поддержка IBM, один из проектов в составе Apache Foundation, удобство работы с данными. Из минусов: низкая производительность, недостаточно подробная документация. Написано полностью на языке Erlang
  • MongoDb – альтернатива Couchdb написанная на C++. Отличается лучшей производительностью, возможностью строить ad-hoc запросы, сохранением данных in-place и хорошо подготовленной документацией. К тому имеет коммерческую поддержку от компании 10gen. Ключевой минус: на 32-битных системах не позволяет создать базы размером более чем 2.5 гигабайта.
  • TokyoCabinet - база данных создававшаяся как современная замена dbm обладающая массой полезных возможностей в части маштабирования, устойчивости к сбоям, меньшего размера и так далее.
  • pykesto – безсхемная и транзакционная база для Python на базе TokyoCabinet.
  • ThruDb – ещё одна безсхемная база на Java
  • RDDb – безсхемная document-based база на Ruby
  • Oracle Berkeley Db – при определённой сноровке может использоваться для хранения безсхемных данных плюс есть редакция которая поддерживает работу с XML данными

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Госзакупки: Евраев и Катамадзе в РГ про борьбу с &#8220;латиницей&#8221;
10 августа 09 08:21

В Российской газете веером вышли три статьи:

Что и говорить тема злободневная, актуальная. Президент сказал: “Исправить!” и пошло поехало.

Ну а вместо того чтобы комментировать написанное там приведу пару цитат из документа Счетной Палаты на который я уже неоднократно ссылался.

высокая стоимость коррупционных факторов на всех этапах управления государственным заказом (по экспертным оценкам Института управления закупками и продажами им. А.Б.Соловьёва ГУ-ВШЭ до 60% – на этапе планирования закупок, 20-25% – на этапе размещения заказа и 15-20% – на этапе управления контрактами), принуждающая поставщиков государственного заказа к правонарушениям для получения средств, необходимых для исполнения неформальных обязательств;

Результаты анализа свидетельствуют, что вследствие системных ошибок Закона № 94-ФЗ из семи поставленных в нём целей достигнута только цель повышения прозрачности и гласности процедур размещения заказов для государственных нужд, а по отношению ко всей системе закупок он создал отрицательный синергетический эффект.

Переводя написанное выше с формального языка на нормальный. Представители ФАС и МЭР рассуждают про “закрутку гаек” в части процедур размещения заказа. Конечно, закрутят до упора – вся коррупция окончательно сместиться на этапы планирования и исполнения госконтрактов. И никто из них не осмелится признать вред который принёс 94-ФЗ экономике страны. Как Вы думаете почему? Потому меры по реальной борьбе с коррупцией могут привести и к тому что МЭР потеряет статус регулятора в госзаказе, а ФАС статус контролёра. Потому как ключевое слово здесь не госзаказ, а госконтракт!

Потому как необходим контроль не за процессом, а за результатами.

Потому как выбор “своего поставщика” осуществляется на этапе планирования.

Потому как 99% конкурсных комиссий голосуют единогласно.

Потому как госзакупки и госконтракты невозможно свести из-за отсутствию требований к кодированию.

Потому как в тексте 94-Фз отсутствуют определения используюемых там терминов что добавляет ему неоднозначности.

Потому как нет ни одного законодательного акта закрепляющего требования к обязательной классификации госзакупок и ответственности за это.

Потому как на услуги и работы приходится 90% госрасходов и именно они классифицированы хуже всего.

Потому как… ещё тысячи пунктов.

Про “технические нюансы” я уже писал предостаточно.

Originally published at Иван Бегтин. You can comment here or there.

Баннерная сеть социальной рекламы (предварительный анонс)
05 августа 09 09:48

На iCamp Russia 2009 я рассказывал про один из проектов которые планирую запустить и популяризовать при этом проект является заведомо некоммерческим – это проект баннерной сети социальной рекламы.

А поскольку проект некоммерческий, то и не будет секрета того что же планируется и всяко не будет хуже если идеей кто-то заинтересуется или же задумает сделать что-либо подобное – всё только к лучшему.

Собственно, идея.

В Рунете существуют тысячи если не десятки тысяч сайтов не размещающие на своих страницах коммерческой рекламы в принципе.

Их владельцы не делают этого поскольку:

  • не имеют на это права (госсайты);
  • считают что это может подорвать их репутацию (сайты крупного и среднего бизнеса)
  • их сайт является некоммерческим
  • принципиальным соображениям

Как бы то ни было таких сайтов очень много, сотни и тысячи, а то и десятки тысяч. Все они не размещают контекстной рекламы и не размещают коммерческой рекламы в виде баннеров.

В то же время в том же Рунете социальная реклама присутствует в совершенно зачаточном состоянии. Когда благотворительному фонду надо собрать денег на лечение или детские дома собирают игрушки для детей или же государство хочет попытаться в очередной раз убедить сограждан в том что пить плохо, курить плохо, а семья это хорошо; так вот у всех этих рекламодателей выбор невелик:

  • либо размещать рекламу в коммерческих баннерных сетях и в виде контектной рекламы;
  • либо на нескольких дружественных ресурсах
  • либо вообще ничего не предпринимать по причине отсутствия средств и возможностей

Чаще всего подобная реклама просто нигде не размещается.

Задумка в том чтобы свести площадки готовые показывать социальную рекламу и рекламодателей вместе. При этом для рекламодателей реклама не должна ничего стоить, а площадки размещают её совершенно безвозмездно. Чем, собственно, и определяется некоммерческая составляющая проекта – через него в принципе не проходят деньги, он является только статьёй расходов на его поддержание.

В чём здесь полезность для рекламодателей:

  • безусловная бесплатность размещения рекламы. Безусловная бесплатность означает что это не тот случай когда что-то даётся бесплатно, а в лучшем качестве за деньги. Нет. Безусловная бесплатность означает что через оператора такого ресурса деньги не проходят в принципе. Достаточно лишь соответствовать требованиям к некоммерческим сайтам.
  • охват большей аудитории. Сейчас уже есть несколько известным мне сайтов согласных транслировать подобную рекламу, дальше, я уверен, их будет больше. Участие в подобной баннерной сети позволит некоммерческим рекламодателям охватить максимально возможную Интернет аудиторию

В чём полезность для владельцев площадок:

  • возможность декларировать социальнуя ответственность бизнеса. Пусть даже организация не тратит денег на благотворительность напрямую, размещая социальную рекламу на своём сайте она опосредовано оказывает помощь привлекая внимание людей к проблемам.
  • владельцы площадок могут быть на 100% уверены что реклама через эту сеть будет только некоммерческой, это может быть обеспечено как отдельными договорами с крупными площадками, так и возможностью для владельцев площадок соглашаться или не соглашаться в трансляции по отдельным кампаниям

Во время и после iCamp я обсуждал эту идею со многими участниками и сейчас могу сказать что представители Каванги согласились выступить как технологический партнер и, как я надеюсь, до конца года с их участием может появится первая подобная баннерная сеть.

Я, в свою очередь, начинаю собирать список площадок готовых бесплатно размещать социальную рекламу и потенциальных рекламодателей. Если Вы относитесь к тем или другим и эта тема Вам интересна, то пишите на ibegtin (at) gmail.com, отвечу на все вопросы и буду информировать по ходу развития.

Вопрос который мне все задают, а зачем же это нужно лично мне? Всё просто – мне не всё равно. А поскольку людей которым не всё равно много, я считаю что из этого проекта может получится что-то путное, а 5-10% собственного времени на него это не столь большая цена чтобы её нельзя было заплатить.


Originally published at Иван Бегтин. You can comment here or there.

То ли ещё будет (про госзакупки)
05 августа 09 11:52

Сегодня читаю в блоге Медведева http://community.livejournal.com/blog_medvedev/30548.html

О КОНТРОЛЕ ЗА РАБОТОЙ САЙТА www.zakupki.gov.ru
В блог Дмитрия Медведева поступило значительное число комментариев о предоставлении неверных и некорректных данных на сайте www.zakupki.gov.ru.
С целью исключения коррупционных действий недобросовестных государственных заказчиков Президент России Д.А.Медведев дал поручение Министру экономического развития Э.Набиуллиной и руководителю Федеральной антимонопольной службы И.Артемьеву принять соответствующие меры по обеспечению достоверности информации, размещаемой на официальном сайте Российской Федерации www.zakupki.gov.ru, и доложить о работе в октябре 2009 года.
Генеральному прокурору Ю.Чайке поручено обеспечить надзор за соблюдением законодательства в сфере размещения заказов.

Тут, пожалуй, самое главное это поручение ген. прокурору обеспечить надзор. Фактически это то о чем я ранее неоднократно говорил (не помню писал ли) – подведение сайтов по госзакупок под требования схожие к 8-ФЗ. А то есть чтобы не только участники торгов, но и любой гражданин или СМИ могли направить обращения в прокуратуру.

Нехватает только поручению Министру юстиции для проверки коррупционность всех законов по госзакупкам за последние 4 года.

То ли ещё будет.

Originally published at Иван Бегтин. You can comment here or there.

Датасет по ипотечному кризису в США
05 августа 09 11:13

В GitHub проекте data-housing-crisis (http://github.com/hadley/data-housing-crisis/tree/master) появилась огромная подборка данных по ипотечному кризису в США.

Это результаты опросов, статистика, данные переписей и так далее. Суммарно на 10 гигабайт

Всё это вместе со скриптами по работе с данными на языке R.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
MongoDB
04 августа 09 10:49

Вторую неделю экспериментирую с MongoDB . Для тех кто не знает – это такая экспериментальная база данных ориентированное на хранение в виде документов (document-based), похожая на CouchDb по идеологии и по принципам работы.

По результатам впечатления смешанные.

С одной стороны к плюсам можно отнести то что:

  • MongoDb существенно быстрее чем CouchDb, и в части записи, и в части чтения
  • гораздо удобнее хранить бинарные файлы и блоки так как вместо JSON используется формат BSON ориентированный как раз на двоичные данные.
  • индексирование работает на любом уровне иерархии внутри объектов. А то есть если есть объект документ и внём подэлементы разделов и внутри их подъэлементы заголовков то можно построить индекс прямо по этим заголовкам.  Выглядеть это будет примерно так coll.ensure_index(’document.topics.title’, 1)
  • сервер вполне тянет базу в несколько миллионов объектов – я лично прогружал до миллиона и с базой до 3 гигабайт.
  • простота маштабирования: примеры с несколькими экземплярами и распределением данных идут прямо в поставке
  • подробная и качественная документация, большое число примеров и драйверов под все популярные языки: Java, CPP, Python, Perl, Ruby

Но, выявились и весьма существенные минусы:

  • полнотекстовое индексирование отсутствует. Можно пойти путём описанном в вики проекта, а можно настроить внешний индексатор вроде того Sphinx через xmlpipe, но в любом случае требуются лишние существенные усилия.
  • интеграция с тем же Sphinx’ом и рядом других приложений усложняется тем что по умолчанию в MongoDb все идентификаторы – это блок в 12 байт и нужно, либо заменять все ID на int32 у объектов, или добавлять свои параллельно.
  • цена производительности MongoDB – надежнность. В частности при холодной перезагрузке компьютера во время записи в базу MongoDB вероятность что она потом читаться не будет очень высока. Лично столкнулся с этим когда мой ноутбук перегрелся и отключился во время одного из экспериментов – в результате база в несколько гигабайт пришла в неработоспособное состояние. Спасло лишь то что есть команда на восстановление, но для базы в 3 гигабайта выполняется она порядка 30 минут
  • … ещё одно последствие упавшей базы  в том что после восстановления как минимум у части объектов сменились уникальные ID. В результате там где в связках таблиц использовались они – нарушение связей и спасти тут может лишь использование собственных ключей.

Как резюме – инструмент интересный и полезный, но использовать его следует с оглядкой на проблемы выше.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 1 Comments    

This Blog

Tags

Archives

Syndication