Ноябрь 2009 - Posts

Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных
27 ноября 09 04:25

Вышло постановление правительства с перечнем информации подлежащей раскрытию на официальных сайтах органов государственной власти.

—-

В соответствии со статьями 10 и 14 Федерального закона “Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления” Правительство Российской Федерации постановляет:

1. Утвердить прилагаемые:
перечень информации о деятельности Правительства Российской Федерации, размещаемой в сети Интернет;
требования к технологическим, программным и лингвистическим средствам обеспечения пользования официальным сайтом Правительства Российской Федерации в сети Интернет;
перечень информации о деятельности федеральных органов исполнительной власти, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственных им федеральных органов исполнительной власти, размещаемой в сети Интернет.
2. Федеральным органам исполнительной власти обеспечить:
размещение в сети Интернет информации в соответствии с перечнем информации о деятельности федеральных органов исполнительной власти, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственных им федеральных органов исполнительной власти, размещаемой в сети Интернет, за исключением информации ограниченного доступа;
соблюдение сроков размещения в сети Интернет информации о своей деятельности;
достоверность и своевременное обновление размещаемой в сети Интернет информации о своей деятельности.
3. Финансовое обеспечение расходных обязательств, связанных с реализацией настоящего постановления, осуществляется в пределах бюджетных ассигнований, предусмотренных в федеральном бюджете соответствующим федеральным органам исполнительной власти на руководство и управление в сфере установленных функций.
4. Министерству экономического развития Российской Федерации ежегодно, до 1 апреля, представлять в Правительство Российской Федерации доклад об исполнении настоящего постановления федеральными органами исполнительной власти.
5. Признать утратившими силу:
постановление Правительства Российской Федерации от 12 февраля 2003 г. # 98 “Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти” (Собрание законодательства Российской Федерации, 2003, # 7, ст. 658);
постановление Правительства Российской Федерации от 26 ноября 2008 г. # 884 “О внесении изменений в постановление Правительства Российской Федерации от 12 февраля 2003 г. # 98″ (Собрание законодательства Российской Федерации, 2008, # 48, ст. 5627).
6. Настоящее постановление вступает в силу с 1 января 2010В соответствии со статьями 10 и 14 Федерального закона “Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления” Правительство Российской Федерации постановляет:

1. Утвердить прилагаемые:

перечень информации о деятельности Правительства Российской Федерации, размещаемой в сети Интернет;

требования к технологическим, программным и лингвистическим средствам обеспечения пользования официальным сайтом Правительства Российской Федерации в сети Интернет;

перечень информации о деятельности федеральных органов исполнительной власти, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственных им федеральных органов исполнительной власти, размещаемой в сети Интернет.

2. Федеральным органам исполнительной власти обеспечить:

размещение в сети Интернет информации в соответствии с перечнем информации о деятельности федеральных органов исполнительной власти, руководство деятельностью которых осуществляет Правительство Российской Федерации, и подведомственных им федеральных органов исполнительной власти, размещаемой в сети Интернет, за исключением информации ограниченного доступа;

соблюдение сроков размещения в сети Интернет информации о своей деятельности;

достоверность и своевременное обновление размещаемой в сети Интернет информации о своей деятельности.

3. Финансовое обеспечение расходных обязательств, связанных с реализацией настоящего постановления, осуществляется в пределах бюджетных ассигнований, предусмотренных в федеральном бюджете соответствующим федеральным органам исполнительной власти на руководство и управление в сфере установленных функций.

4. Министерству экономического развития Российской Федерации ежегодно, до 1 апреля, представлять в Правительство Российской Федерации доклад об исполнении настоящего постановления федеральными органами исполнительной власти.

5. Признать утратившими силу:

постановление Правительства Российской Федерации от 12 февраля 2003 г. # 98 “Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти” (Собрание законодательства Российской Федерации, 2003, # 7, ст. 658);

постановление Правительства Российской Федерации от 26 ноября 2008 г. # 884 “О внесении изменений в постановление Правительства Российской Федерации от 12 февраля 2003 г. # 98″ (Собрание законодательства Российской Федерации, 2008, # 48, ст. 5627).

6. Настоящее постановление вступает в силу с 1 января 2010 г.

Председатель Правительства, Российской Федерации В.Путин

—–

Посмотреть полностью и скачать приложение можно на сайте правительства.

По сравнению с проектом этого поставновления оно очень сильно “обеззублено”. Жаль, начиналось оно лучше чем закончилось.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Про электронные аукционы
27 ноября 09 04:14

Тут недавно вышла статья на BFM.ru про электронные аукционы. Там немало текста идёт от главы ФАС России Артемьева и я, пожалуй, прокомментирую у себя в блоге ряд особо интересных замечаний.

Текст статьи болдом, мои комментарии обычным текстом.

С 1 июля 2010 года около 70% всех госзакупок в России будут осуществляться через электронные аукционы

Обращу внимание на несколько аспектов:

1. То что 70% не бюджетных средств, а именно госзакупок. Разница здесь в том что для госзаказов действует правило Парето  80/20 что значит что на 20% всех заказов приходится 80% государственных средств.

2. Сейчас электронных аукционов в случем случае 0.1% от числа закупок, по объёмам средств ещё меньше. Большинством госзаказчиков эта процедура неопробованная и “загнать” всех госзаказчиков на электронные аукционы – это экспериментаторство в глобальном маштабе, с глобальными же последствиями если что-то пойдёт не так.

Глава ведомства также отметил, что действующим постановлением правительства определен перечень товаров и услуг, которые в рамках госзакупок должны осуществляться только через аукционы. С 1 января 2010 года часть продукции из этого перечня должна будет закупаться только через электронные аукционы, а с 1 июля 2010 года — все, указанное в этом перечне.

Это и есть способ принудительного “загона” госзаказчиков на электронные аукционы. Обратите внимание что раньше у госзаказчиков был выбор процедуры и популярности электронные аукционы не получили. Сейчас переход обеспечивается декларативно-принудительным способом причём в среде где понимания от их пользы всё ещё не возникло.

Планируется, что на госзакупки в следующем году будет потрачено 5 трлн рублей. При этом глава ФАС уточнил, что через год продукция на сумму примерно около 3 трлн рублей будет закупаться через электронные аукционы. Отбор пяти электронных площадок, на которых и будут проводиться эти аукционы, правительство проведет в середине декабря.

Скажу коротко – не верю. Особенно насчёт 3 триллионов по электронным аукционам. 3 триллиона от 5 – это 60% всех закупок. Для сравнения сейчас около 25% всех средств по госзаказу тратится на через открытые конкурсы и до 30-40% средств закупками из единственного источника. Как следствие 60% средств через электронные аукционы не будут проходить никогда.

В электронных торгах немало плюсов, главный из которых — наиболее эффективный способ обеспечить конкуренцию и прозрачность.

Если бы речь была о безбумажном документообороте, о больших возможностях контроля за процессом – я бы ещё понял. Но к конкуренции и прозрачности электронные аукционы не имеют никакого отношения. Поясню почему.

Прозрачность – это доступность информации для граждан и бизнеса. Прозрачность – это не просто красивое слово, а на практике – комплекс мер в том числе и технических которые должны обеспечить к этой самой информации доступ. Так вот доступность инфомрации – это не электронные торги. Это законодательные требования по раскрытию информации на всех видах торгов, это требования по раскрытию результатов торгов, результатов исполнения госконтрактов, непрерывный мониторинг строительства веб-камерами (в публичном доступе!), раскрытие проектных документов и так далее и тому подобное. Для того чтобы это обеспечить нужны не электронные торги, а электронный документооборот и системы раскрытия информации.

Про конкурентность. Во первых напомню что конкуренция здесь, в лучшем случае, за 20% госсредств. Во вторых зная статистику электронных аукционов которые являются несостоявшимися поверить в конкуренция я, ей богу, ну никак не могу. Я в принципе не верю что конкуренция обеспечивается процедурами – процедуры, это не более чем способ, а все решения о выборе “своего поставщика” принимаются на этапе планирования.

Таким образом, открытость торгов позволит избежать размещения странных заказов: золоченых кроватей для МВД, «Лексусов» цвета «морозный жемчуг» для ФГУ «Центральная база авиационной охраны лесов «Авиалесоохраны» и золотых часов с бриллиантами для губернатора Тулеева. Электронные торги дают возможность видеть такие заказы и сегодня чиновники десять раз подумают, а потом будут объявлять торги, говорят эксперты.

Всё написанное не соответствует действительности ни на йоту. Не электронные торги, а публичное раскрытие информации о торгах обеспечивает прозрачность и никак иначе! И здесь огромную роль играет то как именно это раскрытие обеспечивается, а не то как торговались поставщики – электронно, на аукционе или через конкурс.

При этом еще в мае стало известно, что портал, где будет размещаться вся информация о госзаказах в России, по плану Минэкономразвития (МЭР), начнет работу с 1 января 2011 года. МЭР также сообщал, что предполагает на конкурсной основе создать нескольких крупных площадок, где будут размещаться заказы через открытые электронные аукционы.

То что электронные торговые площадки нужны и нужна переделка существующего фед. сайта я готов с этим согласится. А вот с чем не согласен, так это с тем как площадки выбираются. Было бы достаточно вообще одной площадки, это осуществимо технически, но неконкуренто и является политическим вопросом ибо мы пока ещё не унитарное государство. Или можно было бы определить критерии требований к площадкам и обеспечить их интеграцию как это было сделано в ЕАИСТ в Москве.

Генеральный директор «1С-Битрикс» Сергей Рыжиков считает, что Интернет стал своего рода лакмусовой бумажкой для госзаказов и госзакупок. Таким образом государство демонстрирует готовность к сотрудничеству и к открытости. «Именно Интернет вытаскивает на белый свет проблемы госзакупок.

Да, тут он прав. Единственное хорошее что и можно сказать о 94-ФЗ – это то что была обеспечена доступность информации о госзаказах в Интернете.

Впрочем, в электронных торгах, скорее, больше минусов, чем плюсов. Независимый эксперт в области электронных торгов и тендеров Сергей Букреев скептически относится к идее перевода значительной части госзакупок в Интернет. «С одной стороны, это можно воспринять положительно, так как электронная система призвана сделать проведение тендеров более прозрачными. Но с другой, я сомневаюсь, что к июлю можно реализовать проект на достойном уровне», — говорит он.

По словам эксперта, на сегодняшний день лишь один из трех существующих в России операторов государственной электронной торговли обладает достаточными техническими возможностями, необходимым для проведения торгов на соответствующем уровне. «Большим минусом является то, что площадки не выбираются на конкурсной основе, а назначаются сверху. Таким образом, остается много возможностей для злоупотреблений. На мой взгляд, лишь оператор SETonline обладает необходимым функционалом», — отмечает эксперт.

Комментировал там некто Сергей Букреев – лично не знаю кто это, но комментарий точный. Я склонен согласится что сейчас только одна площадка созданная правительством Москвы является полноценной, и по опыту и по техническим возможностям. Про остальные ничего хорошего сказать не могу, а плохого просто не буду.


Originally published at Иван Бегтин. You can comment here or there.

Онтология и примеры анализа кодов и идентификаторов
24 ноября 09 11:16

Почти год назад я писал на эту  тему в заметке Систематизация расшифровки кодов и управления справочниками, а сейчас продолжу приостановленные тогда размышления.

Если вкратце, то основной постулат такой – подавляющее число маркирующих кодов и уникальных идентификаторов создаются по ограниченному числу правил и подлежат разложению на ряд признаков позволяющих связывать эти коды с другими информационными массивами и справочниками, а также на их основе извлекать больше информации об исследуемых/анализируемых объектах.

Но, вернёмся к кодам – что это такое и как они есть. Буду приводить примеры:

  • 049205770 – пример кода БИК – банковского идентификационного кода
  • 02.03.1989 – пример записи даты в формате dd.mm.yyyy, где dd – день, mm – месяц, yyyy – год от рождества Христова
  • ru.wikipedia.org – пример кодирования адреса в виде домена
  • 09808117 – пример кода ОКПО,  общероссийского классификатора предприятий и организаций
  • 5460000016 – пример кода ИНН. Идентификационного номера налогоплательщика
  • 65.12, 65.22.5 - примеры кодов ОКВЭД
  • 30401810701200001022 – пример кода корреспондентского счета банка в ЦБ РФ
  • ALMZRU8Y – пример кода S.W.I.F.T используемого банковскими организациями
  • ГОСТ Р 52980-2008 – пример кода в виде документа ГОСТ
  • 454091 – российский почтовый индекс
  • 359 – код по общероссийскому классификатору единиц измерения (ОКЕИ) означающий “сутки”.
  • NO93 8601 1117 947 – международный номер банковского счета, в примере номер счета в банке Норвегии
  • 13001 – код правительства Российской Федерации по справочнику ОКОГУ
  • 1021600000256 – пример общероссийского государственного регистрационного номера, ОГРН, присваеваемого юридическим лицам.
  • ГС-1-50-02-26-0-7709342342-013097-1 – пример номера лицензии на проектирование зданий и сооружений
  • 08050 – код улицы “Зелёный проспект” по общемосковскому классификатору улиц

плюс сюда же можно добавить такие коды как: номера банковских карт, автомобильные коды VIN, телефонные номера, коды ISBN, MAC адреса сетевых карт, IP адреса, коды EAN-8, EAN-13, GS-128, DUNS номера организаций в США и многие и многие другие.

Суть же всегда одна – кодирование информации об объектах, это способ решения следующих задач:

  • сопоставление объекта некой информационной записи о нём содержащей подробную информацию о его характеристиках, особенностях и атрибутах
  • предоставление людям и программным средствам информацию об атрибутах данного объекта.

При этом я пока затрагиваю только вопросы кодирования информации в текста, но есть и другие способы в виде баркодов, знаков, аудиосигналов.

Анализ примеров

Код ИНН 5460000016

Структурно код ИНН состоит из:

- 4 цифры – код налоговой инспекции по справочнику СОУН: 5460 (Межрайонная инспекция по крупнейшим налогоплательщикам Новосибирской области)

- 5 цифр – порядковый номер регистрации организации в инспекции: 00001

- 1 цифра проверочный код: 6 (код верен)

Что ещё мы знаем об этом коде? Далее по наблюдениям:

1. Коды инспекций в справочнике СОУН состоят из 4-х цифр, две первых из которых – это код региона инспекции или же код 99 для крупнейших налогоплательщиков. Но, при указании кодов, код 99 используется для другого налогового кода КПП – поэтому для ИНН мы можем говорить о 100% привязке кода СОУН к определённому региону что закодировано в первых двух его цифрах. Отсюда код ИНН позволяет всегда определить регион местонахождения организации

2. Код ИНН всегда состоит из 10 символов цифр для юридических лиц и 12 символов цифр для физ. лиц. Что означает что код обладает фиксированной длиной.

3. Присвоение порядкового номера производится инкрементально, отсюда зная даты присвоения нескольких номеров можно с высокой вероятностью предсказывать дату его присвоения. Фактически инспекция – это генератор последовательно прирастающих значений и то же правило работает и со всеми остальными кодами в которых можно отделить прирастающую часть от идентификационной.

4. Все части кода ИНН обладают фиксированной длиной, отсутствуют случаи когда они могут перекрываться.

5. Код не содержит иерархии, а только ссылки на другие справочники.

6. Код является совершенным, а то есть - в нём отсутствуют неидентифицированные части и раскрываемым, а то есть все части кода являющиеся ссылками на внешние справочники (регионы и справочник СОУН) существуют и доступны.

7. Код является идентификатором в реестре юридических лиц ЕГРЮЛ где и содержится более подробная информация об идентифицируемом им объекте – организации.

Итого: код ИНН содержит минимальную базовую информацию и является ссылкой на запись о более подробной информации об организации одновременно.

Другой пример код S.W.I.F.T: ALMZRU8Y

Код S.W.I.F.T состоит из следующих частей:

– 4 символа – уникальный код организации: ALMZ (АлмазЭргиЭнБанк)

– 2 символа – код страны по ISO 3166-1 alpha-2: RU (Россия)

- 2 символа – код местонахождения организации: 8Y (г. Якутск)

При наличии филиалов код SWIFT может включать дополнительные 3 символа идентифицирующие его филиал. Например, UBSWUS33CHI, где CHI это признак филиала в городе Чикаго.

Что можно сказать об этом коде?:

1. Код можно рассматривать как один код с переменной длиной в 8 и 11 символов, так и как два кода – полный в 11 символов и короткий в 8 символов.

2. Код является совершенным, но не раскрываемым. Несмотря на то что все части кода предопределены, не все справочники известны. В частности справочники кодов местонахождения свои для каждой страны и неизвестны в открытом доступе, равно как и справочники идентификации филиалов

3. Поскольку коды местонахождения уникальны только в пределах страны, а то есть кода страны, то для сведения местонахождений в единый справочник правильная полная запись кода местонахождения должна включать оба этих кода. В нашем случае это RU8Y, одновременно с этим, учитывая что глобального всемирного справочника регионов, городов и муниципальных образований не существует и их заменяют региональные государственные справочники, можно говорить о множественности справочников и определения типа ссылки на основании кода страны.

4. Код не содержит кода проверки и допускает опечатки и неточности.

5. Код является ссылкой на идентификатор в базе международной организации SWIFT где содержится более подробная информации об участнике этой системы.

6. Код не содержит признаков иерархии объектов.

Итого: код содержит минимальную базовую информацию и является ссылкой на идентификатор в базе.

Рассмотрим далее, код почтового индекса – 454091

- 6 цифр – это идентификатор почтового отделения в базе почтовой службы.

Что можно о нём сказать:

1. Код является несовершенным, поскольку для понимания принципов его кодирования требуется детальный анализ имеющихся

2. Информация по данному коду может быть получена из общедоступных справочников публикуемых Почтой России.

3. Код не содержит признаков иерархии объектов.

4. Код и его отдельные части обладают фиксированной длиной.

Код ОКЕИ – 359

- 3 цифры – уникальный идентификатор единицы измерений по справочнику ОКЕИ, в нашем случае этот код означает единицу измерений “сутки”

Что можно сказать о коде:

1. Код и его части обладают фиксированной длиной

2. Код является совершенным – он состоит из лишь одной части которая является лишь идентификатором.

3. Код не содержит каких-либо дополнительных признаков и ссылок, являсь лишь ссылкой на запись в реестре справочника.

Итого: это пример предельно простого кода не содержащего информации и лишь являющегося ссылкой.

Подробнее о коде ОКЕИ можно почитать и их посмотреть тут http://www.mosclassific.ru/mClass/okei_view.php

Код ОКВЭД – 65.22.1 (предоставление потребительского кредита)

Структура кода ОКВЭД: XX.XX.XX при этом код обладает нефиксированной длиной и может быть записан в формах: XX.X, XX.XX, XX.XX.X и XX.XX.XX

Что можно сказать о кодах ОКВЭД:

1. Справочник ОКВЭД является иерархическим и это вложено в его коды. Первые две цифры определяют группу, следующие остальные иерархии подгрупп.

2. Длина кода ОКВЭД колеблется от 4 до 8 символов разбитых на группы по 2 символа цифры разделённых точками.

3. Коды ОКВЭД являются совершенными и раскрываемыми, но не содержат информации о ссылках на внешние данные. Вместо этого они ссылаются на вышестоящие коды в иерархии.

4. По коду ОКВЭД можно получить дополнительную информацию из общедоступного справочника кодов которая включает его название и категорию.

Итого: код ОКВЭД – это пример кода классификатора, когда основной дополнительной информацией которая извлекается это расшифровка его названия. В то же время, сам код не содержит прямых ссылок на другие справочники и объекты

Код IBAN и пример в виде:  NO93 8601 1117 947

Структура кода IBAN является нефиксированной и зависит от первых двух символов после его идентификатора. Например, для NO длина кода составляет 15 символов и обладает следующей структурой:

- 2 символа – идентификатор страны

- 2 символа – два знака контрольного числа

- 4 символа – код банка

- 6 символов – код счета

- 1 символ – дополнительное контрольное число

При этом, для других стран длина и структура кода будет отличаться. Подробнее о IBAN можно почитать тут  http://en.wikipedia.org/wiki/International_Bank_Account_Number

В итоге что можно сказать о коде:

1. Код является совершенным, но не полностью раскрываемым поскольку коды банков в кодах IBAN ведутся центробанками отдельных стран в виде отдельных справочников не все из которых доступны.

2. Код является нечётким – это означает что его длина и/или структура зависит от содержимого и требует дополнительных правил интерпретации и/или ведения справочника структурных схем

3. Код обладает множественными ссылками – на справочник стран, на справочники банков в странах, на справочники типов счетов для некоторых стран и так далее.

4. Учитывая нечёткость кода и наличие множественных ссылок на зависящих от содержимого – можно разделять коды IBAN для стран как независимые справочки наследующие общие подходы от некого мета-класса.

Примечание: в принципе, IBAN – это пример одного из наиболее неприятных видов кодов, поскольку детализация и интерпретация зависят от его содержимого и требуются дополнительные усилия на описания структуры кодов в едином формате.

Рассмотрим код даты в виде записи 02.03.1989

Об этом коде немного свободным текстом без тезисов.

Почему вообще дата и почему в таком формате? Этот формат даты  dd.mm.yyyy, является не более чем примеров, разумеется этих форматов множество. Факт же в том что записывая дату мы тем самым кодируем данные о временном отрезке длительностью в 24 часа в виде текста. Формат позволяет определить из описания: день, месяц и год. Все три числа – это ссылки на справочники: дней в месяце, месяцев в году и годов. Одновременно с этим значения дня и месяца вместе являются проверочными для определения корректности написания из-за разницы числа дней в месяце, а комбинация дня, месяца и года – проверочной комбинацией для високосных годов.

Это кодирование даты, по сути, является не кодом, а форматом – главное отличие которого от кода в множественности форм представления эталонной информации. Например, также дату можно представить в видах: 02 марта 1989, 62.1989 (день от начала года плюс год), 1989-03-02 и так далее, всего форматов десятки. Одной из особенностью и отличием форматов от кодов является возможность приведения к эталонному значению которое может быть приведено к одному из форматов и заведомо содержит все те признаки что и любой из его форматов.

Итоги и выводы

Остальные коды я не буду расшифровывать сейчас, там схожие принципы и подходы, сейчас же о сведении всего вышенаписанного воедино:

1. Коды можно делить на совершенные и несовершенные – по наличию неидентифицированных частей

2. Коды могут быть раскрываемым и нераскрываемыми – в зависимости от доступности справочников на которые ссылаются отдельные его части и сам код.

3. Коды бывают четкими и нечёткими – по зависимости их структуры и длины от отдельных признаков в коде.

4. Коды могут содержать перекрывающие друг друга части или части накладывающиеся друг на друга. Например, идентификация местонахождения банков в кодах SWIFT является уникальной с кодом страны.

5. Форматы простых данных – дат и чисел в некоторых случаях могут рассматриваться как коды.

В итоге можно говорить об онтологии кодирования – наборе базовых правил и их формальном описании для интерпретации и сопоставления информации скрытой в кодах.

Зачем это нужно?

Собственно, а зачем всё это нужно помимо простого любопытства?

Причин несколько:

1. Понимание и расшифровка кодов нужны при обогащении баз данных. Довольно часто возникает ситуация когда те или иные коды – о продуктах, об организациях или о документах были накоплены и одновременно необходимо к данным добавить дополнительные срезы для их анализа – в этом случае эта информация извлекается как из кодов, так и из внешних справочников и реестров на которые эти коды ссылаются.

2. Применение в различных алгоритмах извлечения информации – для её обогащения и классификации. Я лично делал уже несколько подобных алгоритмов которые на основе минимума доступной, но нужной информации собирали набор классификационных признаков.

3. Конкурентная разведка, следственные мероприятия и так далее. Например, проверка организаций по регистрационным кодам, проверка автомобилей по кодам VIN, определение банка по первым 4-5 цифрам банковской карты и так далее.

Лично я уже довольно долгое время такие коды собираю и пишу о них, как вот в этой заметке так и постах ранее которые идут под категорией расшифровка реальности

Ну а если Вы знаете какие-либо расшифровки интересных видов кодов или же наоборот ищете как расшифровать какие-либо Вам неизвестные  - отмечайтесь в комментариях.


Originally published at Иван Бегтин. You can comment here or there.

Об электронной идентификации
24 ноября 09 11:46

У нас тут правительство озаботилось электронной идентификацией граждан – http://www.lenta.ru/news/2009/11/24/epass/, а я и вспомнил что писал на эту же тему буквально пару лет назад – http://ivbeg.livejournal.com/86946.html

Если в правительстве ещё додумают эти карты, добавят к для них возможность идентифкации по OpenID – не непрямую, а по схеме которую я описывал, то заодно и смогли бы решить вопрос неанонимности в Интернете, но не думаю что они пойдут на это в ближайшем будущем.

Ну а в принципе что это может означать:

1. Это определенно ставит в непростое положение Росинформтехнологии и их проекты соц. карт на базе смарт карт и с использованием ЭЦП.

2. Без лобби одно из крупных банков тут наверняка не обошлось, да и наверняка для использования карт для госуслуг банки будут отбирать, а для банков тут возможность привлечь новых и удержать имеющихся физ. лиц.

3. Интересно какую технологию предполагается использовать для выпуска этих карт?

В принципе всё будет зависеть от организации этого процесса, архитектуры системы, готовности госуслуг к их использованию через эти карты и так далее.

А мне лично начинание скорее нравится чем не нравится. Впрочем, надо смотреть что будет дальше, пока информации немного.

Originally published at Иван Бегтин. You can comment here or there.

Климатический отжиг
22 ноября 09 02:23

Если кто ещё не прочитал, недавно некий хакер проник в базу центра климатических исследований Восточной Англии и выложил в сеть более 1000 писем их переписки. Из которой, помимо прочего, следует что ученые, как бы помягче сказать, довольно вольно интерпретировалии полученные данные и визуализировали их графиках и судя по всему глобальное потепление нам не грозит.

На английском:

На русском:

Предположим что письма соответствуют действительности и что вся ситуация имеет место быть. Скандал получается ого-го, на много лет вперёд.

Интересного же тут, помимо всего прочего, будет как именно этот скандал сейчас будут гасить или минимизировать последствия учитывая что факты, как говорят, налицо. Или же объявят эти письма фальшивкой?

Originally published at Иван Бегтин. You can comment here or there.

Книга по eGovernment 2.0
22 ноября 09 02:09

John Gotze и Christian Bering Pedersen подготовили книгу по Government 2.0. По сути там просто подбор тематических статей, тем не менее довольно интересных, и по форме, и по сути.

Ссылка скачать онлайн http://21gov.net/wp-content/uploads/e-book.pdf

via infopolicy

Originally published at Иван Бегтин. You can comment here or there.

Закон о персональных данных отложат
19 ноября 09 01:13

Илья Пономарёв в своём блоге пишет что комитет Госдумы выступит за перенос его вступления в силу на 2012 год.

Очень хочется надеяться что закон притормозят.

Originally published at Иван Бегтин. You can comment here or there.

Мнение про Wolfram Alpha и Semantic Web
17 ноября 09 10:01

Недавно обнаружил в блоге у Mencius Moldbug довольно интересное мнение про Wolfram Alpha. Жаль не прочитал его ранее, там есть целый ряд интересных мыслей.

Но, пожалуй, одна из самых интересных в предсказуемости результатов в WA. Фактически он назsвает Wolfram Alpha – “control interface” и сравнивает с Google который таким не является поскольку результат выдачи Google не предопределён.

Это как со школьным и многим другим навязанным образованием – отсутствует в WA разнообразие мнений, несколько точек зрения и, фактически, Wolfram Alpha сейчас это такой особо умный словарь / энциклопедия где вся разница с классическими энциклопедиями в том что в WA гораздо больше источников информации.

Вообще я соглашусь что в текущей форме Wolfram Alpha хоть и любопытный проект, но большой пользы для среднего пользователя я не вижу. А вот создание связанной базы данных как развитие проекта Freebase , по моему, обладает очень мощным потенциалом ибо там решаются вопросы связанности данных, а не подбора однозначных ответов.

Кстати, ещё одно интересное наблюдение на сайте Wolfram Alpha нет упоминаний про Semantic Web, онтологии и так далее, хотя, на самом деле, там данные из Semantic Web и Linked Data используются и внутри есть онтология.

Причина проста, RDF, SPARQL, OWL, Semantic Web и прочая – это всё довольно сложные технологии для даже для подготовленного пользователя. Так порог вхождения для изучения SQL и SPARQL довольно существенен и многие проекты используют свои, сильно упрощённые языки запросов чтобы минимизировать заведомую сложность.

Но причина не только в этом. Для построения подавляющего большинства частных коммерческих задач использование RDF или Triple Store – это оверкилл и более простые и дешёвые решения подходят лучше. Иначе говоря для проектов на базе Sematic Web до сих пор нет рынка и тем более его нет в России и большой вопрос будет ли.

С другой стороны в странах где культура работа с информации весьма высока там медленно, но верно развивается идеологиях Linked Data и само понимание доступности и связанности информации.

P.S. Постоянно сталкиваюсь с тем что когда путают “семантические технологии” и “семантический веб”. Первое – это, по сути, мат. лингвистика и анализ текстов, к RDF и онтологиям имеет слабое отношение.

Originally published at Иван Бегтин. You can comment here or there.

Онлайн API и идентификация языка
16 ноября 09 02:11

На днях искал онлайновые сервисы способные помочь при работе с разного рода информацией, в частности одна из задач в определении кодировок и языка веб-страниц, ибо возможность переложить эту рутинную задачу на какой-либо сервис онлайн часть ресурсов может высвободить.

В результате посмотрел на LangId.net и AlchemyAPI и там и там одна и та же ерунда – до половины всех русскоязычных документов определяются как вьетнамские.

При этом информацию о кодировках они вообще не представляют и, похоже, по кодировкам возвращаемым на сервере и на странице коррекцию определения не производят. Иначе говоря, пользоваться ими нельзя. Разумеется есть разные программные реализации того же и определить язык и кодировку своими силами возможно, но это всегда доп. нагрузка на оборудование.

Понятное дело что сервисных и утилитарных API для Рунета и русского языка в частности практически нет. Разьве что вот Яндекс стал предоставлять http://api.yandex.ru/speller/, но это капля в море.

А кто знает какие-либо полезные онлайн API, применимые к Рунету, русскому языку и распознаванию текста?

Originally published at Иван Бегтин. You can comment here or there.

Онлайн API и идентификация языка
16 ноября 09 02:11

На днях искал онлайновые сервисы способные помочь при работе с разного рода информацией, в частности одна из задач в определении кодировок и языка веб-страниц, ибо возможность переложить эту рутинную задачу на какой-либо сервис онлайн часть ресурсов может высвободить.

В результате посмотрел на LangId.net и AlchemyAPI и там и там одна и та же ерунда – до половины всех русскоязычных документов определяются как вьетнамские.

При этом информацию о кодировках они вообще не представляют и, похоже, по кодировкам возвращаемым на сервере и на странице коррекцию определения не производят. Иначе говоря, пользоваться ими нельзя. Разумеется есть разные программные реализации того же и определить язык и кодировку своими силами возможно, но это всегда доп. нагрузка на оборудование.

Понятное дело что сервисных и утилитарных API для Рунета и русского языка в частности практически нет. Разьве что вот Яндекс стал предоставлять http://api.yandex.ru/speller/, но это капля в море.

А кто знает какие-либо полезные онлайн API, применимые к Рунету, русскому языку и распознаванию текста?

Originally published at Иван Бегтин. You can comment here or there.

15 Джеймсов Бондов
16 ноября 09 01:40

Знаете ли вы что с 1982 года по нынешнее время, в тюрьмах США побывало 15 Джеймсов Бондов?

Как это проверить? Федеральное бюро тюрем США предоставляет онлайн возможность поиска по базе всех заключенных когда-либо попадавших в исправительную систему США.

Например, поиск по ФИО находится здесь – http://www.bop.gov/iloc2/LocateInmate.jsp, а вот пример поиска по James Bond

А также там имеется 3 George Bush один из которых даже George W Bush, правда он чернокожий, но это уже нюансы.

Я, правда, не очень понимаю как это согласуется с тем что раскрываются персональные данные, правда их там не так уж много.

Originally published at Иван Бегтин. You can comment here or there.

Про послание президента
16 ноября 09 01:23

Все обсуждают послание президента, я тоже отступлю от традиции писать только про ИТ и госзакупки и добавлю свои 5 копеек, пусть и с небольшим запозданием. У меня лично к посланию отношение нейтральное – в первую очередь оттого что политику не любил, не люблю и врядли буду. Я вообще к таким документам предпочитаю относится с точки зрения их анализа (извлечения из них скрытой информации).

Собственно по неявной информации которая в послании есть:

1. Будет изменение в законодательстве по госзакупкам регулирующее социально-ориентированные некоммерческие организации. Правда некоммерческие организации и сейчас могут получать госконтракты, но в рамках конкуренции с обычными коммерческими предприятиями. Вопрос в том как  будет реализована их прямая поддержка.

Это может быть сделано как обязательной квотой при размещении госзаказов (что будет неправильно), так и квотой при проведении различных ФЦП для чего всё равно придётся менять законодательство, так и поручив финансирование одному из главных распорядителей бюджетных средств. Сейчас, насколько я помню, НКО поддерживаются Общественной Палатой через гранты, но Общественная палата – это не орган государственной власти. В общем, тут есть нюансы.

2. Будет изменение в законодательство по госзакупкам в том что касается поддержки российских производителей лекарств. Фактически это неявные государственные инвестиции в этот сектор, а законодательство по госзакупкам превращается от принудительно-конкурентного к однму из инструментов поддержки экономики и выбранных отраслей.

3. Энергоэффективность напомнила мне “пищеэффективность“,  вопрос с ней в механизмах реализации. Из каких бюджетов – федерального, субъекта или муниципалитета будут оплачиваться счетчики и их установка, как они будут работать – передавая данные по ШПД, сети сотовых оператоов или Wifi/Wimax? В зависимости от ответов на эти вопросы будет понятно кто окажутся основными выгодоприобретателями. Например, если счетчики будут ставить с использованием сотовых операторов, то это для них долгосрочные госконтракты. МОЭК, как я знаю, уже для таких счетчиков использует МТС – http://www.rosbalt.ru/2009/11/02/685237.html

4. Про электронные торги в сфере строительства скажу лишь что хорошо ещё он электронные аукционы не упомянул. В принципе же электронные торги – от планирования до контрактации с использованием ЭЦП  это правильно. Но предполагать что это приведёт к снижению цен? Не думаю.

И про то чего там нет:

1. Ничего нет про ЭКЛЗ, хотя на эту тему писали президенту куда больше чем на все другие взятые вместе – http://blog.kremlin.ru/search/?query=ЭКЛЗ.

2. Не упоминул президент о переходе на электронные счета фактуры. То что обещает сделать Минфин, но пока только в виде пилотных проектов – http://www.pravcons.ru/analisnews12-10-09-1.php

3. Не говорил он ничего об изменении законодательства о регистрации юр. лиц. Передачу этого процесса в ведение Минюста, изменение требований к уставному капиталу у ОАО и ООО и многое другое.

4. Очень немного было про изменение доли госсектора в экономике. Например, ещё несколько лет назад целью Минэкономразвития была приватизация многочисленных ФГУП’ов, сейчас наоборот создаются новые вроде ФГУПа при ФМС для выдачи паспортов.

Ну а про временные зоны напомню известный анекдот:
Для того, чтобы решить все проблемы в стране, решили оживить Сталина. Тот походил, посмотрел, приходит к Горбачеву и говорит:
С.: Я знаю как найти выход
Г.: Как?
С.: 1)Нужно расстрелять все политбюро 2)Перекрасить Кремль в зеленый цвет.
Г. …… А зачем Кремль то в зеленый???
С. Это хорошо, что по первому вопросу у нас с вами нет разногласий!

Originally published at Иван Бегтин. You can comment here or there.

Про SPDY и ускорение Web’а
13 ноября 09 03:12

В Arstechnica появилась хорошая статья про SPDYeng – протокол ускорения загрузки веб-страниц который предлагают иccледователи из Google.

SPDY – это протокол расширяющий и дополняющий HTTP таким образом чтобы убрать из него все неоднозначности, вроде того что статус в ответе описан иначе чем остальные поля и сжатие запросов и ответов и так далее.  Подробнее можно прочитать здесь – http://dev.chromium.org/spdy

При том что действительно, тема интересная важная и так далее, а Google при его массе и скорости может эту идею даже протолкнуть, на самом деле всё несколько сложнее. Собственно в статье в Arstecnica это изложено:

1. Сейчас SPDY работает только поверх сессий SSL что во-первых ограничивает кеширование данных, а во вторых не повлияет на то что большая часть контента в публичной части сети доступно не по SSL, и в третьих использование SSL априори создаёт дополнительную нагрузку на ресурсы клиента и сервера что также ограничивает применимость.

2. Протокол SCTP который там уже упоминается всё ещё в весьма зачаточном состоянии, примерно как IPv6, но IPv6 всё таки активно продвигается на страхе что адреса IPv4 скоро закончатся, а вот для SCTP такой мотивации нет, а изменений потребуется не меньше. В то же время без SCTP эффект от SPDY поверх TCP будет невелик.

3. По хорошему новый протокол бы надо обсуждать через IETF и прежде чем его активно продвигать, понять востребован ли будет он на рынке, да и вообще оценить нет ли там чего-либо неучтенного.

На мой взгляд подход должен быть иным – не подмена протокола, а организаций кеширования, prefetching и реорганизация контента под блочное кеширование.

А то есть менять надо не транспортный протокол который затронет операционные системы, сетевое оборудование, IDS системы, фаерволы, антивирусы и прочая, прочая.

Вместо этого можно поступить так:

1. Поисковики могут создавать свои CDN’ы и начать заключать договора с крупнейшими хостингами чтобы те предлагали их CDN своим клиентам по умолчанию и на бесплатной основе, а также заманивать владельцев сайтов в эти CDN за счет ускорения отклика от сайта что позволит и повысить удобство посетителям сайтов, так и позволит поисковикам собирать информацию быстрее. А где-то и в реальном времени.

2.  Из SPDY взять те идеи которые не слишком меняют текущий HTTP протокол, например, сжатие заголовков HTTP, запрет на дублирование заголовков и так далее, а также добавить веб-сайтам способность идентифицировать что протокол поддерживается и предоставлять доступ к нему по определённому урлу.

3. Предложить механизмы, программы, продукты и так далее кеширования отдельных участков веб страниц и интегрировать эту информацию на уровне HTTP протокола. То есть создать возможность при запросе веб-страницы или любого иного документа с комплексным содержимым возвращать не один ETag код, а несколько хэшей/идентификаторов блоков, но не более 20 блоков. Далее с помощью расширения к HTTP запрашивать о том не изменились ли отдельные или все блоки и в результате получать не всю страницу или подтверждения что она не менялась, а статус частично изменено и данные только изменившихся блоков склейка которых происходит уже на клиенте.

Это в принципе не так уж сложно сделать, а эффект будет куда больше, поскольку это позволит локализовать статические куски контента при обновлении страниц, а, при некотором развитии этого подхода, распространять кеширование с одной страницы на их группы.

Например, если блок футера на страницах сайта является статическим, то он может быть включён в перечень таких глобально кешируемых участков и применятся также как применяются Cookie к определённому пути.

Да, это немного усложнит и увеличит HTTP запросы от клиента, но в любом случае себя оправдает, а при наличии веса Google можно было бы протолкнуть с куда большей вероятностью.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
По поводу блогорейтингов
13 ноября 09 02:57

Тут совсем недавно приключилась новость в виде того что Яндекс решился закрыть блогорейтинг в виде топ 20 записей. Выглядит это закрытие, прямо скажем, не очень аккуратно, поскольку сравнительно недавно они ещё и рейтинг дробили на 4 категории, а тут вдруг бац и закрыть. Руководствуясь теориями заговора можно предположить что кто-то на что-то в рейтинге обиделся и осерчал и на Яндекс надавили. Всё может быть, закулиса не дремлет да и без заговоров как-то скучновато становится.

Но самое интересное это, пожалуй, даже не закрытие топ-20, а то что Яндекс дал всем желающим инструмент по созданию своих блогорейтингов на основе API поиска по блогам. Лично я считал и считаю что всякое API это лучше чем просто сервис. Лучше значительно и шаг этот очень правильный, вот только тем самым вместо одного “медиа-усилителя” появляется множество, с одной стороны и Яндекс чист (опять, же если придерживаемся теории заговора) с другой и появляется новый интересный инструмент.

Относительно же блогорейтингов в вакууме, то я лично вижу любые топ-5, 10, 20 или N записей только в виде тематических рейтингов и никак иначе. Фактически это аналог Digg‘а или категорий в News2.ru. Всё что для этого нужно – это дополнить метрики которые отдаёт Яндекс классификационным алгоритмом который бы разбрасывал записи по 5-9 тематическим категориям.

Готов спорить что практически весь спам и накрутки рейтинга сконцентрируются в паре тем – политика и общество. А вот вопросы ИТ, науки и технологий накручивать будут с очень малой вероятностью как и любые предметные посты.

В принципе, на самом деле, у блогохостингов вроде LJ есть масса возможностей построить куда как более прокачанные по возможностям рейтинги, но, похоже, немного мотивации это делать.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Немного о глубоком анализе HTML
11 ноября 09 12:50

Примерно с полгода назад я писал о таком явлении как метрики анализа HTML, какие они бывают и что с ними происходит сейчас же я расскажу про то же, но подробнее.

1. Уровень тэга (tag level)

Эта метрика определяет вложенность тэга в общем дереве и рассчитать его возможно двумя способами:

– пройдясь по всему дереву тэгов и назначив номер уровня каждому элементу

– рассчитав его обратившись к вышестоящим тэгам от данного.

Первый случай работает когда есть возможность сохранить уровень тэга в полученный парсером объект или же если после обработки HTML парсер создаёт для каждого из тэгов уникальный идентификатор (чего сейчас нет в принципе).

Зачем эта метрика нужна? Для того чтобы определить группы похожих элементов находящихся на одном уровне. Например, это позволяет выявить меню сайта и иные блоки ссылок. Например, практически все блоки SEO ссылок содержат одноуровневые элементы и даже если они разбиты на несколько подблоков по 3-4 ссылки в каждом, тем не менее уровень ссылок всегда тот же.

Другое применение это эта же метрика используется мною в Скиуре при выявлении повторяющихся новостных блоков.

Главный недостаток в том что на сегодняшний день не существует парсеров проставляющих её при обработке HTML, а последующая переработка создаваемых парсерами деревьев довольно ресурсоёмка.

2. Сдвиг тэга (tag shift)

Определяет  позицию тэга в списке потомков его родителя.  Фактически – это ответ на вопрос “сколько тэгов от такого-то надо отсчитать чтобы найти нужный”.

Эта метрика используется при сравнении отдельных тэгов и их групп и для определения типовых последовательностей. В алгоритме  Скиура с помощью tag shift выявляются новости не выделенные в отдельные блоки, а публикуемые как чередующиеся последовательности тэгов

3. Путь сдвига (shift path)

Это  один из уникальных идентификаторов тэгов основанный на том что любой тэг можно уникально идентифицировать зная его родительский тэг и сдвиг тэга.  Shift path записывается как массив чисел сдвигов тэгов родителей искомого тэга по одному.

Используется для построения уникальных идентификаторов тэга и, в большинстве случаев, записывается и сжимается лучше чем xpath.

Путь сдвига удобен тем что может рассчитываться не для всех тэгов, а для групп на анализируемых участках и возможностью быстро находить общего родителя у двух тегов. А главный недостаток в том что идентификаторы тэгов в нём уникальны только в пределах конкретного документа и при повторной его выгрузке и обработке пути сдвига для части его тэгов могут изменится.

4. Глубина тэга (tag deepness)

Соответствует уровню наиболее глубокого потомка от данного тэга.  Эта метрика необходима при выявлении типовых шаблонов блоков тэгов, а также как одна из метрик оценки сходства тэгов.

5. Идентификаторы уникальности

В ряде случаях извлечения информации из HTML возникает необходимость совершать более одного прохода по DOM дереву для того чтобы эти проходы упростить и минимизировать необходима возможность уникальной идентификации тэгов в дереве что может быть сделано более чем одним способом:

  • прирастающее число – уникальность по номеру тэга
  • уникальность по пути сдвига
  • уникальность по прямому или обратному пути xpath
  • уникальность по атрибутам и значению тэга в форме xpath

На практике то чего более всего нехватает большинству известных мне парсеров – это наличие у тэга возможности получить его простой ID и получить этот тэг по ID из общего дерева.  Для этой задачи достаточно просто прирастающего числа.

Остальные идентификаторы оказываются полезными при решении других задач. Например, проверка уникальности по атрибутам и значению тэга требуется при сравнении структуры веб-страницы с прошлой версией этой же страницы или других страниц на том же сайте.

6. Схожесть тэгов (tag similarity)

Это сравнение двух тэгов на предмет проверки того являются ли они схожими контейнерами, входят ли в один блок из нескольких тэгов или несут одну и ту же роль в соседствующих блоках.

Схожесть оценивается по совокупности параметров:

  • атрибуты тэга (class, style, align)
  • глубина тэга
  • сдвиг тэга
  • уровень тэга
  • число тэгов потомков
  • флаг наличия текста

Основная загвоздка при использовании всех этих метрик в том что оптимальной не существует парсеров которые бы хотя бы помогали при работе с ними, а то есть выдавали бы уникальные идентификаторы тэгов в DOM’дереве чтобы можно было построить параллельное дерево метрик или же позволяли бы добавлять произвольные значения тэгам не меняя при этом их атрибуты.

Собственно решением будет написание своего парсера или адаптация имеющегося. Например, для Python есть HTML5Lib  http://code.google.com/p/html5lib/ где есть возможность указывать свой класс построитель дерева куда все эти метрики и возможно поместить – это уже означает что задача упрощается вдвое.

В результате можно проводить анализ HTML страницы уже не как дерева объектов, а как таблицы или совокупности таблиц к которым можно обращаться с произвольными выборками хоть через SQL или SPARQL запросы, а также с большим числом метрик часть из которых я перечислил выше.


Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Ведомости про переподчинение Восхода
10 ноября 09 06:47

Тут Ведомости пишут про то что уже решено передать Восход от Росинформтехнологий в Минкомсвязи http://www.vedomosti.ru/newspaper/article/2009/11/10/218445

Интересно правда ли это? Если да, то событие не из последних поскольку без Восхода Росинфомтехнологии сильно теряют политический вес.



Originally published at Иван Бегтин. You can comment here or there.

Открытые государственные данные в сети
09 ноября 09 01:30

Недавно Катерина Аксенова написала про ряд проектов по раскрытию государственных данных в сети. Обратите внимание что большая часть этих проектов проходит в “англо-саксонских странах” США и бывших британских колониях. Незнаю чем это обусловлено исторически, но да, почему-то именно в них к публичным данным особенно внимательное отношение именно сейчас.

Я приведу в дополнение ещё ряд интересных проектов на ту же тему:

И другие интересные ресурсы на ту же тему:

И, наконец, российские ресурсы:

  • http://www.opengovdata.ru – сайт созданный мною в мае 2009 и понемногу наполняющийся.
  • http://www.mosclassific.ru – сайт ГУП “Социальный регистр” – предоставляют в открытом доступе все московские и общероссийские классификаторы. Московские можно скачать в XML и DBF (после бесплатной регистрации), а общероссийские доступны только в виде HTML страниц,  но с более-менее удобным поиском.

Будет ли в России Data.Gov.Ru? Я бы переформулировал вопрос. А будет ли его кто-либо использовать?

Собственно это вопросы к читателям – если бы Data.Gov.Ru появился, то:

1. Какую информацию Вы бы хотели там увидеть?

2. Готовы ли Вы лично создавать проекты машапы на основе открытых данных?

3. Если готовы, то забесплатно, или же за деньги в виде конкурсов вроде “Apps for Russia”?

4. Какие машапы Вам было бы интересно увидеть как потребителям?

Originally published at Иван Бегтин. You can comment here or there.

Ссылки по госзакупкам
07 ноября 09 07:06

В последние 3 месяца занимаюсь одним долгоиграющим проектом (может и вечным, кто знает) и мало пишу в блоге, но статьи по госзакупкам отслеживаю непрерывно.

Например, вот самое интересное.

26 октября в Эксперте вышла статья Игоря Артемьева по госзакупкам – http://www.expert.ru/printissues/expert/2009/41/rezultaty_govoryat_za_sebya/

Для того чтобы понимать идеологию центрального аппарата ФАС – это хорошая статья. Не правда хорошая – всё встаёт на свои места. Но чтобы картина была точной и полной рекомендую обязательно прочитать комментарий некого Михаила Николаевича Ткачева – http://www.expert.ru/printissues/expert/2009/41/rezultaty_govoryat_za_sebya/comments/551516

там же.  Лучше чем в этом комментарии мне не изложить.

А вот статья в Российской Газете про то как коррупцию в госзакупках выявляет прокуратура – http://www.rg.ru/2009/10/29/buksman.html

Я думаю что эта статья совсем не просто так, из-за того что прокуратура долгое время темой госзакупок занималось от случая к случаю, а Артемьев в последнее время слишком часто стал упоминать ФАС как экономическую прокуратуру. Зря он это, я так думаю.

Другая новость на близкую тему когда прокуратура выявила нарушения в Краснодарском УФАС о чём можно почитать на yuga.ru и сайте Краснодарской прокуратуры http://www.prokuratura-krasnodar.ru/news/1179/ . Кстати, в федеральные сми почему-то эта информация не пошла, неужели про коррупционных госзаказчиков писать интереснее чем про контролёров?  А вот ещё один пример – вынесен приговор эксперту Челябинского УФАС.

А вот Минобрнауки хотят отказаться от 94-ФЗ - http://www.kommersant.ru/doc-y.aspx?DocsID=1269802 плюс там же упоминается об обзоре Института проблем естественных монополий который мне так и не удалось найти у них на сайте – http://ipem.ru/. А жаль, было бы интересно почитать этот документ ибо насколько я знаю занимались то они НИРами для Минпрома и не были аффилированы, ни с ФАС России, ни с Минэкономики что должно давать некоторую объективность в оценках.

В 20 ноября в Госдуме будут рассматривать очередные поправки к 94-ФЗ о которых можно прочитать здесь у них на сайте. Фактически госзаказчиков сейчас заставят вместо аукционов проводить электронные аукционы. Разумеется по новым правилам 93-ФЗ (того самого который был мимикрирован под закон для саммита АТЭС).

Ну а моё мнение по поводу всего этого очень простое – в светлое будущее из под палки не загонишь.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Regulations.gov
03 ноября 09 12:23

Оказывается в США уже какое-то время действует весьма интересный ресурс http://www.regulations.gov где публикуются проекты документов нормативных актов и собираются к ним замечания. Что-то вроде того что в России делало Минздравсоцразвития с концепцией здравоохранения (http://www.zdravo2020.ru/) и то что некоторые министерства публикуют проекты законов у себя на сайте. Публиковать то они их публикуют, а вот кто может похвастаться тем что что-то там комментировал и эти замечания учли?

Так вот этот самый Regulations.Gov отличается тем что он един для более чем 300 федеральных агентств в США, а также публикуются комментарии, как полученные через сайт и отмодерированные, так и от различных экспертных групп.

Лично мне там не всё видится идеальным и есть многое что можно сделать удобнее, менее бюрократично и так далее. Но это именно что системный подход и “доступность и прозрачность” иного порядка поскольку проблемы восприятия разными чиновниками здравого смысла решаются созданием и контролем за работой одного удобного ресурса.

Надо, правда, не забывать что США в плане присутствия в Интернет госорганов являются лидерами и на них равняться хоть и надо, но не забывать насколько мы отстаём в том что является даже более необходимым.

В любом случае я считаю что такой ресурс необходим и неизбежно появится.

Originally published at Иван Бегтин. You can comment here or there.

Об особенностях направленного сбора информации
01 ноября 09 06:30

Я ранее не раз поднимал вопрос о направленном индексировании здесь: http://ivan.begtin.name/2008/10/14/направленное-индексирование-и-верти/ и здесь http://ivan.begtin.name/2009/04/08/информационная-архитектура-наоборот/

В общем-то это именно та задача которой в разных формах я в последнее время сталкиваюсь постоянно,

Предположим есть группа сайтов с которых необхдимо собрать некую информацию. К примеру, пройтись по сайтам всех периодических печатных и собрать с них: код ISIN, ФИО главного редактора, адрес редакции и реквизитов ИНН/КПП/ОГРН если они доступны. Например, это может быть нужно для задачи обогащения информации – составления полного списка сайтов и сопоставления его с базой номеров ISIN.

Так вот эта задача, сравнительно простая по постановке решается довольно просто при наличии списка названий изданий.  Достаточно проверить основные каталоги сайтов, поискать по названиям в поисковиках и обойти сайты вручную выписав информацию. Эту довольно рутинную работу один человек может выполнить за один день, а найти человека на фрилансе не велика проблема. Как бы то ни было эта задача имеет простое нетехнологическое решение.

А теперь поговорим о решении технологическом. Технологический подход заключается в том чтобы поиск и обход необходимых сайтов осуществляла программа/робот, а не человек. Также программа должна автоматически найти всю нужную информацию и заполнить необходимые поля в таблице для данного объекта анализа. Технологическое решение заведомо проигрывает решению задачи человеком, если только число сайтов идёт не десятки/сотни, а на тысячи. Но вот если число сайтов исчисляется тысячами, то тут решение основанное на людях уже не подходит.

Технологическое же решение состоит из решения следующих подзадач:

1. Определить носитель информации – искомый сайт

2. Найти на сайте контейнер

3. Определить форму контейнера

4. Разобрать контейнер и извлечь из него необходимые данные

Подробнее по каждой подзадаче:

1. Определить носитель информации

Прежде чем информацию извлечь необходимо найти сайт где она присутствует. И здесь изначальная постановка задачи может варьироваться в рамках одного из 3-х случаев:

  • сайт известен заранее, например, если в начальном наборе данных он присутствует
  • сайт изначально неизвестен, но есть ключевая текстовая информация (например, название организации или информационного продукта)
  • сайт изначально неизвестен как и текстовое описание. Есть лишь ряд признаков определения таких сайтов из общей группы.

В первом случае всё очень просто. Искать сайт ненужно, он заранее известен.

Во втором случае задача сводится в сопоставлению известного текста с искомым сайтом. Здесь помогают каталоги сайтов и API поисковых систем.

В третьем случае ситуация наиболее сложная – необходимо перебрать все ресурсы обладающие необходимыми признаками. В некоторых случаях могут помочь поисковые машины, но чаще это задача по анализа сайтов по списку в поиске искомых.

2. Найти на сайте контейнер

Контейнер – это суть веб-страница или файл содержащий необходимую информацию. Иногда этих страниц больше чем одна. Поиск контейнера суть локализация наиболее вероятных участков  в общем массиве информации где может находится искомое. Главная задача его поиска в том чтобы далее анализировать не весь сайт, а только те участки где наибольшая вероятость найти нужную информацию

3. Определить форму контейнера

В условиях когда на 100 процентов неизвестно как именно представлена информация, но есть понимание (и реализация понимания) в том как обычно она представляется, то определение формы контейнера заключается в том чтобы понять как эта информация представлена – таблицей, списком, разбросана по странице и так далее и тому подобное.

4. Разобрать контейнер и извлечь из него данные

Финальная часть когда контейнер найден извлечь из него информацию. Осуществляется это HTML парсером или разбором найденного файла – в зависимости от ситуации.

А теперь собственно нюансы реализации. Главное то что практически все эти задачи дробятся ещё более простым:

  • для того чтобы найти контейнер информации есть два основных подходов: определение контейнера по его типу и по ключевым меткам. Оба этих случая требуют понимания навигационной структуры сайта – где главная страница, где страница описания, страница контактов и так далее. Определение навигационной структуры сводится к двум алгоритмам:
    • определения навигационных меню сайта – главного и вспомогательных
    • классификация внутренних ссылок сайта
  • в свою очередь вопрос классификации внутренних ссылок требует понимания их структурной модели. Ответов на вопросы: используются ли человекочитаемые ссылки, каков уровень вложенности, как навигацию где страницы подгружаются через GET запросы и так далее. В результате алгоритм классификации внутренних ссылок работает гораздо эффективнее при определении этой структурной модели. Определить её возможно как динамически, накоплением базы внутренних ссылок сайта, так и определением CMS сайта.
  • определение формы контейнера упирается также в две подзадачи:
    • локализация значимого участка страницы – блока в HTML где содержатся искомые данные
    • определение формы представления данных в этом блоке.
  • локализация значимого участка может быть осуществлена несколькими способами: по ключевым навигационным и стилевым меткам в разметке страницы, по выявлению значащего блока страницы путём последовательного сравнения и анализа нескольких других страниц сайта и определение блоков с изменяющимся содержимым и по ключевым меткам в тексте, например, поиском по ключевым словам и регулярным выражениям в тех случаях когда известна ключевая информация о метках.
  • определение формы представления данных это то что уже необходимо превратить из неструктурированного блока информации в структурированное описание. Я именно про это писал ранее неоднократно про то есть конечное число способов представления информации и вполне можно их определять как в контексте, так и вне его. Неполный перечень форм это: таблица, несколько таблиц, различные одностраничные списки,  многостраничные списки, неформатированный текст.

Зачем всё это нужно?

Главная причина в том что подавляющее число вертикальных поисковиков по форумам, объявлениям, вакансиям полноценно работают только в условиях доступности машиночитаемой информации или ограниченно числа больших источников для которых можно написать и поддерживать парсеры.  А вот проблема сбора структурированной информации из тысяч и десятков тысяч источников пока не решена.

Ну и могу сказать что решением как раз этой задачи я и занимаюсь.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    

This Blog

Tags

Archives

Syndication