Browse by Tags

Foursquare и MongoDB
08 октября 10 01:59

Алекс Москалюк написал про проблемы у FourSquare с маштабированием MongoDB – http://alexmoskalyuk.livejournal.com/1072835.html

Я же добавлю что, и тем не менее, MongoDB очень мощная штука и эти проблемы не отменяют его удобства и полезности.

Например, на MongoDB у меня работает пачка веб-API -извлечение информации из веб-сайтов, определение пола и этноса по ФИО, распознавание ФИО, дешифровка массы кодов и так далее. При том что данные для них живут именно в MongoDB. Сервисы не публичны, но живут под непрерывной нагрузкой в виде запросов с других веб проектов.

Нагрузка, конечно, не та что в FourSquare, но и тем не менее.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Про основы стоимости государственных сайтов
13 августа 10 07:59

Поскольку у нас тут много разных дискуссий завязалось по поводу того сколько может стоить государственный сайт, обоснована ли его цена, почему она такова, а не иная. Не «пилят ли бабло», есть ли коррупция и тому подобное.

Лично я считаю что важно понимать ту область которую подвергаешь критике.  И периодически выступаю в роли «адвоката дьявола». Вот и сейчас вопрос будет о том насколько всё непросто на самом деле в том сколько и почему стоит тот или иной веб-сайт. Текст я пишу на основе многих долгих разговоров как с чиновниками, так и с разработчиками так что видение не одностороннее.

Первый и основной тезис.

Все оценки основанные на цене контракта заключённого между госзаказчиков и поставщиком являются заниженными.

Почему? Потому как контракт предусматривает только проведение закреплённых в нём работ, в то время как при этом, может не учитываться и чаще всего не учитываются такие расходы как:

  • стоимость хостинга на период времени не менее 1 года;
  • расходы на технические сопровождение;
  • расходы на содержательное наполнение (по числу сотрудников органа власти вносящих информацию на данный сайт) в том числе и сотрудники задействованные на передаче материалов поставщику для публикации если сопровождение сайта осуществляет поставщик.
  • расходы на обновление лицензий закупленного ПО, хотя бы с оценкой в 2-3 года.

Итоговая стоимость будет выше. В зависимости от того какой сайт, всё может существенно отличаться. Но суммы на разработку госсайтов столь малы что не стоит ждать что у нас какое-то орган власти всерьёз займётся оценкой их стоимости.  Не того маштаба задача, хотя и, для большего популизма, Минсвязи или Минэкономразвития могли бы такие работы организовать.

Тезис второй.

Сайты бывают разные.

У разных органов власти разные функции, разная степень публичности, разные информационные потоки. Требования которые установлены в 8-ФЗ и последующих подзаконных актах – они минимальны. На практике, у госоргана могут быть свои реестры, к которым через сайт должен предоставляться доступ,

Рассмотрим, некоторые официальные сайты:

- Служба внешней разведки – http://www.svr.gov.ru/. Набор статических страниц и всё. Просто до безобразия.

- Росимущество – http://www.rosim.ru. Сайт вроде бы простой, но реально там на одном движке существуют все сайты территориальных управлений в субъектах федерации.

- Сайт АП России – http://www.kremlin.ru/. На самом деле там не один сайт, а группа сайтов, по видимому на одном движке.

Рассмотрим госсайты официальными не являющиеся:

- OpenClass.ru. Сетевые сообщества  -  http://www.openclass.ru/. На самом деле портал является частью большого контракта по созданию сообществ учителей и разработка и сопровождение портала – это только часть работы. А значительная часть шла, идёт, должна была идти в оффлайне.

- Русский век. Портал для соотечественников – http://www.ruvek.ru. Просто сайт, с просто публикациями, на просто CMS. Страниц там не так уж много, специфики минимум

- Портал ТрудВсем.Ру – http://www.trudvsem.ru/. Портал по поиску работы запущенный Рострудом и Минздравсоцразвития. Содержания наполняемого редакторами там мало, но за ним большая база резюме и вакансий и организационная работа по унификации и сведении данных из всех управлений Роструда на единый портал.

Смысл всех этих примеров в том чтобы показать что то что мы называем «Государственные сайты» бывает очень разным. И кроме описанных выше отличий, есть отличия по готовности инфраструктуры и того как именно производится развёртывание сайта – на существующей инфраструктуре заказчика, внешнем хостинге или разработка включает закупку оборудования.

Итого. Прежде чем оценивать обоснованность расходов на какой-либо госсайт необходима чёткая их типизация, если угодно, анкета которую надо заполнить и после чего сравнивать с другими веб-проектами на основе заполненных метрик.

Тезис третий.

Госконтракт  - это ещё и риск дополнительных издержек.

И, наконец, то о чём Вам далеко не все разработчики госсайтов расскажут. У их разработки, в отличии от многих других видов госконтрактов, есть довольно существенные риски главный из которых – это 94-ФЗ.

Почему 94-ФЗ? Да по очень простой причине. В любой коммерческой разработке, бывают ситуации когда у заказчика может поменяться ситуация, произойти перестановки в руководстве или могут произойти события увеличивающие объём работ. Так вот у любого госзаказчика руки жёстко связаны. Они не могут гарантированно обещать поставщику компенсировать превышение его расходов по той причине что для этого госзаказчику будет необходимо объявлять новую процедуру на «модернизацию» или «сопровождение» уже разработанного. А, этот конкурс на модернизацию может выиграть совсем не та организация которая понесла расходы.

Другая особенность в том что большинство технических заданий в госконтрактах, на самом деле, весьма нечётко. Очень многое отдано на откуп исполнителя и госзаказчика. Нечёткость требований приводит к тому что поставщик старается максимально сэкономить усилия зная что заказчик в любой момент может выкатить новые требования, а госзаказчик имеет возможность  для воздействия на поставщика.

Например, посмотрите на сайт правительства после пожаров – http://www.government.ru/. Как думаете появился раздел с онлайн трансляцией строительства? Я вот думаю что исполнитель контракта по сопровождению сайта в рамках существующего контракта его и делал. Этот пример совсем простой, если и более сложные примеры. Каждый раз когда Вы видите как на каком-то госсайте появляется новый раздел под какую-то недавно объявленную госинициативу, то конечно, есть вероятность что сотрудники ведомств сделали такой раздел сами, но чаще сайты не приспособлены к быстрым изменениям и делают эти разделы сопровождающие разработчики.

Итог. Контракт на разработку сайта для госоргана это всегда ещё и риск дополнительных издержек, иногда весьма существенных.

Тезис четвертый.

Притягивание непонятного к понятному.

У всей ситуации с критикой есть ещё и важный социальный аспект. Критикуя расходы на любой из госсайтов каждый из критикующих считает что он разбирается в предмете. Иногда это действительно так, но есть один нюанс. На сайты тратится невыразимо малое количество госсредств. И даже есть собрать все контракты на создание госсайтов за последние 5 лет, то всё равно один единственный контракт по строительству, например, такой, на 25 миллиардов, будет больше всех их взятых. Да и в принципе, посмотрите на список крупнейших госконтрактов для полноты мировосприятия.

Особенность госзакупок в том что это, в принципе, сложная среда. Чтобы понимать их нужно, довольно хорошо разбираться, и в предметной области и том как организуются процедуры заказов и сдача госконтрактов.

В случае сайтов, делать акцент на деньгах в случае сумм до 100 миллионов – это несерьёзно. Качество исполнения и результаты гораздо важнее.  Но об этом, почему-то, пишут редко.

———–

В качестве заключения. Вопрос критики – это вопрос целеполагания.  Акцент на стоимости, в ущерб качеству – я считаю неверным. Результат, результат и ещё результаты! Нужна не критика стоимости, а формализованные механизмы её обоснования.

А всех кто осилил этот текст до конца приглашаю на сайт ГосСети – http://www.govweb.ru/ где много  государственных сайтов и интересной информации о них.

Originally published at Иван Бегтин. You can comment here or there.

Сервисы извлечения информации о веб-сайтах
29 июля 10 10:58

В последнее время всё больше появляется сервисов по извлечению информации из веб-сайтов. Например, сравнительно давно существует BuiltWith и недавно появился W3Tech.com.

Оба позволяют увидеть о сайте много всего интересного типа какие счетчики используются, какие технологии используются и какая CMS применяется.

BuiltWith мне нравится чуть больше, но, если говорить начистоту, то оба эти сервиса устроены крайне просто. Есть ограниченный пополняемый список правил для идентификации и классификации тех или иных возможностей на сайтах заложенных.

Правда эти сервисы позволяют анализировать тренды в технологиях, их распространённость и так далее.

Однако, поскольку Рунет не так велик, по сравнению с не-русскоязычной частью Интернета, то оказывается что технологии применяемые тут там не отражаются.

Например, данные о сайте Российской Газеты в обоих сервисах – http://w3techs.com/sites/info/rg.ru и http://builtwith.com/rg.ru. BuiltWith подробнее, но вообще Российской специфики маловато.

Или вот посмотрим Roem.ru – http://builtwith.com/roem.ru и http://w3techs.com/sites/info/roem.ru. Тут информации побольше, но, опять же Российской специфики мало.

Я, честно говоря, в своё время тоже интересовался этой же темой. Однако у меня цели были несколько иные – набивка базы массой вспомогательных метрик для улучшения различных алгоритмов обработки веб-страниц. Но промежуточный результат примерно такой же как в сервисах выше – извлечение массы признаков по группе правил, всего этих правил около 500. Этот механизм уже 1.5 года существует как веб-сервис и этот сервис использовался в ГосСети (www.govweb.ru) для сбора технологий на сайтах.

Сейчас у него есть простенький веб-интерфейс, http://data.skyur.ru в котором можно посмотреть как это работает на практике. Тем кому интересно могут посмотреть там те же сайты http://data.skyur.ru/?host=www.rg.ru и http://data.skyur.ru/?host=www.roem.ru или вот http://data.skyur.ru/?host=www.opennet.ru.

Но, в общем-то, это демка. Так что визуально всё без изысков. А вот стоит ли делать доступным веб-сервис пока не решил.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
OpenStack: облако на открытом коде и открытых стандартах
19 июля 10 08:07

Сегодня увидел в ракспейсовской рассылке крайне интересную штуку – OpenStack http://www.openstack.org который продвигают NASA и Rackspace вместе. Кроме того весь софт открытый и под Apache License 2.0

Пишут что сделано всё на Python с Tornado и Twisted и AMPQ. Обещают первую версию к середине октября, а пока можно взять код на Лаунчпаде https://launchpad.net/openstack

Выглядит весьма интересно.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Почувствуйте разницу
28 июня 10 07:01

К вопросу об органах власти и их реакции на те вопросы перед которыми они сталкиваются. Может показаться что когда пишут что-то критическое о том или ином ведомстве, то важно именно то что пишут. Но на самом деле это не так, вернее, не совсем так.

Реакция на проблему куда важнее самой проблемы. Потому как эта реакция – это результат «теста на вменяемость». Кто-то его проходит, а кому-то это даётся с трудом.

Приведу Вам два противоположных примера – положительный и отрицательный.

Положительный пример

Это то о чём я писал ранее про бюллетени Счетной Палаты тут http://ivbeg.livejournal.com/296201.html и тут http://ivbeg.livejournal.com/296472.html

Они ответили на все мои письма, предельно корректно, признали проблему, пообещали исправить и даже назвали сроки исполнения.

Скажу честно, я не ожидал от них реакции, а в результате – респект их ИТ департаменту.

Отрицательный пример

А вот пример из другой реальности. В «Живой Кубани» написали про сайт Избиркома Краснодарского края ссылаясь на данные в проекте Госсеть – http://www.livekuban.ru/node/194397 и потом сделали второй пост – http://www.livekuban.ru/node/194466.

Почитайте тексты и реакцию представителей Избиркома на них, не пожалеете.

А я, в качестве дополнения, добавлю что домен izbirkom.ru зарегистрирован на Центральную избирательную комиссию (проверяем тут – https://www.nic.ru/whois/?query=izbirkom.ru), а домен krasnodar.info на JSC «Kuban internet company» (проверяем тут – https://www.nic.ru/whois/?query=krasnodar.info).

Думаю что требования 8-ФЗ про принадлежность домена органу власти все помнят.

Поэтому вопрос о том какой из сайтов избирательной комиссии является официальным www.krasnodar.izbirkom.ru или izbirkom.krasnodar.info лично для меня не стоит. По моему всё и так очевидно.

Итого два замечательных не-технических кейса которые так и просятся во всяческие выступления и презентации.

Кстати, всем желающим посоставлять рейтинги сайтов органов власти могу посоветовать один 100% мощный и точный рейтинг. Он особенно хорошо и правильно будет действовать в рамках субъекта федерации.

Всего то навсего составляете список региональных органов власти, и их официальных сайтов. А далее отправляете письмо в каждый из этих органов письмо или факс с вопросами:

- Приняты ли нормальные-правовые акты по приведению официального сайта в соответствие и адрес в сети Интернет где их можно увидеть?

- Может ли орган государственной власти подтвердить соответствие его официального сайта 8-ФЗ?

А дальше всё просто – рейтинг считается на основе двух показателей.

1-й показатель: дни между датой отправки письма и получением ответа

2-й показатель: содержание ответа. Если простая отписка – 100 баллов, если не подтверждают и нет документов – 50 баллов, если не подтверждают, но обещают исправиться – 20 баллов и если утверждают что соответствуют и дают ссылки, или же подтверждают несоответствие, но дают точные сроки приведения в соответвие – 0 баллов.

Конечно, соответствие значение показателей и баллов можно подобрать и точнее, а также сводную оценку на их основе.

Но тут ничего сложного, на самом деле. Для региональных СМИ это вообще может быть темой и весьма актуальной.

Originally published at Иван Бегтин. You can comment here or there.

Ссылки на 22.06.2010: 8-ФЗ и прочие документы
22 июня 10 02:20
Подборка ссылок для любознательных:

Законодательные карты

CMS и 8-ФЗ

Originally published at Иван Бегтин. You can comment here or there.

Почему ВСЕ сайты органов власти должны быть в зоне .gov.ru
11 июня 10 10:19

К статье в Полит.Ру на которую я ранее ссылался появилось важное дополнение касающееся официального и неофициального сайтов прокуратур Камчатского края которое можно прочитать там же – http://www.polit.ru/country/2010/06/11/govweb.html

А я его продублирую тут.

АПДЕЙТ: Об официальном и неофициальном сайтах Прокуратуры Камчатского края

Как показал последующий анализ сайт prokuratura-kamchatka.ruсравнительно недавно перестал быть официальным, официальным сайтом Прокуратуры Камчатского края теперь является сайт kamprok.ru.

Изменение произошло совсем недавно, в частности, в декабре 2009 года была опубликована новость на сайте Генпрокуратуры где указывался старый сайт прокуратуры Камчатского края -http://genproc.gov.ru/news/news-10953/

В кэше поисковой системы Google видно, что ещё недавно на сайте Генпрокуратуры был указан веб-сайт prokuratura-kamchatka.ru – http://www.google.com/search?hl=en&q=»prokuratura-kamchatka.ru»+site:gov.ru&aq=f&aqi=&aql=f&oq=&gs_rfai=

История домена http://1stat.ru/?domain=prokuratura-kamchatka.ruпоказывает, что он был разделегирован и потерян прокуратурой в конце мая 2010 года, а с первого июня оказался зарегистрированным на частное лицо.

В данном случае мы вживую столкнулись с примером, когда неурегулированность общих требований к доменным именам государственных сайтов РФ приводит к подобным невольным ошибкам и нашей ошибке в частности.

Единственный способ раз и навсегда таких ошибок избежать – обязать органы государственной власти регистрировать свои домены только в зоне .gov.ru

Итого возникла следующая ситуация – прокуратура потеряла или отказалась от домена prokuratura-kamchatka.ru. Причём, если заглянуть в историю домена тут http://1stat.ru/?domain=prokuratura-kamchatka.ru то можно обратить внимание что он и ранее был зарегистрирован на физ.лицо. Но, при этом когда появился новый сайт – старый никуда не делся и до сих пор содержит отклонированную информацию с официального сайта.

Вот потому-то и все госсайты должны быть в зоне .gov.ru без этого и с учётом числа сайтов на физ.лицах и коммерческих учреждений ошибок будет ещё немало.

Originally published at Иван Бегтин. You can comment here or there.

Техническое: Про NoSQL в ГосСети
11 июня 10 01:49

В сети идёт активное обсуждение нужен ли NoSQL или не нужен рекомендую почитать посты тут – http://zabivator.livejournal.com/412053.html и http://rainman-rocks.livejournal.com/120682.html.

Ещё один технический нюанс ГосСети (www.govweb.ru) в том что в проекте частично использует NoSQL, а точнее – базу MongoDB (www.mongodb.org).

К примеру, как устроен проект ГосСетью.

Есть публичный фронтэнд (www.govweb.ru) в котором публикуется информация о сайтах. Сам проект живёт на Django + MySQL. Это позволяет вести разработку предельно быстро и удобно, но и имеет ряд ограничений, например, в том что в подобной схеме неудобно хранить данные не имеющие четкой структуризации.

Поэтому были самые разные идеи – от использования Semantic MediaWiki, до адаптации или разработки движка аналогичного FreeBase (но это оказалось слишком дорогой задачей).  А Semantic MediaWiki хоть и выглядит соблазнительно, но вплане импорта/экспорта информации с ним нужно немало разбираться.

Однако вернёмся к NoSQL. Кроме, фронтэнда, отдельно от проектов и уже давно существует бэк-офисный непубличный движок и сервис который выдаёт для ГосСети следующие API методы:

  • извлечение данных из веб-страниц и сайтов: изображений, ссылок, объектов, метаданных и так далее
  • извлечение признаков из веб-страниц: определение CMS, технологий, счетчиков и так далее
  • получение, парсинг и классификация данных WHOIS
  • валидацию через W3C Validator
  • извлечение метаданных из веб-страниц
  • поиск RSS лент (для случаев когда RSS ленты не указываются в тэгах LINK)

и ещё несколько полезных инструментов.

Это такой SWISS Knife, но построенный на общем хранилище и на общих принципах. И хранилище это работает на том самом MongoDB. Почему именно так?

Причины в самом деле просты:

1. Удобство хранения

Практически все случаи когда из веб-страниц необходимо извлекать много разнородной информации приводят к тому что есть выбор. Либо сильно упрощать структуры, либо создавать множество таблиц по которым эти структуры распихивать.
Пример, из веб-страницы извлекаются: изображения, скрипты, метаданные, ссылки, формы. Для каждого из этих типов данных есть своё описание структур которые могут существенно отличаться. А в случае, например, форм – у них есть ещё и вложенные структуры в виде элементов форм которые, по хорошему, тоже надо хранить.
В случае если разносить все данные по отдельным таблицам, то, во-первых их наберётся не один десяток, а во вторых строить сложные запросы по таким таблицам означает заранее закладываться на планировщик СУБД.
Это как раз решается на уровне документо-ориентированных баз данных вроде MongoDB и CouchDB.
2. Легкость изменений структур
Второй плюс NoSQL в том что структуры данных легко меняются даже в тех случаях когда данных накоплено уже очень большое количество. Приведу конкретный пример. Прежде чем появился описанный мною выше сервис – где-то с полгода назад у меня работал небольшой краулер робот который собирал данные по Рунету и основным используемым в нём технологиям с сайтов. Всего в базе было и есть около сотни тысяч описаний сайтов.  Это миллионы скриптов, ссылок, метаданных и т.д.  и чтобы понять какие носители признаков пригодны для классификации, а какие нет необходимо многократно анализировать и менять структуры. Так вот делать это с использованием NoSQL гораздо проще.

3. Map/Reduce

Собственно, не упомянутое авторами – это Map/Reduce. Это одна из наиболее интересных, полезных и, в некотором смысле, удобных фишек многих NoSQL движков.

Я могу посоветовать почитать про Map/Reduce в Википедии http://en.wikipedia.org/wiki/MapReduce и добавлю что нужно это далеко не всем, а только тем кто работает со сравнительно большим объёмом данных.

Лично я использую Map/Reduce в MongoDB уже давно, просто-напросто мало времени чтобы писать о технологиях.

4.  SQL != фундамент разработки

Это вообще какое-то распространённое заблуждение что _способ работы с данными_ является неотъемлимой частью процесса разработки. Я могу лишь сказать, что у тех кто так действительно думает, по всей видимости, мало опыта в использовании других технологий. Например, такие движки как Metakit, BerkeleyDB, а также объектные и XML базы данных вполне себе давно существуют и активно используются. Я знаю несколько весьма серьёзных продуктов полностью построенных на BerkeleyDB.

Добавлю лишь что NoSQL совершенно определённо годится не для всех видов систем, продуктов и задач. Но вот то что сама идеология вызывает столь активные обсуждения и в российской блогосфере и в мировой – это плюс, а не минус подхода.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Про то чего нет или мало в ГосСети
10 июня 10 07:37

Продолжая тему Госсети (www.govweb.ru) я расскажу о том чего там нет или же пока очень мало.

Тут будут скорее технические и онтологические нюансы работы с подобного рода данными. «Жареных фактов» тут не будет, но некоторые особенности я опишу.

По информации о госструктурах и сайтах

  • Можно обратить внимание на небольшое число госструктур и их сайтов для МинОбороны (http://www.govweb.ru/govbody/60/) и ФСБ(http://www.govweb.ru/govbody/70/) . Причины этого банальны до невозможности – у их подведомственных учреждений и терр. управлений очень мало веб-ресурсов. Можно убедится в этом здесь – http://www.fsb.ru/fsb/regions.htm и здесь http://www.mil.ru/849/1051/index.shtml. Готов поспорить что из всех структур Вы увидете ссылки на сайты, в лучшем случае, 10%.  Причём если закрытость спецслужб я ещё как-то понять могу, то малая публичность _огромной_ структуры Минобороны поражает.
  • Пока ещё мало ФГУ (http://www.govweb.ru/gbtype/fgu/) и ФГУПов (http://www.govweb.ru/gbtype/fgup/), а также различных ФГУЗ’ов и других форм бюджетных учреждений. Проблема с ними также проста. Во у немногих из них есть свои веб-сайты, во вторых очень многие органы власти не соблюдают 8-ФЗ и не публикуют или же публикуют не полностью информацию о подведомственных учреждениях. Причём, в данном случае, в _разгильдяйство_ я верю больше чем в злой умысел.
  • Администрации муниципалитетов – это отдельная большая история. Во первых по той причине что если всё делать правильно, то необходимо держать у себя полные справочники ОКТМО и ОКАТО и привязывать муниципальные образования к ним, а это означает что необходимо обязательно эти справочники актуализировать хотя бы раз в месяц. Не говоря уже о том что муниципальных сайтов реально много, хотя и, конечно, меньше чем самих муниципальных образований. Поэтому муниципальные ресурсы – это даже не второй, а третий приоритет.

По данным

  • сейчас нет такой информации как:  рекламные блоки Яндекс.Директа и Бегуна,  выявленных SEO ссылок, разработчиков сайтов. Не все эти срезы могут быть быстро получены, но наработки есть. Не буду обещать и загадывать вперёд, но что-то наверняка появится.
  • нет данных о доступности веб-сайтов за счёт пингования или HTTP Ping время от времени. И вопрос вопрос – а надо ли? Нет, конечно, доступность веб-сайта – это важно, но вопрос насколько важно.
  • не все CMS распознаются поскольку их опознавание происходит в режиме «мягкой идентификации», а то есть только на основе данных главной страницы.  Это некое разумное ограничение для минимизации запросов к сайтом чтобы уложить обновление информации в адекватное время .
  • сейчас распознаются только самые популярные счетчики и виджеты. Постепенно будут появлятся и новые. Как я уже говорил – есть отдельный от сайта веб-сервис который, собственно, отвечает только за выявление признаков. Может быть он даже станет публичным, когда-нибудь.

Нюансы

  • есть один большой вопрос как привязывать госструктуры к регионам. Его особенность в том, что если строить полноценную онтологию то быстро выяснится что у большинства госструктур региональных привязок несколько. Это - территориальное местонахождение с точностью до региона или муниципального образования, область ответственности органа власти, местонахождение филиалов  если есть филиалы. Далее оказывается что не все территориальные подразделения привязаны к субъектам федерации. Например, у Минпромторговли России территориальные подразделения привязаны к экономическим округам и унаследованы от передачи функция от Минэкономразвития. А вот у Федерального медико-биологического агентства территориальные управления привязаны даже не к субъектам,  а к конкретным предприятиям. например, посмотрим 107 РУ ФМБА  - http://www.fmba-ru107.narod.ru. Схожая ситуация с ещё рядом ведомств и, в результате, используется некий компромисс привязки госструктуры к региону.

И, наконец, ГосСеть – это гибридный проект где каталог госструктур, госсайтов и различные рейтинги собраны вместе.

В то же время, в похожие проекты в мире есть. Например, германский http://www.bitvtest.eu/ проверяет государственные веб-сайты на доступность для людей с ограниченными возможностями и формирует оценки и рейтинги, а также CMS на которых сайты сделаны. Правда, они это делают вручную и сайтов там мало.

Так что по праву можно сказать что ГосСеть – это первый такой проект в мире.

Originally published at Иван Бегтин. You can comment here or there.

Ответы на вопросы по ГосСети
08 июня 10 12:50

Вчера пришло очень много вопросов, писем и комментариев.

Некоторые повторяются так что я отвечу на часть из них тут и объясню как работает проект.

1. Ключевая особенность ГосСети от любых каталогов веб-сайтов. Мы вначале создаём карточку госструктуры к которой сайт относится и лишь потом добавляем сайт. И ни один из сайтов не добавляется без такой привязки. В свою очередь органы власти имеют привязку к региону, ветви власти, виду структуры и так далее.

2. Данные в Госсеть вносятся двумя способами – автоматически и вручную. Например, автоматически вносились территориальные подразделения ФАС, Казначейства, управления ГИБДД и многие другие. В то же время, например, данные о сайтах проектов органов власти, ФЦП, сайтов закупок и большая часть региональных сайтов вносятся вручную.

3. Конечно, в системе есть ошибки. Связаны они и с тем что информация на сайтах органов власти не всегда является достоверной или же просто с ошибками. А также с тем что информацию о сайтах вносится автоматически. Поэтому, например, в некоторых случаях названия сайтов могут выглядеть странно. Но лишь по той причине что в некоторых случаях название приходится извлекать из тэга TITLE с главной страницы сайта, а там оно может быть, скажем так, разным.

4. Информация о CMS, Счетчиках, хостингах, геолокации, данных валидации по W3C собирается полностью автоматически.  Собственно какое-то время назад я писал у себя в блоге что результатом всех моих исследований Рунета является сервис аналогичный BuiltWith.com с той лишь разницей что он непубличен, а работает в режиме веб-сервиса. Собственно ГосСеть – это его первая публичная апробация.

5. ГосСеть – это долгосрочный проект и, как я уже писал ранее, это фундамент на основе которого могут быть построены и другие проекты и сервисы нацеленные на общественное благо. Те из Вас кто знают про проекты по открытым данным от New York Times и британской Guardian поймут о чём речь. Конечно, тема открытых данных в России пока ещё вызревает, но тема открытости государства уже горячая

6. В этом проекте как и проекте ГосЛюди.Ру я выступаю в качестве создателя и руководителя, при этом оба проекта делаются в пользу Полит.Ру и благодаря их финансовой и медийной поддержке.  Собственно что это означает. То что у меня что у редакции Полит.Ру есть чёткое взаимное понимание что сейчас у нас в стране есть серьёзный дефицит технологических проектов по открытости государства и нацеленных на общественное благо.

7. Проект с самого начала нацелен на партнёрство со всеми заинтересованными сторонами. И если у Вас есть конкретные предложения, например, публикации своих рейтингов, исследований, лучших практик, получения данных, предоставления данных и так далее – пишите на ibegtin (собака) gmail.com .

И немного статистики.

На 08.06.2010 в Госсети есть:

  • 2453 госучреждения
  • 30 видов госучреждений
  • 1808 веб-сайтов
  • 11 видов веб-сайтов
  • 94 региона
  • 19 нормативно-правовых документов
  • 195 - видов признаков выявляемых с госсайтов: CMS, хостинг и т.д.
  • 19973 – выявленных признаков на госсайтах

Originally published at Иван Бегтин. You can comment here or there.

Всякие отдельные интересности в ГосСети
07 июня 10 02:48
Теперь, когда проект Государственная сеть запущен, я могу приводить интересные факты по e-Gov уже с конкретными ссылками.

Originally published at Иван Бегтин. You can comment here or there.

Государственная Сеть (www.govweb.ru). Анонс
07 июня 10 12:01

Итак, пришла пора анонсировать проект над которым последние пару месяцев шла моя активная работа.

Это – Государственная Сеть (www.govweb.ru) или ГосСеть или ГавВеб. Детальный и структурированный каталог всех государственных структур и их веб-ресурсов.

Официальный анонс можно прочитать в Полит.Ру – http://www.polit.ru/analytics/2010/06/07/govweb.html. Проект сделан и делается по их заказу, а я расскажу о том что да как неформально.

Что нужно знать заходя на этот сайт:

1. Сейчас, на собраны практически все сайты федеральных органов власти и основных госструктур за исключением ФГУПов и ФГУ.  Гораздо меньше региональных сайтов – они сейчас собираются и совсем нет муниципальных, но обязательно будут.

2. Кроме официальных сайтов в каталоге содержаться все иные созданные на средства госведомств. Все виды сайтов и их число можно посмотреть по ссылке http://www.govweb.ru/sitetype/

3. То что Вы видите сейчас в Госсети – это ещё не _окончательная_ версия. Это то что достаточно хорошо для демонстрации. Также как Гослюди.Ру анонсировались с ограниченным функционалом и развивались на ходу также будет и здесь.

4. В ГосСети есть такие интересные срезы как:

- популярность CMS – http://www.govweb.ru/site/cms/

- Операционные системы – http://www.govweb.ru/site/os/

- Счетчики – http://www.govweb.ru/site/counters/ (ну кто бы подумал что Google Analytics так популярен).

и так далее.

5. Для наглядности есть рейтинги и особые списки – http://www.govweb.ru/ratings/ где можно узнать насколько сайты соответствуют стандартам W3C, какие из госсайтов зарегистрированы на физлиц и коммеческие компании, а также какие из них хостятся вне пределов России.

6. И, обязательно, есть обратная связь через http://govweb.reformal.ru. Оставляйте свои замечания и предложения. Шансы что они появятся в проекте сильно выше нуля.

Фактически здесь оказались многие мои наработки по мониторингу Рунета и построения онтологий российской власти о которых я ранее писал.

Теперь, чего пока нет:

- нет поиска, но он точно будет до конца этого месяца

- нет красивых графиков, наглядных визуализаций и так далее. Будут, думаем как лучше подать материалы.

- мало интерактива. Хотя и можно оставлять комментарии к карточкам сайтов и госструктур, но это не всё что хотелось. Ждём Ваших предложений.

- нет методических рекомендаций как создавать госсайты, нет лучших практик и так далее.

- нет API, но оно _обязательно_ будет. Если Вам сейчас нужны какие-либо данные из системы, особенно если нужны для некоммерческих целей, то имеет смысл связаться со мной или с редакций Полит.Ру, контакты я далее привожу

По сути – этот проект, это фундамент. На его основе можно делать самые разные подпроекты и аналитические срезы. Расширить информацией о стоимости разработки и сопровождения сайтов, соответствия 8-ФЗ в рамках гражданского мониторинга, соответствия 8-ФЗ в рамках прокурорского надзора, выработки рекомендаций и чеклистов для госресурсов и не только.

Что получится в итоге – я не знаю. Но что-то хорошее получится точно.

Главое – у проекта есть обратная связь. Если у Вас будут идеи, предложения, критика (в том числе и деятельная) желание поддержать, стремление к партнёрству и так далее –  пишите на govweb (собака) govweb.ru или в редакцию Полит.Ру vdnh (собака) polit.ru или мне лично на ibegtin (собака) gmail.com.

Originally published at Иван Бегтин. You can comment here or there.

Государственный сайт как СМИ. Посмотрим на сайт ФАС России
19 апреля 10 07:32

Я давно обратил внимание что ряд органов власти нашей с Вами Федерации регистрируют свои официальные сайты как СМИ. Например, ФАС России, как наглядный пример зарегистрировали свой сайт как СМИ с лицензией «Эл № ФС77-24394 от 15 мая 2006 г.»
Её также можно увидеть на скриншоте:



И всё бы хорошо! Но, если мы вспомним закон о СМИ, то там есть ряд вполне чётких требований которые на СМИ должны распространяться.
Например, глава III статья 27 «Выходные данные»
Каждый выпуск периодического печатного издания должен содержать следующие сведения:
1. название издания;
2. учредитель (соучредители);
3. фамилия, инициалы главного редактора;
4. порядковый номер выпуска и дата его выхода в свет, а для газет – также время подписания в печать (установленное по графику и фактическое);
5. индекс – для изданий, распространяемых через предприятия связи;
6. тираж;
7. цена, либо пометка «Свободная цена», либо пометка «Бесплатно»;
8. адреса редакции, издателя, типографии.

Вот тут можно посмотреть по ссылке.
http://www.consultant.ru/popular/smi/42_3.html#p306

Но, даже внимательным поиском по сайту ФАС и просмотр «Карты сайта» (http://www.fas.gov.ru/sitemap/) не удаётся найти этих самых данных.
Вопрос – где они? И есть ли вообще?

Кстати, поверить в то что в ФАС России не знают о необходимости публиковать выходные данные сложно. На сайте их же издания «Конкуренция и рынок» есть выходные данные этого журнала «http://www.konkir.ru/contacts.phtml«.

Кстати, есть и ещё один небольшой «нюанс».
Если взглянуть на главу IV. Отношения средств массовой информации с гражданами и организациями.
http://www.consultant.ru/popular/smi/42_4.html#p459
то можно увидеть что регистрирую свой сайт как СМИ орган государственной власти добровольно берёт на себя дополнительную ответственность в части права на опровержение и права на ответ.

В общем, я считаю что для госоргана регистрация официального сайта как СМИ может оказаться хорошим поводом для внимательных и активных граждан этот орган «пнуть» при желании.

А Вы что думаете по этому поводу?

Originally published at Иван Бегтин. You can comment here or there.

Про SPDY и ускорение Web’а
13 ноября 09 03:12

В Arstechnica появилась хорошая статья про SPDYeng – протокол ускорения загрузки веб-страниц который предлагают иccледователи из Google.

SPDY – это протокол расширяющий и дополняющий HTTP таким образом чтобы убрать из него все неоднозначности, вроде того что статус в ответе описан иначе чем остальные поля и сжатие запросов и ответов и так далее.  Подробнее можно прочитать здесь – http://dev.chromium.org/spdy

При том что действительно, тема интересная важная и так далее, а Google при его массе и скорости может эту идею даже протолкнуть, на самом деле всё несколько сложнее. Собственно в статье в Arstecnica это изложено:

1. Сейчас SPDY работает только поверх сессий SSL что во-первых ограничивает кеширование данных, а во вторых не повлияет на то что большая часть контента в публичной части сети доступно не по SSL, и в третьих использование SSL априори создаёт дополнительную нагрузку на ресурсы клиента и сервера что также ограничивает применимость.

2. Протокол SCTP который там уже упоминается всё ещё в весьма зачаточном состоянии, примерно как IPv6, но IPv6 всё таки активно продвигается на страхе что адреса IPv4 скоро закончатся, а вот для SCTP такой мотивации нет, а изменений потребуется не меньше. В то же время без SCTP эффект от SPDY поверх TCP будет невелик.

3. По хорошему новый протокол бы надо обсуждать через IETF и прежде чем его активно продвигать, понять востребован ли будет он на рынке, да и вообще оценить нет ли там чего-либо неучтенного.

На мой взгляд подход должен быть иным – не подмена протокола, а организаций кеширования, prefetching и реорганизация контента под блочное кеширование.

А то есть менять надо не транспортный протокол который затронет операционные системы, сетевое оборудование, IDS системы, фаерволы, антивирусы и прочая, прочая.

Вместо этого можно поступить так:

1. Поисковики могут создавать свои CDN’ы и начать заключать договора с крупнейшими хостингами чтобы те предлагали их CDN своим клиентам по умолчанию и на бесплатной основе, а также заманивать владельцев сайтов в эти CDN за счет ускорения отклика от сайта что позволит и повысить удобство посетителям сайтов, так и позволит поисковикам собирать информацию быстрее. А где-то и в реальном времени.

2.  Из SPDY взять те идеи которые не слишком меняют текущий HTTP протокол, например, сжатие заголовков HTTP, запрет на дублирование заголовков и так далее, а также добавить веб-сайтам способность идентифицировать что протокол поддерживается и предоставлять доступ к нему по определённому урлу.

3. Предложить механизмы, программы, продукты и так далее кеширования отдельных участков веб страниц и интегрировать эту информацию на уровне HTTP протокола. То есть создать возможность при запросе веб-страницы или любого иного документа с комплексным содержимым возвращать не один ETag код, а несколько хэшей/идентификаторов блоков, но не более 20 блоков. Далее с помощью расширения к HTTP запрашивать о том не изменились ли отдельные или все блоки и в результате получать не всю страницу или подтверждения что она не менялась, а статус частично изменено и данные только изменившихся блоков склейка которых происходит уже на клиенте.

Это в принципе не так уж сложно сделать, а эффект будет куда больше, поскольку это позволит локализовать статические куски контента при обновлении страниц, а, при некотором развитии этого подхода, распространять кеширование с одной страницы на их группы.

Например, если блок футера на страницах сайта является статическим, то он может быть включён в перечень таких глобально кешируемых участков и применятся также как применяются Cookie к определённому пути.

Да, это немного усложнит и увеличит HTTP запросы от клиента, но в любом случае себя оправдает, а при наличии веса Google можно было бы протолкнуть с куда большей вероятностью.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
iCamp Russia 2009: послевкусие
29 июля 09 10:23

Только что вернулись с iCamp Russia 2009 – впечатлений и общения было очень много, постараюсь рассказать о самом интересном.

В первый день в Нижнем Новгороде меня более всего впечатлили 3 доклада:

  • Анатолий Левенчук  (ailev) рассказывал про килопроекты и системную инженерию (system engineering) – тема очень интересная и актуальная. Жаль что у нас в стране проектов примеры которых он приводит очень и очень мало. Если вообще есть в последние годы
  • Дмитрий Песков (sartac) говорил про Метавер и образование которое вкорне отличается от принятых ныне подходов к обучению. По классификации ЛЕСа на iCamp – это чистой воды “эльфийская” тема, нацеленная на социальное переустройство, а не на прибыль и тем более эта тема интересна. Очень надеюсь что она приобретёт своё развитие.
  • Гаррет Джонсон из МТС буквально зажигал на сцене рассказывая про мобильные устройства. То о чем он говорил запоминалось с трудом, но драйву и движухи в его выступлении было очень много.

Далее 4 дня на теплоходе – небольшие секции, выступления и доклады на уже куда меньшую аудиторию.

Лично я успел рассказать 4 секции:

  • Государственный интернет
  • Автоматическая геоклассификация веб-сайтов
  • OpenGovData.ru: приглашение к проекту
  • Государственные закупки. Стоит ли участвовать?

А также рассказывал про ряд социальных проектов которые интересны мне и, как оказалось, и многим участникам. Об этих проектах я ещё расскажу подробнее чуть позже.

Тема госзакупок заинтересовала очень многих – однако лично я отметил что немногие на самом деле знают как устроено наше государство изнутри. Реально не хватает книг – “Госуправление за 24 часа” и “Государство для чайников” где всё было бы описано просто и доходчиво.

В ближайшее время постараюсь выложить свои презентации в сети и они появятся в блоге.

Какие выступления понравились более всего:

  • “Ответственный пациент” Бориса Зингермана. Понятно и очень доходчиво про электронную историю болезни и то как гражданин/пациент может сам управлять своей информацией.
  • Несколько выступлений Олега Кудрявцева про привлечение инвестиций и то как нужно презентовать свои проекты инвесторов. Много реальных примеров и описание логики и стиля мышления инвесторов. При том что в основном речь шла об инвесторах стратегических, а не венчурных, было интересно.

Что также хочу отметить – так выступления про облачные выступления Андрея Артищева из Оверсан Скалакси. Тема интересная, видно что у создателей есть понимание того что они хотят сделать, но лично мне интересно в какую форму они облекут услуги и какие будут цены по сравнению с тем же Amazon AWS. В любом случае – пусть растет сто цветов и чем больше провайдеров облачного хостинга, тем больше конкуренция, качество услуг и так далее.

Как резюме – большое спасибо организаторам и участникам, ибо формат оказался очень удачным и результативным.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
More Posts Next page »

This Blog

Tags

Archives

Syndication