Browse by Tags

Итоги года и планы на следующий
30 декабря 10 07:54

Пришёл и мой черед подводить итоги года.

Начну с того что удалось сделать в этом году.

Проекты

1. РосГосЗатраты (www.rosspending.ru) – проект по мониторингу государственных расходов выполненный по заказу ИНСОРа. Скажу честно этот проект я мечтал сделать последние года три и только в этом году мои мечты (и наработки) совпали с интересом заказчика и нашей команде удалось сделать этот проект в короткие сроки. Сейчас в стадии скорой готовности обновлённая версия проекта с данными за 2010 год, надеюсь что скоро её можно будет презентовать.

2. Гослюди (www.goslyudi.ru) – агрегатор блогов чиновников, депутатов и иных государственных людей. С рейтингами, открытым API, подробным каталогом и топом записей. Сделан по заказу интернет-издания Полит.Ру.

3. Государственная сеть (www.govweb.ru)огромный каталог государственных структур и их веб-сайтов. Также разработан по заказу Полит.Ру и доступен всем желающим для внимательного просмотра.

Все проекты были сделаны не мной одним, а «Лабораторией интеллектуального анализа данных» (http://www.idalab.ru) которую я возглавляю.

Публичная деятельность

- написал множество постов по теме государственного заказа, электронного государства, открытых данных и информационного общества http://ivan.begtin.name

- прочитал публичную лекция по «Открытым данным» в Киеве – http://polit.ua/articles/2010/12/23/begtin.html

- пообщался с Игорем Артемьевым по приглашению к общению с блоггерами от ФАС России http://ivan.begtin.name/2010/12/18/fas/

- выступил на конференции Gov2Russia (http://gov2russia.ru/) по открытым данным;

- выступил на конференции «Всероссийский практический форум. ‘Развитие информационного общества. Электронное правительство. Регион и муниципалитет’» – http://is-forum.ru

- плюс многое неучтённое вроде комментариев для СМИ, постов в блоге попавших в СМИ и так далее.

Темы и мнения

За год накопился ряд тем по которым я всё хотел высказаться да то небыло времени, то неформат. Так что прокомментирую сейчас.

Про ТакЗдорово.Ру

Я перестал писать на эту тему поскольку Дмитрий Дмитриев (ЖЖ – pravdep) целенаправленно и подробно раскрывает эту тему. Рекомендую ознакомиться с его последними публикациями.

В принципе же в этой истории, при всём моём негативном отношении к Игорю Ашманову лично, тем не менее совершенно точно «рыло в пуху» у представителей Минздравсоцразвития.

Про отмену конкурса на соц.сеть Минздравсоцразвития и отставку Симакова

Конечно, я надеюсь что и мой вклад сыграл роль в отмене данных конкурсов, но, скажу честно, это всё более чем скромные результаты. И причины проведения этих конкурсов в такие сроки скорее связаны с системными организационными проблемами в ответственных ведомствах, чем с коррупцией в чистом виде. Что даже хуже, поскольку фактически демонстрирует полное отсутствие полноценного проектного управления на большинстве российских ИТ проектов по разработке и внедрению ИТ систем в госсекторе. Все отчётные документы по ГОСТу скорее формальность, а даже если исполнители сертифицированы по ISO 9000, CMMI и так далее, это ещё не значит что у госзаказчика есть хоть один сотрудник понимающий что это такое.

Про Russian-Fires.ru и Holoda.info

В этом году, несомненно, очень заметным был проект Russian-fires.ru посвящённый помощи при пожарам и та же команда сейчас делает проект Holoda.info посвящённый проблем из-за резких холодов и тому подобных зимних катаклизмов. Мне повезло познакомиться с двумя людьми (из многих) за этим проектом Григорием Асмоловым и Анастасией Севериной и, скажу честно, я впечатления самые приятные. То что такие краудсорсинговые проекты запускаются и успешно работают  - это очень хорошо. Это значит что консолидация гражданской активности для решений конкретных проблем более чем возможна.

Про Rospil.info

Я, как и многие, видел анонс Алексея Навального по поводу этого проекта http://navalny.livejournal.com/541417.html и сам проект http://www.rospil.info/.  Лично я отношусь к этому проекту если не отрицательно, то весьма прохладно и вот почему.

Во-первых – это «обжелтение» темы проблем в государственном заказе. Вместо систематизации проблем и целенаправленных шагов по их решению, создание «жёлтого листка про самых-самых вонючих».

Во-вторых – это попытка краудсорсинга в теме где как раз требуется только экспертный подход, но большинство тех кто действительно понимает в проблемах госзаказов если и будут давать экспертные оценки, то анонимные.

Что пока не удалось и незавершено

Электрическое общество

http://www.ruelectric.ru/. Каталог всех гражданких eGovernment и eParticipation проектов, но пока ещё не удалось придать ему нужную форму и он слегка «подвис».

Геополитические онтологии

Разработка таких онтологий – это большая и длительная работа, особенно если их делать сразу в OWL, поэтому после нескольких экспериментов сейчас мои усилия нацелены на систематизацию основных понятий вокруг государства в форматах создаваемых проектов, а то есть всегда с очень практическим применением.

Открытые данные – медленнее чем хотелось бы

…Но быстрее чем могло бы быть. За этот год тему открытых данных вспоминали уже два чиновника регионального уровня, мне удалось донести эту идею до главы ФАС России, надеюсь он ей заинтересуется и я стараюсь донести её до максимально возможного круга лиц. Но развивается это медленнее чем бы мне хотелось.

Планы

Сейчас идёт активная работа над несколькими проектами. Какие-то будут анонсированы нами от Лаборатории, какие-то нашими заказчиками, какие-то проекты и идеи я анонсирую лично – в основном некоммерческие.

О некоторых проектам Вы можете догадываться по тем идеям что я публиковал у себя в блоге, некоторые проекты видели пока только единицы людей, но суть у всех одна – общественное благо.

Originally published at Иван Бегтин. You can comment here or there.

HTML в RSS: Google Reader vs Скиур.
26 января 10 07:51

Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы.  Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com

И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным принципом построения. Об этом я уже прокомментировал Николаю Двасу в заметке Ruformator’а, а расширенно напишу тут.

Главное отличие в принципиальном подходе.

ChangeDetection, Page2RSS, Femtoo и ещё ряд сервисов практически все основаны на разной степени проработанности алгоритмах HTML Diff – определения отличий веб страниц или выделенных на них участках. Фактически эти алгоритмы сводятся к двум задачам:

1. Найти отличия

2. Выделить из этих отличий значимые и преобразовать их в текст.

Причём решения этих задач существуют уже давно, мне не редко попадались настольные программы которые решали то же самое, разница же в веб-сервисах лишь в том что появились версии алгоритмов достаточно быстрые чтобы обеспечивать массовое использование, ну а в случае Гугла это ещё проще с их огромной инфраструктурой и возможностью выгружать веб-страницы из собственных баз, а не с сайтов.

В основу же работы Скиура положены алгоритмы распознавания повторяющихся блоков и элементов этих блогов. Он не сравнивает страницу с предыдущей, а распознаёт на ней различные смысловые участки, которые в дальнейшем реконструирует в объекты или их списки. Новостная лента – это один из примеров таких объектов. Она определяется, извлекается, сохраняется и далее отдаётся как RSS.

Собственно, изначально я делал этот сервис как экспериментальный, он и сейчас такой же экспериментальный и некоммерческий. И для меня целью его создания было решение всего двух задач:

1. Опробация алгоритмов в действии на большом числе разных страниц – это удалось, сейчас поддерживается более 160 различных форматов новостных лент.

2. Возможность подписаться на новости многих госсайтов, которые я периодически читаю, а RSS у них нет – это также удалось решить.

Собственно таковы главные отличия и предыстория Скиура. Ну а цель и дальнейшее развитие сейчас упираются в наличие у меня на него времени и ресурсов поскольку сейчас Скиур по прежнему является частным решением по автоматическому извлечению новостных лент, а не общим по извлечению разнородного структурированного содержимого.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Google Public DNS
03 декабря 09 11:27

Тут оказывается Гугл организовал Google Public DNS. Почитать можно тут – http://code.google.com/intl/ru-RU/speed/public-dns/ или на Хабре – http://habrahabr.ru/blogs/google/77199/

Надо только прописать себе DNS сервера от Google вместо провайдерских и, вуаля!,  блокировки домена на стороне провайдеров не работают, да и скорость, по отзывам, у DNS от Гугл неплохо так работает.

Не то что бы идея новая, достаточно вспомнить про OpenDNS и массу открытых публичных DNS серверов в сети, но определённо впервые о том чтобы запустить публичный, быстрый и бесплатный сервис игрок уровня Гугла.

Но, что лично мне особенно интересно, как теперь будут работать многие провайдерские фильтры во многих странах и как провайдеры теперь будут считать свою статистику?

Варианты я вижу следующие:

1. Заблокировать Гугловские DNS сервера.  Плюс в том что быстро, минус в том что с распространением блогов трудно будет уйти от публичности. А то ведь пользователи это найдут и обязательно об этом напишут.

2. Редиректить на свои DNS сервера. Правда у меня нет 100% уверенности что с DNS запросами так можно и правильно поступать и это должно быть чуть сложнее.

Собственно Гуглу это должно дать прекрасную статистику пользовательской активности в сети. При этом подавая всё как полезный бесплатный сервис. Да, мне лично вспоминается статья Пола Грэхема Microsoft is Dead, а Гугл определённо рвётся в лидерство по большебратовости.


Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Автоматическое индексирование отсканированных документов
26 августа 09 06:01

Сегодня обнаружил интересное явление. Оказывается Гугл научился автоматически индексировать PDF файлы содержащие отсканированные страницы документов. Соответственно эти документы теперь находятся через поиск.

Например, вот такой документ МинЭкономРазвития (ссылка на документ со сканами страниц) можно найти через поиск – например, вот так и щелкнув на ссылку “просмотреть” переходим в Google Docs где ещё одним щелчком на “Обычный формат HTML” документ возвращается в виде текста.

В общем, Google нашли себе ещё один большой срез данных. Осталось лишь дождаться когда поисковик начнет заглядывать в архивы, распознавать текст и объекты на картинках и так далее.

Originally published at Иван Бегтин. You can comment here or there.

Относительно Google OS
13 июля 09 01:50

К вопросу зачем Гуглу своя операционная система.

Лично я считаю что как продукт, особенно как платный продукт, она ему совершенно ненужна. Больше того, я думаю что Google свою ОС продавать не будут, а ОС нужна будет только и исключительно чтобы потеснить MS, но не на десктопе, а на нетбуках и прочих подключенных к сети устройствах.

Собственно, ключевое отличие будет в том что Google могут воспользоваться принципиально иной моделью – не совместимостью, а перенос ПО в онлайн.

Например, по аналогии с тем как Microsoft поддерживали и развивали рынок настольного ПО  и Shareware , точно также Гуглу будет достаточно запустить партнерскую программу для онлайн сервисов и значительно интенсифицировать создание ПО в рамках Google App Engine.

Получится у них или нет – время покажет.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 5 Comments    
Filed under:
Госсайты, счетчики и иностранные сервисы
13 апреля 09 11:52

Когда чиновники говорят о принадлежности баз пользователей социальных сетей или систем коротких сообщений зарубежным компаниям, то важно не забывать что эта информация хоть и важная, но и не самая ключевая.

Поставим вопрос шире, а как создаётся и распространяется информация о пользователях в сети, с их ли согласия или без, какую информацию можно подтянуть по “длинному следу”?

Можно быть уверенными что очень немалую. Те же счетчики Google Analytics, Liveinternet, Mail.ru, Rambler.ru и метрика Яндекса позволяют отслеживать активность пользователей, а также по информации о ним в своих соц. сетях и профилях знать о его шаблонах поведения.

Но дело не только в этом, дело ещё и в том в каком виде и сколь долго эту информацию счетчики хранят и как используются. К примеру, даже если на государственном сайте  может быть раздел посвящённый правилам использования информации о пользователе в как логов с указанием сроков хранения, то если используется внешний сервис, то ничего такого нет и в помине. Госсайты повсеместно увешаны счетчиками самого разного толка, точно также они оставляют постоянные куки или используют внешние сервисы которые это делают. 

И в этом плане мы серьёзно отстаём от тех же США в части регулирования приватности - если у них выкладывание на сайте Белого дома видео с Youtube привело к иску со стороны активистов по борьбе за приватность которые указали на меморандум M-03-22 о запрете использоания persitent cookie и, в итоге, добились снятие Youtube с сайта Белого дома, а Google анонсировали сервис delayed cookie.

Но это в США, а у нас на сайте единого окна города Москвы, даже в, условно закрытом, HTTPS разделе висят счётчики Google Analytics и Spylog. Хорошо ещё если сайт организован таким образом что в GET запросах не передаётся приватная информация, но если это всё таки происходит, а у лично у меня уверености такой нет, то это необходимо проверять и тщательно. А то что Google что Spylog могут иметь доступ к персональной информации и о гражданах - вопрос достаточно серьёзный, не единичный и никак не проработанный.

Лично моё мнение прежнее - во всём что делает государство в Рунете, коррупции гораздо меньше чем бессистемности.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.

Google и Microsoft не попали в 20-ку наиболее доверяемых компаний
16 декабря 08 08:53
The Ponemon Institute опубликовали на сайте Trustee исследование с перечнем компаний наиболее заботящихся о приватности пользователей и в 20-ку их списка не попали Google и Microsoft. В то же время можно посмотреть как изменились позиции лидеров за это Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Официальный гайд Google по SEO
13 ноября 08 10:49
Гугл опубликовали у себя в блоге 22 страничный PDF документ с рекомендациями по оптимизации сайтов под поисковые системы. Нового там мало, основной акцент на правильной подачи собственного контента. В то же время, что характерно, правила описанные там Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
German government tells citizens not to use Google Chrome
11 сентября 08 09:12
Подробнее в публикации на Blogospcoped и видео с новостью (на немецком ) про Chrome, видео начинается с 7:09. Одновременно хочеться отметить что в России ведомства аналогичного Германскому не существует и по сей день. До сих пор ни Минсвязи, ни силовые Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Сhrome: Обновление EULA
04 сентября 08 12:27
В Гугле таки признали ошибки и поправили лицензию, её можно посмотреть например, тут - http://www.google.com/chrome/intl/en/eula_text.html . А вот русский вариант, что-то не изменился - http://www.google.com/chrome/intl/ru/eula_text.html Предлагаю Гуглу Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Anti-Chrome: ToS WTF?
03 сентября 08 06:47
Говорят что на самом деле Тёмный Властелин не погиб под Барад Дуром, а резко уменьшился в росте и оброс шерстью. По наводке в ToS для Chrome обнаружилось следующее: … 11. Предоставляемая вами лицензия на Содержание 11.1. Вы сохраняете авторские Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , , ,
PageRank, поисковики и зона доверия
29 июля 08 03:17
Любопытные вещи выясняются если сравнивать рейтингование сайтов Yandex и Google. Например, у Яндекса явный и сильный дисбаланс в сторону высоких рейтингов для онлайновых новостных изданий в то время как Google даёт высокие рейтинги государственным ресурсам Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Google Begun
18 июля 08 04:53
Reuters cообщает о том что зарегистрированная в Великобритании компания Рамблер.Медиа продала сервис контекстной рекламы “Бегун” (ЗАО “Бегун”) компании Google. Про то как это хорошо для Гугла написали и пишут уже немало. Пусть Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Информация vs. Технологии
18 апреля 08 04:41
Я ранее уже писал о конкуренции между технологическими и информационными компаниями и, развивая тему, в чём же специфика этой конкуренции. Далее пойдут размышения, которые многим могут показаться банальными, но тем не менее. На мой взгляд корень этой Read More...
Социальный тематический PageRank
23 марта 08 09:55
Продолжая ударными темпами разбираться во внутренностях PageRank, TrustRank и прочих неконтентных алгоритмах, и , решив выбрать упрощённую экспериментальную выборку, далее будут результаты нескольких моих экспериментов по расчёту аналога PageRank для Read More...
More Posts Next page »

This Blog

Archives

Syndication