Сентябрь 2008 - Posts

Softool 2008
30 сентября 08 12:08
Сегодня 30 сентября и по 3 октября я буду на выставке в 8-м павильоне, стенд E35 рядом со стендом ОГИЦ (Общероссийский Государственный Информационный Центр). Если будете на выставке и есть темы для разговора милости прошу. Кросспост из Иван Бегтин . Комментарии Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Регулярные выражения - материалы
29 сентября 08 01:56
Спасибо, всем кто накидал ссылок и материалов по теме. В данной записи я опишу собранное: Wu, Manber “A Fast Algorithm For Multi-Pattern Searching” - описание алгоритма и его реализации в виде Agrep с построением NFA на базе регулярных выражений. Read More...
Магия множеств регулярных выражений
27 сентября 08 10:34
Моё знакомство с регулярными выражениями началось более чем давно, ещё в то время когда я активно встречал в кодах скриптов и использовал сам для подготовки скриптов при администрировании юникс серверов. Признаться, особой любви к ним я никогда не испытвал. Read More...
Скиур: технологическое
25 сентября 08 05:48
Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности. В проекте используется 3 технологии: - CouchDb - Python - Django Насколько я знаю, в России, это первое практическое использование CouchDb, Read More...
Интернет-СМИ и правовое поле
25 сентября 08 01:41
Читаю ссылки по предложению сенатора Владимира Слуцкера по созданию юридического определения термина Интернет-СМИ. Всё бы хорошо, может быть и идея с выводом блогов из этого термин мудра, но… прежде чем сказать Б надо сказать А. Как можно писать Read More...
Скиур - первое обновление
25 сентября 08 01:14
Копия из анонса в skyur_project Завершилось первое обновление алгоритма. Это обновление является промежуточным и будет дополнятся в дальнейшем. В это обновление вошли: - поддержка 44 форматов дат (по сравнению с 20 в прошлой версии); - поддержка дат обрамлённых Read More...
Скиур - первое обновление
25 сентября 08 01:14
Копия из анонса в skyur_project Завершилось первое обновление алгоритма. Это обновление является промежуточным и будет дополнятся в дальнейшем. В это обновление вошли: - поддержка 44 форматов дат (по сравнению с 20 в прошлой версии); - поддержка дат обрамлённых Read More...
Регулирование РУНЕТа как социальная сеть
22 сентября 08 05:18
В последнее время всё активнее обсуждают тему можно ли регулировать / модерировать Рунет или нет и что для этого нужно. Внесу и мои 5 копеек. Проблема контроля и регулирования Рунета той же природы что и проблема модерирования крупных социальных сетей Read More...
Скиур запущен
20 сентября 08 03:16
Как я и обещал и даже с некоторым опережением Скиур запущен и доступен всем желающим по ссылке http://www.skyur.ru Что такое Скиур? Скиур - это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, Read More...
Некоторые результаты по Скиуру - превращению новостных страниц в RSS
18 сентября 08 11:47
Поскольку удалось поднять хотя бы часть информации с дисков, удалось восстановить и часть результатов обновлённого алгорима Скиура. Суммарно по результату анализа 22 000 сайтов, новостные ленты были обнаружены у 4 600. Что порядка 21% от всех ресурсов Read More...
Техническое: Решение с расчетом расстояния Левенштейна для исправления опечаток
17 сентября 08 01:26
Про эту задачку и что у неё есть решения я писал раньше и всё таки решил описать один из способов как её можно решить без использования n-gram. Предупрежу заранее далее пойдёт техническое описание, я, по возможности, буду избегать использования формул Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Quarkbase: сайт о сайтах
16 сентября 08 05:48
Наткнулся на ещё один сборщик информации о веб сайтах - http://www.quarkbase.com/ , в отличии от AboutUs.org и BuiltWith он собирает информацию ещё и по ряду социальных и онлайновых сервисов. Инструменты любопытные, но, признаться, я сомневаюсь в их коммерческой Read More...
Техническое: Про исправление опечаток продолжение
12 сентября 08 03:45
Вдогонку к предыдущему тексту, исправляю упущение отсутствия цифр. Так вот задачка с использованием расстояния Левенштейна решается очень быстро фильтрами и созданием специальных индексов объём которых может достигать и превосходить объём выборки слов. Read More...
Техническое: Про исправление опечаток продолжение
12 сентября 08 03:45
Вдогонку к предыдущему тексту, исправляю упущение отсутствия цифр. Так вот задачка с использованием расстояния Левенштейна решается очень быстро фильтрами и созданием специальных индексов объём которых может достигать и превосходить объём выборки слов. Read More...
Техническое: Алгоритмические подходы
12 сентября 08 08:00
Чем дальше тем больше я убеждаюсь что все существующие подходы к оптимизации алгоритмов и повышению производительности и точности алгоритмов можно свести к 3 разным подходам. 1. Технологический Подход по оптимизации “в лоб”. Переписать алгоритм Read More...
Мир как поток и совокупность информации 5. Информационная психология
11 сентября 08 03:50
Психология жизни в информационной среде и восприятия информации отдельным человеком - это, пожалуй, одна из наиболее сложных для меня тем. Причём сложность её даже не столько в отсутствии понимания, сколько в абстрагировании от уже имеющихся подходов Read More...
German government tells citizens not to use Google Chrome
11 сентября 08 09:12
Подробнее в публикации на Blogospcoped и видео с новостью (на немецком ) про Chrome, видео начинается с 7:09. Одновременно хочеться отметить что в России ведомства аналогичного Германскому не существует и по сей день. До сих пор ни Минсвязи, ни силовые Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Неприятности
10 сентября 08 10:37
Стоит начать размышлять о промышленной эксплуатации продуктов как то CouchDb, возможностей по управляемости и восстановлению при сбоях - как сбои случаются. На домашнем сервере у меня посыпался один из дисков, причём основательно - не читается суперблок Read More...
Postedfrom Иван Бегтин | 0 Comments    
Заметка в Юзабилити бюллетене
10 сентября 08 10:26
В Юзабилити бюллетене (UPA Russia) опубликовали мою заметку Целостность формы представления информаци и, интересующимся также могу посоветовать почитать остальные статьи из бюллетеня, там немало интересных материалов. Кросспост из Иван Бегтин . Комментарии Read More...
Вопросы
09 сентября 08 06:47
Может кто сможет помочь с ответами на пару вопросов. 1. Кто знает кто делал новый сайт МинСвязи ? Мне, как всегда, там нехватает RSS. Правда, что приятно, Скиур изменения на сайте подхватил и RSS мне всё же сформировал. 2. Какие наиболее популярные RSS Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Техническое: CouchDB и его применимость
08 сентября 08 01:28
В эти выходные мне сравнительно немного удалось поработать за компьютером, была уйма других дел, а вот краулеры и нагрузочные тесты на CouchDb как раз смогли отработать полностью. За пару дней на мой небольшой домашний сервер удалось собрать информацию Read More...
Эффективное геокодирование данных
05 сентября 08 11:45
Продолжая тему геокодирования или геотеггинга веб сайтов и любых объектов в принципе опишу чуть подробнее даже не сами алгоритмы, а принципиальный подход к подобной классификации - поскольку геокодирование это именно классификация и, более того, это можно Read More...
Сhrome: Обновление EULA
04 сентября 08 12:27
В Гугле таки признали ошибки и поправили лицензию, её можно посмотреть например, тут - http://www.google.com/chrome/intl/en/eula_text.html . А вот русский вариант, что-то не изменился - http://www.google.com/chrome/intl/ru/eula_text.html Предлагаю Гуглу Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Anti-Chrome: ToS WTF?
03 сентября 08 06:47
Говорят что на самом деле Тёмный Властелин не погиб под Барад Дуром, а резко уменьшился в росте и оброс шерстью. По наводке в ToS для Chrome обнаружилось следующее: … 11. Предоставляемая вами лицензия на Содержание 11.1. Вы сохраняете авторские Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , , ,
To Chrome or not to Chrome?
03 сентября 08 11:41
Попробовал и прямо сейчас пишу из Google Chrome. Что-то в нём несомненно есть - GMail при загрузке не тормозит другие вкладки, ощущение ускорения загрузки страниц также имеется, но, минусы тоже надо отметить. А вот отсутствия Adblock, FlashBlock и ещё Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Лингвистика. Частотный анализ и простая каптча
02 сентября 08 06:12
Про анализ текстов и частот букв в частности я писал ранее в “ Лингвистика. Частотный анализ - 2 “. Сейчас же приведу пример для чего создаются и могут применяться частотные таблицы и позиционно-частотные таблицы. Одна и наиболее напрашивающихся Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Вопросы: Датасеты с миллионами ссылок
01 сентября 08 06:06
Однажды я, по моему, уже спрашивал, но может быть кто-то подскажет где бы взять хотя бы несколько миллионов, а лучше больше, ссылок по сайтам в Рунете? Интересуют ссылки хотя до 2-го уровня, но лучше глубже. По аналогии такие выборки есть для UK в их Read More...
Postedfrom Иван Бегтин | 0 Comments    
Пробую Jabber в Я.Онлайн
01 сентября 08 05:11
Яндексоиды только что сделали анонс сервиса обмена мгновенными сообщениями на базе Jabber и Я.Онлайн. Многого, конечно, нехватает - можно было бы и поплотнее поинтегрировать его с другими сервисами, вроде обмена файлами и так далее, но как идея и на попробовать Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Техническое: CouchDb с практической точки зрения
01 сентября 08 10:31
На днях вновь пробовал CouchDb - одна из column-based баз данных которая ныне в живёт в инкубаторе проектов Apache. На сей раз уже более обстоятельно с прицелом на дальнейшие переспективы использования. В результате впечатление хорошее, хотя и немного Read More...
Postedfrom Иван Бегтин | 0 Comments    

This Blog

Tags

Archives

Syndication