Февраль 2008 - Posts

Алгоритм выявления покупных ссылок. Часть 5. Документ алгоритма
29 февраля 08 10:09
Как и обещал публикую документ описания алгоритма. Выявление групп платных ссылок в сети Интернет Альтруизма в данной публикации немного, так как уже есть понимание ограничений алгоритма и того что нужно для их преодоления, поэтому в документе не все Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Алгоритм выявления покупных ссылок. Часть 4. Вопросы
28 февраля 08 03:25
Размышляю о возможности раскрытия части алгоритма и исходного кода выявления платных ссылок о котором я писал ранее. Сам алгоритм состоит из двух частей - выявление ссылочных блоков и ранжирование найденных ссылок. В данном случае речь идёт о части с Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Вопросы построения семантического веба
28 февраля 08 12:54
Собираю вопросы по семантизации (структуризации) веба. На часть из них ответы у меня уже есть, хотя бы частичные, но многие всё ещё нераскрытые. 1. Как мотивировать создателей веб ресурсов и информационных банков делиться информацией через открытые API? Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Yahoo и Hadoop
28 февраля 08 12:25
С интересом обнаружил для себя блог Yahoo! Hadoop , оказывается на сегодняшний день у них самый большой Hadoop кластер из имеющихся. 10 тысяч процессоров; 300 терабайт сжатых данных 5 петабайт данных всего Судя по тому что они пишут про использование Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
О распределённых поисковых машинах, Enabot и HyperTable
27 февраля 08 12:24
Весьма интересное в загадочном боте EnaBot (http://www.enaball.com/crawler.html) - это то, откуда он приходит - ec2-67-202-55-112.compute-1.amazonaws.com А это не что иное как Amason EC2, не удивлюсь если при таком раскладе и база хранится в Amazon S3 Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , , ,
Открытые протоколы - хорошо, но поздно.
26 февраля 08 11:43
Читаю пресс-релиз MS об открытии документации по протоколам и внутренним форматам. Хорошее начинание, нет честно, хорошее. Лет 7 назад оно было бы манной небесной, тогда активно решая проблемы увязки Linux и Windows систем лично мне нехватало очень многого. Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Некоторые наблюдения за поисковыми машинами. Жизнь ссылки
26 февраля 08 02:18
В последнее время, нечто вроде хобби, в свободное время анализом того как работают поисковые машины и их применимости семантическому вебу. И, также, моделями распространения информации. Одно из наблюдений - это время реакции поисковой машины на появление Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , , ,
Практика минимизации ошибок
21 февраля 08 11:18
Человек лишающий себя права на ошибку, рано или поздно сталкивается с тем что это и есть его самая большая ошибка (c) В прошлой заметке я писал о стратегии минимизации ошибок и для чего она нужна и услышал ряд откликов с критикой нехватки примеров. Эта Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Стратегия минимизации ошибок
21 февраля 08 01:18
В своё время мне довелось слышать такую классификацию что разработчики деляться на группы: неопытных - тех кто считает что всё надо делать идеально и входят в диссонанс при необходимости “некрасивых” решений; опытных - тех кто знает что они Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Snap.com - конкурент Google или потенциальное приобретение?
20 февраля 08 10:08
Недавно, просматривая статистику поисковых роботов на нескольких своих сайтах я не без удивления обнаружил что один из самых активных по числу обращений и трафику - это snap.com. К разговорам о Search 2.0 и о радикальных изменения в поисковых алгоритмах. Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:
Снова про сайт МинЭкономРазвития
20 февраля 08 03:35
Я с месяц назад писал про сайт МинЭкономРазвития Обновлённый сайт Минэкономразвития - впечатления и вот сегодня снова посмотрел на него внимательнее. Что приятно, так многое из того что я упоминал исправили: - поиск остался через Яндекс.Сервер, но его Read More...
Предсказания в индустрии ИТ
20 февраля 08 02:59
Недавно нашёл вот такой интересный раздел на Industry News - Future Predictions Что меня лично заинтересовали несколько ссылок оттуда, например слухт что Google собираются купить Plaxo . Это выглядит как весьма логичный шаг. Заодно становится ещё более Read More...
Алгоритм распознавания платных ссылок - 3
19 февраля 08 02:15
В ещё несколько заходов удалось выявить и исправить неправильное распознавание тэгов <noindex>, а также подключены алгоритмы корректировки рейтинга ссылок для блогов. Поэтому выношу из закрытого доступа на публику - http://urlus.ru/linkcheck . И Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Ещё о выявлении покупных ссылок
18 февраля 08 11:36
Ещё слегка подправил алгоритм для правильного ранжирования ссылок на смежные сервисы, в итоге количество ложных срабатываний сильно снизилось, особенно для мультидоменных и мультисервисных сайтов. Основная проблема - ложные срабатывания на блогах и “белых Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Тысяча муравьёв могут сдвинуть гору
18 февраля 08 09:34
Поиск на школьном портале, edu.gogo.ru таки стал работать по белому списку. Чудеса да и только! Кросспост из Иван Бегтин . Комментарии можно оставлять здесь или здесь . Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Алгоритмы. Выявление платных/покупных ссылок
18 февраля 08 12:23
Как побочный результат моих семантических исследований удалось сделать алгоритм выявления покупных ссылок. Сейчас он эффективно работает начиная примерно с 4-х покупных ссылок на странице, по моей базе сайтов выявляет ссылки в 80% случаев гарантированно, Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Проблемы машапопостроителей
17 февраля 08 11:43
Не так давно, я снова пробегался по существующим построителям машапов (mashup builders). Неполный их список - Dapper, OpenKapow, Yahoo Pipes. Практически все развиваются и обрастают новыми пользователями и возможностями, но… Увы, есть очень многое Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Семантические Вики
16 февраля 08 03:38
Sematic MediaWiki - на базе MediaWiki и предполагает дальнейшее расширение оной для машинной обработки Wiki страниц. OpenSource IkeWiki - активно использует AJAX и Flash для отображения метаданных и их взаимосвязей, выглядит интересно, хотя и притормаживает. Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: ,
Зачему Sun&#8217;у Innotek.
15 февраля 08 03:33
Перечитываю западную блогосферу про покупку Innotek ‘а Sun ‘ом и практически все пишут положительные отзывы и про логичность шага. Я, собственно, полагаю также, и вот почему: 1. Sun получает команду разработчиков и как, судя по всем заявлениям, Read More...
ИТ стандартизации от бизнеса на примере HL7
12 февраля 08 07:45
Я ранее много писал про стандарты для офисных продуктов, на сей раз затрону несколько иную тему - ИТ стандартизация для медицины. Некоторое время назад мне довелось познакомиться с таким стандартом как HL7. Для справки, HL7 - это стандарт обмена данными Read More...
B2G в Германии
12 февраля 08 05:33
Оказывается в Германии затеяли тендер с описанием всех процессов взаимодействия бизнеса и государства. По английски - это называется study и переводя с их канцелярского на наш - НИОКР, причём из 3 лотов. Собственно ссылки: http://urlus.ru/u/c - анонс Read More...
Копирайт на комментарий. Вопросы
12 февраля 08 11:54
Предположим абсурдно-реальную ситуацию. На форуме или в чужом блоге размещается комментарий с припиской: — @ Год, Имярек Данный комментарий является результатом мысли, работы и творчества <имярек>, публикуется исключительно в информационн/ых Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
ИТ и госзакупки. Уроки школьного портала
10 февраля 08 11:54
Если переводить вопросы школьного портала в конструктивное русло, то ситуация с ним показательна преимущесвами и недостатками 94-ФЗ вообще и для ИТ в частности. 1. Достоинство, чуть ли не ключевое - это высокий уровень публичности информации. Это, действительно, Read More...
Ударим по непрозрачности непрозрачным рейтингом!
05 февраля 08 02:47
Статья на Cnews про очередной рейтинг ИРСИ по непрозрачности госорганизаций : ФСБ и ФСО имеют самые непрозрачные сайты . У них же мой комментарий к этой новости. Это называется “ударим непрозрачным рейтингом по непрозрачности госорганизаций”. Read More...
Битва за Yahoo!
04 февраля 08 09:51
Начали ходить слухи о возможном альянсе Yahoo! с Google. Статья в Рейтерс UPDATE 5-Yahoo may consider Google alliance, source says А также мнение Дэвида Друммонда, вице президента Google и главного юриста компании - Yahoo! and the future of the Internet Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , , ,
Если будет Microhoo!
02 февраля 08 10:09
Попробую предугадать что будет если оно всё таки случится 1. Поисковик live.com закроют или заменят на движок Yahoo. Судьба бренда Live неизвестна, так как Yahoo по любому более узнаваем. 2. Omnifind Yahoo Edition - поисковик совместной разработки IBM Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Фильтрация контента и тематический поиск
01 февраля 08 02:00
Давно зревшие у рассуждения, а сейчас ещё и подтолкнутые ситуацией, извиняюсь за неприличное слово, со “школьным порталом”. Вопрос в том ак правильно обеспечить контентную фильтрацию при этом обеспечив достаточный объём информации. 1. Белые Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under: , ,
Школьный портал. Одно видео лучше тысячи слов
01 февраля 08 12:01
Ссылка дня http://micromarketing.ru/multiki/portal-school/ Комментировать небуду, там всё очень хорошо и правильно изложено. Спасибо lazyant за наводку. Кросспост из Иван Бегтин . Комментарии можно оставлять здесь или здесь . Read More...
Postedfrom Иван Бегтин | 0 Comments    
Filed under:

This Blog

Tags

Archives

Syndication