Browse by Tags

Sorry, but there are no more tags available to filter with.
АнтиСЕО. Правила E. Анализ меток отношений и структуры веб-сайтов
25 октября 09 12:39

Собственно лично я с проблемой АнтиСЕО столкнулся работая над алгоритмом описанном в правиле E-001-003 по определению коммерциализованности веб-сайтов и по правилу выявлению метрик отношений между веб-сайтами.

—-

[E-001-001]. Является ли сайт реципиент блогом.

В отличии от других типов сайтов продвижение блогов случается куда реже. То что сайт реципиент является блогом – это критерий за естественность ссылки, но он её не может гарантировать.

Рисунок 40. Блок ссылок с блога apple2.ru (на 15.04.2009)

image080

Таблица 2. Таблица ссылок на сайте apple2.ru

Сайт Текст CMS Является блогом?
http://arturclancy.com arturclancy.com Wordpress Да
http://macovod.net Блог Маковод Wordpress Да
http://prostomac.com простоMAC.com Wordpress Да

Все ссылки в рассмотренном нами блоке являются ссылками на другие блоги. При этом проверка того что сайты-реципиенты являются блогами может быть произведена несколькими способами. Например:

  • сайт зарегистрирован в одном из крупных рейтингов/каталогов блогов;
  • есть алгоритм способный определить CMS сайта
  • сайт является популярным и внесён в базу сайтов с соответствующей пометкой во время одной из итераций анализа сайтов.

В подавляющем большинстве случаев ссылки с блога на блог являются естественными. Тем не менее нельзя забывать что движок CMS на которых блоги строятся может быть использован и для создания коммерческих ресурсов. Пример – сайт www.woothemes.com продающий темы для Wordpress. Несмотря на то что сайт является блогом, одновременно он является и коммерческим ресурсом.

[E-001-002]. Является ли сайт-реципиент государственным или некоммерческим ресурсом.

Это правило определяет является ли сайт-реципиент государственным или некоммерческим ресурсом. Если да, то ссылка на него не рассматривается как платная. В отличии от проверки наличия сайта реципиента в белом списке – это правило требует анализа сайта-реципиента и определения его коммерциализированности.

Например, согласно ему достаточно несложно отделить:

  • государственные сайты в США – домен .gov
  • образовательные сайты в США – домен .edu
  • частично государственные сайты в России – домен .gov.ru (частично поскольку большая часть государственных сайтов в Рунете находится вне домена .gov.ru)

[E-001-003]. Является ли сайт-реципиент коммерческим ресурсом.

Это правило позволяет определить коммерциализированность ресурса. Является ли он интернет-магазином, сайтом коммеческой компании, извлекает ли прибыль от посетителей иным образом. В случае если да, сайт им является, то признак в пользу того что ссылка на данный ресурс является платной.

На самом деле, именно этот признак в совокупности с анализом соответствия текста ссылки теме сайта реципиента и является ключевым для отсева поискового спама и единственно сложным вопросом тут является ответ на вопрос, а как же узнать коммерческий ли ресурс или нет? При огромном числе сайтов ручная проверка каждого окажется невозможной, тем не менее есть несколько наиболее очевидных решений:

  • базы контекстной рекламы Яндекс.Директ и Google.Adsense. Поисковым системам эти базы дают информацию не только о том какие ресурсы являются коммерческими, но и по каким ключевым словам они потенциально могут себя продвигать.
  • каталоги сайтов такие как – Яндекс.Каталог, Каталог mail.ru, Rambler Top100, dmoz.org и так далее. Эти каталоги сравнительно невелики по сравнению с общим числом сайтов.
  • алгоритмы автоматического определения коммерциализированности веб-сайта – эти алгоритмы могут быть построены на разных подходах: контентным анализом веб-сайтов, сравнением их с ранее классифицированными ресурсами, анализом входящих и исходящих ссылок и так далее.

[E-002-001]. ТиЦ сайта-донора больше ТиЦ сайта-реципиента.

В большинстве случаев покупка ссылок осуществляется с сайта более “продвинутого” в поисковых системах – что может выражаться в большей посещаемости сайта донора, большем значении его тематического индекса цитирования или Google PageRank. Несмотря на то что значения ТиЦ и Google PR доступные всем желающим являются искусственными значениями тем не менее это ориентир для многих оптимизаторов при выборе площадок при расстановке ссылок. Отсюда если ТиЦ сайта донора больше ТиЦ сайта реципиента то, при наличии дополнительных факторов, это потенциальный признак платности ссылки

[E-002-002]. Google PageRank сайта-донора больше Google PageRank сайта-реципиента.

Аналогично с проверкой ТиЦ – в случае если значение Google PageRank у сайта донора выше, то это может быть признаком платности данной ссылки. Под Google PageRank в данном случае подразумевается публично доступное значение предоставляемое Google посредством своего тулбара.

[E-002-004]. Нахождение ссылки в блоке ссылок с низким ТиЦ/PR по сравнению с анализируемой страницей.

Хотя иногда и случается, что платные ссылки размещаются на сайтах с меньшим ТиЦ (Яндекс) или PR (Google) чем у страницы сайта-реципиента, но в подавляющем большинстве случаев размещения именно платных ссылок их средний ТиЦ/PR меньше чем у анализируемой страницы.

Нахождение ссылки среди подобного блока ссылок являются признаком против естественности её размещения вне зависимости от того как соотносится её собственное значение ТиЦ/PR с ТиЦ/PR анализируемой страницы.

Пример: Рассмотрим блок ссылок на главной странице ava.ru

Для главной страницы ava.ru значения:

  • ТиЦ – 1200
  • Google Toolbar PageRank – 6

Рисунок 41. Блок ссылок на сайте ava.ru (на 15.04.2009)

image082

Таблица 3. Таблица ТиЦ и GPR для блока ссылок с сайта ava.ru (на 15.04.2009)

Сайт ТиЦ Соотношение к ТиЦ донора Google Toolbar Pagerank (GPR) Соотншение к GPR донора*
http://auction.ua/ 425 0.35 6
http://www.pokeroff.ru/ 240 0.2 5
http://imgsrc.ru 600 0.5 3
http://www.fabrikaokon.ru 1100 0.91 5
http://www.comcom.ru 1100 0.91 4
http://www.oknastar.ru 350 0.29 5
http://www.top-cartridge.ru 120 0,1 6
http://www.istra-hotels.ru 140 0.12 4
http://www.uprav.ru/seminars/list/2005/ 0 0 6
Среднее значение 452.78 0.375 4.89 0.815

* Рассчитывается делением среднего значения GPR всех ссылок в блоке – 4.89 к GPR страницы – 6.

Пример: Рассмотрим значения ТиЦ и GPR для блока ссылок размещённого на основной странице сайта mk.ru

Рисунок 42. Блок ссылок на главной странице сайта mk.ru (на 15.04.2009)

image084

Для главной страницы mk.ru значения:

  • ТиЦ – 15000
  • Google Toolbar PageRank – 5

Таблица 4. Таблица ТиЦ и GPR для блока ссылок с сайта mk.ru (на 15.04.2009)

Сайт ТиЦ Соотношение к ТиЦ донора Google Toolbar Pagerank (GPR) Соотншение к GPR донора*
http://www.eurotest.ru/ 120 0.008 5
http://www.antiagemed.ru/ 10 0.00067 4
http://www.lazerklinika.ru 300 0.02 5
http://www.wilstream.ru/ 150 0.01 4
http://www.klimatdostavka.ru/ 375 0.025 5
http://www.fxpro.ru/ 275 0.018 6
http://www.botrans.ru 70 0.0047 5
http://www.nwbroker.ru 400 0.027 5
http://www.gerina.ru 30 0.002 4
http://g01.ru/ 350 0.023 3
Среднее значение 208 0.014 4.6 0.92

Среднее значение соотношения ТиЦ сайта доноров и сайтов реципиентов таково, что даже без наличия других факторов – все ссылки в блоке можно считать неестественными.

Пример: Рассмотрим значения ТиЦ и GPR для блока ссылок размещённого на основной странице сайта chelpress.ru

Рисунок 43. Блок ссылок на сайте chelpress.ru (на 15.04.2009)

image086

Для главной страницы chelpress.ru значения:

  • ТиЦ – 650
  • Google Toolbar PageRank – 5

Таблица 5. Таблица ТиЦ и GPR для блока ссылок с сайта chelpress.ru (на 15.04.2009)

Сайт ТиЦ Соотношение к ТиЦ донора Google Toolbar Pagerank (GPR) Соотншение к GPR донора*
http://www.74.ru/ 800 6
http://74mail.ru/ 210 5
http://www.aloepole.ru 210 4
http://www.chelmedia.ru/ 40 4
http://www.miass.ru/news/smi.php 950 6
http://www.apress.ru/publ/pok 800 5
http://www.diligance.ru/ 400 5
http://www.uralved.ru/ 60 0
http://www.segodnya.ru/ 950 5
http://www.mn.ru/ 3200 ?
http://www.izvestia.ru/ 17000 8
http://www.kp.ru/ 21000 4
http://www.commersant.ru/ (опечатка) - - - -
http://www.aif.ru/ 8600 7
http://www.ropnet.ru/ogonyok/ 2100 6
http://www.russ.ru/ 7900 7
http://www.pravda.ru/ 11000 7
http://www.gazeta.ru/ 22000 8
http://www.lenta.ru/ 22000 7
http://www.vesti.ru/ 15000 8
Среднее значение 7064 10.87 5.36 1.07

В блоке ссылок на chelpress.ru реципиентами являются ресурсы большая часть которых гораздо лучше продвинута в поисковых системах и имеют там большие рейтинги. При том что ряд ссылок могут требовать дополнительного внимания тем не менее общий рейтинг ссылочного блока позволяет отнести его скорее к блоку естественных ссылок чем к блоку ссылок продвигающих.

[E-002-003]. Посещаемость сайта-донора выше посещаемости сайта реципиента.

В случаях когда метрики поисковых систем такие как ТиЦ или PageRank недоступны одним из критериев сравнения “продвинутости” сайтов могут быть значения определяющие число посетителей сайта донора и сайта реципиента. Посещаемость может быть замеряна посредством одного из публично доступных счетчиков или с использованием API сервиса Alexa.com

Подобный анализ полезен в случаях недоступности метрик поисковых систем таких как ТиЦ или GPR, поскольку сами поисковые системы ограничивают к подобным метрикам доступ или же предоставляют их значения очень загрублёнными.

Пример: Если мы рассмотрим блок внешних ссылок с сайта zavtra.ru и для каждой внешней ссылки получим её Traffic Rank из системы Alexa, то мы можем увидеть что практически все сайты по этим ссылкам обладают в десятки раз меньшим трафиком чем сайт донор. Это позволяет нам отнести весь блок ссылок к неестественным, особенно при наличии дополнительных факторов это подтверждающих.

Для сайта zavtra.ru Alexa Traffic Rank – 67 075:

Таблица 6. Таблица Traffic Rank от alexa.com для блока ссылок с сайта zavtra.ru (на 15.04.2009)

Сайт Alexa Traffic Rank Соотношение к Traffic Rank донора
http://www.hd-leasing.ru/ 1 292 771 0.052
http://www.the-roof.ru/ 1 305 513 0.051
http://www.autoglass-market.ru/ 1 696 379 0.039
http://www.facing-materials.ru/ 3 639 534 0.018
http://www.hyundai-auto.ru/ 3 022 322 0.022
http://www.cafematika.ru/ 6 260 203 0.011
http://www.light-flight.ru/ 169 400 0.396
http://www.balcon-master.ru/ 1 638 563 0.041
http://www.yudashkin-show.ru/ 5 479 625 0.012
http://www.gonetc.ru/ 698 869 0.096
http://www.target-m.ru/ 1 735 199 0.039
http://www.tech-perewod.ru/ 3 534 925 0.019
http://www.top-print.ru/ 1 841 017 0.036
http://www.deshevle.ru/ 128 487 0.522
http://www.santechnikaopt.ru/catalog_11.html/ 4 577 948 0.015
Среднее значение 2 468 050.3 0.027

[E-004-001].  Ссылка не указывает на HTML страницу.

Это правило основывается на том что SEO ссылки продвигают не какой-либо конкретный текстовый документ, музыкальный файл и архивный документ, а веб-сайт на который они указывают и наличие ссылки не на HTML страницу, а на документы обладающие другим форматом MIME является признаком естественности ссылки.

Это правило не абсолютно, поскольку уже сейчас поисковые системы умеют индексировать PDF документы и документы MS Office в которых также присутствуют ссылки, а также вполне возможно что в скором времени они научаться индексировать архивы, метаданные музыкальных файлов и файлов в прочих форматах, извлекая из них ссылки на другие веб-ресурсы и включая в свои алгоритмы расчёта индексов цитирования. Тем не менее это правило в дополнении с другими позволит отсеять значительное число ссылок не являющихся SEO ссылками.

[E-004-001].  Совпадение тем сайтов донора и реципиента.

Совпадение или несовпадение тем сайтов донора и реципиента – это один из, но не ключевой или решающий, признак естественности появления ссылки на ресурсе. Конечно, часто СЕО специалисты стараются размещать ссылки на тематически близких ресурсах, но чаще всего ссылки размещаются не только на тематических, но и на любых сайтах имеющих высокие ранги в поисковых системах.

Определение тематики сайтов – это отдельная и большая задача которая может решаться как вручную так и автоматически. В данном случае, при рассмотрении сайтов мы будем исходить из 2-х уровневой рубрикации

Пример: На сайте частной школы 1ABC (www.1abc.ru) присутствует блок ссылок на различные внешние ресурсы.

Рисунок 44. Блоки ссылок на сайте 1abc.ru (на 15.04.2009)

image088

Таблица 7. Соответствие тем внешних ресурсов сайту Pogoda.by

Сайт Тема Совпадение с темой сайта донора
http://www.gymnasia8.kz Образование::Школы Да
http://www.eurosuvenir.ru/index.php?categoryID=85 Товары::Сувениры Нет
http://www.santehnica.ru/ Товары::Сантехника Нет
http://www.povary.ru Кулинария Нет

Лишь одна из этих ссылок соответствует теме сайта, все остальные не соответствуют полностью.

Пример: На сайте частной школы Республиканского гидрометеоцентра Белоруси (www.pogoda.by) присутствует блок ссылок на различные внешние ресурсы.

Рисунок 45. Блоки ссылок на сайте pogoda.by (на 15.04.2009)

image090

Таблица 8. Соответствие тем внешних ресурсов сайту Pogoda.by

Сайт Тема Совпадение с темой сайта донора
http://www.lapka.com.ua/ Товары::Швейные машины Нет
http://www.forextrade.ru Финансы::Форекс Нет
http://www.kvartservis.ru Услуги::Аренда квартир Нет
http://www.diplomer.ru/ Услуги::Написание дипломов Нет

Ни одна из ссылок не соответствует теме сайта донора.

[E-004-002].  Смысловое расстояние между темами сайтов донора и реципиента.

Помимо совпадения и несовпадения тем сайтов существует ещё и такое понятие как “смысловое расстояние” которое является метрикой определения доли аудитории интересующейся одновременно темами сайта донора и сайта реципиента. Чем меньше доля этой аудитории, тем смысловое расстояние между двумя этими сайтами выше и тем нелогичнее наличие ссылки у одного сайта на другой.

[E-004-003].  Тематическая плотность ссылок в блоке внешних ссылок.

пока не завершено

[E-005-001].  Наличие у ссылки метрики отношения между сайтами донора и реципиента.

пока не завершено

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
АнтиСЕО. Правила S. Происхождение и направление ссылки
20 октября 09 01:50

[S-001-001]. Наличие сайта реципиента в списке доверенных доменов.

Это провило требует проверки домена сайта реципиента на то что он входит в список доверенных доменов. Список доверенных доменов включает наиболее популярные и некоммерческие домены в сети которым поисковая оптимизация не может потребоваться в принципе.

Так, например, в список доверенных доменов входят все государственные домены, домены крупнейших онлайновых проектов, доменты некоммерческих организаций и некоммерческих онлайн проектов.

Пример: На сайте города Рязани присутствует ссылка на сайт администрации города. В виду того что сайт администрации – это государственный сайт, мы можем хранить его в списке доверенных сайтов и не рассматривать как ссылку нацеленную на продвижение.

Рисунок 7. Ссылка на сайт администрации города Рязани в коде страницы www.gorod.ryazan.ru/gov.html

image014

К подбору доменов в доверенном списке всегда необходимо подходить к особенной тщательностью поскольку нельзя, хотя это и даёт почти 100% вероятность доверия к ресурсу, но бывают ситуации когда домены оказываются запаркованными, взламываются или меняют владельцев. В результате доверенный сайт может перестать быть таковым.

Пример: До 2007 года официальный сайт Конституционного суда располагался по адресу ks.rfnet.ru, позже адрес сайта сменился на www.ksrf.ru , но очень многие государственные сайты ссылки на него не обновили. В свою очередь домен rfnet.ru был приобретён неким Артемом Гусковым и теперь по адресу ks.rfnet.ru по прежнему есть описание функций конституционного суда которому сопуствуют множество ссылок на коммерческие ресурсы.

Рисунок 8: Ссылка на старый сайт Конституционного суда РФ на сайте законодательного собрания Ульяновской области (http://www.zsuo.region73.ru/links/)

image016

Рисунок 9: Ссылки на коммерческие ресурсы в нижней части главной страницы сайта (http://ks.rfnet.ru)

image018

[S-001-002]. Наличие сайта реципиента в черном списке.

Это правило проверяет нахождение веб сайта в черном списке доменов на которые в недавнем времени приобретались платные ссылки. Как правило черный список поддерживается в течении ограниченного времени и позволяет выявить сайты активно начавшие себя продвигать покупая ссылки на множестве сайтов.

Пример: Во время одного из исследований на многих сайтах явно проявилось что размещается ссылка на сайт zamarenda.ru. Учитывая, что ссылки по всем критериям подходят под определение SEO ссылок, то сайт может быть как в ручную так и автоматически помещён в “чёрный список”.

Рисунок 10. Ссылка в конце страницы http://astronet.ru/ (на 15.04.2009)

image020

Рисунок 11. Ссылка в конце страницы http://cfin.ru/ (на 15.04.2009)

image022

Рисунок 12. Ссылка на странице http://eprussia.ru/ (на 15.04.2009)

image024

Это правило, фактически, является фильтром аналогично временному отказу от ранжирования или созданию “песочницы” для определённого списка сайтов. На сайт накладывается фильтр который

[S-002-001]. Сайт-донор и сайт-реципиент имеют общего владельца.

Эта метрика может определятся несколькими различными способами – по данным WHOIS, за счёт информации собранной вручную, за специализированного анализа веб-сайтов на предмет копирайтов, нахождение на одном домене 2-го уровня, нахождение на одном IP адресе и так далее. Эта метрика используется как довод в сторону того что ссылка является естественной, но не гарантирует этого поскольку владелец ресурсов может использовать один из них для “прокачки другого”, в том числе и за счёт специального рода ссылок. С другой стороны – такие ссылки

Пример: На сайтах roiber.ru и calend.ru присутствуют ссылки друг на друга и могут содержать ключевые слова которые могут быть рассмотрены в других правилах анализа как “продвигающие сайт”, при этом проверка сайтов по WHOIS показывает что оба сайта принадлежат одному владельцу – юридической организации.

Рисунок 13. Данные whois домена roiber.ru

image026

Рисунок 14. Данные whois домена calend.ru

image028

Тот факт, что два сайта принадлежат одному владельцу, вовсе не показатель что один сайт не продвигается на другом, тем не менее это правило срабатывает скорее в сторону доверия сайту проставляющему ссылку.

[S-003-001]. Ссылка указывает на корневую страницу сайта.

На практике это правило может и должно компенсироваться правилом по определению коммерциализированности сайта реципиента, но поскольку коммерциализацию ресурса можно определить не всегда, то это правило является вспомогательным, поскольку по результатам анализа множества продвигаемых ссылок подавляющее их число – являются ссылками на корневые страницы сайтов.

Это правило обладает минимальным весом и учитывается только в спорных ситуациях или не учитываются вовсе.

[S-003-002]. Ссылка находится в блоке ссылок указывающих на главные страницы сайтов.

Когда ссылка рассматривается не в одиночку, но в рамках блока ссылок, то тот факт что в блоке присутствует множество ссылок на корневые страницы сайтов, определяет некий общий рейтинг подобного блока.

Рисунок 15. Код блока ссылок страницы сайта deti-mira.ru (на 15.04.2009)

image030

Таблица 1. Таблица ссылок на сайте deti-mira.ru

Сайт Указывает на корневую страницу?
http://www.pitanie-detskoe.ru/ Да
http://www.elfox.net/ Да
http://www.po-stroy.ru/ Да
http://www.bridgewest.ru/ Да
http://danilka.com Да
http://hebelblok.ru Да
http://www.anyreligiousjewelry.com/ Да

Все ссылки в этом блоке указывают на корневые страницы. При наличии других признаков продвигаемости у отдельных ссылок и у всего блока – этот признак может рассматриваться как повышающий вероятность неестественности ссылок в этом блоке.

Применения этого правила в общем случае не позволяет делать однозначных выводов и сильно зависят от типа сайта донора и классификации сайтов реципиентов. Тем не менее это один из признаков неестественности не только отдельной ссылки, но и их блока целиком.

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
АнтиСЕО. Правила T. Анализ текста ссылки и страницы
19 октября 09 11:34

Продолжаю тему антисео, на сей раз правила из группы T – анализ текста ссылки.

Напомню что “правила – отдельно, алгоритмы – отдельно”. Я пишу о правилах, а не о том как их закодировать и проверить автоматически.

[T-001-001]. Отравление однокоренными словами.

При продвижении сайтов по платным ссылкам зачастую в тексте одной ссылки могут присутствовать более одного однокоренного слова. Подобное крайне редко присутствует для естественных ссылок. Отсюда, данное правило позволяет определить насколько ссылка отравлена однокоренными словами.

Пример:

Рисунок 25. Дублирование слова “перевод”

image050

[T-001-002]. Отравление словами общей смысловой группы.

Для каждой из продвигаемых специалистами по SEO тем есть ограниченный набор слов в рамках которых проходит это продвижение. Во многих случаях SEO специалисты перегружают текст ссылки словами для продвижения настолько что текст становится слабовоспринимаемым живым человеком. 

Это правило оценивает “уровень тошноты” ссылки, то сколь много её текст содержит слов из подобных смысловых групп.

Пример: В тексте ссылке на странице www.annews.ru присутствует одновременно несколько ключевых слов общей смысловой группы – это “страхование”, “автомобиля”, “каско”. Подобная плотность ключевых слов – это один из признаков, что текст ссылки составлен грамматически неверно и ссылка не является естественной.

Рисунок 26. Ссылка с сайта www.annews.ru (на 15.04.2009)

image052

[T-001-003]. У ссылки отсутствует текст.

Отсутствие текста у ссылки – это одно из базовых правил позволяющих отделить ссылки привязанные к изображениям или иным объектам на веб странице от ссылок содержащих текст. Отсутствие текста у ссылки является одним из показателей что по ней не производится поискового продвижения так как оно предусматривает. Подобные ссылки встречаются повсеместно при использовании баннеров.

Пример: На сайте zavtra.ru в конце страницы присутствует ряд баннеров к которым привязаны ссылки при этом отсутствует текст к этим ссылкам привязанный – это позволяет отнести эти ссылки к естественным, так как их цель привлечение аудитории к ссылкам посредством изображения, а не для продвижения в поисковой системе.

Рисунок 27. Баннеры в конце страницы сайта zavtra.ru (на 15.04.2009)

image054

Рисунок 28. Код баннеров на сайте zavtra.ru

image056

[T-002-001]. Текст ссылки идентичен ссылке.

Один из признаков что ссылка не является продвигаемой, а естественной – это когда её текст полностью соответствует её значению поскольку в этом случае отсутствует текст по которому ссылка могла бы быть продвинута.

Пример: На странице gorod.ryazan.ru/gov.html  присутствует ссылка на сайт администрации города, при этом текст ссылки полностью соответствует адресату. Отсюда можно быть уверенными в том что текст не содержит продвижения сайта реципиента поскольку ключевых слов в нём нет.

Рисунок 29. Ссылка на сайт администрации города на сайте gorod.ryazan.ru

image058

[T-002-002]. Текст ссылки идентичен домену ссылки.

Для естественных ссылок характерно что иногда они могут указываться с текстом включающим только домен сайта. Это правило позволяет  рассматривать данную ссылку как естественную.

Пример: На сайте Россельхознадзора www.fsvps.ru ссылка на сайт Министерства сельского хозяйства приведена с текстом включающим только домен этой ссылки. Это, помимо других правил, позволяет определить данную ссылку как естественную.

Рисунок 30. Ссылка на сайт министерства  сельского хозяйства на сайте Росссельхознадзора

image060

[T-002-003]. Текст ссылки идентичен части ссылки.

Для естественных ссылок характерно что иногда они могут указываться с текстом включающим только домен сайта и описание до домена 2-го уровня. Это правило позволяет  рассматривать данную ссылку как естественную.

Пример: На сайте Россельхознадзора присутствуют ссылки на коммерческие компании при этом текст ссылки содержит указание на главную страницу, а адресатом ссылки является внутренняя страница. Это, помимо других правил, позволяет определить данную ссылку как естественную.

Рисунок 31. Текст ссылки на сайте Россельхознадзора

image062

Рисунок 32. Текст ссылки в коде страницы сайта Россельхознадзора

image064

[T-002-004]. Транслитерированный текст ссылки идентичен части ссылки

Это правило имеет природу исключительно связанную с Рунетом и заключается в том что часто именно естественные ссылки описывают как транслитерированный на русский текст. Например, “Известия.Ру” или “Яндекс.Ру”. В обоих случаях ссылки с этим текстам идут на английском языке и если можно провести соответствие между русским текстом и частью ссылки, то ссылка может рассматриваться как естественная.

Пример: на сайте nissankniga.ru присутствует ссылка на сайт avtoliteratural.ru написанное транслиретрируемым текстом. Это не позволяет однозначно сказать что в тексте ссылки нет продвигаемых слов, но понижает вероятность что ссылка не является естественной.

Рисунок 33. Ссылка на сайте nissankniga.ru

image066

Рисунок 34. Ссылка в коде сайта nissankniga.ru

image068

[T-003-001]. Текст ссылки содержит слова из чёрного списка.

Для некоторых ключевых слов их коммерциализированность такова что любая ссылка не отмеченная как естественная и их содержащая может рассматриваться как платная. Для таких случаев ведётся база подобных слов и отслеживается их использование.

Пример: В блоке ссылок на сайте medlinks.ru присутствует ссылка на внешний сайт rosdiplom.ru с текстом “Заказ рефератов”. Текст заказ рефератов, опробованном против сайта алгоритме находится в “черном списке”, а то есть при отсутствии правил способных отнести эту ссылку к естественным – она, автоматически, рассматривается как продвигающая.

Рисунок 35. Блок ссылок с сайта medlinks.ru (на 15.04.2009)

image070

[T-003-002]. Текст ссылки содержит слова из белого списка.

Для ряда ключевых слов можно на 100% заключить о том что ссылка содержащая их платной быть не может. Это правило позволяет проверить соответствие ссылки базе этих слов и является доводом в пользу естественности ссылки.

Примечание: Это правило нечто вроде “артефакта” само по себе оно не работает, а только в сочетании с анализом сайта реципиента.

[T-003-003]. Текст обрамляющий ссылку подпадает под типовые шаблоны продвижения.

Для ряда ключевых слов можно на 100% заключить о том что ссылка содержащая их платной быть не может. Это правило позволяет проверить соответствие ссылки некоммерческой направленности этих слов и является доводом в пользу естественности ссылки.

Пример: Многие блоги содержат ссылку на сайт Wordpress и соответствующий текст “wordpress” или же к этому тексту добавлена ещё и версия Wordpress’а.

Рисунок 36. Ссылка с ключевым словом Wordpress на сайте webphp.ru

image072

Примечание: Это правило также является артефактом. Оно требует за собой некого алгоритма анализа “безвредности” ключевых слов и обязательной проверки сайта реципиента. В отличии от правила T-003-002 нет четкого перечня “белых слов”, а вместо этого присутствуют правила которые могут быть регулярными выражениями.

[T-003-003]. Ссылка установлена на ключевые слова при наличии в тексте вне ссылки, рядом, её пути.

Под это правило подпадают те сайты которые пытаются представить продвигающие ссылки в некой форме, не вызывающей отторжения у посетителей. В этом случае присутствует текст описывающий ресурс, но ссылка размещается в этом тексте не на адреса сайта, который в тексте есть, а на ключевых словах. Подобная избирательность в простановке ссылок позволяет относить такие ссылки как продвигающие, особенно при наличии дополнительных признаков.

Пример: В блоке ссылок на сайте calend.ru присутствуют ссылки

Рисунок 37. Блок ссылок с сайта calend.ru (на 15.04.2009)

image074

[T-003-005]. Высокая плотность перечислений в тексте ссылки.

Одна из особенностей SEO ссылок в том что в погоне за плотностью ключевых слов очень часто оптимизаторы игнорируют правила русского языка и текст ссылки выглядит неестественно. Одним из признаков неестественности текста – это большое число односложных и/или двух сложных перечислений.

Пример: Как пример, ссылка на сайте mk.ru содержит текст “морские перевозки, контейнерные перевозки, железнодорожные перевозки, ж.д перевозки, негабаритные перевозки” суммарно там присутствует перечисление из 5 двухсложных словосочетаний. Вместе с повторямостью текста и ряду других признаков – это значительно повышает вероятность того что данная ссылка естественной не является.

Рисунок 38. Ссылка с перечислениями с сайта mk.ru (на 15.04.2009)

image076

Рисунок 39. Код со ссылкой с перечислениями в коде сайта mk.ru (на 15.04.2009)

image078

Все заметки на тему антисео можно прочитать по ссылке – http://ivan.begtin.name/category/антисео/

P.S. Почему то в основном блоге при публикации слетает форматирование так что можно просмотреть тот же пост в ЖЖ в нормальном виде по ссылке – http://ivbeg.livejournal.com/237116.html

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
АнтиСЕО. Правила L. Анализ структуры веб-страницы
18 октября 09 05:52

Итак, начинаю публиковать непосредственно правила выявления ссылок. Все их и начальный пост можно будет прочитать по ссылке http://ivan.begtin.name/category/антисео/

Напомню что:

  • все правила хотя и проверялись, но предоставляются как сугубое ИМХО.
  • то о чем я пишу – это так называемый “контентный анализ” страниц и ссылок. У крупных поисковиков есть более действенные способы выявления спама, с другой стороны эти правила могут применятся даже при отсутствии их инфраструктуры и накопленных данных.

[L-001-001].  Значения атрибутов id и class ссылки в черном списке.

Не все, но многие вебмастера при размещении платных ссылок добавляют их тэгам “a” или тэгам их блоков атрибуты вроде adv, advertizement, reklama, seo, seobot и так далее. Выявление подобных атрибутов при анализе веб страницы позволяет предполагать что ссылки под ними являются платными, особенно если есть и другие признаки на это указывающие.

Пример: При просмотре кода главной страницы сайта Алекса Экслера можно обнаружить что группа внешних ссылок собрана под тэгом с атрибутом class в значении seobot. Это является признаком к тому что все ссылки в данном блоке попадают под подозрение в их неестественности.

Рисунок 16. Блок ссылок на сайте Алекса Экслера (на 15.04.2009)

image031

Пример: На сайте www.mk.ru в конце страницы собран блок ссылок если взглянуть на который в исходном коде страницы видно что блок является рекламным, а ссылки высокую вероятность что они неественны.

Рисунок 17. Блок ссылок на сайте mk.ru (на 15.04.2009)

image033

[L-001-002].  Встречаемость ссылки более N раз на веб страницы.

При размещении платных ссылок большинство веб-мастеров предпочитают их не показывать, но скрывать множеством возможных способов. При этом если внешняя ссылка на странице встречается более некого числа фиксированного числа раз, то можно предполагать что она является естественной так как не заметить её сложнее. Многократная повторяемость ссылки на одной странице является признаком что она может быть естественной.

[L-001-003].  Размер блока внешних ссылок.

Ссылки на веб-страницах могут быть одиночными, но чаще они группируются по различными принципам. Например, ссылки на счётчики в конце страницы или ссылки меню навигации. Вполне возможно определить является ли рассматриваемая нами ссылка часть блока или нет.

При поисковой оптимизации особенно часто используется размещение ссылок группами и это один из критериев для определения того является ли внешняя ссылка платной или нет.

Пример: На сайте газеты Завтра (www.zavtra.ru) в конце страницы присутствует блок из 15 внешних ссылок что, вместе с другими признаками,  резко повышает вероятность что эти ссылки не являются естественными.

Рисунок 18. Блок ссылок на сайте zavtra.ru (на 15.04.2009)

image035

Рисунок 19. Код блока ссылок на сайте zavtra.ru на 15.04.2009

image037

[L-002-001].  Местораcположение ссылки в конце страницы.

Ссылки на веб странице могут быть расположены в различных её частях. Поскольку именно расположение ссылки и используется для её сокрытия от пользователей, но сохранение для поисковых систем, то может использоваться ряд проверок позволяющих определить видимость ссылки людям. 

Простейшими проверками тут будут:

- наличие ссылки в последних 5% веб страницы;

- наличие ссылки внутри тэгов со значениями у атрибутов id и class в виде “footer” или 

“end”.

Пример: На сайте astronet в последних 5% страницы присутствует блок из большого числа внешних ссылок.

Рисунок 20. Блок ссылок на сайте astronet.ru (на 15.04.2009)

image039

[L-002-002].  Местораcположение ссылки по отношению к рекламным блокам.

В случае если ссылка расположена недалеко или внутри блоков отмеченных как рекламные словами “Advertizement”, “Advert”, “Реклама”, “Спонсоры” и так далее, то это повышает вероятность что они размещены для целей SEO, но не для посетителей сайта.

Рисунок 21. Блок ссылок на сайте worldweapon.ru (на 15.04.2009)

image041

[L-003-001].  Превышение критической массы окружающих SEO ссылок.

В процессе проверки веб страницы на наличие платных ссылок, ряд правил позволяет определить ссылки как платные даже без учёта других критериев. Отсюда проверка ссылок может происходить в несколько итераций с уточнением результатов.

Это правило используется в случае наличия второй итерации и оно проверяет не была ли рассматриваемая ссылка помечена как естественная и не окружают ли её ссылки отмеченные как платные.

[L-003-002].  Использование средств сокрытия внешнего вида ссылок.

Поскольку платные ссылки, в отличии от естественных, не предназначены для того чтобы по ним перемещались посетители сайта, и более того зачастую сайты сознательно их скрывают от пользователей для поддержания своей репутации, то тот факт то отдельные ссылки выбиваются из общего стиля страницы и сливаются с текстом или же написаны слишком мелким текстом – это признаки то ссылки естественными не являются.

Рисунок 22. Ссылки на странице dvinainform.ru (на 15.04.2009)

image043

Рисунок 23. Код ссылок на сайте dvinainform.ru (на 15.04.2009)

image045

[L-004-001].  Наличие специальных рекламных меток.

В некоторых случаях размещения ссылочных блоков, сервисы посредством которых это размещение проводится оставляют свои метки для отслеживания статистики.

Например, у некоторых блоков неестественных ссылок присутствует метка в виде ссылки на www.linksplace.ru/p/1.gif

Рисунок 24. Размещение блока ссылок с меткой linksplace

image045

[L-004-002].  Соответствие блока ссылок типовым шаблонам блоков SEO ссылок

У блоков SEO ссылок есть целый ряд особенностей на основе которых можно выделить паттерны их размещения. Например, к ним можно отнести такие признаки как:

- широкий разброс тем между сайтами реципиентами

- от 80 до 100% сайтов реципиентов являются коммерческими

- наличие текста до и после ссылки при наложении ссылки на слова наиболее релевантные теме сайта.

Например, паттерн в виде <text><ссылка с ключевым текстом></текст> при его повторении более 3-х раз может рассматриваться как подозрительный.

В случае выявления блоков ссылок, то классифицируется уже не только сама ссылка, но и блок целиком

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:
АнтиСЕО. Правила анализа и выявления
17 октября 09 02:40

Несмотря на то что про АнтиСЕО я давно не писал, тему я не забыл, лишь куда меньше осталось времени на написание озвученной мною книги. Тема интересная, но утомительная, а главное что проверять правила сложно, поскольку представители поисковиков формальных критериев отличия SEO ссылок от не-SEO ссылок никогда не назовут, так как полное формальное определение раскроет их алгоритмы отсева.

Соответственно большую часть материалов я решил публиковать у себя в блоге, далее посты пойдут под рубрикой антисео, а сейчас приведу перечень правил с их группировкой по принципам анализа. Каждое правило я буду расписывать подробнее в последующих постах, если по каким-либо из них будет желание прочитать больше информации в первую очередь – пишите какие именно интересуют, с них и начну.

Добавлю к написанному то что:

  • все правила  идут под статусом ИМХО. Это не руководство к действию, а гипотезы, предположения и кулинарная книга.
  • текущая классификация правил неидеальна, но лучше пока нет.
  • правила не конвертируются в метрики автоматически. Некоторые могут быть представлены одним, а некоторые до 5 численных показателей.
  • на практике у поисковых систем есть _гораздо_ более эффективные способы  фильтрации поискового спама. Как они их применяют и применяют ли, другой вопрос, но как факт все возможности есть.

5.2. ИНСТРУКЦИИ ПОИСКОВЫМ РОБОТАМ

  • [R-001-001]. Наличие запрета на индексирование веб страницы сайта донора
  • [R-001-002]. Наличие запрета на индексирование веб-страницы сайта донора в тэге META
  • [R-001-003]. Наличие запрета на индексирование участка веб страницы включающего анализируемую ссылку
  • [R-001-004]. Наличие запрета на индексирование какого-либо участка веб страницы
  • [R-001-005]. Наличие запрета на переход поисковой системе в виде “nofollow” для данной ссылки
  • [R-001-006]. Наличие запрета на переход поисковой системе используя атрибут rel=”nofollow” для какой-либо ссылки на странице
  • [R-002-001]. Наличие файла Robots.txt у сайта реципиента
  • [R-002-002]. Наличие инструкций на запрет индексирования на странице сайта реципиента.

5.3. ПРОИСХОЖДЕНИЕ И НАПРАВЛЕНИЕ ССЫЛКИ

  • [S-001-001]. Наличие сайта реципиента в списке доверенных доменов.
  • [S-001-002]. Наличие сайта реципиента в черном списке.
  • [S-002-001]. Сайт-донор и сайт-реципиент имеют общего владельца.
  • [S-003-001]. Ссылка указывает на корневую страницу сайта.
  • [S-003-002]. Ссылка находится в блоке ссылок указывающих на главные страницы сайтов.

5.4. АНАЛИЗ СТРУКТУРЫ ВЕБ-СТРАНИЦЫ

  • [L-001-001]. Значения атрибутов id и class ссылки в черном списке.
  • [L-001-002]. Встречаемость ссылки более N раз на веб странице.
  • [L-001-003]. Размер блока внешних ссылок.
  • [L-002-001]. Местораcположение ссылки в конце страницы.
  • [L-002-002]. Местораcположение ссылки по отношению к рекламным блокам.
  • [L-003-001]. Превышение критической массы окружающих SEO ссылок.
  • [L-003-002]. Использование средств сокрытия внешнего вида ссылок.
  • [L-004-001]. Наличие специальных рекламных меток.
  • [L-004-002]. Соответствие блока ссылок типовым шаблонам блоков SEO ссылок

5.5. АНАЛИЗ ТЕКСТА ССЫЛКИ И СТРАНИЦЫ

  • [T-002-001]. Текст ссылки идентичен ссылке.
  • [T-002-002]. Текст ссылки идентичен домену ссылки.
  • [T-002-003]. Текст ссылки идентичен части ссылки.
  • [T-002-004]. Транслитерированный текст ссылки идентичен части ссылки
  • [T-003-001]. Текст ссылки содержит слова из чёрного списка.
  • [T-003-002]. Текст ссылки содержит слова из белого списка.
  • [T-003-003]. Текст обрамляющий ссылку подпадает под типовые шаблоны продвижения.
  • [T-003-003]. Ссылка установлена на ключевые слова при наличии в тексте вне ссылки, рядом, её пути.
  • [T-003-005]. Высокая плотность перечислений в тексте ссылки.

5.6. АНАЛИЗ МЕТОК ОТНОШЕНИЙ И СТРУКТУРЫ ВЕБ-САЙТОВ

  • [E-001-001]. Является ли сайт реципиент блогом.
  • [E-001-002]. Является ли сайт-реципиент государственным или некоммерческим ресурсом.
  • [E-001-003]. Является ли сайт-реципиент коммерческим ресурсом.
  • [E-002-001]. ТиЦ сайта-донора больше ТиЦ сайта-реципиента.
  • [E-002-002]. Google PageRank сайта-донора больше Google PageRank сайта-реципиента.
  • [E-002-004]. Нахождение ссылки в блоке ссылок с низким ТиЦ/PR по сравнению с анализируемой страницей.
  • [E-002-003]. Посещаемость сайта-донора выше посещаемости сайта реципиента.
  • [E-004-001]. Ссылка не указывает на HTML страницу.
  • [E-004-001]. Совпадение тем сайтов донора и реципиента.
  • [E-004-002]. Смысловое расстояние между темами сайтов донора и реципиента.
  • [E-004-003]. Тематическая плотность ссылок в блоке внешних ссылок.
  • [E-005-001]. Наличие у ссылки метрики отношения между сайтами донора и реципиента.

5.7. АНАЛИЗ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ И СПЕЦИАЛЬНЫЕ ПРОВЕРКИ

  • [B-001-001]. Низкая “кликабельность” ссылки.
  • [B-002-001]. Наличие ссылки на странице блога и отсутствие в RSS ленте

Originally published at Иван Бегтин. You can comment here or there.

Postedfrom Иван Бегтин | 0 Comments    
Filed under:

This Blog

Tags

Archives

Syndication