Razvrstitev algoritmov v iskalnikih

11 Maj 2012 | Avtor: | Ni komentarjev »

Методики продвижения в сети Интернет.

Роль и функции сети Интернет.

В современном мире глобальная сеть Интернет стала своего рода информационной площадкой, на которой участники информационного обмена делятся своими идеями, разработками, предлагают услуги, осуществляют торговлю, формируют виртуальные сообщества. Все эти функции реализуются через Интернет-ресурсы (сайты, web-проекты).

Роль поисковых систем.

В подавляющем большинстве случаев, web-проекты находят свою целевую аудиторию среди пользователей сервиrсов поисковых систем. Но для того, чтобы посетитель нашел сайт через поисковую систему, ссылка на сайт должна находиться как можно выше в списке ссылок на ресурсы, выдаваемом по целевому запросу этого посетителя.

В подавляющем числе случаев, сайт не может собрать необходимую аудиторию только потому, что:

1) Информация о нём не представлена в результатах поиска;
2) Ссылка на сайт стоит на самых последних позициях, которые пользователи, praviloma, не просматривают.

Поисковая оптимизация web-проекта.

Поисковая оптимизация (Search Engine Optimisation SEO) – прикладной аспект теории поиска информации в распределённых сетях. Оптимизация поиска достигается путем учета особенностей алгоритмов поисковых машин (search engines).

Оптимизация сайта выполняется путем изменения как внутренних структур сайта так и характера его «внешних» связей с целью приведения их в соответствие с особенностями алгоритмов поиска.

Поисковая оптимизация web-проекта. Индексация Web-сайта в поисковых системах.

Прежде чем сайт появится в поисковой системе, он должен быть ей проиндексирован.
Индексация означает, что поисковый робот посетил ваш сайт, проанализировал его и занес информацию в базу данных поисковой системы.
Индексация Web-сайта в поисковых системах это процесс ассоциирования отдельных статических страниц web-проекта с ключевыми словами и выражениями и внесение найденных URL базу поисковой системы, в соответствии с этими словами и выражениями.

База поисковой системы состоит из множества адресов (сайтов и их страниц).

Периодически программа-робот поисковой машины обходит сайты по базе адресов для того, чтобы обновить индекс, какие-то страницы выпадают, добавляются новые, обновляются старые, этот процесс называется апдейт.

Важным условием апдейта является наличие ссылки на страницу, то есть поисковый робот может «узнать» о существовании страницы только в том случае, если он сможет идентифицировать её полный url.

В первом случае будет проиндексирована стартовая страница сайта mysite.com, во втором – ссылка на изображение, хранящееся на этом сайте.

Поисковая оптимизация web-проекта. Запрет индексации.

Запрет индексации страниц и разделов сайта это искусственное ограничение доступа роботов к информации, содержащейся на сайте.

Для этого существует несколько путей:

1) Использование правил описанных в файле robots.txt,
2) Применение специализированных дополнительных тегов и свойств языка HTML,
3) Использование «клиентских скриптов»фрагментов, написанных на языках программирования, исполняемые на стороне web-браузера.

Ограничение индексации файлом robots.txt.

Файл robots.txt состоит из списка параметров и директив, запрещающих доступ роботов к страницам сайта.

1) User-agent: Robot1 name (Зарезервированное имя робота, na primer: Googlebot, Yandex)
2) Disallow: / URL (Путь, обозначающий файл или каталог, na primer: /filter )
3) User-agent: Robot2 name
4) Disallow: / URL

В случае конфликта директив для каждого агента применяется первая, указанная в списке.

Запрещающие теги и метатеги.

Примером запрещающих регистрацию тегов HTML является метатег «robots». Но не следует забывать о том, что этот тег, хоть и принятый официально, всё же не воспринимается большинством роботов поисковых систем в полной мере, или роботы чаще всего просто не «обращают на него внимания». Mетатег «robots» служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу.

Атрибут content может содержать следующие значения:

indexговорит роботу, что данную страницу можно индексировать;
noindexиндексация запрещена;
followробот может посещать страницы, ссылки на которые находятся на текущей странице;
nofollowроботу запрещено переходить по ссылкам на текущей странице.

Примеры параметров name для отдельных поисковых систем.

Инструкция для поисковой системы “ßíäĺęń”. Это конкретизированный вариант метатега «robots».

Запрещает поисковой системе MSN индексировать содержание страницы и переходить по ссылкам.

Для управления процессом индексации фрагментов страниц сайта Yandex ввёл специализированный тег – контейнер Всё содержимое контейнера не будет проиндексировано роботами- индексаторами. Важно помнить что тег «NOINDEX» идентифицируется только роботами поисковой системы Yandex. Другие роботы этот тег игнорируют.

Базовым ограничением индексации в Google является атрибут «nofollow». Этот атрибут запрещает роботам поисковой системы переходить по указанной ссылке, na primer:

В примере роботу запрещено переходить по ссылке http://www.example.com.

Существует так же ряд специфических метатегов Google.

Запрещает поисковой системе Google выдавать «сниппет» в результатах поискаЗапрещает поисковой системе Google выдавать «сниппет» в результатах поиска.

Позволит скрыть ссылку на сохранённую в базе данных поисковой машины ранее копию веб-страницыПозволит скрыть ссылку на сохранённую в базе данных поисковой машины ранее копию веб-страницы. Это удобно при параллельном продвижении страницы в нескольких поисковых системах одновременно. Этот тег предотвратит появление ряда автоматических «зеркал» (внешних копий страниц сайта).

Этот метатег говорит нам о том, что поисковый робот Google с именем Googlebot получил информацию о том, что страница должна быть удалена из индекса поисковой системы 26 августа 2008 года в 16:48.

СВОЙСТВА КОНТЕЙНЕРОВ И ИХ ВЛИЯНИЕ НА ИНДЕКСАЦИЮ РАЗДЕЛОВ WEB-СТРАНИЦ.

Для индексации значение имеет только «видимый» роботам текст. Видимость текста могут ухудшить некоторые теги, na primer “Script“. Так как скрипты не индексируются роботами поисковых систем, то в случае сбоя при прочтении содержания страницы (такая ситуация периодически возникает), робот не обнаруживает закрывающий тег контейнера, в результате чего, всё что располагается после скрипта в документе не будет проиндексировано.

Следует помнить, что робот присутствует на сайте ограниченное время, и если страница не была загружена за выделенный промежуток времени, робот её покинет и не проиндексирует. При посещении страницы роботы отключают загрузку графики, анимации, скриптов, однако считывают информацию о стилях и форматировании текста.

На время загрузки оказывают влияние свойства контейнеров (стили CSS), поэтому таблицу стилей CSS рекомендуется выносить в отдельный файл, чтобы при каждом переходе по ссылке, роботу не приходилось многократно считывать информацию об одних и тех же стилях.

Поисковая оптимизация web-проекта. Инструменты управления индексацией.

В инструментарии вебмастера, оптимизирующего свой сайт для индексации в ИПС Google есть и так называемая «карта сайта» (sitemap, документ в формате XML, предоставляющий информацию о страницах сайта и распоряжения для роботов о периодичности их индексации).

Алгоритмы ранжирования поисковых систем.

Все поисковые системы выстраивают порядок вывода результатов поиска по поисковым словам и выражениям в соответствии с рангами статических страниц сайтов. Универсальные принципы и алгоритмы ранжирования базируются на двух основных понятиях – полноте представления информации на страницах, выводимых поисковой системой по тому или иному запросу (список выводимых по поисковому запросу ссылок называется «выдача») и их авторитетности (цитируемости).

Полнота представления информации говорит о том, на сколько подробно раскрыто тематическое содержание на страницах сайта. Этот параметр оказывает наибольшее влияние на положение страниц сайта в тематических разделах поисковых систем. Этот параметр также называется «релевантностью» сайта тематическому разделу.

Авторитетность (цитируемость) указывает на то, что информация представленная на сайте признаётся другими сайтами в распределённой сети, то есть на страницы данного сайта ссылаются из внешних сайтов.

Ранжирование в поисковых системах базируется на двух факторах (факторах SEO):
1) Внутренний – полнота представления информации;
2) Внешний – авторитетность (цитируемость).

Алгоритмы ранжирования поисковых систем. Внутренний фактор SEO.

Внутренний фактор SEO определяется структурой семантического ядра сайта. Чем правильнее распределение взаимных ссылок и контента (текстового содержания) статических страниц по тематическим и родственным кластерам, тем выше в результатах поиска будут отображаться ссылки на страницы сайта, при прочих равных условиях.

Кластеризация применяется поисковыми системами для фокусировки запроса. В ответ на свой запрос пользователь получает список словосочетаний, образованных ядерной лексемой. Перечень типичных запросов пользователей, хранящийся в базе данных поисковой системы, включающих в себя ядро лексемы называется «тематическим кластером» (или тематическим разделом).

Пример формирования ядерных лексем по запросам пользователя:
1) Запрос – Ремонт (ядро лексемы)
2) Лексемы – ремонт автомобиля, ремонт квартиры и т.д.

Выбирая то или иное словосочетание, пользователь из-за контекстной связи слов в словосочетании уменьшает лексическую многозначность ядерного слова, тем самым ограничивая область поиска (конкретизирует поиск).

Возможны ситуации, когда одна и та же поисковая фраза находится сразу в нескольких тематических кластерах. Это означает, что несколько слов в её составе могут быть ядрами лексемы. То есть, при смещении значимости слова (ядра лексемы) внутри словосочетания, это словосочетание (или поисковая фраза) будет относиться к другому тематическому кластеру.

Кластеры, содержащие одинаковые поисковые фразы называются «родственными», а принципы определения релевантности текста сайта ряду тематик, путём смещения ядра лексемы и формирования выражений, содержащих запросы из «родственных» тематических кластеров называется «морфологией ядерных лексем».

МОРФОЛОГИЯ ЯДЕРНЫХ ЛЕКСЕМ

Этот принцип применяется при разработки структуры связей между страницами сайта.

Уровень релевантности сайта зависит от структуры его ядра (под ядром сайта понимают структурированную совокупность статических страниц и документов проекта, а так же всех связей между ними), информационного наполнения (контента – от англ. слова content, обозначающего содержание) и семантических приёмов использованных при оптимизации web-cсайта .

Семантические приемы оптимизации сайта базируются на применении принципов морфологии ядерных лексем при формировании внутренних связей (линковке – от англ. слова link, обозначающего связь).

Семантическим ядром web-проекта называют структурированную совокупность статических страниц и документов проекта, с указанием их параметров, а так же всех гиперсвязей между ними.

Алгоритмы ранжирования поисковых систем. Внешний фактор SEO.

Внешний фактор SEO базируется на совокупном нормализованном весе ссылок на страницу сайта по ключевым словам и выражениям (словосочетаниям) с других сайтов (доменов). Такие ссылки называются внешними.

Ссылаясь на любую статическую страницу сайта, расположенную на стороннем домене, сайт передаёт часть своего веса этой странице, при этом такой сайт называется донором.

Сайт-донор подтверждает авторитетность источника, на который ссылается, в предметной области, определяемой рядом слов и словосочетаний.

Слова и словосочетания подбираются из содержащего ссылку фрагмента текста. Для определения релевантности ссылки используется принцип нормализации.

Алгоритмы ранжирования поисковых систем. Внутренний фактор SEO.

Нормализация это процесс приведения показателей совокупного веса внешних ссылок в соответствие с требованиями критерия определения удельного веса ссылки по каждому из возможных словосочетаний. Словосочетания наследуются из слов, приведённых в фрагменте текста сайта-донора, содержащем ссылки на продвигаемый сайт.
В дальнейшем такие словосочетания будем называть поисковыми.

Алгоритмы ранжирования поисковых систем. Внешний фактор SEO.

Передаваемый сайтом-донором вес напрямую зависит от авторитетности (веса) самого сайта-донора. Он вычисляется по ряду показателей:
вес и релевантность самого сайта;
вес и релевантность страницы, содержащей ссылку.

Эти показатели определяются как внешним, так и внутренним факторами SEO, например, справедливы следующие цепочки взаимосвязей:
поисковые слова и выражения стоят в теге keywords стартовой страницы index.html домена сайта-донора → домен сайта-донора релевантен тематическому кластеру содержащему поисковые слова и выражения → передаётся больший вес;
на внутреннюю страницу сайта-донора по поисковым словам ссылаются сторонние ресурсы → страница ссылается на сайт по поисковым словам и выражениям → передаётся больший вес.

Правила и фильтры позволяют в автоматическом режиме исключить искусственные воздействия на роботов поисковой системы, рассчитанные на быстрое продвижение страниц сайтов в TOP (первые позиции в выдачи). Различают пессимизирующие фильтры и “баны” поисковой системы (далее – санкции поисковых систем).

Алгоритмы ранжирования поисковых систем. Санкции поисковых систем.

Пессимизирующие фильтры.

Фильтры «зеркал» – основной вид пессимизирующего фильтра, негативно воздействующего на сайты с неуникальным контентом. Как правило, пессимизируется тот сайт, на котором неуникальный контент появился позже по времени, чем на сайте-первоисточнике. В связи с этим, при необходимости включения цитат из текстов страниц других Интернет-ресурсов, желательно запретить индексацию цитаты.

«Непот»-фильтр это санкция поисковых систем к ресурсам, применяющим размещение «Непот» ссылок. Он обнаруживает и блокирует «Непот»-ссылки, используя специально разработанный для их анализа алгоритм. Основными критериями, по которым ссылка попадает под действие «Непот»-фильтра являются: несовпадение тематики, блочное размещение, повторение форм ссылок, массовость, несоответствие формата и содержания ссылки основному тексту. Действие «Непот»-фильтра проявляется в том, что поисковая система отключает или снижает поисковую значимость определенных ссылок, группы ссылок или страниц сайта. Наложение и снятие фильтра происходит, как правило, в автоматическом режиме.

Баны – запреты поисковых систем на индексацию и выдачу в результатах поиска ссылок на страницы сайтов. Как правило, в «бане» оказывается всё доменное имя, владельцем которого является человек, нарушивший правила, установленные поисковой системой для индексируемых страниц. Наиболее яркий пример – написание текста шрифтом цвета фона (невидимый текст). На начальных этапах развития SEO такой способ позволял увеличить плотность ключевых слов и выражений в тексте страницы.
Баны не базируются на внешнем факторе SEO, поводом для бана может стать только структура и контент самого сайта.

Основные показатели ранжирования в поисковых системах.

Yandex
Индекс цитирования (ИЦ) – базовый показатель поисковой системы, вычисляемый на основе числа ссылок на данный ресурс с других ресурсов сети Интернет. В простейшей разновидности ИЦ учитывается только количество ссылок на ресурс.

Тематический индекс цитирования (ТИЦ) рассчитывается по специально разработанному алгоритму, в котором особое значение придается тематической близости ресурса и ссылающихся на него сайтов (ТИЦ, кроме количества ссылок на ресурс, учитывает также тематику ссылающихся на ресурс сайтов, то есть показывает популярность ресурса относительно других тематически близких сайтов). То есть при расчёте ТИЦ напрямую задействуются ядерные лексемы, определяющие основные и родственные тематические кластеры.

Взвешенный индекс цитирования (ВИЦ) учитывает популярность («важность») ссылающихся сайтов (также в большинстве случаев вычисляемую на основе ИЦ). В отличие от обычного ИЦ, который представляет собой абсолютный показатель (т.е. некоторое конкретное число), ВИЦ является относительным значением, т.е. показывает популярность данной страницы относительно популярности других страниц в Интернете. ВИЦ не учитывает тематическую связь страницы и ссылающихся на нее ресурсов, а зависит только от количества и качества внешних ссылок. ВИЦ определяется для каждой страницы сайта.

Google

Отказавшись от отдельного независимого рассмотрения (в виде формализованных критерием) различных параметров характеризующих внешний и внутренний факторы оптимизации (полноту представления информации и авторитетность), поисковая система предлагает пользователям единый алгоритм вычисления основного параметра – качества страницы PageRank (PR).

PageRank учитывает нормализованное отношение количества ссылок, приводящих на данную страницу, к количеству исходящих c нее. В этом случае имеет заведомо учитывается вес ссылающихся страниц и сайтов-доноров. Входящие внутренние ссылки (со страниц того же домена) так же учитываются с определённым коэффициентом.

Расчетная формула, опубликованная С. Брином и Л. Пейджем, выглядит следующим образом:

где d – эмпирически подобранный коэффициент (d=0.85); Т1…Tn – страницы, ссылающиеся на рассматриваемый документ; С(Tn)… С(Tn) – общее количество ссылок, ведущих вовне со страниц Т1…Tn.

Принцип работы поисковой системы на примере Google.

Индексатор занимается тем, что разбирает текст документа на составляющие его слова (хит в терминологии Google), запоминая при этом местонахождение, шрифтовой вес, а также написано ли слово заглавными или строчными буквами и принадлежит ли оно к особым категориям, таким как названия документов, метатеги, URL или тексты ссылок. Вся эта информация складывается в набор контейнеров, именуемых прямым индексом.

СЕО оптимизатор ищет идентификаторы слов из словаря, который постоянно пополняется. Одновременно с этим индексатор просматривает содержимое тегов описания гиперссылок и закладок “a””/a”> и проверяет корректность всех ссылок в службе разрешения имен DNS (domain name service). Если встретился URL, которого нет в базе данных поисковой машины, этот Интернет-адрес попадает в URL-сервер и ассоциируется в таблицах базы данных URL с выражениями, указанными в тексте ссылок.

Индексация новых ресурсов, для которых пока нет внешних ссылок (то есть ни один из уже проиндексированных ресурсов на них не ссылается) можно добавить при помощи специальной службы addurl, эта служба вызывается по адресу www.google.ru/addurl/, либо это же можно сделать через «панель вебмастера» (www.google.ru/webmasters/).

Описанная выше структура прямого индекса не очень удобна при поиске документов на основании встречающихся в них слов (пользователь задает слово или словосочетание, а система должна найти подходящий документ). Чтобы решить эту проблему, был введен так называемый инверсный, или обратный, индекс.

В нем любому слову из словаря соответствует набор doc_id-документов, в которых это слово встречается. Работой по постоянному формированию инверсного индекса занимаются сортировщики. Так как, во-первых, всегда появляются новые документы и, во-вторых, обновляются старые, индекс приходится постоянно перестраивать.

Здесь вы можете написать комментарий к записи "Алгоритмы ранжирования в поисковых системах".

Войти, чтобы написать отзыв.

Translation
Наши партнеры
Читать нас
О сайте

© 2011-2012 iTRecord обзоры проектов, стартапов, тенденций в мире интернет-маркетинга, блогосфера, seo.

Копирование материалов разрешено только при наличии активной индексируемой ссылки на сайт.