Блог Максима Войтика
Публикации о способах
заработка в интернете и SEO

Простейшее описание принципа работы поисковой системы Яндекс

19 января 2015
Комментарии: 44

Принцип работы поиска Яндекс

Привет дорогие друзья! В этой статье мы продолжим рассматривать поисковую систему Яндекс, и как вы помните, в прошлых статьях был рассмотрена история создания этой великой компании, которая занимает первое место среди конкурентов в России и не только.

Все это хорошо, но новичков и бывалых сайтостроителей интересует самый главный вопрос, конечно же, связанный с тем, как выводить свои проекты на первые места ТОП выдачи.

Поэтому давайте рассмотрим, как работает поисковая система Яндекс, чтобы понять на какие грабли можно наступить, да и чего вообще стоит ждать от русской поисковой машины.

На данный вопрос любезно согласился ответить Денис, поэтому ему и передаю слово...

Привет тебе, дорогой читатель, на связи опять Денис Тумилович, автор замечательного блога in4wp.ru и сегодня мы поговорим о принципах работы поисковой системы, в частности Яндекс.

В прошлой статье мы с тобой обсуждали историю развития Яндекса. Тема оказалась достаточно интересной и полезной. Поэтому я решил её дополнить, углубить так сказать.

Итак, наверное, с вопросом «Зачем поисковик индексирует документы» я погорячился – это и ежу понятно. Осталось выяснить вопрос «как».

Алгоритмы ранжирования сайтов


Для начала давай познакомимся с некоторыми алгоритмами, которые являются основополагающими для любой поисковой системы:

— Алгоритм прямого поиска.

Что это такое – вы помните, что читали замечательную историю в одной из книг. И вы начинаете по очереди искать. Взяли одну книгу – полистали – не нашли, взяли другую... Принцип понятен, но этот способ чрезвычайно долгий. Это тоже понятно.

— Алгоритм обратного поиска.

Для этого алгоритма создается из каждой страницы твоего блога – создается текстовый файл. В этом файле перечисляются в алфавитном порядке ВСЕ слова, которые ты использовал. Даже позиция этого слова в тексте указывается (координаты в тексте).

Это достаточно быстрый способ, но уже поиск происходит с какой-то погрешностью.

Здесь главное понимать, что алгоритм этот ищет не в интернете, не поиском по блогу. А в отдельно взятом текстовом файле, который создан был когда-то давно. Когда робот заходил к тебе. И эти файлы (обратные индексы) хранятся на серверах Яндекса.

Так, это были базовые алгоритмы поиска. Т.е. как Яндекс просто находит нужные документы. С этим вроде бы проблем не должно быть.

Но ведь документов Яндекс знает не один и даже не 100, а по последним данным из моих источников – Яндекс знает порядка 11 млрд. документов ( 10 727 736 489 страниц ) .

И среди всего этого количества нужно выбрать документы, подходящие под запрос. И что еще важнее – нужно как-то ранжировать их. Т.е. выстроить по степени важности, а точнее по степени полезности для читателя.

Математические модели поиска


Для решения этого вопроса на помощь приходят математические модели. Вот о простейших моделях мы сейчас и поговорим.

математические модели Яндекса

Булевская мат.модель – Если слово встречается в документе – документ считается найденным. Просто на совпадение и ничего сложного.

Но тут есть проблемы. Например, если ты как пользователь введешь какое-то популярное слово, а еще лучше предлог «в», который является самым распространенным словом в русском языке и встречается в КАЖДОМ документе – то тебе выдаст такое количество результатов, что ты даже не осознаешь такую цифру, сколько тебе документов нашлось. Поэтому появилась следующая мат модель.

Векторная мат.модель – эта модель определяет «вес» документа. Уже не только совпадение встречается, но и это слово должно встречаться несколько раз. Причем чем больше слово встречается – тем выше релевантность (соответствие).

Именно векторную модель используют ВСЕ поисковики.

Вероятностная модель – более сложная. Принцип такой: поисковик нашел сам эталон страницы. Например, вы ищете информацию об истории Яндекса. У Яндекса хранится какой-то эталон, допустим это будет моя предыдущая статья о Яндексе.

И все остальные документы он будет сравнивать с этой статьёй. И логика здесь такая: чем более страница твоего блога похож на мою статью – тем ВЕРОЯТНЕЕ тот факт, что твоя страница блога тоже будет полезна читателю и тоже рассказывает об истории Яндекса.

Чтобы сократить количество документов, которые нужно показывать пользователю – было введено понятие релевантности, т.е. соответствия.

Релевантность поиска

Насколько страница твоего блога действительно соответствует теме. Это важная тема, которая касается качества поиска.

Асессоры — кто это и за что отвечают


Нужна эта релевантность еще и для оценки качества работы алгоритмов.

Для этого есть штаб спецназа – их называют Асессоры. Это специальные люди, которые руками просматривают поисковую выдачу.

У них есть инструкция, как проверять сайты, как оценивать и т.п. И они руками определяют по порядку подходят твои страницы поисковым запросам или не подходит.

И вот от мнения асессоров зависит качество поисковых алгоритмов. Если все асессоры скажут, что поисковая выдача не соответствует запросам – значит неправильный алгоритм ранжирования и здесь вина только Яндекса.

Кто такие асессоры?

Если асессоры говорят о том, что только один сайт не соответствует запросу – значит, сайт улетает куда-то далеко и понижается в выдаче. Точнее не весь сайт, а только одна статья, но это «не суть».

Конечно, асессоры не могут руками и глазами просмотреть и оценить ВСЕ статьи. Это ж понятно.

И на помощь приходят другие параметры, по которым проходит ранжирование страниц. Их очень много, ну например:

  • вес страницы (вИЦ, PageRank, пузомерки в общем);
  • авторитетность домена;
  • релевантность текста запросу;
  • релевантность текстов внешних ссылок запросу;
  • а также множество других факторов ранжирования.

Асессоры вносят замечания, а люди, которые отвечают за за настройку математической модели ранжирования уже, в свою очередь, редактируют формулу, в результате чего поисковик работает более качественно.

Основные критерии оценки работы формулы:

1. Точность выдачи поисковой системы — процент документов, соответствующих запросу (релевантных). Т.е. чем меньше страниц, не соответствующих запросу присутствует — тем лучше.

2. Полнота выдачи поисковой системы — это отношение релевантных веб-страниц по данному запросу к общему количеству релевантных документов, находящихся в коллекции (совокупности страниц, находящихся в поисковой системе).

Например, если во всей коллекции релевантных страниц больше, чем в поисковой выдаче, то это означает неполноту выдачи. Это произошло из-за того, что некоторая часть релевантных веб-страниц попала под фильтр.

3. Актуальность выдачи поисковой системы — это соответствие веб-страницы тому, что написано в сниппете. Например, документ может сильно отличаться или вовсе не существовать, но в выдаче присутствовать.

Актуальность выдачи напрямую зависит от того, как часто сканирует поисковый робот документы из своей коллекции.

Сбор коллекции (индексация страниц сайта) осуществляется специальной программой — поисковым роботом.

Поисковый робот

Поисковый робот получает список адресов для индексации, копирует их, далее содержимое скопированных веб-страниц отдаёт на обработку алгоритму, который преобразует их в обратные индексы.

Ну, вот «в двух словах», если можно так сказать, мы обсудили принципы работы поисковика. Давай подытожим:

  1. Поисковой робот приходит к тебе на блог.
  2. Поисковой робот сохраняет у себя обратный индекс страницы для последующего поиска.
  3. С помощью математической модели документ обрабатывается и выдается в поисковой выдаче по формулам и с учетом мнения асессора.

Это если очень-очень упрощенно. Просто, чтобы сложилось базовое понимание работы поисковой системы Яндекс.

Я сейчас написал так много текста, и, возможно столько всего не понятно. Поэтому я предлагаю тебе вернуться на эту статью чуть позже и просмотреть вот это видео.

Это отличное руководство, по которому в своё время и я учился.

Спасибо за внимание. Если что-то все равно не понятно – я готов что-то подсказать.

Еще раз спасибо Денису за такой интересный и подробный пост, даже я не знал, что поисковая система Яндекс работает по таким сложным алгоритмам. :)

Надеюсь данная информации поможет лучше понять, почему какой-то из ваших сайтов занимает соответствующие позиции в поиске и сделать все, чтобы их улучшить.

На этом я с вами прощаюсь, если есть вопросы, я и автор статьи всегда рады ответить на них в комментариях. А может вы хотите дополнить статью?

В любом случае высказывайте свое мнение. :) До скорой встречи на seoslim.ru!

(3 голос., в среднем: 5,00 из 5)
Загрузка...
С уважением, Максим Войтик
Буду рад, если нажмете на любую из кнопок:
Комментарии (44)
  1. Денис Тумилович в 23:06

    Спасибо, Максим за такую возможность, рассказать читателям о некоторых тонкостях. :)

    Ответить
    • Максим Войтик в 23:07

      Всегда пожалуйста Денис. :)

      Ответить
    • Aleksandr в 11:36

      Я даже многого не знал и слышал первый раз только

      Ответить
    • Александр в 14:27

      Мне тоже было интересно почитать, много нового смог узнать благодаря этой статье

      Ответить
      • Aleksandr в 23:59

        Класно читать такие статьи, но как то мало их бывает!?

        Ответить
      • Денис Тумилович в 10:38

        Александр. Заказывай — буду писать :)

        Ответить
      • Aleksandr в 21:08

        И по чем берете за написание статьи в 2000—2500 без пробелов!?

        Ответить
      • Денис Тумилович в 23:04

        Это гостевой пост — он бесплатен :)

        Ответить
    • Игорь в 23:51

      Это тебе Денис,спасибо за статью. [good]

      И отдельное Максиму,за ее размещение.

      Ответить
  2. Александр в 14:28

    Максим, я например предпочитаю продвигать свои сайты под Гугл, а у тебя есть что то подобное на блоге про Гугл или только в планах написать статью? Очень было бы интересно почитать!

    Ответить
    • Максим Войтик в 15:18

      Будет статья обязательно и про Гугл, пока только про его фильтры писал. :) Потому что эта тема для меня на данный момент актуальна.

      Ответить
      • Aleksandr в 00:00

        Про Гуго будет тоже интересно прочитать, так как у многих трудности при продвижении!

        Ответить
    • Игорь в 22:11

      Александр,почему Гугл?

      Лично я предпочитаю яндекс

      Ответить
  3. Игорь в 21:06

    Максим, у меня такое мнение, что Вы работаете в компании Яндекс, так все подробно описали. Классные рисунки получились,подробные [good]

    Ответить
    • Максим Войтик в 22:44

      Писал Денис, рисунки подбирал я. :) 🙂

      Ответить
      • Игорь в 23:23

        А все понял.

        Статью написал Денис Тумилович,а все остальное ваше [:-))]

        Ответить
      • Aleksandr в 21:09

        Картинки подобранные в тему прям статьи :)

        Ответить
  4. Александр в 14:21

    Видео конечно длинное. Скачаю на комп себе, будет время посмотрю.

    Ответить
    • Aleksandr в 23:08

      Я все курсы которые качаю на планшета смотрю,по дороге и в транспорте тоже :)

      Ответить
  5. Игорь в 23:26

    Александр,обязательно посмотрите.

    Отличное руководство в видео ролике [good]

    Ответить
    • Александр в 15:25

      Хорошо посмотрю. У меня уже стоко информации накопилось, которую нужно посмотреть и прочитать.

      Ответить
      • Игорь в 22:03

        У меня также скопилось очень много информации.

        Я ее раскидал по папкам,на важные и не важные.

        А половину информации,просто удалил.

        Уже меньше каши в голове.

        Ответить
      • Александр в 15:11

        У меня уже самой важной уже несколько гиг. А там и крупных файлов, то нет. восновном книги и видеоролики.

        Ответить
      • Aleksandr в 22:03

        А как отбирали важную информацию от не важной!?

        Ответить
      • Игорь в 22:50

        Ну наверное по тематике,в которой он кружится.

        У каждого свое определение важности. [:-))]

        Ответить
      • Александр в 00:36

        Я сортировал по авторам. Если известная личность, то значит оставляю видео или книгу. А если автор какого-то неизвестного сайта с посещалкой в 50 человек и он рассказывает как раскрутить сайт, то значит сразу удаляю.

        Ответить
      • Игорь в 20:50

        От того что автор известный,это не значит что у него ценная информация,тем более халява.

        Может у не известного автора был круче материал.Потому что он раскручивается,и хочет завлечь посетителей и подписчиков.

        Ну это мое мнение.

        Ответить
      • Александр в 22:44

        Ну так я по сайту смотрю. Если он уже три года раскручивается и всё никак не раскрутится, то чего я могу у него научиться.

        Ответить
      • Aleksandr в 21:10

        С известных я только например Борисова только знаю и все, так что качаю все подряд почти! [:--_)]

        Ответить
      • Игорь в 23:15

        Ну Борисов,это не предел.

        Есть блогеры и не хуже.

        Ответить
      • Aleksandr в 22:12

        Кто например, я пока что не селен в этой теме скажем так!

        Ответить
      • Игорь в 22:37

        Я тебе маленький пример приведу, Влад Челпаченко,Ильи Цымбалист,Александра Бобрин и др.

        Ну к примеру,еще хозяин этого блога Максим.

        Ответить
      • Aleksandr в 23:18

        спасибо за примеры, сейчас в инете поищем!

        Ответить
      • Александр в 18:49

        Александра Бобрина знаю. По его курсу делал себе сайт. Но об остальных двух не слышал. Надо будет посмотреть.

        Ответить
      • Aleksandr в 23:06

        Бобрина и Борисова многие знают!

        Ответить
      • Александр в 00:01

        Игорь, блогеры может и есть по лучше Борисова, но чтобы они еще и такие качественные видео курс делали, лично я пока не встречал.

        Ответить
  6. Алиса в 23:01

    Интересный диалог такой и передача слова, впервые вижу такого рода гостевой пост. Как-то я представляла всегда, что от начала до конца и потом ссылка, автор такой-то. Что и в такой форме можно сделать, не задумывалась.

    Ответить
    • Игорь в 22:53

      Алиса,в комментариях вставлять ссылки нельзя.

      Это будет считаться спамом.

      Ответить
      • Алиса в 01:13

        Вы точно не поняли про что я. У Максима есть статья о гостевом блоггинге. Так вот там рассказывалось, что пишется статья и в конце автор блога сам оставляет открытую индексируюмую ссылку на блог того, кто оставил пост. И в этой статье она тоже есть, только вначале, и мне было просто интересно в какой форме была оставлена статья. [good] Это я и отметила

        Ответить
      • Игорь в 23:35

        Все Алиса,теперь я понял.

        Извиняюсь за то что тупанул [:-))]

        Ответить
      • Aleksandr в 16:35

        Смотря какие ссылки будете вставлять и соавтором блога можно всегда согласовать!

        Ответить
  7. Александр Сергиенко в 18:00

    Спасибо за статью, я предпочитаю тоже настраивать все под Яндекс, вы отлично описали все принципы работы, даже новичок легко поймет. :)

    Ответить
  8. Антонина в 10:32

    Достал Ваш Яндекс. Хуже любого вируса. Зачем он так неграмотно подменяет Internet Explorer. Нет никакого предупреждения. Делает то, о чем его совсем не просят Написали бы хоть какую-то инструкцию по запуску приложений. Одним словом, бардак и безответственность

    Ответить
    • Александр в 23:53

      Антонина, обычно если идут какие изменения в работе операционных систем. то об этом обычно всегда вас выпадает предупреждение. Может быть вы просто не совсем внимательно делаете все действия на своём компьютере, а потом вам что то не так. Когда делаете обновления приложений или устанавливаете программы, то читайте все пункты внимательно.

      Ответить
Оставить свой комментарий
Обязательно ознакомьтесь с правилами комментирования!!! СПАМ будет удален!
:) :-D ;-) :-| [star] [good] [present] [flower] [:-))] [:))] [:--_)] [:-|]

© 2011-2016 seoslim.ru, блог Максима Войтика

Внимание! Копирование материала строго запрещено. Соблюдайте авторские права и уважайте труд других людей!