Привет дорогие друзья! В этой статье мы продолжим рассматривать поисковую систему Яндекс, и как вы помните, в прошлых статьях был рассмотрена история создания этой великой компании, которая занимает первое место среди конкурентов в России и не только.
Все это хорошо, но новичков и бывалых сайтостроителей интересует самый главный вопрос, конечно же, связанный с тем, как выводить свои проекты на первые места ТОП выдачи.
Поэтому давайте рассмотрим, как работает поисковая система Яндекс, чтобы понять на какие грабли можно наступить, да и чего вообще стоит ждать от русской поисковой машины.
Содержание статьи:
1. Как и зачем Яндекс индексирует сайты? Принципы поиска
2. Математические модели поиска
3. Ранжирование в поиске. Кто такие Асессоры.
В прошлой статье мы с тобой обсуждали историю развития Яндекса. Тема оказалась достаточно интересной и полезной. Поэтому я решил её дополнить, углубить так сказать.
Итак, наверное, с вопросом «Зачем поисковик индексирует документы» я погорячился – это и ежу понятно. Осталось выяснить вопрос «как».
Алгоритмы ранжирования сайтов
Для начала давай познакомимся с некоторыми алгоритмами, которые являются основополагающими для любой поисковой системы:
— Алгоритм прямого поиска.
Что это такое – вы помните, что читали замечательную историю в одной из книг. И вы начинаете по очереди искать. Взяли одну книгу – полистали – не нашли, взяли другую... Принцип понятен, но этот способ чрезвычайно долгий. Это тоже понятно.
— Алгоритм обратного поиска.
Для этого алгоритма создается из каждой страницы твоего блога – создается текстовый файл. В этом файле перечисляются в алфавитном порядке ВСЕ слова, которые ты использовал. Даже позиция этого слова в тексте указывается (координаты в тексте).
Это достаточно быстрый способ, но уже поиск происходит с какой-то погрешностью.
Здесь главное понимать, что алгоритм этот ищет не в интернете, не поиском по блогу. А в отдельно взятом текстовом файле, который создан был когда-то давно. Когда робот заходил к тебе. И эти файлы (обратные индексы) хранятся на серверах Яндекса.
Так, это были базовые алгоритмы поиска. Т.е. как Яндекс просто находит нужные документы. С этим вроде бы проблем не должно быть.
Но ведь документов Яндекс знает не один и даже не 100, а по последним данным из моих источников – Яндекс знает порядка 11 млрд. документов ( 10 727 736 489 страниц ) .
И среди всего этого количества нужно выбрать документы, подходящие под запрос. И что еще важнее – нужно как-то ранжировать их. Т.е. выстроить по степени важности, а точнее по степени полезности для читателя.
Математические модели поиска
Для решения этого вопроса на помощь приходят математические модели. Вот о простейших моделях мы сейчас и поговорим.
Булевская мат.модель – Если слово встречается в документе – документ считается найденным. Просто на совпадение и ничего сложного.
Но тут есть проблемы. Например, если ты как пользователь введешь какое-то популярное слово, а еще лучше предлог «в», который является самым распространенным словом в русском языке и встречается в КАЖДОМ документе – то тебе выдаст такое количество результатов, что ты даже не осознаешь такую цифру, сколько тебе документов нашлось. Поэтому появилась следующая мат модель.
Векторная мат.модель – эта модель определяет «вес» документа. Уже не только совпадение встречается, но и это слово должно встречаться несколько раз. Причем чем больше слово встречается – тем выше релевантность (соответствие).
Именно векторную модель используют ВСЕ поисковики.
Вероятностная модель – более сложная. Принцип такой: поисковик нашел сам эталон страницы. Например, вы ищете информацию об истории Яндекса. У Яндекса хранится какой-то эталон, допустим это будет моя предыдущая статья о Яндексе.
И все остальные документы он будет сравнивать с этой статьёй. И логика здесь такая: чем более страница твоего блога похож на мою статью – тем ВЕРОЯТНЕЕ тот факт, что твоя страница блога тоже будет полезна читателю и тоже рассказывает об истории Яндекса.
Чтобы сократить количество документов, которые нужно показывать пользователю – было введено понятие релевантности, т.е. соответствия.
Насколько страница твоего блога действительно соответствует теме. Это важная тема, которая касается качества поиска.
Асессоры — кто это и за что отвечают
Нужна эта релевантность еще и для оценки качества работы алгоритмов.
Для этого есть штаб спецназа – их называют Асессоры. Это специальные люди, которые руками просматривают поисковую выдачу.
У них есть инструкция, как проверять сайты, как оценивать и т.п. И они руками определяют по порядку подходят твои страницы поисковым запросам или не подходит.
И вот от мнения асессоров зависит качество поисковых алгоритмов. Если все асессоры скажут, что поисковая выдача не соответствует запросам – значит неправильный алгоритм ранжирования и здесь вина только Яндекса.
Если асессоры говорят о том, что только один сайт не соответствует запросу – значит, сайт улетает куда-то далеко и понижается в выдаче. Точнее не весь сайт, а только одна статья, но это «не суть».
Конечно, асессоры не могут руками и глазами просмотреть и оценить ВСЕ статьи. Это ж понятно.
И на помощь приходят другие параметры, по которым проходит ранжирование страниц.
Их очень много, ну например:
- вес страницы (вИЦ, PageRank, пузомерки в общем);
- авторитетность домена;
- релевантность текста запросу;
- релевантность текстов внешних ссылок запросу;
- а также множество других факторов ранжирования.
Асессоры вносят замечания, а люди, которые отвечают за за настройку математической модели ранжирования уже, в свою очередь, редактируют формулу, в результате чего поисковик работает более качественно.
Основные критерии оценки работы формулы:
1. Точность выдачи поисковой системы — процент документов, соответствующих запросу (релевантных). Т.е. чем меньше страниц, не соответствующих запросу присутствует — тем лучше.
2. Полнота выдачи поисковой системы — это отношение релевантных веб-страниц по данному запросу к общему количеству релевантных документов, находящихся в коллекции (совокупности страниц, находящихся в поисковой системе).
Например, если во всей коллекции релевантных страниц больше, чем в поисковой выдаче, то это означает неполноту выдачи. Это произошло из-за того, что некоторая часть релевантных веб-страниц попала под фильтр.
3. Актуальность выдачи поисковой системы — это соответствие веб-страницы тому, что написано в сниппете. Например, документ может сильно отличаться или вовсе не существовать, но в выдаче присутствовать.
Актуальность выдачи напрямую зависит от того, как часто сканирует поисковый робот документы из своей коллекции.
Сбор коллекции (индексация страниц сайта) осуществляется специальной программой — поисковым роботом.
Поисковый робот получает список адресов для индексации, копирует их, далее содержимое скопированных веб-страниц отдаёт на обработку алгоритму, который преобразует их в обратные индексы.
Ну, вот «в двух словах», если можно так сказать, мы обсудили принципы работы поисковика.
Давай подытожим:
- Поисковой робот приходит к тебе на блог.
- Поисковой робот сохраняет у себя обратный индекс страницы для последующего поиска.
- С помощью математической модели документ обрабатывается и выдается в поисковой выдаче по формулам и с учетом мнения асессора.
Это если очень-очень упрощенно. Просто, чтобы сложилось базовое понимание работы поисковой системы Яндекс.
Я сейчас написал так много текста, и, возможно столько всего не понятно. Поэтому я предлагаю тебе вернуться на эту статью чуть позже и просмотреть вот это видео.
Это отличное руководство, по которому в своё время и я учился.
Надеюсь данная информации поможет лучше понять, почему какой-то из ваших сайтов занимает соответствующие позиции в поиске и сделать все, чтобы их улучшить.
На этом я с вами прощаюсь, если есть вопросы, я всегда рад ответить на них в комментариях. А может вы хотите дополнить статью?
В любом случае высказывайте свое мнение. До скорой встречи на seoslim.ru!
Спасибо, Максим за такую возможность, рассказать читателям о некоторых тонкостях.
Всегда пожалуйста Денис.
Я даже многого не знал и слышал первый раз только
Мне тоже было интересно почитать, много нового смог узнать благодаря этой статье
Класно читать такие статьи, но как то мало их бывает!?
Александр. Заказывай — буду писать
И по чем берете за написание статьи в 2000—2500 без пробелов!?
Это гостевой пост — он бесплатен
Это тебе Денис,спасибо за статью.
И отдельное Максиму,за ее размещение.
Максим, я например предпочитаю продвигать свои сайты под Гугл, а у тебя есть что то подобное на блоге про Гугл или только в планах написать статью? Очень было бы интересно почитать!
Будет статья обязательно и про Гугл, пока только про его фильтры писал. Потому что эта тема для меня на данный момент актуальна.
Про Гуго будет тоже интересно прочитать, так как у многих трудности при продвижении!
Александр,почему Гугл?
Лично я предпочитаю яндекс
Максим, у меня такое мнение, что Вы работаете в компании Яндекс, так все подробно описали. Классные рисунки получились,подробные
Писал Денис, рисунки подбирал я. 🙂
А все понял.
Статью написал Денис Тумилович,а все остальное ваше
Картинки подобранные в тему прям статьи
Видео конечно длинное. Скачаю на комп себе, будет время посмотрю.
Я все курсы которые качаю на планшета смотрю,по дороге и в транспорте тоже
Александр,обязательно посмотрите.
Отличное руководство в видео ролике
Хорошо посмотрю. У меня уже стоко информации накопилось, которую нужно посмотреть и прочитать.
У меня также скопилось очень много информации.
Я ее раскидал по папкам,на важные и не важные.
А половину информации,просто удалил.
Уже меньше каши в голове.
У меня уже самой важной уже несколько гиг. А там и крупных файлов, то нет. восновном книги и видеоролики.
А как отбирали важную информацию от не важной!?
Ну наверное по тематике,в которой он кружится.
У каждого свое определение важности.
Я сортировал по авторам. Если известная личность, то значит оставляю видео или книгу. А если автор какого-то неизвестного сайта с посещалкой в 50 человек и он рассказывает как раскрутить сайт, то значит сразу удаляю.
От того что автор известный,это не значит что у него ценная информация,тем более халява.
Может у не известного автора был круче материал.Потому что он раскручивается,и хочет завлечь посетителей и подписчиков.
Ну это мое мнение.
Ну так я по сайту смотрю. Если он уже три года раскручивается и всё никак не раскрутится, то чего я могу у него научиться.
С известных я только например Борисова только знаю и все, так что качаю все подряд почти!
Ну Борисов,это не предел.
Есть блогеры и не хуже.
Кто например, я пока что не селен в этой теме скажем так!
Я тебе маленький пример приведу, Влад Челпаченко,Ильи Цымбалист,Александра Бобрин и др.
Ну к примеру,еще хозяин этого блога Максим.
спасибо за примеры, сейчас в инете поищем!
Александра Бобрина знаю. По его курсу делал себе сайт. Но об остальных двух не слышал. Надо будет посмотреть.
Бобрина и Борисова многие знают!
Игорь, блогеры может и есть по лучше Борисова, но чтобы они еще и такие качественные видео курс делали, лично я пока не встречал.
Интересный диалог такой и передача слова, впервые вижу такого рода гостевой пост. Как-то я представляла всегда, что от начала до конца и потом ссылка, автор такой-то. Что и в такой форме можно сделать, не задумывалась.
Алиса,в комментариях вставлять ссылки нельзя.
Это будет считаться спамом.
Вы точно не поняли про что я. У Максима есть статья о гостевом блоггинге. Так вот там рассказывалось, что пишется статья и в конце автор блога сам оставляет открытую индексируюмую ссылку на блог того, кто оставил пост. И в этой статье она тоже есть, только вначале, и мне было просто интересно в какой форме была оставлена статья. Это я и отметила
Все Алиса,теперь я понял.
Извиняюсь за то что тупанул
Смотря какие ссылки будете вставлять и соавтором блога можно всегда согласовать!
Спасибо за статью, я предпочитаю тоже настраивать все под Яндекс, вы отлично описали все принципы работы, даже новичок легко поймет.
Достал Ваш Яндекс. Хуже любого вируса. Зачем он так неграмотно подменяет Internet Explorer. Нет никакого предупреждения. Делает то, о чем его совсем не просят Написали бы хоть какую-то инструкцию по запуску приложений. Одним словом, бардак и безответственность
Антонина, обычно если идут какие изменения в работе операционных систем. то об этом обычно всегда вас выпадает предупреждение. Может быть вы просто не совсем внимательно делаете все действия на своём компьютере, а потом вам что то не так. Когда делаете обновления приложений или устанавливаете программы, то читайте все пункты внимательно.
Размещённого в статье видео-руководства, по которому вы в своё время учились, нет. Наверно было удалено из ютуба.
Да удалено, вставил другое.
Может с последними изменения в поисковой системе Яндекс важность Асессоров значительно уменьшится. Или они вообще уже будут не нужны.