Гугл видит ВсЕ. В прямом смысле видит

Взято у ne-onn

Доказательства
Функция Instant Preview – вот почему мы видим скриншоты-аннотации в SERP. Эти превью обладают впечатляющей возможностью: они не только отображают скриншот страницы, но также визуально выделяют и подчеркивают текст, подходящий под ваш запрос. Этого просто невозможно достигнуть простым текстовым пауком. Cкриншоты флеш-страниц – вы, возможно, уже заметили в Инструментах вебмастера Google скриншоты флеш-сайтов.

Постойте... я думал, Google не видит флеш... Подтверждение запросов AJAX POST – Мэтт Каттс подтвердил, что GoogleBot умеет обращаться с запросами AJAX POST, и, по случайному совпадению, это произошло через несколько часов после того как Рэнд запостил статью «GoogleBot – это Chrome». Согласно определению, AJAX – это контент, загружаемый JavaScript, когда происходит действие после загрузки страницы. Следовательно, его невозможно отследить с помощью текстового паука, потому что текстовый паук не выполняет JavaScript, а только получает существующий код, каким он предоставлен при первоначальной загрузке. Google отслеживает Flash – Мэтт Клэйтон также показал мне некоторые журналы сервера, в которых GoogleBot получал доступ к URL, которые доступны только через встроенные Flash-модули на Mixcloud.com: 66.249.71.130 "13/Nov/2011:11:55:41 +0000" "GET /config/?w=300&h=300&js=1&embed_type=widget_standard&feed= http%3A//www.mixcloud.com/chrisreadsubstance/bbe-mixtape-competition-2010.json&tk=TlVMTA HTTP/1.1" 200 695 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.71.116 "13/Nov/2011:11:51:14 +0000" "GET /config/?w=300&h=300&js=1&feed=http%3A//www.mixcloud.com/ZiMoN/electro-house-mix-16.json&embed_type=widget_standard&tk=TlVMTA HTTP/1.1" 200 694 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Допустим, это не новость, но другой пост от 2008 года объясняет, что Google «рассматривает Flash-файлы таким же образом, как это делал бы человек, вводя данные, и так далее». А, вы имеете в виду, как человек работает с браузером? Скорость сайта – Хотя Google мог бы получать время загрузки сайтов с панели инструментов и данные об использовании от Chrome, для него гораздо надежнее получать эту информацию, индексируя саму сеть. Не выполняя всего кода страницы, практически невозможно точно вычислить время загрузки этой страницы. До сих пор все это могло звучать так, как будто Google находится всего в нескольких шагах от SkyNet. А оптимизаторы и Google уже много лет уверяют нас, что поисковый робот (паук) имеет текстовую основу, поэтому это может показаться вам фантастикой. Уверяю вас, это не так, и многие из тех вещей, о которых я говорю, доступны программистам даже с намного менее сильной командой инженеров, чем у Google. Знакомьтесь – PhantomJS PhantomJS – это headless Webkit browser, которым можно управлять через JavaScript API. С помощью небольшой автоматизации скрипта браузер легко можно превратить в паука. Забавно, что его логотипом является призрак, похожий на призраки в Pacman, а концепт довольно прост: PhantomJS используется для загрузки страницы так, как пользователь видит ее в Firefox, Chrome или Safari, извлечения материалов и прослеживания ссылок. PhantomJS имеет бесчисленное количество приложений для парсинга информации и других видов анализа сайтов, и я советую SEO-общественности осознать это прежде чем мы двинемся дальше. Джош воспользовался PhantomJS, чтобы подготовить некоторые доказательства сведений, которые я выложил на SearchLove. Ранее, когда я выпустил GoFish, я уже упоминал, что столкнулся с трудностями при сборе информации о росте количества запросов с Google Insights с помощью текстового паука из-за того, что список этих вопросов предоставляется через AJAX. Ричард Бакстер предположил, что эти данные легко можно собрать с помощью строки XPath (XPath string), и это убеждает меня в том, что поисковая архитектура ImportXML в Google Docs основана тоже на headless browser. На схеме написано красным: «Обычным путем эти данные получить невозможно, потому что это AJAX». Во всяком случае, здесь Джош снимает эти данные со страницы при помощи PhantomJS. Делать скриншоты текстовым пауком невозможно, но с помощью headless webkit browser это проще простого. На этом примере Джош показывает, как делаются скриншоты при помощи PhantomJS. Chromium – это общедоступная ветвь браузера Webkit, а я сильно сомневаюсь, что Google создал браузер из чисто альтруистических побуждений. Вышеупомянутое исследование предполагает, что GoogleBot – это многопоточный headless browser на основе того же самого кода. Почему нам ничего не говорят? Ну, вообще-то, говорят, но утверждают, что «робот-индексатор для создания превью» – это совершенно отдельный объект. Представьте этого робота как «миссис Pacman». Участник главного форума вебмастеров пожаловался, что в качестве пользовательского агента у них в журналах отображается "Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/9.0.597 Safari/534.14", а не "Mozilla/5.0 (en-us) AppleWebKit/525.13 (KHTML, like Gecko; Google Web Preview) Version/3.1 Safari/525.13". Джон Му рассказал: «В качестве инструмента для тестирования мгновенных превью мы используем пользовательский агент по образцу Chrome, чтобы можно было сравнить то, что будет видеть браузер (при помощи этого пользовательского агента), с тем, что видим мы с помощью доступа Googlebot к кэшированному превью». В то время как headless browser и Googlebot, как мы знаем, отличаются, мне кажется, что они всегда параллельно просматривают страницы и собирают информацию для индексации и ранжирования. Другими словами, это как одновременная двухпользовательская версия Pacman с миссис Pacman в 3D и обычным Pacman, которые играют на одном уровне в одно время. В конце концов, паукам не было бы смысла просматривать всю сеть дважды по отдельности. Так почему же относительно этих возможностей не все так ясно, ведь они имеют отношение к ранжированию? В двух словах: качество поиска. Прикрываясь недостатками текстовых пауков, поисковики могут продолжать использовать их в качестве козла отпущения, объясняющего их неидеальные результаты. Они могут продолжать двигаться в направлении таких вещей как предполагаемый AuthorRank и полагаться на SEO, чтобы в буквальном смысле оптимизировать свои поисковые машины. Они могут продолжать говорить неопределенные вещи, вроде «не гонитесь на алгоритмом», «улучшайте пользовательское восприятие» и «мы учитываем то, что видно без прокрутки», что заставляет специалистов SEO облегчать работу Google. Основной продукцией Google (и единственной их продукцией, если спросить у Эрика Шмидта в суде), является поиск, и если обнародовать информацию о том, что их возможности намного превосходят заявленные, то им придется повысить качество поиска. Они не говорят нам об этом, потому что с ростом возможностей растет и ответственность.

Что это означает для нас?
Когда мы с Джошем представили свое исследование, многие люди спрашивали меня: «Как это должно поменять мои действия в плане SEO?». По моему мнению, есть три момента:

1. Javascript не поможет вам ничего скрыть. Если вам казалось, что с помощью постзагрузки JavaScript вы можете спрятать какой-либо контент – прекратите это делать. Заманивание и переключение теперь на 100% неэффективный метод. Pacman видит все.
2. Пользовательское впечатление чрезвычайно важно. Google сейчас может в буквальном смысле видеть ваш сайт! Как сказал Мэтт Катс, они смотрят на то, что выше границы прокрутки, а следовательно, могут учитывать при ранжировании то, сколько рекламы представлено на странице. Google может применять данные о поведенческих факторах вместе с дизайном сайта чтобы определить, насколько сайт полезен для людей. Это одновременно радует и пугает, но также это означает, что каждый специалист SEO должен приобрести книгу Круга «Не заставляй меня думать».

3. Инструменты SEO должны стать умнее. Большинство средств SEO основано на текстовых сборщиках (text scrapers), и хотя многие из них довольно сложны (в данный момент лидирует SEOmoz), они все еще сильно напоминают Pacman 80-х годов. Если мы хотим понять, что на самом деле принимает во внимание Google при ранжировании страниц, надо учитывать больше аспектов. - При обсуждении таких вещей как Page Authority и вероятность спама необходимо визуально проверять страницы с точки зрения программы, а не ограничиваться простыми показателями, такими как плотность распределения ключевиков и граф ссылок.

Другими словами, нам нужен показатель качества пользовательского восприятия (UX Quality Score), на который влиял бы визуальный анализ и возможные видоизменения спама. - Следует сравнивать, насколько отображаемая страница отличается от того, что можно предполагать по коду. Это можно назвать коэффициентом дельта (Delta Score). - При оценке распределения доли ссылок на странице нужно также учитывать динамическое преобразование (dinamic transformations), поскольку поисковые машины способны понять, сколько в действительности ссылок на странице. Этот фактор тоже можно включить в коэффициент дельта (Delta Score). - Также следует включить в наш анализ обработку естественного языка, так как это, по-видимому, тоже учитывается алгоритмом Google. Этот фактор не оказывает значительного влияния на общий результат, но помогает определить ключевые понятия, с которыми машина ассоциирует контент, а также полностью понять, чего стоит ссылка с учетом желаемого результата. Другими словами, необходим контекстуальный анализ графа ссылок. В двух вещах я согласен с Мэттом Катсом. Единственный постоянный параметр – это перемены. Однако мы должны также понимать, что Google будет продолжать дезинформировать нас относительно своих возможностей или подталкивать к определенным выводам, которых мы потом будем придерживаться. Поэтому нам следует понимать, что Google в ответе за свои технологии. Проще говоря, если они могут точно доказать, что они ничего такого не делают, то с этого момента им следует начать; в конце концов, там работают одни из самых талантливых инженеров на планете. Google продолжает усложнять поисковый маркетинг и отменять данные, позволяющие нам улучшать восприятие пользователем, но факт в том, что у нас симбиоз. Поисковики нуждаются в SEO-специалистах и вебмастерах, чтобы сделать сеть быстрее, проще и понятнее, а мы нуждаемся в поисковиках, чтобы качественный контент поощрялся, занимая более заметные места. Проблема в том, что у Google в руках все карты, и я рад, что приложил свои усилия к тому, чтобы вырвать одну из них. Твой ход, Мэтт.

Взято у ne-onn

Новости конкурентной разведки. Нежданов Игорь Юрьевич - частный взгляд на проблему.

22 дек. 2011 г.