M$ борется с поисковым спамом
Прочел на вебпланете заметку, что они собираются бороться с "поисковым спамом" (долго собирались что-то...).
Ну ладно, дело не в этом. Они предлагают отслеживать, куда ведут ссылки с исследуемого документа. По словам И-Минь Вана, если большое количество документов ссылаются на один и тот же сайт, то он, скорее всего, «раскручивается» незаконным способом (то есть при помощи дорвеев). В первую очередь Strider Search Defender «прошерстит» форумы и блоги, анализируя найденные страницы и пытаясь определить, не ссылается ли большая их часть на какой-нибудь определенный сайт. Затем URL сайта проверят по базе «белых адресов», после чего будет вынесен вердикт - отнести адрес к разряду спамерских или оставить в покое.
Во-первых, совершенно непонятно как они собираются сформировать базу "белых адресов" и каким критериям должен удовлетворять тот или иной сайт, чтобы быть в нее внесен. Ведь по сути, если имеется дор и если он определяется поисковиком именно как дор, то банится автоматом, о чем уже не раз говорили сотрудники искалок. Если сайт не дор, то он "белый" и имеет право присутствовать в поиске. Тогда причем тут база "белых" адресов и как она формируется? Спору нет, всегда есть способы что-то обойти, но тем не менее. Во-вторых, вопрос относительно «прошерстения» блогов и форумов. Естественно, имеется определенная часть мусора, которая бесспорно заслуживает наказания, но, вместе с этим, как быть с флешмобами, то есть когда на одном "светлом" сайте появляется какая-то новость или что-то в этом духе и сразу же на нее появляется куча ссылок по блогам и форума, как, например, известный случай с напитком "йад"? По вышеуказанным определениям - типичный пример спама, однако, если подумать, то нет. Я, конечно, не думаю, что весь алгоритм ограничивается только двумя указанными характеристиками, но вместе с этим очень быстро нашелся контрпример, который всю идею метода сводит на нет. Надеюсь, что они как-то умеют учитывать и обходить подобные ситуации.
Ну ладно, дело не в этом. Они предлагают отслеживать, куда ведут ссылки с исследуемого документа. По словам И-Минь Вана, если большое количество документов ссылаются на один и тот же сайт, то он, скорее всего, «раскручивается» незаконным способом (то есть при помощи дорвеев). В первую очередь Strider Search Defender «прошерстит» форумы и блоги, анализируя найденные страницы и пытаясь определить, не ссылается ли большая их часть на какой-нибудь определенный сайт. Затем URL сайта проверят по базе «белых адресов», после чего будет вынесен вердикт - отнести адрес к разряду спамерских или оставить в покое.
Во-первых, совершенно непонятно как они собираются сформировать базу "белых адресов" и каким критериям должен удовлетворять тот или иной сайт, чтобы быть в нее внесен. Ведь по сути, если имеется дор и если он определяется поисковиком именно как дор, то банится автоматом, о чем уже не раз говорили сотрудники искалок. Если сайт не дор, то он "белый" и имеет право присутствовать в поиске. Тогда причем тут база "белых" адресов и как она формируется? Спору нет, всегда есть способы что-то обойти, но тем не менее. Во-вторых, вопрос относительно «прошерстения» блогов и форумов. Естественно, имеется определенная часть мусора, которая бесспорно заслуживает наказания, но, вместе с этим, как быть с флешмобами, то есть когда на одном "светлом" сайте появляется какая-то новость или что-то в этом духе и сразу же на нее появляется куча ссылок по блогам и форума, как, например, известный случай с напитком "йад"? По вышеуказанным определениям - типичный пример спама, однако, если подумать, то нет. Я, конечно, не думаю, что весь алгоритм ограничивается только двумя указанными характеристиками, но вместе с этим очень быстро нашелся контрпример, который всю идею метода сводит на нет. Надеюсь, что они как-то умеют учитывать и обходить подобные ситуации.

1 Comments:
На Хабрахабре ( http://www.habrahabr.ru/article/342/ ) были другие подробности:
Во время тестирования программа Spam Hunter собрала более 17 тыс. адресов блогов на платформе BlogSpot и отправила их на проверку в URL Tracer. В результате был составлен список 25 крупнейших спамеров BlogSpot (большая страница). Здесь указаны сайты, на которые наиболее часто осуществляется редирект с дорвеев. Именно их — заказчиков спама — нужно блокировать в поисковых системах.Теперь начнут заказывать конкурентов.
Отправить комментарий
Links to this post:
Создать ссылку
<< Home