суббота, Май 13, 2006

Яндекс: определение дубликатов, предложение Садовского.

Изучая архивы форума, обнаружил предложение Александра Садовского о введении для Яндекса в html нового мета-тега <original href="...">, который будет действовать так: если ссылка указывает не на ту страницу, в которой она содержится, значит, это дубликат. Александр Мельков предложил другой вариант: <LINK rel=original ...>.


На первый взгляд, предложение мне показалось интересным и я думал развить его детальнее, но, поразмыслив над ним какое-то время, пришел к выводу, что оно в любом случае будет не дееспособным:
1. Воры контента практически никогда не ставят ссылку вообще, не говоря уже о проставлении ссылки такого типа на оригинал.
2. Копипастеры, ставящие ссылку на цитируемый материал (причем зачастую даже не гипертекстовую), не станут утруждаться и прописывать правильную "оригинальную" ссылку. Более того, они не заинтересованы в том, чтобы оригинальный текст находился выше их копии.
3. Это же относится и к большинству новостных сайтов, которые перепечатывают материал на своих сайтах, плодя кучу дублей. Как из них выбрать первоисточник, признав остальное дублями? Зачастую ссылки, даже если и ставятся, то чаще всего на главную страницу того сайта, с которого идет копирование, а не на сам материал. Это хорошее подспорье для определения оригинала. Идея определение оригинала по времени индексации не работает, так как "сплагиаченный" материал может попасть в индекс раньше оригинала.
4. Возможны цепочки: сайт 1 скопировал у сайта 2, сайт 2 скопировал у сайта 3, сайт 3 скопировал у сайта 4, и т.п. Простановка "оригинального" тега, например с сайта 1 на сайт 2 может ввести в заблуждение систему, так как другая аналогичная "оригинальная" ссылка может вести с сайта 3 на сайт 4. То есть налицо "признание" двух или трех сайтов первоисточниками.
5. Вполне возможна ситуация, когда плагиаторы скопируют откуда-то определенный текст на три своих сайта и с двух из них поставят "оригинальную" ссылку на третий. Доказать оригинальность основного текста машинным методом - очень сложно.
Также имеет место проблема частичного копирования, выкладывание отредактированной третьим лицом версии, оъединение нескольких материалов воедино и т.п. В этих ситуациях тег <original href="..."> может создать лишь дополнительные осложнения, а не упростить работу.

0 Comments:

Отправить комментарий

Links to this post:

Создать ссылку

<< Home