среда, Октябрь 18, 2006

Переезжаем

Блог переезжает на новый хостинг и располагается по адресу - http://websearching.ru/blog/
Этот будет закрыт и удален в ближайшие полторы-две недели.

четверг, Август 10, 2006

Переезд

В ближайшие несколько дней этой и второй мой блоги переедут с блоггера на постоянный постоянный хостинг на другом домене. Имя домена сообщу дополнительно.

К сожалению, нормально вести блоги пока не получается из-за отсутствия времени, поэтому регулярность обновления весьма невысока.

Защита от автосабмита на webmaster.yandex.ru

Защита от автосабмита - правильный шаг, но обязательный ввод картинки - имхо не самое удачное решение. Если убрать обязательность ее ввода, то можно поступить следующим образом: временной (к примеру суточный) сабмит поделить на три части по двум очевидным признакам - по факту ввода текста с картинки и правильности его ввода, и соотвествующим образом ставить все в очередь в очередь. То есть:
1. те кто ввели правильно - идут первыми в списке на индексацию с порогом в k страниц от общего количества подписанных страниц с одного сайта;
2. для тех, кто ввел, но ввел неправильно (сделать допустимость в 5% возможных ошибок ввода контрольного числа при сабмите одного сайта), определить другой фиксированный порог для сайта в n страниц (n << k). Все остальные страницы, которые > n - не учитывать, и в общей очереди на индексацию поставить после идущих в пункте 1;
3. те, кто вообще ничего не ввели - либо принять, но не ставить в очередь на индексацию (то есть удалить вообще), либо поставить, но в самом конце после всех остальных (1 и 2) с порогом числа страниц для сайта в m единиц, где m << n.

Пункт 1 однозначно (пока не будут разработаны распознавалки) однозначно отделят ручной сабмит от всего остального.

Например Google на странице http://www.google.com/addurl/ не требует обязательность картинки и принимает даже без нее, но наверняка сортирует засабмиченные странички каким-то аналогичным способом в зависимости от факта ввода контрольного слова и правильности его ввода.


Хотя указанный подход в ситуации, когда кто-то пытается засабмитить много страниц с бэклинками на себя, в вариант номер два не отработает как следует, так как страниц с одного сайта будет добавляться примерно по одной-две...

вторник, Август 01, 2006

Ya.Direct

Интересно, Яндекс завтра похвастается, сколько в сумме денег было на халяву накинуто тем, кто вчера-сегодня проплатит за рекламу?
Ответ "20% от уплаченного" не принимается за неинформативностью. :)

понедельник, Июль 31, 2006

Яндекс.Классы

Яндекс объявил, что на конкурс Яндекс.Класс прислано всего 28 работ, причем тематика некоторых из них даже не касается информационного поиска. По правилам конкурса должно быть отобрано не более 10 работ, которые будут награждены и опубликованы на сайте в общий доступ.
Честно говоря, мне бы хотелось изучить все эти работы. Может быть Яндекс сможет договориться с авторами по поводу публикаций всех работ в открытый доступ. Павел правильно сказал - похоже, что такое небольшое количество работ отражает реальное положение дел с преподаванием дисциплин, связанных с информационным поиском, в России и странах СНГ. Чем больше материалов по информационному поиску будет в открытом виде (в особенности на русском языке), тем больше вероятность, что кто-то заинтересуется этой дисциплиной и будет развивать ее.

пятница, Июль 28, 2006

И такое бывает...

Устал, это когда под утро после слов "позвоните по телефону:" пишешь/говоришь адрес электронной почты.

пятница, Июль 14, 2006

M$ борется с поисковым спамом

Прочел на вебпланете заметку, что они собираются бороться с "поисковым спамом" (долго собирались что-то...).
Ну ладно, дело не в этом. Они предлагают отслеживать, куда ведут ссылки с исследуемого документа. По словам И-Минь Вана, если большое количество документов ссылаются на один и тот же сайт, то он, скорее всего, «раскручивается» незаконным способом (то есть при помощи дорвеев). В первую очередь Strider Search Defender «прошерстит» форумы и блоги, анализируя найденные страницы и пытаясь определить, не ссылается ли большая их часть на какой-нибудь определенный сайт. Затем URL сайта проверят по базе «белых адресов», после чего будет вынесен вердикт - отнести адрес к разряду спамерских или оставить в покое.
Во-первых, совершенно непонятно как они собираются сформировать базу "белых адресов" и каким критериям должен удовлетворять тот или иной сайт, чтобы быть в нее внесен. Ведь по сути, если имеется дор и если он определяется поисковиком именно как дор, то банится автоматом, о чем уже не раз говорили сотрудники искалок. Если сайт не дор, то он "белый" и имеет право присутствовать в поиске. Тогда причем тут база "белых" адресов и как она формируется? Спору нет, всегда есть способы что-то обойти, но тем не менее. Во-вторых, вопрос относительно «прошерстения» блогов и форумов. Естественно, имеется определенная часть мусора, которая бесспорно заслуживает наказания, но, вместе с этим, как быть с флешмобами, то есть когда на одном "светлом" сайте появляется какая-то новость или что-то в этом духе и сразу же на нее появляется куча ссылок по блогам и форума, как, например, известный случай с напитком "йад"? По вышеуказанным определениям - типичный пример спама, однако, если подумать, то нет. Я, конечно, не думаю, что весь алгоритм ограничивается только двумя указанными характеристиками, но вместе с этим очень быстро нашелся контрпример, который всю идею метода сводит на нет. Надеюсь, что они как-то умеют учитывать и обходить подобные ситуации.

пятница, Июнь 30, 2006

Рамблер.Тулбар - краткий обзор

Наконец-то и Рамблер разжился своей панелью инструментов.

Краткий обзор:
Традиционно слева - структурированная подборка ссылок на основные разделы портала Рамблер. Нажатие на логотип перекидывает на главную страницу. Возможность поиска в нескольких сервисах (глобальный поиск, картинки, новости, покупки и т.п.) удобна, но при вводе очередного запроса - поиск по умолчанию ведется в Интернете.
[offtopic]
Мое "фи" всем разработчикам тулбаров: если в тулбаре есть возможость поиска в нескольких сервисах (на примере гугл.бара) - сделать так, чтобы пользователи сам мог выбрать сервис (например, картинки) и вести в нем поиск, без постоянного выбора этого пункта меню из списка. При перезапуске браузера - выставить значение поиска по умолчанию.
[/offtopic]
Ладно, вернемся к Рамблеру. После установки - он сразу требует авторизации на Рамблере. Это недостаток. Не надо от пользователя ничего требовать. Если захочет - авторизуется потом сам. Ладно, допустим я авторизовался и хочу выйти. Нажимаю выход, но мне опять предлагают войти. Зачем? :-/ Авторизацию можно убрать в настройках, но это уже потом.
Модуль проверки орфографии работает нормально, хотя слово "спам" не знает напрочь. Считает, что его нет. Интересно, принимал ли участие в его создании Андрей Коваленко? Думаю, да.
Программе можно позволить автоматически устанавливать обновления. И теперь самое интересное - "Учитывать посещенные мною страницы при рассчете популярности сайтов". Вы поняли, что это означает? Господа Рамблеровцы, я понимаю, что комментариев по этому поводу от Вас ждать сложно, но если все-таки есть возможность - объясните хоть минимум. :)
В настройках можно выбрать и установить по умолчанию поиск в Яндексе, Рамблере, Гугле, Яху и МСН. Хотя это интересно - панелька от Рамблера, а поиск по дефолту - от Яндекса. :)
Информеры новостей, погоды, курсов валют и гороскопа - удобны и практичны. С них можно перейти на соотвесвующий раздел в Рамлере. Радио - не тестировал, поэтому комментариев дать не могу.
Раздел уведомлений собирает информацию о новых письмах, записях в блоги, фотографиях и т.п. Удобно, но мне не понравилось, что числа не обнуляются, когда соотвествующая страница просмотрена. Приходитяся перелогиниваться или перезапускать браузер, чтобы цифры ушли в ноль.

В итоге:
Вцелом, бар удобен для поиска и оставляет приятные впечатления. В принципе, его выпуск не стал неожиданностью, так как у многих поисковиков уже есть свои панельки.

PS 2Rambler: вот здесь не надо писать "для Вашего браузера". Вы же не знаете, что мой браузер - FireFox, а ведь панелька встраивается только в IE.

За новость о тулбаре спасибо minaton'у.

Рамблер.Блоги - "Постучать Модератору"

Рамблер.Блоги - первое место в рунете, где в сервисе блогов мне встречается подобная конструция (например в блоге Влада Шабанова ). Цели, преследуемые администрацией, вполне понятны, но такое, пардон, бельмо на лице блога вызывает неприязнь.