Собираю идеи: поиск украденного контента

Владимир | | Разное.

plagiat

Недавно у меня появилась идея написать небольшой скрипт, которую хочу обсудить с вами.

По моим наблюдениям, с воровством контента сталкиваются практически все блоггеры. Как только начинаешь публиковать собственные статьи, сразу же находятся желающие разместить их у себя на сайте, а поставить обратную ссылку почему-то забывают 🙂

Причём часто создают сайты с наполнением, только из ворованного контента. Владелец такого сайта может без особых усилий автоматизировать работу. Многие блоггеры отдают полный текст постов в RSS, поэтому ему не нужно даже возиться с cURL'ом. Библиотеки для работы с RSS есть, а вырезать «лишние» ссылки можно с помощью несложного регулярного выражения. Т.е. можно клепать такие сайты десятками без особых усилий.

Если честно, я очень пассивно борюсь с этим явлением, в основном потому, что часть работы за меня делают поисковики. Я не видел, чтобы украденная статья оказалась выше моей в выдаче, но на 100% я этого не знаю. И ситуация окажется сложнее если вы только что открыли блог. У поисковиков доверия к нему не будет никакого, и если кто-то начнет воровать контент, то вполне возможно, что украденный вариант попадёт в индекс быстрее, чем ваш.

Схема действий в таких ситуациях выглядит примерно так:

1) письмо владельцу сайта с требованием убрать контент или поставить обратную индексируемую ссылку;

2) если на первый пункт реакции не было – абуза хостеру;

3) можно дополнительно настучать в техподдержку поисковиков.

С этой частью всё довольно просто. Достаточно один раз подготовить шаблонное письмо и подставлять в него только адреса нужных сайтов.

Но сам поиск ворованных статей занимает некоторое время. И, самое главное, его нужно выполнять регулярно.

Поэтому и возникла идея написать web приложение для автоматизации этой задачи. На мой взгляд, такой скрипт будет эффективнее существующих решений, вроде Сopyscape.

Окончательно с функционалом я не определился, и поэтому хочу обсудить идею. На данный момент планируется следующая схема работы.

1) Скрипт будет использовать базу данных блога, при этом неважно какая CMS используется, для получения текстов статей достаточно знать название таблицы и поля, в котором хранятся тексты постов.

2) Выбираем произвольно несколько постов. (Рассчитывать, что тащить будут только новые – не дальновидно 🙂 ).

3) Из отобранных постов удаляем теги и выбираем одну или несколько фраз (с количеством слов в фразе придётся экспериментировать).

4) Проверяем выдачу поисковика по точному соответствию этим фразам (по-идее, достаточно проверить первую страницу выдачи). Если есть какие-нибудь сайты с такими же фразами, составляем их список.

5) С помощью cURL'а получаем страницы с этих сайтов и проверяем, есть ли на них обратные индексируемые ссылки на наш блог. Если нет, получаем данные о сайте с помощью сервисов вроде WhoIsHostingThis или YouGetSignal и формируем отчёт (в принципе, в отчёт можно просто вставить ссылки на сервисы).

6) Отправляем отчёт почтой или можно просто сделать просмотр отчётов через web интерфейс.

После этого достаточно будет просто периодически проверять отчёты. По-идее, если проверять таким способом по 10 постов каждый день, то этого вполне будет достаточно для среднего блога (с 2-3 сотнями записей).

На данный момент это всё.

Мне будет очень интересно узнать ваши идеи на этот счёт. Так что, если у вас есть замечания, советы или вы знаете о подобных решениях, не стесняйтесь, пишите в комментариях 😉