Собираю идеи: поиск украденного контента

Владимир | | Разное.

plagiat

Недавно у меня появилась идея написать небольшой скрипт, которую хочу обсудить с вами.

По моим наблюдениям, с воровством контента сталкиваются практически все блоггеры. Как только начинаешь публиковать собственные статьи, сразу же находятся желающие разместить их у себя на сайте, а поставить обратную ссылку почему-то забывают 🙂

Причём часто создают сайты с наполнением, только из ворованного контента. Владелец такого сайта может без особых усилий автоматизировать работу. Многие блоггеры отдают полный текст постов в RSS, поэтому ему не нужно даже возиться с cURL'ом. Библиотеки для работы с RSS есть, а вырезать «лишние» ссылки можно с помощью несложного регулярного выражения. Т.е. можно клепать такие сайты десятками без особых усилий.

Если честно, я очень пассивно борюсь с этим явлением, в основном потому, что часть работы за меня делают поисковики. Я не видел, чтобы украденная статья оказалась выше моей в выдаче, но на 100% я этого не знаю. И ситуация окажется сложнее если вы только что открыли блог. У поисковиков доверия к нему не будет никакого, и если кто-то начнет воровать контент, то вполне возможно, что украденный вариант попадёт в индекс быстрее, чем ваш.

Схема действий в таких ситуациях выглядит примерно так:

1) письмо владельцу сайта с требованием убрать контент или поставить обратную индексируемую ссылку;

2) если на первый пункт реакции не было – абуза хостеру;

3) можно дополнительно настучать в техподдержку поисковиков.

С этой частью всё довольно просто. Достаточно один раз подготовить шаблонное письмо и подставлять в него только адреса нужных сайтов.

Но сам поиск ворованных статей занимает некоторое время. И, самое главное, его нужно выполнять регулярно.

Поэтому и возникла идея написать web приложение для автоматизации этой задачи. На мой взгляд, такой скрипт будет эффективнее существующих решений, вроде Сopyscape.

Окончательно с функционалом я не определился, и поэтому хочу обсудить идею. На данный момент планируется следующая схема работы.

1) Скрипт будет использовать базу данных блога, при этом неважно какая CMS используется, для получения текстов статей достаточно знать название таблицы и поля, в котором хранятся тексты постов.

2) Выбираем произвольно несколько постов. (Рассчитывать, что тащить будут только новые – не дальновидно 🙂 ).

3) Из отобранных постов удаляем теги и выбираем одну или несколько фраз (с количеством слов в фразе придётся экспериментировать).

4) Проверяем выдачу поисковика по точному соответствию этим фразам (по-идее, достаточно проверить первую страницу выдачи). Если есть какие-нибудь сайты с такими же фразами, составляем их список.

5) С помощью cURL'а получаем страницы с этих сайтов и проверяем, есть ли на них обратные индексируемые ссылки на наш блог. Если нет, получаем данные о сайте с помощью сервисов вроде WhoIsHostingThis или YouGetSignal и формируем отчёт (в принципе, в отчёт можно просто вставить ссылки на сервисы).

6) Отправляем отчёт почтой или можно просто сделать просмотр отчётов через web интерфейс.

После этого достаточно будет просто периодически проверять отчёты. По-идее, если проверять таким способом по 10 постов каждый день, то этого вполне будет достаточно для среднего блога (с 2-3 сотнями записей).

На данный момент это всё.

Мне будет очень интересно узнать ваши идеи на этот счёт. Так что, если у вас есть замечания, советы или вы знаете о подобных решениях, не стесняйтесь, пишите в комментариях 😉

  • Бывает конечно, что тырят статьи без сохранения структуры и ссылки на источник. Пока прямым обращением к вебмастеру получалось уладить вопрос — в основном удаляют статью. Но таких нахожу значительно меньше, чем людей которые публикуют с правилами копирайта. А последних обнаруживаю или по статистике переходов на сайт или по бекам в Яндекс.Вебмастере

    • То, что честных вебмастеров больше, хорошо. Они публикуют ваш материал — вы получаете входящие ссылки. Соответственно, и заинтересовавшиеся посетители, и роботы к вам на сайт попадут.

      Но у меня задача — быстро найти нечестных.

  • Бывает конечно, что тырят статьи без сохранения структуры и ссылки на источник. Пока прямым обращением к вебмастеру получалось уладить вопрос — в основном удаляют статью. Но таких нахожу значительно меньше, чем людей которые публикуют с правилами копирайта. А последних обнаруживаю или по статистике переходов на сайт или по бекам в Яндекс.Вебмастере

    • То, что честных вебмастеров больше, хорошо. Они публикуют ваш материал — вы получаете входящие ссылки. Соответственно, и заинтересовавшиеся посетители, и роботы к вам на сайт попадут.

      Но у меня задача — быстро найти нечестных.

  • Сейчас процесс проверки проходит у меня где-то так: я наугад выбираю фрагмент из своего блога и периодически ищу его в Google (в основном когда нечем заняться). Сам задумывался над автоматизацией этого процесса, но руки не доходят. Польза от готового решения несомненно будет.

    Но не так трудно выявить кражу контента, как пресечь. Не всегда хостеры идут на встречу. И что меня больше всего удивляет так это то, что украинские хостеры в этом плате отстают (из собственного опыта). Явное нарушение авторских прав, они просят подтверждать через суд, тогда как российские компании с этим не церемонятся (может берегут свою репутацию больше).

    • Надеюсь, ситуация с защитой авторских прав будет улучшаться. С хостерами проблемы, конечно, останутся. Кстати, некоторые рекламируются как «абузоустойчивые». Хуже то, что формально они правы. Сотрудник хостинг компании на 100% не может определить кто у кого статью увел (кеш поисковика — не доказательство, т.к. никто не гарантирует, что оригинальная статья в нём первой появится).

  • Сейчас процесс проверки проходит у меня где-то так: я наугад выбираю фрагмент из своего блога и периодически ищу его в Google (в основном когда нечем заняться). Сам задумывался над автоматизацией этого процесса, но руки не доходят. Польза от готового решения несомненно будет.

    Но не так трудно выявить кражу контента, как пресечь. Не всегда хостеры идут на встречу. И что меня больше всего удивляет так это то, что украинские хостеры в этом плате отстают (из собственного опыта). Явное нарушение авторских прав, они просят подтверждать через суд, тогда как российские компании с этим не церемонятся (может берегут свою репутацию больше).

    • Надеюсь, ситуация с защитой авторских прав будет улучшаться. С хостерами проблемы, конечно, останутся. Кстати, некоторые рекламируются как «абузоустойчивые». Хуже то, что формально они правы. Сотрудник хостинг компании на 100% не может определить кто у кого статью увел (кеш поисковика — не доказательство, т.к. никто не гарантирует, что оригинальная статья в нём первой появится).

  • Ну что сказать:) с функционалом все верно подмечено для начала, повесить можно на крон даже, ну а если что то и нужно будет дописать всегда можно:)так как это не в чудом коде ковыряться)

  • Ну что сказать:) с функционалом все верно подмечено для начала, повесить можно на крон даже, ну а если что то и нужно будет дописать всегда можно:)так как это не в чудом коде ковыряться)

  • Serator

    Идея достаточно интересная. Возможно в формируемый отчет было бы неплохо добавить так же ссылки, аль готовые формы, на пункт 3-ий из списка действий.

  • Serator

    Идея достаточно интересная. Возможно в формируемый отчет было бы неплохо добавить так же ссылки, аль готовые формы, на пункт 3-ий из списка действий.

  • Спасибо, учту.

  • Спасибо, учту.

  • Осталось дождаться выхода первой бетки ))))

    • Думаю, недельки через 2 можно будет посмотреть 🙂 Если по ходу дела не возникнет идеи все кардинально переделать 🙂

      • Могу податься в бета-тестеры. Т.к. идея очень даже нравится…

        • Это хорошо 🙂 Буду рад любым отзывам.

  • Осталось дождаться выхода первой бетки ))))

    • Думаю, недельки через 2 можно будет посмотреть 🙂 Если по ходу дела не возникнет идеи все кардинально переделать 🙂

      • Могу податься в бета-тестеры. Т.к. идея очень даже нравится…

        • Это хорошо 🙂 Буду рад любым отзывам.

  • elslepas

    На сколько мне известно, в цивилизованых странах проблемой авторских прав занимаются целые компании, которые ищут дубликаты ваших записей на других сайтах, чем неплохо зарабатывают на жизьн.Ведь у них за такие шалости можно отсудить приличные деньги =)

    Вот нашел интересную ссылку.. =0

    Удачи в разработке, надеюсь все получится =)

    • Нам до них еще далеко. К сожалению.
      У нас производители софта себя с трудом защищают, что тут говорить о рядовых блоггерах 🙂

  • elslepas

    На сколько мне известно, в цивилизованых странах проблемой авторских прав занимаются целые компании, которые ищут дубликаты ваших записей на других сайтах, чем неплохо зарабатывают на жизьн.Ведь у них за такие шалости можно отсудить приличные деньги =)

    Вот нашел интересную ссылку.. =0

    Удачи в разработке, надеюсь все получится =)

    • Нам до них еще далеко. К сожалению.
      У нас производители софта себя с трудом защищают, что тут говорить о рядовых блоггерах 🙂

  • А разве поисковик никак с этим не борется. Думаю у них свои методы отработаны

    • Борется, конечно. Но судя по количеству дублированного контента, у них не очень получается 🙂
      В любом случае, надеяться на то, что кто-то защитит вашу собственность, и при этом ничего не делать самому, как-то неправильно.

  • А разве поисковик никак с этим не борется. Думаю у них свои методы отработаны

    • Борется, конечно. Но судя по количеству дублированного контента, у них не очень получается 🙂
      В любом случае, надеяться на то, что кто-то защитит вашу собственность, и при этом ничего не делать самому, как-то неправильно.

  • 1) письмо владельцу сайта…
    2) …
    3) …

    Эти пункты полная утопия. В жизни всё иначе 🙂 Можно про это забыть и не париться. 😉

    ————

    1) Скрипт будет использовать базу данных блога…

    М… есть мощнецкий сервак свою БД клепать? Мне кажется, это тоже утопия… Не могу себе представить БД на серваке, если только моя по топикам занимает около 10 мб, сама же БД у меня примерно 20 мб — это комментарии, голосования и т.д. Всего топиков около 70 пока наклепал… У вас есть свободные гмгабайты для создания БД хотябы пары тысяч блогов? или планируется создать свою базу не более, чем из 100-200 блогов?

    >>2) Выбираем произвольно несколько постов. (Рассчитывать, что тащить будут только новые – не дальновидно ).

    Дилема. Разве нескольких постов с каждого блога будет достаточно? Думаю, все надо…

    >>3) Из отобранных постов удаляем теги и выбираем одну или несколько фраз

    Здесь требуется чуть ли не ИИ создавать 🙂 Иначе синонимайзеры пролетают на ура и толку от такого сервиса не будет 😉

    У меня: «мама мыла раму», у вора: «мыла раму с мылом мама» и капец. Это в приметиве. Думаю, мысль ясна 🙂

    >>4) Проверяем выдачу поисковика по точному соответствию этим фразам …

    Ну опять же утопия и не правильный ход мыслей… имхо 😉
    «мама мыла» и «мыла раму» — как минимум 5 приблизительных фраз… Выдача каждой фразы может быть в серпе на разных местах. К примеру, 1-й плагиат в гугле может сидеть на 6-й позиции (топ), а второй плагиат на 21-й позиции — третья страница. И как быть? половину плагиатов заранее не проверяем?

    >>5) С помощью cURL'а…

    Все никак не пойму, почему все программисты тянутся к старым методам или сложным? Например, почти всегда хватает Файл_гет_контент и Файл_пут_контент. Весь скрипт занимает всего несколько строчек, а не целую «поэму». 😀 Чем лучше Курлы — знаю, пхп уже полгода изучаю сижу 🙂 Может, там что-то особое есть, что заставляет делать скрипты левой рукой через правую ногу сидя на корточках?

    —-
    WhoIsHostingThis — это чего за сервис такой странный? Кроме ипа и ДНС ничего мне не показал. Собственно, что с этих сервисов нужно вытянуть? ип можно взять в пхп, ДНС тоже — скрипт в 2-4 строчки… Да вообще много чего можно взять в пхп не залязя на другие сервисы, как я понял, просто нужно знать как это делается… вот, сижу, потихоньку мусолю… 🙂 В хуизе все данные могут быть закрыты, хакеры и воры вряд ли откроют свое имя, адрес, телефон и мыло… Я при регистрации доменов, помнится указывал что-то «приват», но в целом, обычно инфу о себе не скрываю специально.

    —-

    Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников… Интересно, если кто-то стырил что-то, вот можно было бы узнать об этом типе всё и опубликовать о нем данные, ведь наверняка каждый где-то в сети засветился (форумы, гостевые, блоги и т.д.). Тоже утопия, видимо 😀

    • Спасибо за такой подробный отзыв 🙂 С некоторыми моментами я согласен, с некоторыми — нет.

      1) Идею отдельной БД я уже пересмотрел, действительно это перебор. Но я не совсем понял какую тысячу блогов вы имеете ввиду. Мне сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов 🙂 Предполагается, что блоггер будет проверять только свой блог. Это не приложение для администрации хабра или ЖЖ. Для них нужно пересматривать саму идею проверки, ведь есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.
      Возьмём для примера smashingmagazine.com. Допустим длина поста 10кБ (учитывается только текст) и они публикуют 365 постов в год, общий размер — 3,65МБ (за год). У большинства блоггеров будет меньше. К тому же база не обязательно должна находится на том же сервере, что и блог, проверку можно запускать откуда угодно, хоть с домашнего компьютера.

      2) Несколько постов — за одну проверку. Проверки будут запускаться регулярно планировщиком.

      3) Синонимайзеры. Тут у меня простой вопрос. Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.

      4) 100% точность никто не гарантирует 🙂 Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком. А вот если кто-то на вашем контенте начнет вас обгонять, то шансы поймать этого товарища увеличатся.

      5) cURL'ом можно реализовать несколько проверок одновременно, это будет намного быстрее, чем использовать file_get_contents.

      http://www.whoishostingthis.com — даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации (они могут отличаться от указанных в whois).
      А если воры изначально прячутся, то и переговоры с ними вести бесполезно, нужно сразу к хостеру обращаться, правда, не факт, что поможет, но лучше, чем ничего 😉

      Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников…

      Не слышал о таких. Зато знаю несколько способов оставаться незамеченным 🙂

  • 1) письмо владельцу сайта…
    2) …
    3) …

    Эти пункты полная утопия. В жизни всё иначе 🙂 Можно про это забыть и не париться. 😉

    ————

    1) Скрипт будет использовать базу данных блога…

    М… есть мощнецкий сервак свою БД клепать? Мне кажется, это тоже утопия… Не могу себе представить БД на серваке, если только моя по топикам занимает около 10 мб, сама же БД у меня примерно 20 мб — это комментарии, голосования и т.д. Всего топиков около 70 пока наклепал… У вас есть свободные гмгабайты для создания БД хотябы пары тысяч блогов? или планируется создать свою базу не более, чем из 100-200 блогов?

    >>2) Выбираем произвольно несколько постов. (Рассчитывать, что тащить будут только новые – не дальновидно ).

    Дилема. Разве нескольких постов с каждого блога будет достаточно? Думаю, все надо…

    >>3) Из отобранных постов удаляем теги и выбираем одну или несколько фраз

    Здесь требуется чуть ли не ИИ создавать 🙂 Иначе синонимайзеры пролетают на ура и толку от такого сервиса не будет 😉

    У меня: «мама мыла раму», у вора: «мыла раму с мылом мама» и капец. Это в приметиве. Думаю, мысль ясна 🙂

    >>4) Проверяем выдачу поисковика по точному соответствию этим фразам …

    Ну опять же утопия и не правильный ход мыслей… имхо 😉
    «мама мыла» и «мыла раму» — как минимум 5 приблизительных фраз… Выдача каждой фразы может быть в серпе на разных местах. К примеру, 1-й плагиат в гугле может сидеть на 6-й позиции (топ), а второй плагиат на 21-й позиции — третья страница. И как быть? половину плагиатов заранее не проверяем?

    >>5) С помощью cURL'а…

    Все никак не пойму, почему все программисты тянутся к старым методам или сложным? Например, почти всегда хватает Файл_гет_контент и Файл_пут_контент. Весь скрипт занимает всего несколько строчек, а не целую «поэму». 😀 Чем лучше Курлы — знаю, пхп уже полгода изучаю сижу 🙂 Может, там что-то особое есть, что заставляет делать скрипты левой рукой через правую ногу сидя на корточках?

    —-
    WhoIsHostingThis — это чего за сервис такой странный? Кроме ипа и ДНС ничего мне не показал. Собственно, что с этих сервисов нужно вытянуть? ип можно взять в пхп, ДНС тоже — скрипт в 2-4 строчки… Да вообще много чего можно взять в пхп не залязя на другие сервисы, как я понял, просто нужно знать как это делается… вот, сижу, потихоньку мусолю… 🙂 В хуизе все данные могут быть закрыты, хакеры и воры вряд ли откроют свое имя, адрес, телефон и мыло… Я при регистрации доменов, помнится указывал что-то «приват», но в целом, обычно инфу о себе не скрываю специально.

    —-

    Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников… Интересно, если кто-то стырил что-то, вот можно было бы узнать об этом типе всё и опубликовать о нем данные, ведь наверняка каждый где-то в сети засветился (форумы, гостевые, блоги и т.д.). Тоже утопия, видимо 😀

    • Спасибо за такой подробный отзыв 🙂 С некоторыми моментами я согласен, с некоторыми — нет.

      1) Идею отдельной БД я уже пересмотрел, действительно это перебор. Но я не совсем понял какую тысячу блогов вы имеете ввиду. Мне сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов 🙂 Предполагается, что блоггер будет проверять только свой блог. Это не приложение для администрации хабра или ЖЖ. Для них нужно пересматривать саму идею проверки, ведь есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.
      Возьмём для примера smashingmagazine.com. Допустим длина поста 10кБ (учитывается только текст) и они публикуют 365 постов в год, общий размер — 3,65МБ (за год). У большинства блоггеров будет меньше. К тому же база не обязательно должна находится на том же сервере, что и блог, проверку можно запускать откуда угодно, хоть с домашнего компьютера.

      2) Несколько постов — за одну проверку. Проверки будут запускаться регулярно планировщиком.

      3) Синонимайзеры. Тут у меня простой вопрос. Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.

      4) 100% точность никто не гарантирует 🙂 Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком. А вот если кто-то на вашем контенте начнет вас обгонять, то шансы поймать этого товарища увеличатся.

      5) cURL'ом можно реализовать несколько проверок одновременно, это будет намного быстрее, чем использовать file_get_contents.

      http://www.whoishostingthis.com — даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации (они могут отличаться от указанных в whois).
      А если воры изначально прячутся, то и переговоры с ними вести бесполезно, нужно сразу к хостеру обращаться, правда, не факт, что поможет, но лучше, чем ничего 😉

      Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников…

      Не слышал о таких. Зато знаю несколько способов оставаться незамеченным 🙂

  • >>не сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов Предполагается, что блоггер будет проверять только свой блог.

    Эх, не правильно сформулировал чуток суть. Перефразирую: сколько блогеров планируется регистрировать в сервисе? — это будет частный проект или массовый?

    >>…есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.

    Хотел эту мысль поначалу вписать, но подумал, что комментарий гораздо более топика получится 😀 Здесь нужна отдельная ветка для разговора, но в приметиве это могло бы выглядеть так: нужна отдельная БД для «кросспостинговых социалок» (ну, допустим, типа Тви — таких много, также LI и прочие блогохостинги, на которых может проверяться «профиль»; если хомяк правильный — то всё ок и без обратки, беклинка 😉 ) и отдельная БД для «доверенных сайтов» (например, тот же Хабр и прочие).

    >>Проверки будут запускаться регулярно планировщиком.

    Полагаю, нужен свой собственный сервак — дедик, сомневаюсь, что для массового применения даже выделенный сойдет, хотя на первых порах для относительно небольшого теста и обычный хостинг сгодится. Работа должна быть непрерывной… при большой загрузке Крон уже не пойдет, как разовый запуск в сутки, требуется беспрерывный конвеер, имхо. Думаю, так Сапа (наверняка уже весь инет в курсе что это) и работает — конвеером, а не по часам.

    >>Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.

    Это элементарно. Многие уже бьются над этой проблемой и пока еще не придумали нормального решения — нет либо толковых программистов, либо денег на реализацию, но в принципе это реально сделать. Некоторые сервисы имеют свой «порог совпадения»; если порог превышает 50%, например, то это копия (плагиат). Думаю, все согласятся, что пара троек предложений дописанных или измененных в статье ее уникальной ну никак не сделают — над этим и бьются все поисковики, постоянно модернизируя распознавание оных.

    >>100% точность никто не гарантирует

    Согласен, конечно 🙂 Поэтому, можно ее занизить, например, до уровня совпадения в 70-80%, см. выше.

    >>Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком.

    Для этих целей, чтоб свести к минимому погрешность, можно использовать несколько поисковиков… Смотрим пример Нигмы. Думаю, здесь все понятно, варианты: Бинг, Гугл, Яндекс и Яху, например, можно еще с десяток добавить при желании.

    >>cURL'ом можно реализовать несколько проверок одновременно, это будет намного быстрее

    Подумал было об этом сначала. Но не захлебнется ли сервер при массовой проверке? Хотя, как вариант, можно использовать несколько серверов под разные нужды — именно так сейчас и делают на крупных сервисах, если нагрузка слишком высокая, чтоб зависания избежать — точно не помню, про какой сервис читал, но все счетчики так работают, например, пр-су просят поставить код себе на блог для уменьшения нагрузки — (я так думаю ???).

    >>даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации

    Понял. Можно попробовать ссыль без хуиза посмотреть, сейчас думаю над этим — не люблю грузить других, чтоб не забанили. 🙂

    >>нужно сразу к хостеру обращаться

    Здесь проблемы уже решили с этим.

    >>Не слышал о таких.

    О, таких много (часто о них слышал, но не обращал внимания), я специально не искал, но видел уже 3 наиболее крупных, вот одна из баз, например: vsemkidalam.net. Вполне можно пообщаться с разными админами и брать у них хмл или попросить их сваять что-либо еще, чтоб все были в шоколаде.

    • Bezkidal

      База была открыта для БЕСПЛАТНОГО и БЕЗ РЕГИСТРАЦИИ http://vsemkidalam.net — c 22.00 по МСК 19.02.2011 г. СМС-биллинг снят !

  • >>не сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов Предполагается, что блоггер будет проверять только свой блог.

    Эх, не правильно сформулировал чуток суть. Перефразирую: сколько блогеров планируется регистрировать в сервисе? — это будет частный проект или массовый?

    >>…есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.

    Хотел эту мысль поначалу вписать, но подумал, что комментарий гораздо более топика получится 😀 Здесь нужна отдельная ветка для разговора, но в приметиве это могло бы выглядеть так: нужна отдельная БД для «кросспостинговых социалок» (ну, допустим, типа Тви — таких много, также LI и прочие блогохостинги, на которых может проверяться «профиль»; если хомяк правильный — то всё ок и без обратки, беклинка 😉 ) и отдельная БД для «доверенных сайтов» (например, тот же Хабр и прочие).

    >>Проверки будут запускаться регулярно планировщиком.

    Полагаю, нужен свой собственный сервак — дедик, сомневаюсь, что для массового применения даже выделенный сойдет, хотя на первых порах для относительно небольшого теста и обычный хостинг сгодится. Работа должна быть непрерывной… при большой загрузке Крон уже не пойдет, как разовый запуск в сутки, требуется беспрерывный конвеер, имхо. Думаю, так Сапа (наверняка уже весь инет в курсе что это) и работает — конвеером, а не по часам.

    >>Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.

    Это элементарно. Многие уже бьются над этой проблемой и пока еще не придумали нормального решения — нет либо толковых программистов, либо денег на реализацию, но в принципе это реально сделать. Некоторые сервисы имеют свой «порог совпадения»; если порог превышает 50%, например, то это копия (плагиат). Думаю, все согласятся, что пара троек предложений дописанных или измененных в статье ее уникальной ну никак не сделают — над этим и бьются все поисковики, постоянно модернизируя распознавание оных.

    >>100% точность никто не гарантирует

    Согласен, конечно 🙂 Поэтому, можно ее занизить, например, до уровня совпадения в 70-80%, см. выше.

    >>Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком.

    Для этих целей, чтоб свести к минимому погрешность, можно использовать несколько поисковиков… Смотрим пример Нигмы. Думаю, здесь все понятно, варианты: Бинг, Гугл, Яндекс и Яху, например, можно еще с десяток добавить при желании.

    >>cURL'ом можно реализовать несколько проверок одновременно, это будет намного быстрее

    Подумал было об этом сначала. Но не захлебнется ли сервер при массовой проверке? Хотя, как вариант, можно использовать несколько серверов под разные нужды — именно так сейчас и делают на крупных сервисах, если нагрузка слишком высокая, чтоб зависания избежать — точно не помню, про какой сервис читал, но все счетчики так работают, например, пр-су просят поставить код себе на блог для уменьшения нагрузки — (я так думаю ???).

    >>даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации

    Понял. Можно попробовать ссыль без хуиза посмотреть, сейчас думаю над этим — не люблю грузить других, чтоб не забанили. 🙂

    >>нужно сразу к хостеру обращаться

    Здесь проблемы уже решили с этим.

    >>Не слышал о таких.

    О, таких много (часто о них слышал, но не обращал внимания), я специально не искал, но видел уже 3 наиболее крупных, вот одна из баз, например: vsemkidalam.net. Вполне можно пообщаться с разными админами и брать у них хмл или попросить их сваять что-либо еще, чтоб все были в шоколаде.

  • 1) Первоначально я думал сделать приложение для индивидуального использования. Создание сервиса — только после того как станет понятно насколько эффективна вся эта затея 😉

    2) Вы правы, базу соц. закладок и т.п. сервисов, похоже придётся делать. Но это несложно.

    3) Собственный сервер — совсем необязателен. Вполне можно обойтись домашним ПК. Ведь вам не нужно чтобы это приложение было доступно кому-нибудь из сети и периодичность работы не критична. Не принципиально, найдёте вы плагиатора денем раньше или денем позже.

    К тому же непрерывная работа не пройдет. Поисковикам запросы с высокой частотой не нравятся 😉 Они обычно в таких случаях просят captcha ввести.

    4) Синонимайзеры. Я имел ввиду не техническую сторону, а юридическую. Если бы все было так просто, то все новостные сайты завалили бы друг друга исками 🙂

    5) Массовые проверки. Не такие уж они и массовые. Думаю для большинства блогов будет достаточно проверять 5-10 случайно выбранных страниц в день. Это сложно назвать высокой нагрузкой 🙂

    Код, который вы ставите себе на блог, нужен только чтобы отправить запрос основному серверу и показать счетчик.

    Абузоустойчивый хостинг — это, конечно, проблема. Но она выходит за рамки возможностей любого веб приложения 🙂 А вообще там не все так просто, как кажется на первый взгляд.

  • 1) Первоначально я думал сделать приложение для индивидуального использования. Создание сервиса — только после того как станет понятно насколько эффективна вся эта затея 😉

    2) Вы правы, базу соц. закладок и т.п. сервисов, похоже придётся делать. Но это несложно.

    3) Собственный сервер — совсем необязателен. Вполне можно обойтись домашним ПК. Ведь вам не нужно чтобы это приложение было доступно кому-нибудь из сети и периодичность работы не критична. Не принципиально, найдёте вы плагиатора денем раньше или денем позже.

    К тому же непрерывная работа не пройдет. Поисковикам запросы с высокой частотой не нравятся 😉 Они обычно в таких случаях просят captcha ввести.

    4) Синонимайзеры. Я имел ввиду не техническую сторону, а юридическую. Если бы все было так просто, то все новостные сайты завалили бы друг друга исками 🙂

    5) Массовые проверки. Не такие уж они и массовые. Думаю для большинства блогов будет достаточно проверять 5-10 случайно выбранных страниц в день. Это сложно назвать высокой нагрузкой 🙂

    Код, который вы ставите себе на блог, нужен только чтобы отправить запрос основному серверу и показать счетчик.

    Абузоустойчивый хостинг — это, конечно, проблема. Но она выходит за рамки возможностей любого веб приложения 🙂 А вообще там не все так просто, как кажется на первый взгляд.

  • >>К тому же непрерывная работа не пройдет.

    М… э… 🙂 уточню. Под непрерывным потоком я имел в виду обработку данных и запросов. Ну, можно было бы это назвать «очередью», пожалуй, так оно даже правильней будет. Только «очередь» не изменяемая (переменная, на текущий день, например), а более-менее однородная. Например, сегодня поступило 50 каких-либо запросов, а завтра 500. Поэтому, все запросы нужно выравнять по дням, чтоб сегодня сервер не был слишком загружен, а завтра «завален». Крон здесь не катит, как я понимаю — он только решает разовый запуск чего-либо и когда-либо, например, каждый день кроме воскр. в 12 часов дня, но это не совсем то, что нужно, имхо.

    В большинстве случаев многие ресурсы не позволяют делать более 30 запросов в минуту и более 300 в сутки. Также, полагаю, могут забанить, если запросы по крону будут регулярными, пусть и щадящими (могут предложить капчу или сделают редирект для дополнительной авторизации и т.д.)

    Поэтому изначально и указал, что если лимит будет превышен, то потребуется сервак помощнее, чтоб несколько доменов создать с разными ипами — не зря я указал и про счетчики выше.

    Например, наклепал на днях парсер всех доменов с определенного ипа с Бинга, прикинул, что идет 100-200 итераций (запросов) и это при поиске всего 70-80 доменов, делать итераций еще больше — просто получу бан 🙂 Примерно тоже самое и с подобным сервисом получается. Например, создается очень сложная выборка из топиков 10 ключевых фраз, которые требуется проверить на плагиат. Проверяем, например, 3 страницы (не обязательно плагиат должен быть в топе, ведь так? а 3 страницы — это чертовски мало даже). Делаем подключение одного сайта, получаем грубо 10 ключей * 3 страницы + 5-10 уточнений для уменьшения погрешности = примерно 40 запросов на сайт. Грубо 10 сайтов в базе уже под завязку будут использовать поисковики. Я где-то ошибся в расчетах? Ну пусть будут уменьшены запросы, хорошо, ну, э… 15, ну 20 сайтов можно пробивать… Ну точно никак не больше за один день. Поэтому, если массовый чекер делать, то получается, что если плагиат проиндексируется через, например, неделю, то еще через неделю я получу об этом мыло и то в лучшем случае. То есть делать чекер более чем на 100 сайтов просто не получится.

    П.С. Не вижу никакого смысла клепать еще один говносервис, который не будет нормально искать, либо будет сообщать о найденном через несколько недель. Если стоит действительно «глубокая и далекая цель», то это здорово, иначе это просто игра в песочнице, просто так тупо поржать… Ведь есть же готовые очень продвинутые ресурсы, как, например, тот же копискейп и еще с дюжину подобных. 🙂 Я, например, наклепал кучу парсеров и чекеров для цели обучения, а не «для себя любимого» или для массового коммерческого пользования. Если что, могу помочь с клепанием, если это не ради баловства, заодно и сам поучусь в пхп… 🙂

    П.П.С. >>Код, который вы ставите себе на блог…

    Любая зависимость от кода не есть хорошо. Желательно бы постараться без всяких привязок и проверок делать сервис: тупо зашел — тупо проверил… чтоб для любой домохозяйки 😉 Именно по этой причине многие сервисы не получают большую популярность, если не вливают капиталы. Это тоже отдельная тема…

    Извиняюсь, с утра чего-то еще не встал, а уже занудел на целый топик. 😀

    • Понимаете, делать сервис это хорошо, но есть несколько моментов, которые я хотел обойти.
      1) copyscape хороший сервис, но нужно проверять каждую страницу отдельно. При этом не совсем понятно как он выбирает текст статьи. Т.е. догадаться несложно, но как я подозреваю, в некоторых случаях будут возникать ошибки. Чтобы эти ошибки убрать нужен доступ к БД блога, а его стороннему сервису никто не предоставит (и правильно сделает), поэтому и возникла идея отдельного приложения, которое каждый блоггер ставит для себя.
      2) Если публиковать по 1 посту в день, а проверять, например, по 5, то при каждой проверке мы будем перепроверять 4 предыдущих статьи. Если запускать проверку 2 раза в день, то 365 постов будут перепроверяться с периодичностью примерно 45 дней, проверки 1 раз в час обеспечат периодичность в 5 дней. На мой взгляд, вполне нормальные цифры. Каждая проверка потребует 5 запросов к поисковику и _максимум_ 50 запросов к различным сайтам из результатов поиска (все сайты разные), и то эти проверки нужны только если вы хотите проверить наличие обратных ссылок.

      P.S. Я не могу сейчас сказать насколько будет полезно такое приложение, нужно пробовать 😉

  • >>К тому же непрерывная работа не пройдет.

    М… э… 🙂 уточню. Под непрерывным потоком я имел в виду обработку данных и запросов. Ну, можно было бы это назвать «очередью», пожалуй, так оно даже правильней будет. Только «очередь» не изменяемая (переменная, на текущий день, например), а более-менее однородная. Например, сегодня поступило 50 каких-либо запросов, а завтра 500. Поэтому, все запросы нужно выравнять по дням, чтоб сегодня сервер не был слишком загружен, а завтра «завален». Крон здесь не катит, как я понимаю — он только решает разовый запуск чего-либо и когда-либо, например, каждый день кроме воскр. в 12 часов дня, но это не совсем то, что нужно, имхо.

    В большинстве случаев многие ресурсы не позволяют делать более 30 запросов в минуту и более 300 в сутки. Также, полагаю, могут забанить, если запросы по крону будут регулярными, пусть и щадящими (могут предложить капчу или сделают редирект для дополнительной авторизации и т.д.)

    Поэтому изначально и указал, что если лимит будет превышен, то потребуется сервак помощнее, чтоб несколько доменов создать с разными ипами — не зря я указал и про счетчики выше.

    Например, наклепал на днях парсер всех доменов с определенного ипа с Бинга, прикинул, что идет 100-200 итераций (запросов) и это при поиске всего 70-80 доменов, делать итераций еще больше — просто получу бан 🙂 Примерно тоже самое и с подобным сервисом получается. Например, создается очень сложная выборка из топиков 10 ключевых фраз, которые требуется проверить на плагиат. Проверяем, например, 3 страницы (не обязательно плагиат должен быть в топе, ведь так? а 3 страницы — это чертовски мало даже). Делаем подключение одного сайта, получаем грубо 10 ключей * 3 страницы + 5-10 уточнений для уменьшения погрешности = примерно 40 запросов на сайт. Грубо 10 сайтов в базе уже под завязку будут использовать поисковики. Я где-то ошибся в расчетах? Ну пусть будут уменьшены запросы, хорошо, ну, э… 15, ну 20 сайтов можно пробивать… Ну точно никак не больше за один день. Поэтому, если массовый чекер делать, то получается, что если плагиат проиндексируется через, например, неделю, то еще через неделю я получу об этом мыло и то в лучшем случае. То есть делать чекер более чем на 100 сайтов просто не получится.

    П.С. Не вижу никакого смысла клепать еще один говносервис, который не будет нормально искать, либо будет сообщать о найденном через несколько недель. Если стоит действительно «глубокая и далекая цель», то это здорово, иначе это просто игра в песочнице, просто так тупо поржать… Ведь есть же готовые очень продвинутые ресурсы, как, например, тот же копискейп и еще с дюжину подобных. 🙂 Я, например, наклепал кучу парсеров и чекеров для цели обучения, а не «для себя любимого» или для массового коммерческого пользования. Если что, могу помочь с клепанием, если это не ради баловства, заодно и сам поучусь в пхп… 🙂

    П.П.С. >>Код, который вы ставите себе на блог…

    Любая зависимость от кода не есть хорошо. Желательно бы постараться без всяких привязок и проверок делать сервис: тупо зашел — тупо проверил… чтоб для любой домохозяйки 😉 Именно по этой причине многие сервисы не получают большую популярность, если не вливают капиталы. Это тоже отдельная тема…

    Извиняюсь, с утра чего-то еще не встал, а уже занудел на целый топик. 😀

    • Понимаете, делать сервис это хорошо, но есть несколько моментов, которые я хотел обойти.
      1) copyscape хороший сервис, но нужно проверять каждую страницу отдельно. При этом не совсем понятно как он выбирает текст статьи. Т.е. догадаться несложно, но как я подозреваю, в некоторых случаях будут возникать ошибки. Чтобы эти ошибки убрать нужен доступ к БД блога, а его стороннему сервису никто не предоставит (и правильно сделает), поэтому и возникла идея отдельного приложения, которое каждый блоггер ставит для себя.
      2) Если публиковать по 1 посту в день, а проверять, например, по 5, то при каждой проверке мы будем перепроверять 4 предыдущих статьи. Если запускать проверку 2 раза в день, то 365 постов будут перепроверяться с периодичностью примерно 45 дней, проверки 1 раз в час обеспечат периодичность в 5 дней. На мой взгляд, вполне нормальные цифры. Каждая проверка потребует 5 запросов к поисковику и _максимум_ 50 запросов к различным сайтам из результатов поиска (все сайты разные), и то эти проверки нужны только если вы хотите проверить наличие обратных ссылок.

      P.S. Я не могу сейчас сказать насколько будет полезно такое приложение, нужно пробовать 😉

  • Идея отличная! Проблема воровства контекста не сомненно существует. Будет здорово если появиться сервис который Вы описали. Сейчас пользуюсь copyscape и миратулсом…

  • Идея отличная! Проблема воровства контекста не сомненно существует. Будет здорово если появиться сервис который Вы описали. Сейчас пользуюсь copyscape и миратулсом…

  • Думается на откуп поисковикам давать вопрос было бы непредусмотрительно. Может, если рсс лента на сайте никак кроме отдачи материалов недобросовестным копипастерам не работает — отказаться от нее?

    • Если не пользоваться поисковиками, то как найти украденный контент? Не вручную же сайты просматривать 🙂
      RSS закрыть можно, но это ведь не единственных способ воровства, хотя не спорю, он самый удобный 🙂

  • Думается на откуп поисковикам давать вопрос было бы непредусмотрительно. Может, если рсс лента на сайте никак кроме отдачи материалов недобросовестным копипастерам не работает — отказаться от нее?

    • Если не пользоваться поисковиками, то как найти украденный контент? Не вручную же сайты просматривать 🙂
      RSS закрыть можно, но это ведь не единственных способ воровства, хотя не спорю, он самый удобный 🙂

  • Спасибо всем за коментарии мне очень они помогли!!!