<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: Собираю идеи: поиск украденного контента</title>
	<atom:link href="http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html/feed" rel="self" type="application/rss+xml" />
	<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html</link>
	<description>Блог о программировании</description>
	<lastBuildDate>Fri, 10 Sep 2010 00:40:07 +0000</lastBuildDate>
	
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>By: Владимир</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9975</link>
		<dc:creator>Владимир</dc:creator>
		<pubDate>Tue, 23 Mar 2010 17:46:01 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9975</guid>
		<description>Если не пользоваться поисковиками, то как найти украденный контент? Не вручную же сайты просматривать :)
RSS закрыть можно, но это ведь не единственных способ воровства, хотя не спорю, он самый удобный :)</description>
		<content:encoded><![CDATA[<p>Если не пользоваться поисковиками, то как найти украденный контент? Не вручную же сайты просматривать <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /><br />
<acronym title="Really Simple Syndication">RSS</acronym> закрыть можно, но это ведь не единственных способ воровства, хотя не спорю, он самый удобный <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: SEO энтузиаст</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9954</link>
		<dc:creator>SEO энтузиаст</dc:creator>
		<pubDate>Tue, 23 Mar 2010 06:12:25 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9954</guid>
		<description>Думается на откуп поисковикам давать вопрос было бы непредусмотрительно. Может, если рсс лента на сайте никак кроме отдачи материалов недобросовестным копипастерам не работает - отказаться от нее?</description>
		<content:encoded><![CDATA[<p>Думается на откуп поисковикам давать вопрос было бы непредусмотрительно. Может, если рсс лента на сайте никак кроме отдачи материалов недобросовестным копипастерам не работает &#8211; отказаться от нее?</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: andsht</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9940</link>
		<dc:creator>andsht</dc:creator>
		<pubDate>Mon, 22 Mar 2010 19:14:12 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9940</guid>
		<description>Идея отличная! Проблема воровства контекста не сомненно существует. Будет здорово если появиться сервис который Вы описали. Сейчас пользуюсь copyscape и миратулсом...</description>
		<content:encoded><![CDATA[<p>Идея отличная! Проблема воровства контекста не сомненно существует. Будет здорово если появиться сервис который Вы описали. Сейчас пользуюсь copyscape и миратулсом&#8230;</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Владимир</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9929</link>
		<dc:creator>Владимир</dc:creator>
		<pubDate>Mon, 22 Mar 2010 17:40:41 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9929</guid>
		<description>Понимаете, делать сервис это хорошо, но есть несколько моментов, которые я хотел обойти.
1) copyscape хороший сервис, но нужно проверять каждую страницу отдельно. При этом не совсем понятно как он выбирает текст статьи. Т.е. догадаться несложно, но как я подозреваю, в некоторых случаях будут возникать ошибки. Чтобы эти ошибки убрать нужен доступ к БД блога, а его стороннему сервису никто не предоставит (и правильно сделает), поэтому и возникла идея отдельного приложения, которое каждый блоггер ставит для себя.
2) Если публиковать по 1 посту в день, а проверять, например, по 5, то при каждой проверке мы будем перепроверять 4 предыдущих статьи. Если запускать проверку 2 раза в день, то 365 постов будут перепроверяться с периодичностью примерно 45 дней, проверки 1 раз в час обеспечат периодичность в 5 дней. На мой взгляд, вполне нормальные цифры. Каждая проверка потребует 5 запросов к поисковику и _максимум_ 50 запросов к различным сайтам из результатов поиска (все сайты разные), и то эти проверки нужны только если вы хотите проверить наличие обратных ссылок.

P.S. Я не могу сейчас сказать насколько будет полезно такое приложение, нужно пробовать ;)</description>
		<content:encoded><![CDATA[<p>Понимаете, делать сервис это хорошо, но есть несколько моментов, которые я хотел обойти.<br />
1) copyscape хороший сервис, но нужно проверять каждую страницу отдельно. При этом не совсем понятно как он выбирает текст статьи. Т.е. догадаться несложно, но как я подозреваю, в некоторых случаях будут возникать ошибки. Чтобы эти ошибки убрать нужен доступ к БД блога, а его стороннему сервису никто не предоставит (и правильно сделает), поэтому и возникла идея отдельного приложения, которое каждый блоггер ставит для себя.<br />
2) Если публиковать по 1 посту в день, а проверять, например, по 5, то при каждой проверке мы будем перепроверять 4 предыдущих статьи. Если запускать проверку 2 раза в день, то 365 постов будут перепроверяться с периодичностью примерно 45 дней, проверки 1 раз в час обеспечат периодичность в 5 дней. На мой взгляд, вполне нормальные цифры. Каждая проверка потребует 5 запросов к поисковику и _максимум_ 50 запросов к различным сайтам из результатов поиска (все сайты разные), и то эти проверки нужны только если вы хотите проверить наличие обратных ссылок.</p>
<p>P.S. Я не могу сейчас сказать насколько будет полезно такое приложение, нужно пробовать <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Зайва Игорь Леонидович</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9910</link>
		<dc:creator>Зайва Игорь Леонидович</dc:creator>
		<pubDate>Mon, 22 Mar 2010 02:28:38 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9910</guid>
		<description>&gt;&gt;К тому же непрерывная работа не пройдет.

М... э... :) уточню. Под непрерывным потоком я имел в виду обработку данных и запросов. Ну, можно было бы это назвать &quot;очередью&quot;, пожалуй, так оно даже правильней будет. Только &quot;очередь&quot; не изменяемая (переменная, на текущий день, например), а более-менее однородная. Например, сегодня поступило 50 каких-либо запросов, а завтра 500. Поэтому, все запросы нужно выравнять по дням, чтоб сегодня сервер не был слишком загружен, а завтра &quot;завален&quot;. Крон здесь не катит, как я понимаю - он только решает разовый запуск чего-либо и когда-либо, например, каждый день кроме воскр. в 12 часов дня, но это не совсем то, что нужно, имхо.

В большинстве случаев многие ресурсы не позволяют делать более 30 запросов в минуту и более 300 в сутки. Также, полагаю, могут забанить, если запросы по крону будут регулярными, пусть и щадящими (могут предложить капчу или сделают редирект для дополнительной авторизации и т.д.)

Поэтому изначально и указал, что если лимит будет превышен, то потребуется сервак помощнее, чтоб несколько доменов создать с разными ипами - не зря я указал и про счетчики выше.

Например, наклепал на днях парсер всех доменов с определенного ипа с Бинга, прикинул, что идет 100-200 итераций (запросов) и это при поиске всего 70-80 доменов, делать итераций еще больше - просто получу бан :) Примерно тоже самое и с подобным сервисом получается. Например, создается очень сложная выборка из топиков 10 ключевых фраз, которые требуется проверить на плагиат. Проверяем, например, 3 страницы (не обязательно плагиат должен быть в топе, ведь так? а 3 страницы - это чертовски мало даже). Делаем подключение одного сайта, получаем грубо 10 ключей * 3 страницы + 5-10 уточнений для уменьшения погрешности = примерно 40 запросов на сайт. Грубо 10 сайтов в базе уже под завязку будут использовать поисковики. Я где-то ошибся в расчетах? Ну пусть будут уменьшены запросы, хорошо, ну, э... 15, ну 20 сайтов можно пробивать... Ну точно никак не больше за один день. Поэтому, если массовый чекер делать, то получается, что если плагиат проиндексируется через, например, неделю, то еще через неделю я получу об этом мыло и то в лучшем случае. То есть делать чекер более чем на 100 сайтов просто не получится.

П.С. Не вижу никакого смысла клепать еще один говносервис, который не будет нормально искать, либо будет сообщать о найденном через несколько недель. Если стоит действительно &quot;глубокая и далекая цель&quot;, то это здорово, иначе это просто игра в песочнице, просто так тупо поржать... Ведь есть же готовые очень продвинутые ресурсы, как, например, тот же копискейп и еще с дюжину подобных. :) Я, например, наклепал кучу парсеров и чекеров для цели обучения, а не &quot;для себя любимого&quot; или для массового коммерческого пользования. Если что, могу помочь с клепанием, если это не ради баловства, заодно и сам поучусь в пхп... :)

П.П.С. &gt;&gt;Код, который вы ставите себе на блог...

Любая зависимость от кода не есть хорошо. Желательно бы постараться без всяких привязок и проверок делать сервис: тупо зашел - тупо проверил... чтоб для любой домохозяйки ;) Именно по этой причине многие сервисы не получают большую популярность, если не вливают капиталы. Это тоже отдельная тема...

Извиняюсь, с утра чего-то еще не встал, а уже занудел на целый топик. :D</description>
		<content:encoded><![CDATA[<p>&gt;&gt;К тому же непрерывная работа не пройдет.</p>
<p>М&#8230; э&#8230; <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  уточню. Под непрерывным потоком я имел в виду обработку данных и запросов. Ну, можно было бы это назвать &#034;очередью&#034;, пожалуй, так оно даже правильней будет. Только &#034;очередь&#034; не изменяемая (переменная, на текущий день, например), а более-менее однородная. Например, сегодня поступило 50 каких-либо запросов, а завтра 500. Поэтому, все запросы нужно выравнять по дням, чтоб сегодня сервер не был слишком загружен, а завтра &#034;завален&#034;. Крон здесь не катит, как я понимаю &#8211; он только решает разовый запуск чего-либо и когда-либо, например, каждый день кроме воскр. в 12 часов дня, но это не совсем то, что нужно, имхо.</p>
<p>В большинстве случаев многие ресурсы не позволяют делать более 30 запросов в минуту и более 300 в сутки. Также, полагаю, могут забанить, если запросы по крону будут регулярными, пусть и щадящими (могут предложить капчу или сделают редирект для дополнительной авторизации и т.д.)</p>
<p>Поэтому изначально и указал, что если лимит будет превышен, то потребуется сервак помощнее, чтоб несколько доменов создать с разными ипами &#8211; не зря я указал и про счетчики выше.</p>
<p>Например, наклепал на днях парсер всех доменов с определенного ипа с Бинга, прикинул, что идет 100-200 итераций (запросов) и это при поиске всего 70-80 доменов, делать итераций еще больше &#8211; просто получу бан <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Примерно тоже самое и с подобным сервисом получается. Например, создается очень сложная выборка из топиков 10 ключевых фраз, которые требуется проверить на плагиат. Проверяем, например, 3 страницы (не обязательно плагиат должен быть в топе, ведь так? а 3 страницы &#8211; это чертовски мало даже). Делаем подключение одного сайта, получаем грубо 10 ключей * 3 страницы + 5-10 уточнений для уменьшения погрешности = примерно 40 запросов на сайт. Грубо 10 сайтов в базе уже под завязку будут использовать поисковики. Я где-то ошибся в расчетах? Ну пусть будут уменьшены запросы, хорошо, ну, э&#8230; 15, ну 20 сайтов можно пробивать&#8230; Ну точно никак не больше за один день. Поэтому, если массовый чекер делать, то получается, что если плагиат проиндексируется через, например, неделю, то еще через неделю я получу об этом мыло и то в лучшем случае. То есть делать чекер более чем на 100 сайтов просто не получится.</p>
<p>П.С. Не вижу никакого смысла клепать еще один говносервис, который не будет нормально искать, либо будет сообщать о найденном через несколько недель. Если стоит действительно &#034;глубокая и далекая цель&#034;, то это здорово, иначе это просто игра в песочнице, просто так тупо поржать&#8230; Ведь есть же готовые очень продвинутые ресурсы, как, например, тот же копискейп и еще с дюжину подобных. <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Я, например, наклепал кучу парсеров и чекеров для цели обучения, а не &#034;для себя любимого&#034; или для массового коммерческого пользования. Если что, могу помочь с клепанием, если это не ради баловства, заодно и сам поучусь в пхп&#8230; <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>П.П.С. &gt;&gt;Код, который вы ставите себе на блог&#8230;</p>
<p>Любая зависимость от кода не есть хорошо. Желательно бы постараться без всяких привязок и проверок делать сервис: тупо зашел &#8211; тупо проверил&#8230; чтоб для любой домохозяйки <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  Именно по этой причине многие сервисы не получают большую популярность, если не вливают капиталы. Это тоже отдельная тема&#8230;</p>
<p>Извиняюсь, с утра чего-то еще не встал, а уже занудел на целый топик. <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_biggrin.gif' alt=':D' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Владимир</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9901</link>
		<dc:creator>Владимир</dc:creator>
		<pubDate>Sun, 21 Mar 2010 20:02:27 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9901</guid>
		<description>1) Первоначально я думал сделать приложение для индивидуального использования. Создание сервиса - только после того как станет понятно насколько эффективна вся эта затея ;)

2) Вы правы, базу соц. закладок и т.п. сервисов, похоже придётся делать. Но это несложно.

3) Собственный сервер - совсем необязателен. Вполне можно обойтись домашним ПК. Ведь вам не нужно чтобы это приложение было доступно кому-нибудь из сети и периодичность работы не критична. Не принципиально, найдёте вы плагиатора денем раньше или денем позже.

К тому же непрерывная работа не пройдет. Поисковикам запросы с высокой частотой не нравятся ;) Они обычно в таких случаях просят captcha ввести.

4) Синонимайзеры. Я имел ввиду не техническую сторону, а юридическую. Если бы все было так просто, то все новостные сайты завалили бы друг друга исками :)

5) Массовые проверки. Не такие уж они и массовые. Думаю для большинства блогов будет достаточно проверять 5-10 случайно выбранных страниц в день. Это сложно назвать высокой нагрузкой :)

Код, который вы ставите себе на блог, нужен только чтобы отправить запрос основному серверу и показать счетчик.

Абузоустойчивый хостинг - это, конечно, проблема. Но она выходит за рамки возможностей любого веб приложения :) А вообще там не все так просто, как кажется на первый взгляд.</description>
		<content:encoded><![CDATA[<p>1) Первоначально я думал сделать приложение для индивидуального использования. Создание сервиса &#8211; только после того как станет понятно насколько эффективна вся эта затея <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<p>2) Вы правы, базу соц. закладок и т.п. сервисов, похоже придётся делать. Но это несложно.</p>
<p>3) Собственный сервер &#8211; совсем необязателен. Вполне можно обойтись домашним ПК. Ведь вам не нужно чтобы это приложение было доступно кому-нибудь из сети и периодичность работы не критична. Не принципиально, найдёте вы плагиатора денем раньше или денем позже.</p>
<p>К тому же непрерывная работа не пройдет. Поисковикам запросы с высокой частотой не нравятся <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  Они обычно в таких случаях просят captcha ввести.</p>
<p>4) Синонимайзеры. Я имел ввиду не техническую сторону, а юридическую. Если бы все было так просто, то все новостные сайты завалили бы друг друга исками <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>5) Массовые проверки. Не такие уж они и массовые. Думаю для большинства блогов будет достаточно проверять 5-10 случайно выбранных страниц в день. Это сложно назвать высокой нагрузкой <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>Код, который вы ставите себе на блог, нужен только чтобы отправить запрос основному серверу и показать счетчик.</p>
<p>Абузоустойчивый хостинг &#8211; это, конечно, проблема. Но она выходит за рамки возможностей любого веб приложения <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  А вообще там не все так просто, как кажется на первый взгляд.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Зайва Игорь Леонидович</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9879</link>
		<dc:creator>Зайва Игорь Леонидович</dc:creator>
		<pubDate>Sat, 20 Mar 2010 17:25:41 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9879</guid>
		<description>&gt;&gt;не сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов  Предполагается, что блоггер будет проверять только свой блог.

Эх, не правильно сформулировал чуток суть. Перефразирую: сколько блогеров планируется регистрировать в сервисе? - это будет частный проект или массовый?

&gt;&gt;...есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.

Хотел эту мысль поначалу вписать, но подумал, что комментарий гораздо более топика получится :D Здесь нужна отдельная ветка для разговора, но в приметиве это могло бы выглядеть так: нужна отдельная БД для &quot;кросспостинговых социалок&quot; (ну, допустим, типа Тви - таких много, также LI и прочие блогохостинги, на которых может проверяться &quot;профиль&quot;; если хомяк правильный - то всё ок и без обратки, беклинка ;) ) и отдельная БД для &quot;доверенных сайтов&quot; (например, тот же Хабр и прочие).

&gt;&gt;Проверки будут запускаться регулярно планировщиком.

Полагаю, нужен свой собственный сервак - дедик, сомневаюсь, что для массового применения даже выделенный сойдет, хотя на первых порах для относительно небольшого теста и обычный хостинг сгодится. Работа должна быть непрерывной... при большой загрузке Крон уже не пойдет, как разовый запуск в сутки, требуется беспрерывный конвеер, имхо. Думаю, так Сапа (наверняка уже весь инет в курсе что это) и работает - конвеером, а не по часам.

&gt;&gt;Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.

Это элементарно. Многие уже бьются над этой проблемой и пока еще не придумали нормального решения - нет либо толковых программистов, либо денег на реализацию, но в принципе это реально сделать. Некоторые сервисы имеют свой &quot;порог совпадения&quot;; если порог превышает 50%, например, то это копия (плагиат). Думаю, все согласятся, что пара троек предложений дописанных или измененных в статье ее уникальной ну никак не сделают - над этим и бьются все поисковики, постоянно модернизируя распознавание оных.

&gt;&gt;100% точность никто не гарантирует

Согласен, конечно :) Поэтому, можно ее занизить, например, до уровня совпадения в 70-80%, см. выше.

&gt;&gt;Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком.

Для этих целей, чтоб свести к минимому погрешность, можно использовать несколько поисковиков... Смотрим пример Нигмы. Думаю, здесь все понятно, варианты: Бинг, Гугл, Яндекс и Яху, например, можно еще с десяток добавить при желании.

&gt;&gt;cURL&#039;ом можно реализовать несколько проверок одновременно, это будет намного быстрее

Подумал было об этом сначала. Но не захлебнется ли сервер при массовой проверке? Хотя, как вариант, можно использовать несколько серверов под разные нужды - именно так сейчас и делают на крупных сервисах, если нагрузка слишком высокая, чтоб зависания избежать - точно не помню, про какой сервис читал, но все счетчики так работают, например, пр-су просят поставить код себе на блог для уменьшения нагрузки - (я так думаю ???).

&gt;&gt;даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации

Понял. Можно попробовать ссыль без хуиза посмотреть, сейчас думаю над этим - не люблю грузить других, чтоб не забанили. :)

&gt;&gt;нужно сразу к хостеру обращаться

Здесь проблемы уже &lt;a href=&quot;http://www.google.kz/search?hl=ru&amp;rlz=1C1CHMC_ruKZ336KZ313&amp;ei=BQSlS-SwLtGTsQbL7fXICA&amp;sa=X&amp;oi=spell&amp;resnum=0&amp;ct=result&amp;cd=1&amp;ved=0CBIQBSgA&amp;q=%D0%B0%D0%B1%D1%83%D0%B7%D0%BE%D1%83%D1%81%D1%82%D0%BE%D0%B9%D1%87%D0%B8%D0%B2%D1%8B%D0%B9+%D1%85%D0%BE%D1%81%D1%82%D0%B8%D0%BD%D0%B3&amp;spell=1&quot; rel=&quot;nofollow&quot;&gt;решили&lt;/a&gt; с этим.

&gt;&gt;Не слышал о таких.

О, таких много (часто о них слышал, но не обращал внимания), я специально не искал, но видел уже 3 наиболее крупных, вот одна из баз, например: vsemkidalam.net. Вполне можно пообщаться с разными админами и брать у них хмл или попросить их сваять что-либо еще, чтоб все были в шоколаде.</description>
		<content:encoded><![CDATA[<p>&gt;&gt;не сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов  Предполагается, что блоггер будет проверять только свой блог.</p>
<p>Эх, не правильно сформулировал чуток суть. Перефразирую: сколько блогеров планируется регистрировать в сервисе? &#8211; это будет частный проект или массовый?</p>
<p>&gt;&gt;&#8230;есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.</p>
<p>Хотел эту мысль поначалу вписать, но подумал, что комментарий гораздо более топика получится <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_biggrin.gif' alt=':D' class='wp-smiley' />  Здесь нужна отдельная ветка для разговора, но в приметиве это могло бы выглядеть так: нужна отдельная БД для &#034;кросспостинговых социалок&#034; (ну, допустим, типа Тви &#8211; таких много, также LI и прочие блогохостинги, на которых может проверяться &#034;профиль&#034;; если хомяк правильный &#8211; то всё ок и без обратки, беклинка <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  ) и отдельная БД для &#034;доверенных сайтов&#034; (например, тот же Хабр и прочие).</p>
<p>&gt;&gt;Проверки будут запускаться регулярно планировщиком.</p>
<p>Полагаю, нужен свой собственный сервак &#8211; дедик, сомневаюсь, что для массового применения даже выделенный сойдет, хотя на первых порах для относительно небольшого теста и обычный хостинг сгодится. Работа должна быть непрерывной&#8230; при большой загрузке Крон уже не пойдет, как разовый запуск в сутки, требуется беспрерывный конвеер, имхо. Думаю, так Сапа (наверняка уже весь инет в курсе что это) и работает &#8211; конвеером, а не по часам.</p>
<p>&gt;&gt;Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.</p>
<p>Это элементарно. Многие уже бьются над этой проблемой и пока еще не придумали нормального решения &#8211; нет либо толковых программистов, либо денег на реализацию, но в принципе это реально сделать. Некоторые сервисы имеют свой &#034;порог совпадения&#034;; если порог превышает 50%, например, то это копия (плагиат). Думаю, все согласятся, что пара троек предложений дописанных или измененных в статье ее уникальной ну никак не сделают &#8211; над этим и бьются все поисковики, постоянно модернизируя распознавание оных.</p>
<p>&gt;&gt;100% точность никто не гарантирует</p>
<p>Согласен, конечно <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Поэтому, можно ее занизить, например, до уровня совпадения в 70-80%, см. выше.</p>
<p>&gt;&gt;Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком.</p>
<p>Для этих целей, чтоб свести к минимому погрешность, можно использовать несколько поисковиков&#8230; Смотрим пример Нигмы. Думаю, здесь все понятно, варианты: Бинг, Гугл, Яндекс и Яху, например, можно еще с десяток добавить при желании.</p>
<p>&gt;&gt;cURL&#039;ом можно реализовать несколько проверок одновременно, это будет намного быстрее</p>
<p>Подумал было об этом сначала. Но не захлебнется ли сервер при массовой проверке? Хотя, как вариант, можно использовать несколько серверов под разные нужды &#8211; именно так сейчас и делают на крупных сервисах, если нагрузка слишком высокая, чтоб зависания избежать &#8211; точно не помню, про какой сервис читал, но все счетчики так работают, например, пр-су просят поставить код себе на блог для уменьшения нагрузки &#8211; (я так думаю ???).</p>
<p>&gt;&gt;даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации</p>
<p>Понял. Можно попробовать ссыль без хуиза посмотреть, сейчас думаю над этим &#8211; не люблю грузить других, чтоб не забанили. <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>&gt;&gt;нужно сразу к хостеру обращаться</p>
<p>Здесь проблемы уже <a href="http://www.google.kz/search?hl=ru&amp;rlz=1C1CHMC_ruKZ336KZ313&amp;ei=BQSlS-SwLtGTsQbL7fXICA&amp;sa=X&amp;oi=spell&amp;resnum=0&amp;ct=result&amp;cd=1&amp;ved=0CBIQBSgA&amp;q=%D0%B0%D0%B1%D1%83%D0%B7%D0%BE%D1%83%D1%81%D1%82%D0%BE%D0%B9%D1%87%D0%B8%D0%B2%D1%8B%D0%B9+%D1%85%D0%BE%D1%81%D1%82%D0%B8%D0%BD%D0%B3&amp;spell=1" rel="nofollow">решили</a> с этим.</p>
<p>&gt;&gt;Не слышал о таких.</p>
<p>О, таких много (часто о них слышал, но не обращал внимания), я специально не искал, но видел уже 3 наиболее крупных, вот одна из баз, например: vsemkidalam.net. Вполне можно пообщаться с разными админами и брать у них хмл или попросить их сваять что-либо еще, чтоб все были в шоколаде.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Владимир</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9876</link>
		<dc:creator>Владимир</dc:creator>
		<pubDate>Sat, 20 Mar 2010 16:56:23 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9876</guid>
		<description>Спасибо за такой подробный отзыв :) С некоторыми моментами я согласен, с некоторыми - нет.

1) Идею отдельной БД я уже пересмотрел, действительно это перебор. Но я не совсем понял какую тысячу блогов вы имеете ввиду. Мне сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов :) Предполагается, что блоггер будет проверять только свой блог. Это не приложение для администрации хабра или ЖЖ. Для них нужно пересматривать саму идею проверки, ведь есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.
Возьмём для примера smashingmagazine.com. Допустим длина поста 10кБ (учитывается только текст) и они публикуют 365 постов в год, общий размер - 3,65МБ (за год). У большинства блоггеров будет меньше. К тому же база не обязательно должна находится на том же сервере, что и блог, проверку можно запускать откуда угодно, хоть с домашнего компьютера.

2) Несколько постов - за одну проверку. Проверки будут запускаться регулярно планировщиком.

3) Синонимайзеры. Тут у меня простой вопрос. Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.

4) 100% точность никто не гарантирует :) Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком. А вот если кто-то на вашем контенте начнет вас обгонять, то шансы поймать этого товарища увеличатся.

5) cURL&#039;ом можно реализовать несколько проверок одновременно, это будет намного быстрее, чем использовать file_get_contents.

http://www.whoishostingthis.com - даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации (они могут отличаться от указанных в whois).
А если воры изначально прячутся, то и переговоры с ними вести бесполезно, нужно сразу к хостеру обращаться, правда, не факт, что поможет, но лучше, чем ничего ;)

&lt;blockquote&gt;Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников…&lt;/blockquote&gt;

Не слышал о таких. Зато знаю несколько способов оставаться незамеченным :)</description>
		<content:encoded><![CDATA[<p>Спасибо за такой подробный отзыв <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  С некоторыми моментами я согласен, с некоторыми &#8211; нет.</p>
<p>1) Идею отдельной БД я уже пересмотрел, действительно это перебор. Но я не совсем понял какую тысячу блогов вы имеете ввиду. Мне сложно представить, что кто-то пишет уникальный контент одновременно в 1000 блогов <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Предполагается, что блоггер будет проверять только свой блог. Это не приложение для администрации хабра или ЖЖ. Для них нужно пересматривать саму идею проверки, ведь есть блоггеры, которые делают кросспостинг из своих блогов в эти сервисы.<br />
Возьмём для примера smashingmagazine.com. Допустим длина поста 10кБ (учитывается только текст) и они публикуют 365 постов в год, общий размер &#8211; 3,65МБ (за год). У большинства блоггеров будет меньше. К тому же база не обязательно должна находится на том же сервере, что и блог, проверку можно запускать откуда угодно, хоть с домашнего компьютера.</p>
<p>2) Несколько постов &#8211; за одну проверку. Проверки будут запускаться регулярно планировщиком.</p>
<p>3) Синонимайзеры. Тут у меня простой вопрос. Как вы докажите, что статья, пропущенная через синонимайзер ваша? Даже если её найдёте. Слова ведь в ней другие. Так что учитываться будут только копии один в один.</p>
<p>4) 100% точность никто не гарантирует <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Например, вы вообще не найдете сайты, которые не проиндексированы поисковиком. А вот если кто-то на вашем контенте начнет вас обгонять, то шансы поймать этого товарища увеличатся.</p>
<p>5) cURL&#039;ом можно реализовать несколько проверок одновременно, это будет намного быстрее, чем использовать file_get_contents.</p>
<p><a href="http://www.whoishostingthis.com" rel="nofollow">http://www.whoishostingthis.com</a> &#8211; даёт ссылку на сайт хостера, на котором можно посмотреть контакты администрации (они могут отличаться от указанных в whois).<br />
А если воры изначально прячутся, то и переговоры с ними вести бесполезно, нужно сразу к хостеру обращаться, правда, не факт, что поможет, но лучше, чем ничего <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<blockquote><p>Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников…</p></blockquote>
<p>Не слышал о таких. Зато знаю несколько способов оставаться незамеченным <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Зайва Игорь Леонидович</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9874</link>
		<dc:creator>Зайва Игорь Леонидович</dc:creator>
		<pubDate>Sat, 20 Mar 2010 15:44:04 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9874</guid>
		<description>1) письмо владельцу сайта...
2) ...
3) ...

Эти пункты полная утопия. В жизни всё иначе :) Можно про это забыть и не париться. ;)

------------

1) Скрипт будет использовать базу данных блога...

М... есть мощнецкий сервак свою БД клепать? Мне кажется, это тоже утопия... Не могу себе представить БД на серваке, если только моя по топикам занимает около 10 мб, сама же БД у меня примерно 20 мб - это комментарии, голосования и т.д. Всего топиков около 70 пока наклепал... У вас есть свободные гмгабайты для создания БД хотябы пары тысяч блогов? или планируется создать свою базу не более, чем из 100-200 блогов?

&gt;&gt;2) Выбираем произвольно несколько постов. (Рассчитывать, что тащить будут только новые – не дальновидно  ).

Дилема. Разве нескольких постов с каждого блога будет достаточно? Думаю, все надо...

&gt;&gt;3) Из отобранных постов удаляем теги и выбираем одну или несколько фраз

Здесь требуется чуть ли не ИИ создавать :) Иначе синонимайзеры пролетают на ура и толку от такого сервиса не будет ;)

У меня: &quot;мама мыла раму&quot;, у вора: &quot;мыла раму с мылом мама&quot; и капец. Это в приметиве. Думаю, мысль ясна :)

&gt;&gt;4) Проверяем выдачу поисковика по точному соответствию этим фразам ...

Ну опять же утопия и не правильный ход мыслей... имхо ;)
&quot;мама мыла&quot; и &quot;мыла раму&quot; - как минимум 5 приблизительных фраз... Выдача каждой фразы может быть в серпе на разных местах. К примеру, 1-й плагиат в гугле может сидеть на 6-й позиции (топ), а второй плагиат на 21-й позиции - третья страница. И как быть? половину плагиатов заранее не проверяем?

&gt;&gt;5) С помощью cURL&#039;а...

Все никак не пойму, почему все программисты тянутся к старым методам или сложным? Например, почти всегда хватает Файл_гет_контент и Файл_пут_контент. Весь скрипт занимает всего несколько строчек, а не целую &quot;поэму&quot;. :D Чем лучше Курлы - знаю, пхп уже полгода изучаю сижу :) Может, там что-то особое есть, что заставляет делать скрипты левой рукой через правую ногу сидя на корточках?

----
WhoIsHostingThis - это чего за сервис такой странный? Кроме ипа и ДНС ничего мне не показал. Собственно, что с этих сервисов нужно вытянуть? ип можно взять в пхп, ДНС тоже - скрипт в 2-4 строчки... Да вообще много чего можно взять в пхп не залязя на другие сервисы, как я понял, просто нужно знать как это делается... вот, сижу, потихоньку мусолю... :) В хуизе все данные могут быть закрыты, хакеры и воры вряд ли откроют свое имя, адрес, телефон и мыло... Я при регистрации доменов, помнится указывал что-то &quot;приват&quot;, но в целом, обычно инфу о себе не скрываю специально.

----

Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников... Интересно, если кто-то стырил что-то, вот можно было бы узнать об этом типе всё и опубликовать о нем данные, ведь наверняка каждый где-то в сети засветился (форумы, гостевые, блоги и т.д.). Тоже утопия, видимо :D</description>
		<content:encoded><![CDATA[<p>1) письмо владельцу сайта&#8230;<br />
2) &#8230;<br />
3) &#8230;</p>
<p>Эти пункты полная утопия. В жизни всё иначе <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Можно про это забыть и не париться. <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<p>&#8212;&#8212;&#8212;&#8212;</p>
<p>1) Скрипт будет использовать базу данных блога&#8230;</p>
<p>М&#8230; есть мощнецкий сервак свою БД клепать? Мне кажется, это тоже утопия&#8230; Не могу себе представить БД на серваке, если только моя по топикам занимает около 10 мб, сама же БД у меня примерно 20 мб &#8211; это комментарии, голосования и т.д. Всего топиков около 70 пока наклепал&#8230; У вас есть свободные гмгабайты для создания БД хотябы пары тысяч блогов? или планируется создать свою базу не более, чем из 100-200 блогов?</p>
<p>&gt;&gt;2) Выбираем произвольно несколько постов. (Рассчитывать, что тащить будут только новые – не дальновидно  ).</p>
<p>Дилема. Разве нескольких постов с каждого блога будет достаточно? Думаю, все надо&#8230;</p>
<p>&gt;&gt;3) Из отобранных постов удаляем теги и выбираем одну или несколько фраз</p>
<p>Здесь требуется чуть ли не ИИ создавать <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Иначе синонимайзеры пролетают на ура и толку от такого сервиса не будет <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<p>У меня: &#034;мама мыла раму&#034;, у вора: &#034;мыла раму с мылом мама&#034; и капец. Это в приметиве. Думаю, мысль ясна <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>&gt;&gt;4) Проверяем выдачу поисковика по точному соответствию этим фразам &#8230;</p>
<p>Ну опять же утопия и не правильный ход мыслей&#8230; имхо <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /><br />
&#034;мама мыла&#034; и &#034;мыла раму&#034; &#8211; как минимум 5 приблизительных фраз&#8230; Выдача каждой фразы может быть в серпе на разных местах. К примеру, 1-й плагиат в гугле может сидеть на 6-й позиции (топ), а второй плагиат на 21-й позиции &#8211; третья страница. И как быть? половину плагиатов заранее не проверяем?</p>
<p>&gt;&gt;5) С помощью cURL&#039;а&#8230;</p>
<p>Все никак не пойму, почему все программисты тянутся к старым методам или сложным? Например, почти всегда хватает Файл_гет_контент и Файл_пут_контент. Весь скрипт занимает всего несколько строчек, а не целую &#034;поэму&#034;. <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_biggrin.gif' alt=':D' class='wp-smiley' />  Чем лучше Курлы &#8211; знаю, пхп уже полгода изучаю сижу <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Может, там что-то особое есть, что заставляет делать скрипты левой рукой через правую ногу сидя на корточках?</p>
<p>&#8212;-<br />
WhoIsHostingThis &#8211; это чего за сервис такой странный? Кроме ипа и ДНС ничего мне не показал. Собственно, что с этих сервисов нужно вытянуть? ип можно взять в пхп, ДНС тоже &#8211; скрипт в 2-4 строчки&#8230; Да вообще много чего можно взять в пхп не залязя на другие сервисы, как я понял, просто нужно знать как это делается&#8230; вот, сижу, потихоньку мусолю&#8230; <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  В хуизе все данные могут быть закрыты, хакеры и воры вряд ли откроют свое имя, адрес, телефон и мыло&#8230; Я при регистрации доменов, помнится указывал что-то &#034;приват&#034;, но в целом, обычно инфу о себе не скрываю специально.</p>
<p>&#8212;-</p>
<p>Есть множество БД в сети, где даны адреса, имена и сайты злоумышленников&#8230; Интересно, если кто-то стырил что-то, вот можно было бы узнать об этом типе всё и опубликовать о нем данные, ведь наверняка каждый где-то в сети засветился (форумы, гостевые, блоги и т.д.). Тоже утопия, видимо <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_biggrin.gif' alt=':D' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Владимир</title>
		<link>http://www.simplecoding.org/sobirayu-idei-poisk-ukradennogo-kontenta.html#comment-9808</link>
		<dc:creator>Владимир</dc:creator>
		<pubDate>Tue, 16 Mar 2010 16:59:00 +0000</pubDate>
		<guid isPermaLink="false">http://www.simplecoding.org/?p=1014#comment-9808</guid>
		<description>Это хорошо :) Буду рад любым отзывам.</description>
		<content:encoded><![CDATA[<p>Это хорошо <img src='http://www.simplecoding.org/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Буду рад любым отзывам.</p>
]]></content:encoded>
	</item>
</channel>
</rss>
