ProfitHunter.ru > Оптимизация > Поиск уникального контента

Поиск уникального контента

19 января 2008· ProfitHunter

Вернемся к проблеме дублированного контента.

Рано или поздно перед каждым вебмастером становится вопрос, где брать уникальный контент. Тырить — невыгодно, переписывать — долго, заказывать на стороне — дорого… Замкнутый круг получается.

Эли, автор блога Blue Hat Seo, предлагает два варианта решения проблемы. Этой записи уже больше чем полгода, поэтому тема наверняка проскакивала в Рунете. Однако если такое было, я это определенно пропустил 🙂

Archive.org

Сайт Archive.org — идеальное место для поиска заброшенного контента. С его помощью вы можете просмотреть архивы многих авторитетных каталогов статей и новостных сайтов и найти записи, которые когда-то покоряли топы поисковиков, но уже навсегда выпали из выдачи. Для примера возьмем сайт CNN.com.

1. Откройте сайт Archive.org и введите в поиск название интересующего вас сайта.

Поиск Archive.org

2. Выберите дату постарше. Вероятность выпадения старых страниц из поиска очень высока.

Архив сайта

3. Выберите нужную категорию.

Категория Travel

4. Выберите статью, соответствующую тематике вашего сайта.

Статья из архива

5. Введите в Google запрос site:_адрес_статьи_ и посмотрите результат. В идеале он должен выглядеть так:

Правда, если убрать из запроса www, то Google все-таки находит 1 страницу 🙂 , поэтому данный пример несколько неудачен.

6. Скопируйте текст статьи на свой сайт.

Вот и все. Проблема уникального контента решена 🙂

Для данного метода выбирайте крупные авторитетные сайты. Так вы быстрее найдете, что вам нужно. Учитывайте то, что Archive.org не всегда выдает необходимые страницы, хотя они и присутствуют в его архиве. Кроме того, некоторые сайты, например, ezinearticles.com, закрывают свои архивы через robots.txt.

Если вы собираетесь генерировать контент в промышленных масштабах, вам подойдет следующий метод.

Карта сайта

Если на сайте присутствует карта, вы можете легко найти все адреса страниц с данного домена. Когда у вас будет список адресов, вы сможете прогнать его по запросу site:… и найти страницы, которые выпали из индекса.

Найдите карту сайта и распарсите с нее адреса отдельных страниц.
Напишите скрипт, который смог бы прогнать все эти адреса по запросу site:…
Если поисковик показывает результат выше нуля, удаляйте адрес.
Проверьте список оставшихся адресов вручную и найдите среди них интересующие вас статьи.

Недостаток данного метода в том, что парсинг карты выдает очень много бесполезных результатов, вроде поисковых запросов по сайту. Чтобы избежать этого, выберите папку или поддомен по вашей тематике и работайте только с ней. Если вам, например, нужны статьи по автомобилестроению, выберите раздел карты, содержащий папку domain.com/autos или поддомен autos.domain.com.

Как вариант, вы можете искать “уникальный” контент в кэше удаленных страниц. На многих сайтах используется стандартная страница ошибки 404. Введите запрос site:domain.com “Sorry this page cannot be found” и проверьте кэш этих же страниц в других поисковиках.

Этический момент: Не забывайте ставить ссылку на оригинал (хотя бы на главную страницу сайта). Несмотря на то, что для поисковика ваш контент будет 100% уникальным, у него все же есть автор, которого нужно хоть как-то отблагодарить.

Записи по теме:

Нравятся статьи? Подписывайтесь на рассылку!

(Пока оценок нет)

Загрузка...

ProfitHunter

Просмотр всех публикаций ProfitHunter →

45 комментариев

Vadim:

19 января 2008 в 15:42

С этическим моментом полностью согласен. Автору без разницы, что выпала страница из индекса. Он от этого автором статьи быть не перестает.

Ответить
Delpher:

19 января 2008 в 16:21

У каждого метода есть свои плюсы и минусы. Лично я использую статьи из Archive.org т.к. на нем можно найти статьи уже удаленные с сайта, а не просто не проиндексированые.

“некоторые сайты, например, ezinearticles.com, закрывают свои
архивы через robots.txt”
так в чем проблема? берем статьи вручную(или кто как хочет), все равно их в индексе нет)

Ответить
aekros:

19 января 2008 в 18:18

хэх, это не подходит к новостным сайтам, а так в принципе отлично

Ответить
Profit Hunter:

19 января 2008 в 23:52

aekros, ну это смотря, что вы ищете.
На новостных сайтах тоже есть тематические рубрики, которые неподвластны времени 🙂
Delpher, я так понимаю, вы о старых статьях? Новые-то в индексе очень даже хорошо висят — на первых позициях по низкочастотникам 🙂 а что плюсы и минусы есть, так это везде и во всем, тут я с вами полностью согласен.

Ответить
aekros:

20 января 2008 в 11:46

Хм, как вы считаете translate.google хорошо с рус на англ. переводит? я пока не могу проверить траффика нет, но за новость про перевозчика 3 на дигге было 12 голосов, вот я и в сомнениях(у меня кино блог))) вот и про новости только рус сайты подходят и замена синонимами америкосов

Ответить
Profit Hunter:

20 января 2008 в 12:25

ИМХО, отвратительно. Я бы не стал пользоваться этим сервисом. С натяжкой его можно использовать только в пределах одной языковой семьи, например, английский — французский.
Если с английским туго, его нужно выучить 🙂 А пока будете учить, используйте программы по рерайту контента. К сожалению, они платные.

Ответить
Vadim:

20 января 2008 в 12:33

Совершенно согласен с Profit Hunter. Гугловский переводчик можно использовать только, если не знаешь языка и нужно в общих чертах понять, о чем в ней (статье) написано. И программы по рерайту нужно использовать платные, бесплатные таких синонимов наподбирают, ужас. Не ведитесь на халявное.

Ответить
aekros:

20 января 2008 в 13:52

не так сильно с англ. туго, достаточно ворд открыть он синонимы найдет, если на трудно помотрите блог, действительно отвратно? с текстом …the1movies.com
Тогда остается писать маленькие посты с ссылками на нормальные англоязычные статьи, я прочитал осенний марафон, использование кеев в заголовке и в тексте страницы помогли найти траффик)

Ответить
Profit Hunter:

20 января 2008 в 14:17

Да, с английским плоховато. Местами я вообще не понимал, о чем идет речь.
Твое решение довольно неплохое. Попробуй помиксовать контент: поменяй предложения местами, напиши пару строк вступления, возьми несколько предложений из других статей…
И не забывай ставить ссылку на оригинал 🙂

Ответить
aekros:

20 января 2008 в 15:23

спасибо, перечитываю статью “контент прежде всего” )

Ответить
aekros:

20 января 2008 в 15:37

Маленькая не точность с закрытием контента от поисковиков сервисами, смотрите http://www.google.com/search?hl=en&q=http%3A%2F%2Fezinearticles.com%2F%3FTry-Davidoff-Cigars-Today%26id%3D568544&btnG=Google+Search

Ответить
Graf:

20 января 2008 в 17:17

А по русским сатам он вообщем может шерстить. А то у меня кроме квадратиков ничего не показывает 🙁
А статья хорошая

Ответить
Profit Hunter:

20 января 2008 в 18:59

aekros, robots.txt закрывает не от поисковиков, а от archive.org.
graf, я вчера архив Яндекса смотрел, все нормально показывает.

Ответить
Graf:

20 января 2008 в 23:47

У меня выводит в таком виде

???font>????font>?????/font>
??????/font>

Ответить
Graf:

20 января 2008 в 23:52

О, получилось. В опере чего то не получалось, а в ие пошло

Ответить
2usb.ru:

21 января 2008 в 09:01

2 Graf, это проблема с кодировками. У вебархива такое бывает.
Вообще тема полезная, спасибо за совет.

Ответить
Янис:

22 января 2008 в 20:55

О, интересная темка, попробую по русскому сегменту.
Действительно, сайты то отмирают. Что контенту пропадать то?)

Ответить
проходящий:

10 февраля 2008 в 02:04

водь ведь как получается, решил поискать…
вроде нашёл:

Your search –
site:cnn.com/2000/HEALTH/men/02/02/find.sex.therapist
.wmd/index.html
– did not match any documents.

Your search –
site:www.cnn.com/2000/HEALTH/men/02/02/find.sex.
therapist.wmd/index.html
– did not match any documents.

и с www и без оного, нету. вот радости моей не было предела. но потом решил вставить в запрос первый абзац статьи и мне в выдаче сразу 2 сайта. дело в том что если проверить страницу
site:www.cnn.com/2000/HEALTH/men/02/02/find.
sex.therapist.wmd/index.html
без index.html, всё сразы всплывает. так что будьте осторожны.

Ответить
проходящий:

10 февраля 2008 в 02:06

сорри за то, что диз комментом попортил. (

Ответить
Profit Hunter:

10 февраля 2008 в 02:11

Подправил 🙂

Ответить

Добавить комментарий Отменить ответ

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.