Вернемся к проблеме дублированного контента.
Рано или поздно перед каждым вебмастером становится вопрос, где брать уникальный контент. Тырить — невыгодно, переписывать — долго, заказывать на стороне — дорого… Замкнутый круг получается.
Эли, автор блога Blue Hat Seo, предлагает два варианта решения проблемы. Этой записи уже больше чем полгода, поэтому тема наверняка проскакивала в Рунете. Однако если такое было, я это определенно пропустил 🙂
Archive.org
Сайт Archive.org — идеальное место для поиска заброшенного контента. С его помощью вы можете просмотреть архивы многих авторитетных каталогов статей и новостных сайтов и найти записи, которые когда-то покоряли топы поисковиков, но уже навсегда выпали из выдачи. Для примера возьмем сайт CNN.com.
1. Откройте сайт Archive.org и введите в поиск название интересующего вас сайта.
2. Выберите дату постарше. Вероятность выпадения старых страниц из поиска очень высока.
3. Выберите нужную категорию.
4. Выберите статью, соответствующую тематике вашего сайта.
5. Введите в Google запрос site:_адрес_статьи_ и посмотрите результат. В идеале он должен выглядеть так:
Правда, если убрать из запроса www, то Google все-таки находит 1 страницу 🙂 , поэтому данный пример несколько неудачен.
6. Скопируйте текст статьи на свой сайт.
Вот и все. Проблема уникального контента решена 🙂
Для данного метода выбирайте крупные авторитетные сайты. Так вы быстрее найдете, что вам нужно. Учитывайте то, что Archive.org не всегда выдает необходимые страницы, хотя они и присутствуют в его архиве. Кроме того, некоторые сайты, например, ezinearticles.com, закрывают свои архивы через robots.txt.
Если вы собираетесь генерировать контент в промышленных масштабах, вам подойдет следующий метод.
Карта сайта
Если на сайте присутствует карта, вы можете легко найти все адреса страниц с данного домена. Когда у вас будет список адресов, вы сможете прогнать его по запросу site:… и найти страницы, которые выпали из индекса.
- Найдите карту сайта и распарсите с нее адреса отдельных страниц.
- Напишите скрипт, который смог бы прогнать все эти адреса по запросу site:…
- Если поисковик показывает результат выше нуля, удаляйте адрес.
- Проверьте список оставшихся адресов вручную и найдите среди них интересующие вас статьи.
Недостаток данного метода в том, что парсинг карты выдает очень много бесполезных результатов, вроде поисковых запросов по сайту. Чтобы избежать этого, выберите папку или поддомен по вашей тематике и работайте только с ней. Если вам, например, нужны статьи по автомобилестроению, выберите раздел карты, содержащий папку domain.com/autos или поддомен autos.domain.com.
Как вариант, вы можете искать “уникальный” контент в кэше удаленных страниц. На многих сайтах используется стандартная страница ошибки 404. Введите запрос site:domain.com “Sorry this page cannot be found” и проверьте кэш этих же страниц в других поисковиках.
Этический момент: Не забывайте ставить ссылку на оригинал (хотя бы на главную страницу сайта). Несмотря на то, что для поисковика ваш контент будет 100% уникальным, у него все же есть автор, которого нужно хоть как-то отблагодарить.
Записи по теме:
- Линкбайтинг — Отделяем зерна от плевел
- Как избавиться от наказания за дублированный контент
- День 11 — Контент превыше всего
- Как создать информационный товар за 72 часа
profithunter, отправил тебе заявку на блогун. проверь )
интересно о вебархиве. но много статей на сиенен перепечатано.
Контент – штука скользкая, он может сегодня выпасть с индекса, а завтра снова в него влететь… Как быть тогда, как это отслеживать? Получить в итоге большую половину копипаста на сайте как-то не очень… Разве что саттелиты можно активно наполнять архивными материалами.