1. Ссылки покупок

    Стратегия на турбо опционы

    Обучение по Бинарным Опционам.

    Бизнес по рецепту. продажа женских товаров

    Мануал по добыче бесплатного трафика с поисковика Bing (2016)

    От 6к уникальных посетителей на страницу ВК

    Facebook

    Стратегия Лайв Профит - ставки на футбол

    [Ирина Шмидт] - Церебро Таргет 2016

    Новый дорген.

    Стратегия на спорт.

    Двойной арбитражник по бесплатному трафику (2016)

    Подробная инструкция по Созданию интернет магазина чая с нуля (2016)

    Чертежи солнечного био-вегетария площадью 1200 кв.м. (СБВ-Профи)

    Адский стрим по копирайтингу: то чувство, когда подглядывать - хорошо!

    Видео-Курс - Tехнология быстрого старта в email рассылках (2016)

    Продвижение партнерских программ в одноклассниках (2016)

    Научу грести трафик. Только успевай сервера покупать!

    Трафик из ВК (Схема + Кейсы)

    Пассивный доход со стабильными выплатами.Схема добычи трафика.

    Секрет создания аккаунта яндекс директ без НДС

    Система ставок от проверенного каппера

    Государственный и банковский конфискат +VIP блок (2016)

    Как работать и зарабатывать деньги на продвижении своих проектов (2016)

    Секреты бесплатной рекламы от бывшего сотрудника Вконтакте

    Mobile Арбитраж - Арбитраж мобильного трафика (2016)

    BUSINESS MANUAL - Безопасные схемы заработка

    Как получать 1000-и заказов из CPA сетей (Дм.Ковпак)

    Как зарабатывать удаленно 100 тыс. руб на продвижении в Инстаграме без вложений и жить в Тайланде

    Самонаполняемые Видео-сайты!

    Прибыльная стратегия для бинарных опционов, первый доход через считанные дни + бонус!

    Траф с Вк за копейки

    Профит на онлайн теме от 30к до Неизвестно в месяц

    Легальный высокодоходный бизнес в реале

Личный сайт Гарри | Пример работы на парсере AftParser

  1. [Личный сайт Гарри]
    [​IMG]


    Любое приложение должно пройти проверку на прочность. Написанный мной плагин не является исключением. Вчера у меня небыло времяни этим заниматься, ибо новый год, но сегодня Гарри выполнит свой священный долг перед читателем! А за одно и объяснит почтенной аудитории как правильно воровать чужой контент...

    Кого же мы будем парсить? Ну думаю это должен быть тяжелый сайт с большим количеством информации. Сначала я хотел парсануть Спрута, но код на его блоге больно чистый и не засорен скриптами гугл карт, адсенса и прочей бредятины. Поэтому в качестве жертвы был выбран Кейсуха! В основной выдаче гугла имеется около 600 страниц с этого сайта. Каждая страница снабжена картинкой\гифкой или чем-то еще. В общем идеальный вариант, не обижайся, Кейсуха, если читаешь эту статью. Не буду я твой копипаст никуда выкладывать - сразу удалю. А небольшой ддос твой сервер думаю переживет. Да и не ддос этоо никакой 1 запрос в 2 секунды, разве это ддос...

    Парсинг ссылок.


    Ссылки с сайта Сео-Кейса я решил собирать граббером, в котором недавно исправил лютый баг. В итоге процесс индексации занял у меня около получаса времени. Признаюсь честно я не вытерпел до конца и нажал на кнопку "Стоп". За это время было проиндексировано 716 страниц, весьма не плохой результат.

    [​IMG]

    Так как Граббер ссылок собирает все подряд, я решил отфильтровал ссылки, содержащие в себе строки "category" и "page", а так-же выполнил декодирование ссылок.

    [​IMG]

    Все прошло гладко и у меня на руках осталось 654 страницы с чистыми данными.

    [​IMG]

    На этом сбор ссылок был завершен.

    Границы данных.


    После сбора ссылок необходимо выделить границы контента. Это довольно нудный процесс, особенно учитывая то, что я ошибся, но важный.

    В первую очередь, необходимо создать границу-заголовок. За нее у нас будет отвечать участок страницы, находящийся между тегами <h1>.

    [​IMG]

    Добавляем и переходим к границам, отвечающим за содержимое. Их может быть сколько угодно штук и они могут отвечать за повторяющиеся участки контента, но в данном примере мы выделим всего ишь одну границу с контентом.

    Дальше все очевидно - открываем Webmaster Tools из движка WebKit(Гугл Хром) и заполняем форму. Ну хотя ладно, давайте я опишу сам процесс по шагам:

    Как открыть инструменты вебмастера в гугл хром



    Собственно само выделение участков в Crome Webmaster Tools не представляет из себя никакой сложности. Выбираем узел, нажимаем F2, выделяем начало блока и его конец, не забывая при этом заполнять поля формы.

    [​IMG]

    [​IMG]

    В итоге мной определены следующие границы:

    Верхняя - '<div class="entry">';
    Нижняя - '<center>';


    Следующим шагом в нашей небольшой работе будет:

    Тестирование.


    Чтобы проверить добавленные границы на работоспособность - перематываем страницу вниз до кнопки "Запуск теста".

    [​IMG]

    После нажатия мы увидим всплывающее окно с результатами обработки, которые следует проанализировать.

    [​IMG]

    Как вы видите на скриншоте, приведенном выше, название статьи выбрано не верно т.к. там идет ссылка из шапки. Но это не проблема, ведь у нас есть PHP.

    И вот тут мы подходим к предпоследней фазе - кодингу.

    Код.


    Название статьи мы выберем из тега <title>, очистив его от мусора. Удаляем границу, отвечающую за выборку заголовка и добавляем вместо нее новую.

    [​IMG]

    После чего переходим к анализу содержимого тега title.

    [​IMG]

    Чтобы убрать лишний текст из заголовка пишем в текстовом редакторе макросов такой код:

    $title = $this->get_border('fragment_2',$html);
    $title = str_replace("| сео кейс","",$title);
    $res .= $this->set_title(trim($title));

    Это уберет лишние строчки. Скрин тестирования я приводить не буду, давайте продолжим работу с кодом.

    Для начала не плохо бы почистить текст во второй границе от лишних тегов и скриптов. А еще можно вставить из гугла первую найденную картинку. Все изображения, прикрепленные к материалу, необходимо закачать на сервер.


    Итоговый код своеобразного "макроса" будет выглядеть так:

    if($blog_enc != $src_enc) $html = mb_convert_encoding($html, $blog_enc, $src_enc);
    $title = $this->get_border('fragment_2',$html);
    $title = str_replace("| сео кейс","",$title);
    $res .= $this->set_title(trim($title)); # задаем заголовок поста
    $content = $this->get_border('fragment_3',$html);
    $content = preg_replace ("/<script([\s\S]+?)<\/script>/i" , "", $content); # убиваем джаббу хатта
    $content = strip_tags($content,"<a><table><td><tr><th><img>"); # удаляем лишний html код
    $images = $this->get_google_images($title, 1, 0); # выдергиваем из гугла 1ну картинку по теме статьи
    $img = "<img src='".$images[0]."' alt='".$title."'></img>";
    $res .= $img.trim($content);
    $res = $this->process_images($res); # закачиваем картинки в материале.

    После проверки кода на работоспособность можно приступать к последней фазе работы.

    Парсинг.


    Тут все просто. Тыкаем на кнопку "Начать парсинг" и ждем.

    [​IMG]

    [​IMG]

    Парсинг начат в 23:59, пруф: [​IMG].

    322 материала спарсено через 42 минуты. Все с картинками и прочими ништяками. Скрин одного из материалов:

    [​IMG]

    Материал длинный, не помещается.

    В общем парсер подтвердил, что у него есть зубы и это меня радует. Будем идти к новым победам!

    Обсудить
     

Поделиться этой страницей