Как мы сделали автоматическую выгрузку всех торгов по недвижимости: кейс для «Про-Место»
К нам обратилась компания ООО «Управляющая компания Про-Место», которая занимается арендой и продажей коммерческой недвижимости. По сути, это как агентство, только для бизнес-объектов — офисы, склады, помещения под магазины и т.п.
Задача у клиента была простая на словах, но непростая в реализации:
Хочу, чтобы на моём сайте всегда отображались все актуальные объекты, которые сейчас выставлены на торги.
И чтобы это было с картой, с категориями, и обновлялось само.
Что мы сделали
1. Парсинг 30 сайтов
Клиент предоставил список из 30 источников. Это крупные площадки, где выкладывают торги (не только недвижимость, там и автомобили и техника и леса и инструменты). Под каждый сайт мы написали отдельного бота — универсального решения тут нет, везде разные верстки, параметры, защита от автоматических скриптов.
2. Структурирование данных
Самая частая проблема при парсинге: у каждого сайта свои формулировки. Где-то написано "офис", где-то "административное помещение", где-то вообще ничего. Чтобы клиенту было удобно, мы привели всё к единой структуре:
-
Категории: офисы, склады, жилая недвижимость, машиноместа и т.д.
-
Местоположение: подключили карты.
-
Фильтрация: сделали разбивку по типу, цене, площади.
И да, в некоторых источниках категория вообще не указана, только описание — «Продается объект…». Мы написали свою маленькую нейросеть, которая по описанию понимает, что это за тип недвижимости. Работает неплохо, уже сэкономила сотни часов ручной проверки. (но, если честно, не идеально - путает иногда, особенно землю и землю с домом, а иногда и купить с арендой путает, глупая пока, но мы работаем, уже на 90% ею довольны и это не подключение сторонних ИИ, это своя, наша прелесть..)
3. Интеграция с сайтом клиента
Сайт клиента был не готов к приему такого объема данных. Мы доработали систему:
-
Добавили карту с точками объектов.
-
Сделали фильтры.
-
Подключили админку, чтобы можно было скрывать/редактировать объекты вручную, если надо.
Теперь всё парсится, грузится и показывается без участия клиента.
4. Обход защиты
Многие сайты защищаются от парсинга — ограничивают количество запросов, выдают капчи, блокируют IP. Это нормально, мы умеем с этим работать. Иногда обход защиты занимает день-два, иногда — до недели. Но благодаря тому, что источников 30, даже если временно один-два отключаются — на сайте у клиента ничего не исчезает. Просто чуть позже всё догружается.
Что в итоге
Теперь у клиента на сайте всегда актуальные объекты. Даже жилая недвижимость и гаражи — хотя сам клиент пока работает только с коммерцией, нас попросили оставить и это, на будущее.
Обновления идут автоматически. Ручной труд — ноль. Мы следим только за тем, чтобы парсеры не падали, и оперативно обходим обновления защиты.
Почему это сработало
-
У клиента была понятная цель.
-
Мы не просто написали парсер, а встроили всю систему в его сайт.
-
Наши программисты умеют не только в код, но и в логику бизнеса — поэтому сделали не просто выгрузку, а инструмент для работы. (ладно, программисты в логику бизнеса даже и близко не вникали, аккаунт менеджер наш вникал и ставил полезные для клиента и понятные для программистов ТЗ)
Если у вас похожая задача — можем реализовать под ключ. Хотите мониторить товары, отслеживать цены, собирать объявления — настроим.
Всё будет работать. Даже если сайты-источники будут этому активно сопротивляться :)





