Желающим скачать сайт (часть сайта) - читать!

Уважаемые обладатели толстых и быстрых!

Убедительная просьба при желании скачать сайт, учитывать, что данное желание нереально для Вас и, к большому сожалению, пока и нас одновремённо. Причина проста - он очень подрос и обурел, объём его из-за гигантской таксономии увеличился на порядок. Например, только один гугл приступил к индексации уже третьей сотни тысяч страниц:
Результаты 1 - 10 из приблизительно 210 000 с www.rom.by. (0,26 секунд)
А ещё на нашу серверную голову постоянно приползают полчища других пауков поисковиков. И если учесть кроме объёма сайта выросшую в последние время в несколько раз его популярность (с одной-двух до более чем пяти тысяч посетителей в день) - даже недавний переход на более современный сервер не спасает, когда вы ещё и начинаете "сосать не всебя".
Потому, ради общего блага - чтобы сайт был доступен для остальных 99.9% процентов пользователей - упомянутый 0.1% будет жёстко баниться (по айпишнику - вся подсеть провайдера качальщика). Понятно, что в результате будут страдать другие, сидящие на этом же провайдере пользователи.

Потому просьба, если Вам так уже нужно почитать в оффлайне какие-то материалы - обратитесь напрямую ко мне, я попытаюсь решить данный вопрос без скачивания сотен тысяч страниц сайта (которые всё равно не будут прочитаны даже на 1%).

Если данная информация оказалась полезной/интересной - плюсаните, пожалуйста:

Аватар пользователя icbook

Может, проще за совсем условные деньги CD/DVD-ROM предлагать?

Аватар пользователя mikkey

Зачем желающему скачать покупать диск, если он нахаляву качать может.
Предлагаю сделать архив и выложить на каком нибудь обменнике.

Аватар пользователя apple_rom

Проблема при скачивании "тупыми" и "толстыми" (многопоточными с широкими каналом) качальщиками в следующем.
Сайт из-за наличия большой таксономии в абсолютном исчислении имеет около миллиона страниц (их реально ещё больше, но где-то столько доступно для гостей). На скорость работы пауков поисковиков (они тоже многопоточные) можно повлиять - через админку вебмастера или настройками файла robots.txt, в результате чего они напрягают сервер незначительно (терпимо даже когда все приходят толпами). Кроме того, при скачивании они отличаются интеллектом - не выкачивают постоянно одни и те же страницы, учитывают дату создания/изменения, используют свои алгоритмы обхода всего сайта и т.п. В то же время "обычные" программы не умеют всего этого и тупо выкачивают всё подряд по всем ссылкам на каждой странице.


Далее. Страницы на сайте генерятся динамически (именно поэтому их так много, в реальности уникальных страниц - несколько десятков тысяч). Для ускорения отдачи они кэшируются. Понятно, что "обычные" посетители в 95% процентов скачивают лишь "верхние", "популярные" страницы, которые как раз всегда закэшированы. В то же время качальщики, наоборот, сразу же "лезут вглубь", постоянно выкачивая некэшированные страницы. В результате два таких качальщика на сайте создают нагрузку много большую, нежели 200 обычных пользователей онлайн. И если одного качальщика наше текущее железо держит нормально, то когда начинают качать два сразу плюс "обычные" пользователи подтягиваются - сайт начинает тормозить. Когда приходит третий (качальщик) - сайт становится недоступным (лишь для "несчастных" обладателей узких каналов - качальщики же продолжают качать).
Потому пока не удалось настроить сервер на автоматическую раздачу банов неуёмным качальщикам - буду раздавать их вручную по результатам своей статистики. Первым кандидатом на постоянный бан является целая подсетка 94.50.0.0 - 94.51.255.255 (Екатеринбург, Уралсвязьинформ), так как с различных айпишников оной каждый день скачиваются десятки тысяч страниц. (Я не продвинут в познаниях структуры этой части интернета, потому буду признателен за информацию по данной подсети и почему там так много-часто-лихо качают:) ).

Аватар пользователя apple_rom

Забанены подсетки:
94.50.x.x
90.150.x.x
Обе "Екатеринбург, Уралсвязьинформ".
Кто "попал под стрелу" и имеет собственный статический айпи - обращайтесь, добавлю исключение (хотя как вы увидите этот текст - вопрос:) ).

Аватар пользователя savely

Так, сразу предупреждаю, заранее - если соберешься банить диапазон 212.041.032.000 - 212.041.063.255 - меня сразу предупредить!!!

А кому счас легко...

Последние два дня действует следующее ограничение для www.ROM.by :

1) Не более 256kb/sec на клиента
2) Не более 5 запросов в секунду
3) Не более 3 одновременных соединений

Полагаю, что "640kb хватит всем", если не хватит - сообщайте о конкретных случаях. Я был бы рад и дальше обходится без любых ограничений, однако у нас сейчас нет возможности ни оптимизировать используемое ПО сайта, ни увеличить производительность сервера.

ex-K9

Аватар пользователя savely

Заметил. Ну, учел. Вообще - я с утра лезу в тракер и сразу открываю все новое (быстро, в Опере, Ctrl-Shift-клик). Но - не вопрос - буду медленнее. :)))

А кому счас легко...

Аватар пользователя Rom

Цитата:
быстро, в Опере, Ctrl-Shift-клик

Савелий, средней кнопкой мыши быстрее получается:)

Аватар пользователя savely

Цитата:
Савелий, средней кнопкой мыши быстрее получается

Неа, одинаково. При моем способе просто 2 руки работают. :)

А кому счас легко...

Текущие ограничения на скачивание сняты в связи с их неэффективностью.
Продолжаем банить.
Желающие скачать сайт могут пожертвовать что-нибудь с 4-8 ядрами в форм-факторе 1U.

ex-K9

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
  • Разрешённые HTML-теги: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <img>
  • You can use BBCode tags in the text. URLs will automatically be converted to links.

Подробнее о форматировании текста

Антибот - введите цифру.
Ленты новостей