Definitions

Там много ссылок, и как перфекционисту, мне хочется, чтобы все ссылки на сайте были рабочими, не было битых ссылок. Заказал сделать проверку ссылок филиппинскому фрилансеру, и тут оказалось, что задача сложная. Не выдерживаются стандарты. Каждый сайт возвращает по ссылкам какие им вздумается коды или вообще не позволяет таких проверок, как например фейсбук. Получается, нужно анализировать то, что выдаёт сайт на экран, а это может даже задача для ИИ. То есть программа должна определять битые ссылки так же как это делает человек. Может это сделать NIX Solutions, или может посоветуете, кто бы это мог сделать, возможно частным образом.
На Википедии, например, миллионы битых ссылок, и никто с ними не борется. То есть, видимо, человеческих сил просто не хватает для проверки битых ссылок.

есть несколько уточняющих вопросов:
что подразумевается под ссылкой?
1) ссылка на веб страничку с материалом
2) ссылка на источник информации не в вебе,
например, на книгу - Машинное обучение. И.И.Интеллектов.- Киев, Просвита, 2020
3) 1+2+ возможно еще варианты

и что подразумевается по битой ссылкой:
1) не соответствует формату (стандарту)
2) соответствует, но при клике по ссылке переход на
веб страничку не производится, т.к. ее уже нет
3) 1+2+ еще варианты
В идеале бы получить примеры.
 
Я так глубоко не задумывался над формализацией.
У меня для этого припасено имя insp.ai Сокращённо инспектор или инспекция с применением ИИ. Вот тут https://pr.ai/forumdisplay.php?f=2379 я собрал пропущенные цели, то есть ссылки битые, но в данный момент программа, написанная филиппинским фрилансером Эугенио, их распознать как битые не может. Пропущенные цели рассортированы. Можно рассматривать это как примеры.

Пропущенные цели, которые я там собрал, и есть битые ссылки.
Они не обнаружены.
Вот например - https://pr.ai/showthread.php?t=17276
Здесь все ссылки битые.

По-английски я обозначаю битые ссылки broken links
Пропущенные цели называю Missing goals
В принципе задача обнаружения битых ссылок может использовать терминологию обнаружения сигнала, разладки процесса или цели в противовоздушной обороне, но я не знаю, где эта терминология описана. Примерно термины: правильное обнаружение, пропуск цели, ложное срабатывание (ложная тревога).
 
Идея в том, чтобы выводить результаты загрузки ссылок на виртуальный экран и пытаться прочесть и понять, ссылка нормальная или битая

Все что вы описали очень реально и интересно в реализации на ИИ. Мы можем реализовать этот продукт. Нам видится сервис, который получает ссылку на вебсайт, парсит его, составляет дерево всех страниц и ссылок на них, и проверяет битые они или нет. Сервис в результате выдает список битых ссылок и условно битых ссылок (если достоверность ниже определенного уровня). И позволяет заказчику отметить вручную какие из условно битых ссылок битые. Это необходимо для автоматического обучения сети. В принципе это не обязательная, но очень желательная фича сервиса.

Следующие вопросы, который у меня возникает: а есть ли реальная потребность владельцев сайтов знать и чинить битые ссылки? на сколько битые ссылки понижают реноме вебсайта? Как сейчас решаются такие вопросы? Какими тулзами?

То есть есть ли у вас что то типа маркетингового исследования проблемы и анализа текущих решений (конкурентов)?

Какое сотрудничество вы видите?
 
Перспективы коммерческого использования сомнительны.
Даже крутые технические сайты не особо парятся битыми ссылками, которе в изобилии водятся у них в старых статьях.
Можно сделать это в виде бесплатного сервиса на сайте insp.ai и пытаться зарабатывать на рекламе на этом сайте. А может дело и пойдёт. Тема то интересная. Сейчас можно не обременять себя коммерческими расчётами. К тому же они могут съесть больше денег чем сама задача, если подключится бюрократия, характерная для фирм, с постановками задач, исследованиями рынка и т.п.
Здесь аналоги https://pr.ai/showthread.php?t=17279
 
Информации много, буду кидать большими кусками. Базово - 90% битых ссылок на вашем ресурсе возвращает код ошибки, поэтому определить их можно обычными средствами - очень простым алгоритмом. Остальные 10% возвращают код - ОК, но контента не содержат. Такого количества недостаточно для обучения нейронной сети. Прежде чем давать детали какие ссылки и в каком количестве нужны (нужны сотни, лучше тысячи для каждого типа ошибки - их порядка 10), хочу спросить вы готовы тратить на это время? Речь о нескольких тысяч ссылок определенного типа ошибок.
 
Конечно, у меня мало ссылок для обучения. Поэтому я предлагаю парсить Википедию. Кроме того, можно генерировать битые ссылки, делая ссылки на заведомо несуществующие страницы. Например, можно перебирать двух- трёх- и четырёхбуквенные, доменные имена типа llll.com и ссылаться на страницу llll.com/abrakadabra . Сайт наверняка есть, а страницы наверняка не будет. Подобным образом можно генерировать битые ссылки и на соцсети.
 
что нужно:
(1) Ссылки, которые возвращают код ответа 200, но являются "битыми", с максимально большого количества источников.
Примеры:
1) zeiss.com/corporate/int/zeiss-vr-one.mobile.html.mobile[/url] (у заказчика есть zeiss.com/corporate/int/zeiss-vr-one.html которая теперь дает 301 и редирект на указанную ранее ссылку)
2) reebok.com/us/content/checklight
3) sciencechannel.com/tv-shows/ldrs/videos/large-dangerous-rocket-ships-mega-rocket-launch
4) whoi.edu/page.do?pid=21140
5) hibot.co.jp/en/products/robots_1/anchor-diver-iv_49
6) hibot.co.jp/en/products/robots_1/acm-r1h_37
7) hibot.co.jp/en/products/robots_1/acm-r1h_35
8) hibot.co.jp/en/products/robots_1/acm-r1h_31
9) hibot.co.jp/en/products/robots_1/acm-r1h_33
11) https://robotiq.com/elobau
12) https://robotiq.com/products/industrial-robot-gripper/universal-robots-bundle
13) hibot.co.jp/en/products/robots_1/crawler-modules_38

Количество - минимум 5-6 сотен

(2) Ссылки, которые возвращают код ответа в диапазоне 4xx - 5xx, но являются валидными по мнению заказчика + Валидные ссылки в диапазоне 1xx - 3xx (кроме 200)"

Такие ссылки не были найдены вообще

Количество: пару сотен
 
Last edited:
(3) Для сайтов LinkedIn, Twitter, Facebook, Google+, YouTube, Vimeo нужны такие примеры, для каждого пункта пару сотен ссылок:

1) Google+ возвращает:
- 404 если страница не найдена,
- 200 - если найдена.
2) Twitter возвращает:
- 200 если аккаунт есть и доступен
- 200 если аккаунт был заблокирован, но есть сообщение Account Suspended в заголовке
- 404 если аккаунт не найден
3) Facebook возвращает:
- 200 если аккаунт есть и доступен
- 200 если аккаунт скрыт, но ксть "Sorry, this content isn't available right now" в заголовке
- 404 если аккаунт не найден
4) Youtube возвращает 200 в любом случае (доступное/удаленное/заблокированное видео), но есть возможность определить по заголовку сайта и по тексту определенных тегов
5) Vimeo возвращает:
- 200 если видео существует и доступное/удаленное/заблокированное
- 200 если видео можно посмотреть только пройдя аутентификацию, но можно определить по заголовку "Private Video on Vimeo"
- 403 если видео защищено настройками приватности
- 404 если видео не существует
6) LinkedIn:
- 200 если сайт доступен
- 999 если не пройдена аутентификация, также можно определить по HTTP reason "Access Denied"
 
Пока не знаю, как искать такое количество ссылок. Буду думать ещё.
 
Вручную такую работу вряд ли проделаешь. Но её можно автоматизировать тем же методом, о котором я писал раньше. Генерируете заведомо несуществующие ссылки lllll.com/abrakadabra cо всеми возможными двухбуквенными, трёхбуквенными, четырёх- и пятибуквенными .com (их больше миллиона) и выбираете те из них, которые возвращают коды 200, 403 и т.д. Аналогичный подход можно применить и к ссылкам на социальные сети.
 
Такой подход не подходит по следующим причинам:
1) мы нагенерим битых ссылок всего лишь для 1 го типа, который, как мне видится, не является сложным для распознавания и без ИИ
2) нам нужны проблемы в интернете - как они есть. В этом будет смысл обучения нейронки. Если мы научим ее тому, что сами нагенерили - шансы что мы решим проблему глобально стремятся к нулю.
 
Мне кажется, что среди миллиона сгенерированных ссылок будут такие, то есть с таких сайтов, где не настроили корректно коды возврата, соответствующие признанным стандартам, то есть ссылка будет битая, а код будет возвращаться 200, как у валидной ссылки, или будет возвращаться 403, или ещё какой-то, но не 404. А нас же, насколько я понимаю, интересуют такие ссылки, которые не распознаются по возвращаемым кодам. А это как раз и будут такие.
 
Back
Top