リンク切れチェッカーを公開

リンク切れチェッカー

ページや画像のリンク切れをチェックするWEBアプリ「リンク切れチェッカー」を公開しました。

リンク切れチェッカー | 1Page Broken Link Checker

指定された1ページについて、そのページ内に設定されている内部リンク・外部リンクを取得し、リンク切れの有無をチェックします。

チェック可能なリンクは、

  • 「a href」で設定しているリンク。
  • 「img src」で設定している画像へのリンク。

で、HTTPステータスコードが「404」の場合に「リンク切れ」と判定します。

また、外部リンクについて、存在しないサーバーへのリンクもチェックします。

考えられるケースとしては、

  • 存在しないドメインへのリンク。
  • サーバーが存在しないドメインへのリンク。

で、HTTPステータスコードが取得できないリンクが対象となります。

スパム対策にGoogleの「reCAPTCHA」を導入

「リンク切れチェッカー」の処理の大まかな流れは以下の通りです。

  1. 入力されたURLに対してリンク切れチェック処理を実行して良いか確認。
  2. 入力されたURLにアクセスしてリンクを抽出。
  3. 抽出したリンクについて、リンク切れをチェック。

上記の通り、処理自体はシンプルで、特に難しい処理は行っていません。

しかし、こういうサービスをWEBで公開する際には気を使わなければならないことがあります。

それは「スパム対策」です。

「リンク切れチェッカー」では、入力されたURLに対してアクセスをしますので、下手なプログラムの組み方をすると、攻撃の踏み台にされてしまう危険性があります。

上記の処理の流れの「入力されたURLに対してリンク切れチェック処理を実行して良いか確認」をしっかり行う必要があるわけです。

入力フォームのスパム対策では、読みづらく加工された文字や数字を入力してもらう仕組みが使われるケースがありますが、それも突破してしまう優秀な(?)ボットも登場しているそうです。

そのため、リンク切れチェッカーではGoogleが提供している「reCAPTCHA」を導入しました。

「リンク切れチェッカー」をご利用の方にはひと手間必要になってしまいますが、ご理解いただければと思います。

リンク切れチェッカー | 1Page Broken Link Checker