情報収集の定番、スクレイピングの研修

ブログ

スクレイピングは、ウェブサイトから特定の情報を自動的に取得する手法として広く活用されています。以下のような用途が代表的です。EasyScraperが代表です。

  • ニュースサイトの見出しの取得
  • 不動産情報の価格一覧の収集
  • 商品情報(価格、在庫状況など)の定期監視
  • 表形式データの自動取得(スプレッドシートへの出力など)
実施にあたっての前提条件と注意点
  1. CORS(クロスオリジンリソースシェアリング)の制限がないサイトであること
     Google Apps Script(GAS)はサーバーサイドで実行されますが、外部との通信において一部制限を受ける場合があります。
  2. robots.txtでスクレイピングが禁止されていないこと
     対象サイトがクローラーのアクセスを許可しているかどうかを事前に確認する必要があります。
  3. HTML構造を事前に把握しておくこと
     データの正確な取得には、ページ構造の理解が不可欠です。JavaScriptで動的に生成される要素にも注意が必要です。
  4. アクセス頻度に配慮すること
     短時間に大量のリクエストを送ると、対象サイトやGoogle側から制限されるおそれがあります。
実践における注意点

とても便利なスクレオピングですが、研修などで実際にスクレイピングを試すと、思いのほか難易度が高いと感じることも少なくありません。たとえば、動的に生成されるHTMLの解析や、取得対象の構造が頻繁に変化するケースでは、安定した動作を保つことが難しくなります。

また、取得する情報が非常に限られている場合には、手動でスクリーンショットを取った方が効率的なこともありますので目的と手段を取り違えず、「AIを使うこと自体」が目的とならないように注意しましょう。

岡山のホームページ作成