2. 基本的な考え方

スクレイピングの基本的な考え方は下記の図のようになります。

図1. スクレイピングの基本概念図
図1. スクレイピングの基本概念図

上記の図を用いて一般的な概念を説明します。クライアントPCからスクレイピング処理サーバ(いまから皆さんが作成するサイト)に何らかの要求をします(例えばはてなブックマークのトップページ情報を取得してなど)。
スクレイピングサーバ上にあるプログラム(今から皆さんが作成するプログラム)はその要求を受け、はてなブックマークのトップページの情報を取得します。
スクレイピングサーバにて取得した情報はスクレイピングサーバ上のプログラム(今から皆さんが作成するプログラム)により、必要な情報を抜き出し、目的とする形式に加工し、その結果をHTMLファイルなどでクライアントに返します。

この一連の流れを実施するためには、「外部のサーバの情報(スクレイピングの対象となるサイト)を取得する」というプログラムと「取得した情報を加工して、結果を表示する」という二つの処理が少なくとも必要になります。
なので、これから解説するのはスクレイピング処理用Webサーバ上で動作するプログラミングについてのお話になります。