2010年3月10日水曜日

役に立たない話:どこまで人力やねん。

これは架空の話です。とか書いてみる。

某社では、
広告メール発信のために、
1.検索エンジンにキーワードを手動で入力し検索を行い
2.上位数件のリンクを辿り
3.メールアドレスを探し出す

というクロラー作戦ならぬローラー作戦を展開するという。

私が仮にこれをやれと言われたら拒否します(笑)。
1.と2.の作業だけでもえらく時間が掛かるのに・・・。

当然ですが、
検索結果のhtmlページをfile_get_contentsで取得して、
リンク部分(表現不正確ですが)をpreg_matchやらpreg_match_allやらで取り出せるはず・・・
とか妄想するワケです。

正規表現苦手ですが。

苦手とか言う問題じゃないですけど。

検索キーワードを$keywordに代入するとして、

$url = "http://www.google.co.jp/search?hl=ja&btnG=Google+%E6%A4%9C%E7%B4%A2&lr=&q=" . $keyword . "&start=";

$html = file_get_contents($url);

でページのソースをあらかた取得。

さらにpreg_match_allで正規表現検索・・・と。

正規表現は理解に及んでいないのでここでは言及しません・・・。残念。

0 件のコメント:

コメントを投稿