これは架空の話です。とか書いてみる。
某社では、
広告メール発信のために、
1.検索エンジンにキーワードを手動で入力し検索を行い
2.上位数件のリンクを辿り
3.メールアドレスを探し出す
というクロラー作戦ならぬローラー作戦を展開するという。
私が仮にこれをやれと言われたら拒否します(笑)。
1.と2.の作業だけでもえらく時間が掛かるのに・・・。
当然ですが、
検索結果のhtmlページをfile_get_contentsで取得して、
リンク部分(表現不正確ですが)をpreg_matchやらpreg_match_allやらで取り出せるはず・・・
とか妄想するワケです。
正規表現苦手ですが。
苦手とか言う問題じゃないですけど。
検索キーワードを$keywordに代入するとして、
$url = "http://www.google.co.jp/search?hl=ja&btnG=Google+%E6%A4%9C%E7%B4%A2&lr=&q=" . $keyword . "&start=";
$html = file_get_contents($url);
でページのソースをあらかた取得。
さらにpreg_match_allで正規表現検索・・・と。
正規表現は理解に及んでいないのでここでは言及しません・・・。残念。
0 件のコメント:
コメントを投稿