クライアントさんからの依頼で、数十個のブログのRSSフィードをまとめて、日にち順にソートして記事をリスト表示するプログラムコードを書きました。
当初はYahoo!Pipesを利用していたのですが、フィード数が多すぎたのか、急にエラーを吐くようになってしまいました。そこで、フィード取得のコアの部分も一から作り直しました。
並列読み込みで高速化
数十個のRSSフィードを1から順に読み込んでいては、時間がかかりすぎてしまいます。こういうときは、PHPでは「cURL multi」を利用すると、複数のフィードを一気に並列で読み込むことが可能です。
フィードのURLリストを渡すとフィードの生データをすべて出力してくれる関数を見つけたので、ありがたくそのまま利用させて頂きました。関数の中身には深く触れず、ブラックボックス的に利用しています。
今回はhtmlリストで出力しました。jsonなどのデータ形式で出力したりすれば、色々な用途に使えます。
複数のRSSフィードを高速でまとめるPHPコード
[php]
<?php
//表示記事数
$hyojiNum = 30;
//フィード登録
$data[‘feedurl’][] = ‘http://rss.dailynews.yahoo.co.jp/fc/rss.xml’;
$data[‘feedurl’][] = ‘http://netafull.net/index.rdf’;
$data[‘feedurl’][] = ‘https://www.wakatta-blog.com/feed’;// ※最後に「/」は付けないでください
//$data[‘feedurl’][] = ”; いくらでも追加してください
$rssList = $data[‘feedurl’];
//キャッシュ準備
require_once(‘Cache/Lite.php’);
$cacheDir = ‘rsscache/’;
$lifeTime = 60*60;
$automaticCleaningFactor = 100;
$options = array(‘cacheDir’ => $cacheDir ,’caching’ => true, ‘lifeTime’ => $lifeTime, ‘automaticSerialization’ => ‘true’,’automaticCleaningFactor’ => $automaticCleaningFactor);
$cacheData = new Cache_Lite($options);
$outdata = $cacheData->get(‘rsscache’);
if(!$outdata) {
//同時呼び出し
$rssdataRaw = multiRequest($rssList);
for($n=0;$n<count($rssdataRaw);$n++){
//URL設定
$rssdata = simplexml_load_string($rssdataRaw[$n]);
if($rssdata->channel->item) $rssdata = $rssdata->channel;
if($rssdata->item){
foreach($rssdata->item as $myEntry){
$rssDate = $myEntry->pubDate;
if(!$rssDate) $rssDate = $myEntry->children("http://purl.org/dc/elements/1.1/")->date;
date_default_timezone_set(‘Asia/Tokyo’);
$myDateGNU = strtotime($rssDate);
$myDate = date(‘Y/m/d’,$myDateGNU);
$myTitle = $myEntry->title; //タイトル取得
$myLink = $myEntry->link; //リンクURL取得
//出力内容(CSSOK)
if(preg_match(‘/PR:/’,$myTitle)) continue;
$outdata[$myDateGNU] = ‘<p style="margin:0px">’ . $myDate . ‘ ’;
$outdata[$myDateGNU].= ‘<a href="’ . $myLink . ‘" target="_blank">’ . $myTitle . ‘</a></p>’;
}
}
}
//ソート
krsort($outdata);
$cacheData->save($outdata,’rsscache’);
}
$nn = 0;
$html = ”;
foreach($outdata as $outdata) {
$nn++;
$html.= $outdata;
if($nn == $hyojiNum) break;
}
$html = ‘<html lang="ja" style="overflow-x:hidden;"><head><META http-equiv="Content-Type" content="text/html; charset=utf-8"></head><div style="width:600px;font-size:13px">’.$html.'</div></html>’;
echo $html;
//同時呼び出し関数
function multiRequest($data, $options = array()) {
// array of curl handles
$curly = array();
// data to be returned
$result = array();
// multi handle
$mh = curl_multi_init();
// loop through $data and create curl handles
// then add them to the multi-handle
foreach ($data as $id => $d) {
$curly[$id] = curl_init();
$url = (is_array($d) && !empty($d[‘url’])) ? $d[‘url’] : $d;
curl_setopt($curly[$id], CURLOPT_URL, $url);
curl_setopt($curly[$id], CURLOPT_HEADER, 0);
curl_setopt($curly[$id], CURLOPT_RETURNTRANSFER, 1);
// post?
if (is_array($d)) {
if (!empty($d[‘post’])) {
curl_setopt($curly[$id], CURLOPT_POST, 1);
curl_setopt($curly[$id], CURLOPT_POSTFIELDS, $d[‘post’]);
}
}
// extra options?
if (!empty($options)) {
curl_setopt_array($curly[$id], $options);
}
curl_multi_add_handle($mh, $curly[$id]);
}
// execute the handles
$running = null;
do {
curl_multi_exec($mh, $running);
} while($running > 0);
// get content and remove handles
foreach($curly as $id => $c) {
$result[$id] = curl_multi_getcontent($c);
curl_multi_remove_handle($mh, $c);
}
// all done
curl_multi_close($mh);
return $result;
}
?>
[/php]
上記コードのデモはこちら。
もっと良い方法があれば、ぜひ教えてください!
※お行儀よくフィードを取得するため、キャッシュ(Cache/Lite.php)を入れてます。もしお使いのサーバーにインストールされていなかったら、Package Information: Cache_Liteからダウンロードして、同じ階層にCache/フォルダーをアップロードしてください。そして、キャッシュファイルを保存するrsscacheディレクトリを同階層に置いてください。
【参考】
複数APIの読み込みを高速化させる
コメント
色んなサイト見てきましたが一番参考になり、エラーも出ずに出来ました。
どうもありがとうございます。
他のサイトはコードをコピーしたらエラーがあり、
やはりデモページがあると動く安心感があります。