抽出条件
検索プログラムで検出しておりまして以下の問題はあります。
HTTP_HEADERのMODIFIED_DATEを返さないサーバに置かれたホームページの新着情報は抽出できていません。
文字化けもあります。
新着日時の判定も多少怪しいです。
文字数が1500文字以下のページは無視されます。
1ページ内に新記事と旧記事が混在し、旧記事が先頭にある場合は無視することがあります。先頭だけ見て古い記事と判定します。
10ページ以上一度にアップロードしたサイトは、その更新記事は無視します。古い記事まで一切合財アップロードし直した場合が多いのです。そうなると古いのと新しいのが区別できないので、まとめて省くことがあります。
JavaおよびjavaScriptは未対応です。
コンピュータ処理のバグもあり、また、政治家サイトのあるサーバとの相性の問題もあるのでしょ う。すべての問題と原因を把握しているのではないので、詳細なことは当方もわからないことがあ ります。
「今週の詳細」は上記のコンピュータ処理を行って抽出し、 特選抽出はその中から人手間で抽出しています。
新着検査にとりこぼしがあってもなくても、正しく抽出されてあった場合でも、当方の掲示板に政治家HPの更新内容を書きこんで告知していただいてかまいません。
ただし、それを受けて新着検査に手作業で追加することはしません。が、当方のHPに来た読者は更新を把握できます。
当サイトにも政治家ホームページ運営者からサイト更新の通知やメルマガが、メールで管理者宛てに送られてきますが、それを受けて新着検査に手作業で追加することはしません。
メール内容を当サイトの掲示板に張ってみてはいかがでしょうか。多くの方に通知できますよ。