抽出条件

 

検索プログラムで検出しておりまして以下の問題はあります。

HTTP_HEADERのMODIFIED_DATEを返さないサーバに置かれたホームページの新着情報は抽出できていません。

文字化けもあります。

新着日時の判定も多少怪しいです。

文字数が1500文字以下のページは無視されます。

1ページ内に新記事と旧記事が混在し、旧記事が先頭にある場合は無視することがあります。先頭だけ見て古い記事と判定します。

10ページ以上一度にアップロードしたサイトは、その更新記事は無視します。古い記事まで一切合財アップロードし直した場合が多いのです。そうなると古いのと新しいのが区別できないので、まとめて省くことがあります。

JavaおよびjavaScriptは未対応です。

コンピュータ処理のバグもあり、また、政治家サイトのあるサーバとの相性の問題もあるのでしょ う。すべての問題と原因を把握しているのではないので、詳細なことは当方もわからないことがあ ります。

「今週の詳細」は上記のコンピュータ処理を行って抽出し、 特選抽出はその中から人手間で抽出しています。

 

 

新着検査にとりこぼしがあってもなくても、正しく抽出されてあった場合でも、当方の掲示板に政治家HPの更新内容を書きこんで告知していただいてかまいません。

ただし、それを受けて新着検査に手作業で追加することはしません。が、当方のHPに来た読者は更新を把握できます。

当サイトにも政治家ホームページ運営者からサイト更新の通知やメルマガが、メールで管理者宛てに送られてきますが、それを受けて新着検査に手作業で追加することはしません。

メール内容を当サイトの掲示板に張ってみてはいかがでしょうか。多くの方に通知できますよ。