このページは福井県立大学の田中求之が2006年1月まで運用していた Mac のサーバ運用に関する会議室 「Web Scripter's Meeting」の記録です。情報が古くなっている可能性がありますのでご注意ください。

PDF(日本語)が検索できるエンジンはありますか?

発言者:山本 武
( Date Saturday, July 04, 1998 12:28:06 )


 最近、身の回りにもだんだんPDFの書類が増えています。
そこで、PDF(日本語)が検索できるエンジンはあるのでしょうか?
確かWebSTARには日本語で無いPDFの検索が出来たと思うのですが、
日本語対応のものが必要になっています。僕が期待するのは

 ○V-TWINが日本語検索に対応しかもAppleScriptから呼び出せる
  (OS8.5の検索エンジンはPDFに対応するのだろうか?)
 ○Perl(MacPerl)で何とかなる
 ○既に製品が発売されている

といったところです。

 検索の対象はいまのとこ高々1000ファイル、数千ページで、
当然、Mac0OS上の製品を探しています。
 どなたが御存知のかたがいらっしゃれば情報の提供をお願いします。

たまちゃん さんからのコメント
( Saturday, July 04, 1998 23:40:41 )

ざっと探してみましたが、MacOS対応のものは見つかりませんでした。

下記ページが少し参考になるのではないでしょうか。

→  PDF全文検索システム一覧

重松修 さんからのコメント
( Sunday, July 05, 1998 06:09:05 )

たしかGripGropはTEXT以外も、つまり何でも検索できるはずです。
しかも漢字コードも全部いけますから、PDFもいけるのではと思いますが、
試されてみましたか?

田中求之 さんからのコメント
( Sunday, July 05, 1998 08:52:57 )

GripGrop などでバイナリをベタで検索すると、ゴミを引っ掛ける可能性があることと、
漢字コードは Unicode を更にエンコードしたものを使っていたと思います。


山本 武 さんからのコメント
( Sunday, July 05, 1998 18:23:12 )

 情報の提供有難うございました。Macintosh上では製品を見つけるのは難しいようですね。
強引にpdfをエディタで開くと、どうも、stream~endstreamの間に文字が(田中さんの指摘されるように)何かの規則で
エンコーディングされて入っているようです。psファイルの場合はもっと簡単だったような気がするのですが、pdfは
ここをバイナリでエンコードしています。perlのunpackで開いてもどうも解りません。
しかし、このエンコーディングの仕様が公開されていれば出来なくはないなぁとも思います。

とりあえず、僕が調べた範囲ではこのようなものでした。
コメント大変参考になりました。今後ともよろしくお願いします。