このページは福井県立大学の田中求之が2006年1月まで運用していた Mac のサーバ運用に関する会議室 「Web Scripter's Meeting」の記録です。情報が古くなっている可能性がありますのでご注意ください。

PDFの内容(コンテンツ)検索のCGIを探してます。

発言者:toyo
( Date Tuesday, July 10, 2001 12:11:45 )


いつも勉強させて頂いてます。
PDFの内容(コンテンツ)検索のCGIを探しています。
無いのであれば、AppleScriptで作ってみたいと思っていますが
可能なのでしょうか?
この際、注意点など有るようでしたら、ご指摘ください。
また、sherlockを使おうと思っていますが、
他の選択肢も有るのでしょうか?

次の環境で運用したいと考えています。
●O.S.9.0.4
●WebStar3.0.2

Junnama さんからのコメント
( Tuesday, July 10, 2001 15:51:37 )

少し前にSherlock2を使って作成したCGIがあります。
MacOS 9.0.4上で制作しましたので動くとは思うのですが、継続したテストもメ
ンテもしていませんので、動けばラッキー程度であれば試してみて下さい。

また、Sherlock2の設定は自分で行う必要があります。

→  Sherlock2で動かす検索CGI

toyo さんからのコメント
( Wednesday, July 11, 2001 18:18:57 )

Junnamaさん、ありがとうございます。
さっそく使用してみたところ、
「エラー: ACGIアプリケーションを実行できません。」
と表示されます。もう少し解説をおねがいしたいのですが...。
◎URLのフィールドは何を入力すれば良いのでしょうか?
◎WebStarのVirtualHost pluginによりWebStarとは違うボリュームを
 rootにしています。この場合もItasenpara.acgiはroot直下に置けば
 良いのでしょうか?
◎各設定後、Itasenpara.acgiは起動したままで良いのでしょうか?
 また、server・O.S.等は再起動しなくて良いのでしょうか?
以上回答いただければ幸いです。

Junnama さんからのコメント
( Wednesday, July 11, 2001 19:29:43 )

VirtualHostは考慮していなかいと思うのと、つくりかけのままなもので...
いずれテストしてみます。

Junnama さんからのコメント
( Wednesday, July 11, 2001 20:06:21 )

先程、ひさしぶりに動かしてみたら、一応ちゃんと動きました。
チェック内容としては、「Creator of Server」項目がちゃんと設定されている
こと(サーバーソフトのクリエータタイプ)くらいです。CGIは実行可能になっ
ていることはもちろん前提ですが。

例えば、サイトのフォルダをFinderで選択してControl+Crickでコンテクストメ
ニューから「選択項目の索引作成...」を選びます。
その後、Search Folderボタンで、そのフォルダを選択します。最後に公開して
いるルートフォルダを選択する(ここでバーチャルホストがひっかかるかもしれ
ない)。URL欄は、例えば検索結果をクリックしてジャンプさせる先が
「http://www.aaa.bb.cc/検索対象フォルダ名/」とすると、そのように記述すれ
ばいいだけです。
サーバーと別のところのデータにジャンプさせるのでなければ「/」とだけ入力
していれば良いです。

Junnama さんからのコメント
( Wednesday, July 11, 2001 20:07:23 )

>Itasenpara.acgiは起動したままで良いのでしょうか?
>また、server・O.S.等は再起動しなくて良い

CGIは起動したまま、サーバーやOSの再起動は要りません。

toyo さんからのコメント
( Wednesday, July 11, 2001 20:54:30 )

速攻のコメントありがとうございます。
もしやと思いWebStarの設定を見直したところ
「CGI-BINに制限」のチェックが入ってました。
ホントにすいません。

ところでItasenpara.acgiはpdfを対象としてないんでしょうか?
サーバーマシンのsherlockでは引っかかってくるファイルなんですが
表示されません。
度々申し訳ありませんが、ご回答頂ければと思います。

Junnama さんからのコメント
( Wednesday, July 11, 2001 21:11:14 )

実体は、AppleScriptでSherlockに検索指示を出して、結果のファイルを読んで
いる...(あっ...)
今気づいたのですが、検索結果はHTMLだけを対象にしていました(タイトルの抽
出も<title></title>の間の文字を引っ張っているだけですし...

PDFを対象にするのは可能だと思いますが、PDF文書のタイトルを引っ張って来れ
るかどうかは今イチ自信なしです。結果としてファイル名のみ表示するのは可能
ですが。

toyo さんからのコメント
( Thursday, July 12, 2001 14:18:49 )

なるほど、Titleを引っぱってますか。
pdfだと、サーバー側でreaderでも持っていなければ引っぱれませんね。
そんな事してたら処理も重くなりますし、
際限なくアプリに追い回されますよね。
ファイル名で表示というのが妥当な線ですか。
仕方ないので自作を考えてみます。
はじめてのCGIなので解らないことだらけだと思いますが、
トライしてみます。(このサイトを頼りに...)
何れにせよ、Junnamaさんありがとうございます。
今後ともよろしくお願いします。

xpdf さんからのコメント
( Thursday, July 12, 2001 16:50:14 )

xpdf付属のpdftotextやpdfinfoは検討されましたか?

→  Xpdf

Junnama さんからのコメント
( Friday, July 13, 2001 01:29:46 )

>xpdf付属のpdftotextやpdfinfoは検討されましたか?

検討していません!(言い切り)

CGIですので、呼び出し時のオーバーヘッドは無いにこしたことは無いですし、
(索引作成時に合わせて解析すればいいか...)
PDFって仕様が公開されてましたっけ。
公開されてたら、タイトルを抽出するのもなんとか出来るかもしれませんね。

Namazuでも検索できるしPrintToPDFみたいなものもあるようですし、何とかな
るかもしれません。

今ちょっと調べられないので、時間ができたら調べてみます。

Junnama さんからのコメント
( Friday, July 13, 2001 01:34:01 )

調べてみようと

>xpdf付属のpdftotextやpdfinfoは検討されましたか?

xpdfについては、NamazuのPDF索引作成時にも確か要りましたよね。
OSが9.xの場合は使えないんじゃないでしょうか。

xpdf さんからのコメント
( Friday, July 13, 2001 09:06:42 )

PDFの仕様は公開されていたと思います。英語でかなりのページ数だったので、...。
xpdfはソース公開されていませんか?

今泉克美 さんからのコメント
( Friday, July 13, 2001 10:08:59 )

門外漢なのでわかりませんが。

pdfって、lzw圧縮使ってるんでしたよね?
この圧縮って、gifでも、著作権がらみで
問題になっていたような。
圧縮に著作権がかけられていて
解凍には著作権フリーなのかしらん?

気になっただけですので、回答は不要です。
ひとりごとでした。

Hideaki Iimori さんからのコメント
( Saturday, July 14, 2001 07:14:25 )

》pdfって、lzw圧縮使ってるんでしたよね?

 pdfは多くの圧縮方法を使えますが、その一つです。
 xpdfでは gzipを pipe経由で使って lzw decodeすることで、権利関係の
ごたごたを回避しています。
 私は pdftotextを MPW toolの形で Macに移植しましたが(出力の 
Shift_JIS化、高速化等を含む)間接的に lzw decodeする方法はあまりに
遅いので lzw decoderを組込んでしまいました。
 xpdfを MacOSらしいアプリケーションにするのは大仕事ですが、MacOS X
の POSIX layerに移植するのはそれほど難しくないでしょう。

 注意点としては、xpdfは pdf 1.3までサポートしていますが、Sherlock
の PDF Text Extractorは pdf 1.2までしかサポートしていません。