このページは福井県立大学の田中求之が2006年1月まで運用していた Mac のサーバ運用に関する会議室 「Web Scripter's Meeting」の記録です。情報が古くなっている可能性がありますのでご注意ください。

文字コード変換に関して教えてください。

発言者:auchida@air.linkclub.or.jp
( Date Sunday, October 03, 1999 03:19:19 )


こんばんは、HTMLの問題なのでこの会議室に不適当かもしれませんが、ご存じの方ご教授いただければ幸いです。
Macでwebサーバを運営しています。製品カタログをWeb上で作成しようとして輸入元(イギリス)の
WebページをHTMLファイルでもらってホームページプロで日本語に置き換えて作成したところ、もともとHTMLの文字セットにLatin 1が使用されていたため、ホームページプロ上では問題なく日本語表示できていたのですが、ブラウザで表示させると文字化けしてしまいます。HTMLのヘッダタグを単純にiso-2022-jpに変更しただけでは文字コードまで変換できず、AppleScriptを使用して自動で一括変換できないかと色々と試みたのですが、文字コードを直接変換してくれるツールが無いようです。
どなたか良い方法をご存じの方はいらっしゃらないでしょうか。
どうしてもだめな場合はやり直すしかないと思いますが、ファイル数が200くらいあるので、できれば一括でできればと考えています。
よろしくお願いします。

auchida@air.linkclub.or.jp さんからのコメント
( Sunday, October 03, 1999 03:31:11 )

最初の発言の際に適切に改行を入れてなかったので再度発言させていただきました。

こんばんは、HTMLの問題なのでこの会議室に不適当かもしれませんが、
ご存じの方ご教授いただければ幸いです。
Macでwebサーバを運営しています。製品カタログをWeb上で作成しようとして
輸入元(イギリス)のWebページをHTMLファイルでもらってホームページプロで
日本語に置き換えて作成したところ、もともとHTMLの文字セットにLatin 1が使用
されていたため、ホームページプロ上では問題なく日本語表示できていたのですが、
ブラウザで表示させると文字化けしてしまいます。HTMLのヘッダタグを単純に
iso-2022-jpに変更しただけでは文字コードまで変換できず、AppleScriptを使用
して自動で一括変換できないかと色々と試みたのですが、文字コードを直接変換して
くれるツールが無いようです。
どなたか良い方法をご存じの方はいらっしゃらないでしょうか。
どうしてもだめな場合はやり直すしかないと思いますが、ファイル数が200くらいある
ので、できれば一括でできればと考えています。
よろしくお願いします。

田中求之 さんからのコメント
( Sunday, October 03, 1999 09:27:54 )

もし Latin1 だけで書かれた英語のページを Mac のコード(MacRoman)
に変換するだけでよいのであれば、スクリプトで一発で変換できます。
(たとえば Tanaka's osax や飯森さんの TEC osax を使う)

それと、日本語は JIS で書きましたか? それとも SJIS でしょうか?
JIS でしたら、たぶん、問題ないと思いますが、SJIS となると単純な
変換は難しいのですが…

内田(auchida@air.linkclub.or.jp) さんからのコメント
( Sunday, October 03, 1999 13:09:26 )

田中様、コメントありがとうございます。

日本語はS-Jisを使用しました。そのためだと思いますが(サーバのCGI処理
でもお世話になっている)「Tanaka's osax」のL1ToMACまたはL1HTMLToMACを
使用しても日本語になってくれませんでした。
S-Jisの場合単純な変換は難しいと言うことですが、方法はあるのでしょうか。
今考えるとHTMLエディタのホームページプロがどうしてLatin1になっていたの
に問題なく日本語表示できたのか不思議でなりません。
いまわかっている限りではホームページプロで新規文書を作り(デフォルトで
S-Jisになっている)そこにLatin1で日本語表示されている文書(ホームページ
プロ上で)をコピーアンドペーストするとう方法で何とか1部は文字化けして
も7割くらいは正常に表示される事がわかりました。
ただ、ホームページプロがスクリプタブルでないので、手作業でしかできま
せん。

おがわまこと さんからのコメント
( Sunday, October 03, 1999 14:20:14 )

これは多分文字コードの問題ではありません.

ホームページproがCopyrightの丸にCのような
1バイトの特殊文字を自動的に判断して,
CHARSET=us-asciiとして処理しているのだと
思います.

したがって解決方法はそうした文字をJEDIT
などを使って置換してやればよいと思います.