Macファイルシステムの濁点他

LibreOfficeのBaseをMacで利用しています。
業務で作成した書類をDVDにバックアップし、フォルダ名を登録してどのディスクに何を入れたか検索するというだけの簡単なやつです。

で、以前から気づいていたのですが、濁点や半濁点など、「ぱ」とか「だ」とかが含まれるキーワードが(確実に記録されているのに)検索でヒットしない
仕方ないので、最初はそういう文字が含まれていない部分をだましだまし検索してました。

が、それにしてもなんでよ?と疑問だったのでグーグル先生にたずねました。

どうやらMacのファイルシステムは文字と濁音などの記号をくっつけて表記する仕様だとわかりました。
色々あるんですね。

文字コードはUTF-8ですよ。

例「
き←U+3058
 ↑検索窓に入力する文字
じき←U+3057,U+3099
 ↑対象のフォルダ名の文字:これだとヒットしない。だって違う字だもん。但し見た目は同じ。

上の例でいえば、エディタなどで直接テキストを入力すると1文字のU+3058になのに、フォルダやファイル名として入力するとU+3057,U+3099になる。

エディタで入力した1文字のU+3058をフォルダやファイル名としてコピペするとU+3057,U+3099に変換されてしまう。

だけど、フォルダやファイル名のU+3057,U+3099をエディタに持っていってもU+3057,U+3099のまま。。。

メンドクサイw
というか、ファイルシステムからコピーして得られたテキストをデータベースに記録しているのでドンピシャで検索しづらいのです。
場合に合わせて打ち替えるのも不可能だし。

iPadの電卓アプリにすら腹を立てて実装しなかったスティーブ・ジョブズが生きてたら何というか。

まぁ知りませんがw

ただ、このUTF-8。件の字形では2文字形式も、1文字形式も登録されている。
変換もできます。

Unicodeの正規化とかのキーワードで探すと正しい情報が見られると思いますが、ざっくりいうと下表のような正規化の形式があるとのこと。どっちも間違いじゃないです。

特徴形式
1文字の要素を複数の文字で組み合わすNFD
1文字は1文字NFC

腕自慢の方々がどう使うのかわからない変換スクリプトをあちこちで発表してくださってましたが、私はただフォルダの名前をデータベースに登録したいだけなのでもっと簡単な方法を探したところ、Macの場合は

CotEditorが良いような気がします

標準でUnicode正規化の機能が備わっているので、該当の文字が含まれている部分を選択してNFCってやれば、1文字化してくれます。
量が多い場合は若干時間がかかりますが、こまめにやれば苦にもなりません。

ファインダーでDVD内のフォルダ一覧を表示してコピー。
エディタにペーストして上記の処理をすれば見事検索しやすい文字列になりました。

以後、LibreOfficeのcalcにペーストして整形し、Baseにペーストで完成します。

次回自分で手順を忘れないように、覚え書きでした。

実は今回 LibreOffice Base でのインポート作業でもちょっと引っかかったんですが、それはまた次の機会に。

投稿者プロフィール

myon
myon
世の中に何も影響を与えない一般人。
早とちりでそそっかしい。
パソコン、インターネット、スマホ、位置情報ゲーム、お酒を好む。
食べ放題は苦手だけど飲み放題は好き。
カツ丼好きで一時カツドニストと名乗っていた事があるが近年のカツ丼活動は少なくなっている。
marogg、myon、kowchang 他
いろんな名前を使っているので自分でもややこしい。
学生時代に副担任の若い英語教師に「器用貧乏」という二つ名をもらった。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA