2 Replies Latest reply on Jan 19, 2018 5:23 AM by shuhei saito

    CSV・Excelファイルにおける拗音の区別について

    shuhei saito

      初めて質問を投稿させていただきます。よろしくお願いいたします。

       

      CSVで取得した表をデータソースに使用したところ、

      「ハードウェア」と「ハードウエア」が単一のデータとして集計されてしまいました。

      これを別個のデータとしてTableauで扱う方法はありますでしょうか?

       

      前者はカタカナの「エ」が小さいもの、後者は大きいものという違いがあります。

      試しにTableauの計算フィールドでASCII関数を使用すると、カタカナの「エ」の大小は区別されているように見えます。

      (下図をご参照ください。value1は「エ」が小さく「ア」が大きい、value2は両方大きい、value3は「エ」が大きく「ア」が小さいデータです。)

      拗音の問題.png

      なお、Excelファイル(拡張子.xlsx)でも同じ現象が発生し、抽出しても結果が変わりませんでした。

      文字エンコードが影響している可能性を考えて、CSVファイルをUTF-8にすることも試みましたが、これも結果は変わりませんでした。

      しかし、 JSON 形式にしたり、 Amazon Redshift のテーブルに置いたりすると、それぞれ別個のデータとして扱われます。

       

      Tableau Desktop のバージョンは、10.5と10.4の両方でこの現象が起こることを確認しています。

      何か良い解決策があればご教示いただけますと幸いです。よろしくお願いいたします。

        • 1. Re: CSV・Excelファイルにおける拗音の区別について
          LM Seven

          どうもLM-7です。

           

          あーそんなのもありましたね。思わず遠い目をしてしまいました。

          いつまでも直してくれない日本語特有のバグです。

          回避方法があるから直してくれないのでしょうけど、それで悩む人が日本にいっぱいいるだろうにと思いますね。

          ちなみにアルファベットの大文字と小文字も同一視されてしまいます(HARDWAREとHardwareなど)。

           

          さて回避方法です。

           

          1) CSVを配置し、コンテキストメニューからテキストファイルプロパティを選択します。

           

          2018-01-19_21h03_15.png

           

          2) ロケールで「英語(アメリカ合衆国)」を選択します。

          2018-01-19_21h03_44.png

          これでなぜか大文字小文字が同一視されなくなります。

           

          検索して気づきましたが、Tableau Ideaにも随分前から要望としてあげられていますが、ずっと対応されていないようです。

          https://community.tableau.com/ideas/3467

          後の人のために、投票してあげてください。>皆様

          1 of 1 people found this helpful
          • 2. Re: CSV・Excelファイルにおける拗音の区別について
            shuhei saito

            LM Seven 様

             

            ご教示ありがとうございます!

            私の環境でも同じ手順で対処することができました。

             

            割と昔からの既知のバグだったのですね。

            リンクを貼っていただいたIDEAに賛成を投じました。

            いつか改善されることを祈って。

             

            解決できましたので正解を回答済みとしてマークさせていただきます。

            ありがとうございました。