複数行文字列の先頭と末尾にダブルクォーテーションを付け、文末のカンマを消す

2022年3月23日

抽出されたデータをもとに、確認用のSQLを作って抽出の成否を判定したいときに、IN句の条件を生成したいわけですが、抽出データは非エンジニアが見ることが多いため、CSVやTSVのようなエクセルで確認できる形式が多いと思います。

そういったとき、列の情報だけをコピペしてくるとIN句で使うにはクォーテーションをカンマが足りません。

そこで列をコピペした値に、行頭と行末に必要な文字を付けてあげるシェルを毎度使っています。正直業務ではないため、適当に処理をパイプで繋いで出力しているだけです。

word.txtから複数行の文字を取得して、最初の処理で1行ごとに先頭にダブルクォーテーションを付ける。次の処理で1行ごとに行末にダブルクォーテーションとカンマを付け、最後の処理で全体の最後の文字であるカンマ1つだけを取り除いています。

改行コードがLF想定。

sed 's/^/\"/g' word.txt | sed 's/$/\",/g' | sed -e :loop -e 'N; $!b loop' -e 's/[,\n]*$//' > word2.txt

改行コードがCRLFの場合末尾が余計に改行されるため、最初にawkで改行コードをLFに変換して処理とかですかね。

awk '{ gsub("\r", ""); print $0; }' word.txt | sed 's/^/\"/g' | sed 's/$/\",/g' | sed -e :loop -e 'N; $!b loop' -e 's/[,\n]*$//' | awk '{printf $0}' > word3.txt

改行も削除したいのであれば、通常のsedは検索では\nにマッチしないため、パイプでawkを繋いであげるのが楽です。printfはデフォルトで改行が付かないのでこれを利用して$0を出力するば改行が消えて出力されます。

sed 's/^/\"/g' word.txt | sed 's/$/\",/g' | sed -e :loop -e 'N; $!b loop' -e 's/[,\n]*$//' | awk '{printf $0}' > word2.txt

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、まあ昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

1: 条件の0=0は全てが正であるを意味する [SQL]

SQLの条件に0=0のような記述を見かけます。変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。下記の例で言えば、結合するsub ...

2: DISTINCTを使わないで重複排除を考える [SQL]

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

3: RFC 5322に準拠させた正規表現言語別

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...