ffmpegで16ビットのリニアPCMに変換する
Whisperモデルは、16kHzのサンプリングレートで16ビットのリニアPCM(WAV形式)にエンコードされた音声ファイルを想定しているようなので、ffmpegで文字起こしをした音声ファイルをエンコードします。 ## コマンドでffmpegを使ってwav形式にエンコードする ffmpeg -i "input.mp3" -ac 2 -ar 16000 -acodec pcm_s16le -f wav "output.wav" 各種オプションの説明。 -i "input.mp3": 入力ファイルを指定します ...
セマンティックバージョニングと各種バージョンアップの名称
x.y.zの形式はセマンティックバージョニング(Semantic Versioning)の標準に従う名称です。 これは、ソフトウェアのバージョン番号をどのように割り当て、増加させるべきかを定義したもので、xはメジャーバージョン、yはマイナーバージョン、zはパッチバージョンを表します。 これらのバージョン番号は以下のような意味を持ちます。 メジャーバージョン(x):互換性のないAPIの変更が含まれている場合に増加します。 マイナーバージョン(y):新機能を追加し、それが下位互換性を持つ場合に増加します。 パ ...
コマンドでmp4ファイルをmp3に変換する
ffmpegを使用してmp4ファイルをmp3に変換するためのコマンドです。 ## `-i input.mp4` : 入力ファイルを指定。この場合、`input.mp4`というファイル名 ## `-vn` : ビデオを無視。音声のみを抽出するためのオプション。 ## `-ar 44100` : オーディオのサンプリングレートを44100 Hzに設定。音声の品質を決定。 ## `-ac 2` : ステレオ(2チャンネル)オーディオを出力。こ左右のスピーカーから異なる音が出す。 ## `-b:a 192k` : ...
スクワッドモデル|Spotifyの組織構成からの学び
Spotifyは、アジャイル開発方法論を採用しており、その一環として「スクワッド」(Squad)と呼ばれる小さなクロスファンクショナルチームを組織内で使用しています。 スクワッドはKPIやCVR向上などやるべき事に焦点をあてたチーム分けです。 特定のプロダクトや機能に関連するタスクを負担し、そのタスクを実行するために必要なリソースを持つチームです。 以下は、Spotifyのスクワッドに関する特徴や役割についての詳細です。 特徴 これらの要素は、Spotifyが自分たちの仕事を組織化する際に、どのように人々 ...
Pull requestの適切的なサイズ
調査結果に基づかなくても体感で分かると思いますが、プルリクエスト(以下PR)のサイズはレビューの効率性と品質に大きな影響を与えます。 PRが小さいほど、レビューが容易で、フィードバックのサイクルが早く、問題の特定と修正が容易になります。 特定のタスクや変更に対応するために、PRを小さく、焦点を絞ったものに保つことが推奨されます。 Pull Request(PR)の適切なサイズについては、いくつかの調査があります。 Cisco SystemsのLOCとの相関 smartbearの調査では、PRの理想的なサイ ...
[SQL Server]テーブルを丸ごとコピーするSQL
SQL Serverでは、SELECT * INTOステートメントを使用することで、既存のテーブルから新しいテーブルを作成し、そのデータをコピーすることができます。 データのバックアップなど、既存のテーブルと同じテーブル構成ででたを保持しておきたい時用のSQLです。 ## origin_tableにコピー元となるテーブルをしてする ## new_tableに新しいテーブル名を記述する SELECT * INTO new_table FROM origin_table; 基本的にはSELECT ...
うるう年をチェックするJavaプログラム
2024年は閏年なので、うるう年の判定ロジック。 本来は愚直にやらないで、ライブラリを利用した方がいいので参考までに。 すべてのうるう年の条件。 世紀年とは、00で終わる年のことである。世紀年は、400で割り切れる場合のみ閏年となる。 閏年(世紀年を除く)は、4で正確に割り切れる場合に識別できる。 世紀年は4と100で割り切れる。 非世紀年は4で割り切れるだけである。 // Java program to find a leap year // Importing Classes/Files import ...
閏年のある年プログラムで注意すべきこと
うるう年は、地球の太陽周回軌道に合わせて暦を調整するために必要なものですが、プログラムやシステムにとっても問題を引き起こす可能性があります。 例として以下のようなことに注意する必要があります。 誤った閏年の処理|ハードコードされたロジック プログラムによっては、うるう年を特定するためのハードコードされたロジックを持つ場合があります。 このロジックは、複雑なルール(4で割り切れるが100では割り切れない、400でも割り切れない限り)を考慮しない場合があります。 これはうるう年の誤認につながり、日付に依存する ...
Amazon史上最大のテキスト読み上げモデルを発表
Amazonの研究者たちが、これまでで最大の音声合成モデルを発表しました。 このモデルは、Big Adaptive Streamable TTS with Emergent abilitiesの頭文字をとったBASE TTS(テキスト音声合成)で、より人間に近いインタラクションを実現するための基盤となる可能性があります。 この研究によるとTTSモデルのための広範なトレーニングは、人工知能に使用される大規模言語モデル(LLM)と同じように、信頼性と汎用性を向上させることができるようです。 AmazonのBA ...
ffmpegコマンドで画像ファイルを圧縮する
macで画像ファイルを圧縮する方法の1つとしてffmpegを利用する方法があります。 -q:vは品質を表しており、この後に付ける数字を大きくすることで画像が圧縮されます。最大数は20。 この数値を16以上にすると画像が荒れやすくなるので、圧縮した画像を見て数値を変化させる必要があります。 ## ローカルにffmpegがインストールされていない場合 brew install ffmpeg ## ffmpegで画像を圧縮する ffmpeg -i /Users/xxx/Downloads/original_fi ...






