グーグルのAIジェミニで音声の文字起こしを使ってみたら、メチャ早くて正確で便利でした!
はいはい、今回は某知り合いの女性の勤め人の方から「毎月会議の録音内容をテキストにするんだけど、再生しながら自分で原稿にしていますが時間がかかるのでいいやり方ありませんかね」との問い合わせがありました。
その女性は千葉県のとある施設の部門責任者なんですが、毎月会社で会議があるのでそれを文字起こしして内容を部下に配っているそうです。
そりゃ手書きでやってたら大変だし、今どきだからいろいろな文字起こしアプリがあるのでパソコン使えればなんとかなりますな。そんで今回はGoogle AIのGeminiで文字起こしをするやり方を伝授しました。
さっそくその方のご自宅へ伺ってそのやり方を説明します。
Google Geminiでは音声ファイルが取り込めるのでまずは音源を確認します。今回の文字お越し作業はご本人のパソコンで行います。
会議の録音をしたのは御本人のスマホのボイスメモで、スマホはグーグルピクセル9でした。
まずはスマホのボイスメモ音声ファイルをご自分のGoogleドライブへアップロードしてもらいます。
次はパソコンでGeminiでの文字起こしを行うやり方を説明します。
ご自分のノートパソコンでグーグルクロームを立ち上げてログインしてもらいグーグルドライブを開きます。
するとさきほどスマホでアップロードしたMP3ファイルが同期されて入っているのが確認できます。
↓ グーグルドライブにアップしたMP3ファイルが確認できます。(これは再現したものです)

次はグーグルのアプリメニューからGeminiを立ち上げます。
「Geminiに相談」という画面になるので、プラスマークをクリックしさきほどの音声ファイルを指定します。
「ドライブから追加」をクリックしてそのダウンロードした音声ファイルをGeminiに取り込みます。

取り込んだMP3ファイルをGeminiが認識したら、次に「文字起こしして」とかキーボードで打ってGeminiに指示します。

するとしばらくして取り込んだ音声ファィルから読み込んだ音声がテキストとなってズラッと表示されます。
これかなりの正確さでテキスト変換されていますが、まあどうしても多少の誤訳もあります。
ちなみに元の音声がクリアーだとメチャ正確になります。
↓ 試しに取り込んだ国会答弁の音声ファイルです。

いままでは文字起こしはNottaやGoogleドキュメントでやってみたけど、どうしてもタイムラグや音質が悪いとかなり誤訳するんです。
しかし、Geminiでの音声ファイルからの文字起こしはメチャ正確であります。さすが2025年現在で最先端と言われる性能のAIですな。
その後は変換されたテキストの下にあるメニューから「グーグルドキュメントにエクスポート」を行います。

すると「新しいドキュメントを作成しました」と出るので、今度はGoogleドキュメントを開くと作成されたファイルがあります。
↓ 作成されたグーグル ドキュメントを開いたところ。

あとは多少の誤訳や途切れたところを自分で修正しますが、それでも手書きよりは格段に楽ですね。
するといままでの流れを見ていたご依頼者が「すごいですね、いままで2時間くらいかかって手書きしてましたよ」とのこと。今後はこれなら30分くらいで文章にして印刷できますね。
ただし検証しているとあまりに長い音声ファイルだとGeminiが読み込めませんとかになりますな。
これってそのへんの限度は何分なんだろうか。Gemini有料版 だったら長い音声ファイルでも変換できるんでしょうかね?
まあ、今回の会議の録音時間が短かったし3つにわけて録音ファイルができていたので、試してみた私の録音した音声ファイルでも5分くらいのものはすんなり文字お越しされましたが、20分くらいの音声ファイルではだめでした。
ということで今回は Google Geminiでの文字おこしをやってみたレポートであります。
□■□■□■□■□■□■
パソコン訪問修理とパソコン訪問教室講師やってます.. * Takamaru *
◆出張パソコン修理・設定承ります!依頼希望の方はこちらをご覧ください
こちらもおすすめ
Windows 11のトラブルアップデートで起動しなくなったパソコンの修復依頼です
2025年7月2日
Windows 7デスクトップパソコンの処分依頼品を Windows 10へアップグレードしてみたが…
2022年2月16日
