本サイトはアフィリエイト広告を利用しています。

広告 スマホ

【実機レビュー】自宅PCでの自前「AI文字起こし」に挫折。PLAUD NotePin S が秀逸過ぎる!

「AI文字起こしなんて、自分でWhisper回せばタダでできるでしょ?」

いくつかのAI文字起こしサービスやアプリを使い・チェックしていくなかで、どうやらAI文字起こしの主流は Open AI が公開している Whisper であるようだ。しかも、個人でも無料で Whisper が使えるらしい!

でも、実際に試してみて分かったのは、それが「骨折り損のくたびれ儲け」だということ。(←少し大げさ)


あまりにもうまく行かず思わず悪態ポストしてしまった…(その後精度は改善)

もちろん時間をかけて突き詰めて真剣にイロイロと試行錯誤すればよりよい結果が出せるのかも知れないが「餅は餅屋」。
提供されているサービスを使うには多少の費用は掛かるが、それ以上のメリットがある。

今回は、ローカルでの自前Whisper文字起こしに挫折した私が、専用デバイス+AIサービス の組み合わせである「Plaud NotePin S」を実際に使った感想を忖度なしで紹介していきます!

*メーカー様より「Plaud NotePin S」の実機をご提供いただき試用しました。

レビュー製品

自前Whisperの挫折と、専用サービスの圧倒的タイパ

当初、デスクトップPCで文字起こしを試みましたが、現実の壁は高かったです。

まず、環境の構築。

  • GitHub から WhisperDesktop をダウンロード(WhisperDesktop.zip をダウンロードして すべて展開(解凍))
  • WhisperDesktopで使える「ggml形式」のモデルデータをダウンロード(Hugging Faceから 試しに ggml-large-v3.bin(2.88GB)、ggml-medium.bin(1.43GB) をダウンロード )

動作環境は自作デスクトップPCで以下の概要スペック。

主なスぺック

  • CPU AMD Ryzen 9 7900X 170W
  • メモリ DDR5-5600MHz 64GB(32GBx2)
  • グラフィック ASUS Dual GeForce RTX™ 4060 OC Edition 8GB GDDR6

そして実際に WhisperDesktop を処理をさせてみると処理時間が39分近くかかる。しかも出力ファイルの中身が空…という結果。

  • 【主要因】入力した音声ファイルの質のせいか Debug Console を見ると「failed to generate timestamp token」のエラーが繰り返されていた
    → 音声モデルデータを large-v3 から medium に落とすことで改善
  • GPUを選んでいたが、RTX 4060ではなくCPU内蔵のグラフィックスで動作していた
    → Advanced設定で 4060を明示的に指定が必要だった

試行錯誤して、ようやく文字起こし結果を得ることができました。

入力した音声ファイルは、渋谷のセンター街を歩きながらしゃべるという文字起こしとしては過酷な内容でしたが、それなりに文字起こしができていました。

▼ WhisperDesktop、Plaud、Adobe Premiere Pro にて比較した動画です。

  • Plaud、WhisperDesktopともによく文字起こしできている
    Adobe Premiere Pro の文字起こしは品質の悪い音声では使い物にならない
  • Plaud、WhisperDesktopともにフィラーワードを削除
  • 言い間違い、言い直し WhisperDesktopは削除。Plaudは残す
  • WhisperDesktopは動画用に .srt(CC用ファイル) 出力可能で便利
  • WhisperDesktopは無言の間でバックに音楽がある場合(音楽)と出してくれる
    字幕っぽくて面白い

今回の試行では、WhisperDesktop により精度が高いとされるモデルデータ、ggml-large-v3.bin が使えなかったため、ベストな結果ではなかったかもしれません。

WhisperDesktop 起動時の画面。データモデルとGPU利用を選択
WhisperDesktop で実際に文字起こしをするために音声ファイルを指定する画面。ファイルを選択するというシンプルなインターフェースだ。

WhisperDesktopはもちろん使えなくもないけど、処理するためのマシンが必要だったり、アプリ・モデルデータの最新版への更新や、トラブル・エラー発生時の対処、音声ファイル・テキストファイルの管理、シンプル過ぎるUI なども考えると、金銭的な部分を究極まで絞りたい場合を除いて「音声データの処理は、信頼できる専用サービスに投げるのが正解」という結論に至りました。

今回試用してみた Plaud NotePin S を使えば、文字起こし精度も高く、またクラウドでデータを保持してくれる安心感があります。自前のマシンが不要なことから、出先であってもスマホで指示を出すだけで文字起こしが完了。
この「手離れの良さ」こそが、Plaudを使う最大の意義だと痛感しました。

自由な装着スタイルと「ノールック操作」

今回、自分としては初体験のPlaudデバイスである「Plaud NotePin S」。実際に使ってみるととても魅力的なデバイス・サービスでした。

モノのとしての魅力のある高い質感・デザインに加え、利用シーンや好みに応じて4つの装着スタイルから選ぶことができるのも魅力的。

Plaud NotePin S の4つの装着スタイル例

▼ 下記4種類のアクセサリーが同梱されているのがスゴイ!

  • ネックストラップ
  • マグネットピン
  • クリップ
  • リストバンド
Plaud NotePin S のセット内容一式。装着用のアクセサリーの他に専用の充電器も付属する
Plaud NotePin S のセット内容

個人的には、普段着用することのないペンダントタイプになるネックストラップがお気に入りです!
(似合う、似合わないはともかく!)

Plaud NotePin S にネックストラップを装着したところ

Plaud NotePin S は本体中央のボタンを少し長押しすると録音開始となり、ロゴマーク部分が柔らかく光る。録音中の短押しでハイライト(マーカー)、長押しで録音停止となる。

Plaud NotePin S 本体。美しいデザインだ。
カプセルサイズ 17.4g のPlaud NotePin S

録音開始、終了ともバイブレーションすることで、Plaud NotePin S の動作を把握できる。実に整理され、わかりやすい使い勝手だと感じた。
既に販売されていた Plaud NotePin のユーザーからのフィードバックにより追加された物理ボタン。ノールック(本体を見ない)でボタン操作が可能なのは確実な操作が求められる仕事で使うプロユースならではのこだわり。

The そうじろう
The そうじろう

モノとして、めっちゃ気に入っています!!

独立したデバイスであることのメリット

でも、スマホで録音も文字起こしもできるし
ぶっちゃけ録音するだけのモノっていらなくない?

って思いますよね?

はい。スマホで十分な場合も多々あります。

私の場合、新製品の発表会に呼んでいただく機会があり、プレゼンテーションの音声をスマホで録音し、その音声データから文字起こししたり、Notebook LM に入れるということを行います。

スマホで録音はできるのですが、録音の途中で動画を撮りたくなったり(Pixelの場合動画撮影中、録音は無音になる)、写真を撮ったり、ネットで情報を確認するために操作したり、バッテリーが切れたり、容量がなくなったり(さすがにコレはなかなか無い)ということが起きます。

また、発表会ならともかく、商談などでスマホを触るのもあまり心象がよいとは言えません。

やはり、ビジネス(商談など)や取材時には専用機が必要となるのです。

さらに操作性やマイク構造、連続録音時間(Plaud NotePin S の場合 最大20時間)、待ち受け期間(同 最大40日間)、アプリ連携などのメリットもあります。

録音したその後は…

録音した音声を活かすには、その後のしくみが大切です。

Plaud NotePin S はスマホとBluetooth(高速転送時はWi-Fi)で接続し、録音データを無制限のクラウドにアップします。外出中のクラウド同期はモバイルデータの通信容量消費が気になりますが、スマホがWi-Fi接続されている時にPlaudアプリを開くようにすれば、モバイルデータ通信を消費せずに同期できる仕様。よく考えられています。

文字起こしは、一旦クラウドにアップされた後に、必要な音声データのみ文字起こしを実行することができます。
また、音声データのトリミングや無音部分の削除も可能です。(無音部分の削除はアプリで可能)

音声データのトリミングや無音部分の削除も可能(iOSアプリ版)

豊富なテンプレート

同時に、要約のスタイルも豊富なテンプレートから選択が可能です。

豊富なテンプレートはカテゴリ分けされている。
Web版の画面

テンプレートはジャンルごとに整理されていて選択しやすい(PCでのWeb版が選びやすい)

「オーディオから電子書籍へ」というテンプレートを使用すると電子書籍のように章立てて整理され非常に面白いと思いました。

「オーディオから電子書籍へ」テンプレートでPlaud新製品発表会の内容を要約。左は目次、右は本文
「オーディオから電子書籍へ」というテンプレートでまとめてもらった発表会内容。かなり本格的だ。

Ask Plaudが便利

Ask Plaud (まだBeta機能ですが)で音声の内容を確認したり、要点をまとめてもらうことがシームレスに可能です。

★Askの例

インフォグラフィックの例としてPlaudの新製品発表会の記録に対して「発表されたPlaud NotePin S の情報だけに絞って、発表内容を図にまとめてください」とAskしたところ、"Plaud NotePin Sの主な発表内容を、ハードウェア、ソフトウェア、発売情報の観点から図にまとめました。"として以下のインフォグラフィックが作成されました。

「発表されたPlaud NotePin S の情報だけに絞って、発表内容を図にまとめてください」とAsk Plaud に依頼し、出力されたインフォグラフィックス。
よくまとまっている

録音中にスライドの画像やメモを登録しておけば、よりリアルな図が作成されたのかもしれません。

また、一度問い合わせた内容(プロンプト)をスキルとして登録も可能。他の録音データに対しても同様な問い合わせを簡単に繰り返すことができます。

Plaudに"Ask"して理解を含める、録音データ、文字起こしデータを保持しておいてもらえることまでが一気通貫で任せられるのがPlaud製品を使う事の大きなメリットだと考えます。

これはまだまだ表面的な使い方。
業務を最大限に効率化する深い使い方がまだまだできるようです!(文字起こし・要約・配信の一連の流れを自動化するAutoFlowなど)

Plaud Intelligence TM ポイント

  • 豊富なテンプレート: ジャンルから探すだけで、内容にマッチした構成でまとめてくれます。
  • 対話と図解: 「あの時なんて言ってた?」と聞けば答えてくれ、さらには納得感のあるインフォグラフィック(イラスト)まで作成してくれます。
  • 「スキル」として保存: よく使うAIへのプロンプトはスキルとして使い回しが可能。

しかも、AIとの対話(Ask PLAUD)や要約の生成(テンプレートによる生成)は、この後お話しするプランの「文字起こし時間(分)」を一切消費しません!

お金(課金)の話

AIによる文字起こしについては、デバイスを購入しただけで月300分までが無料!
月当りの取材が限定的な私の場合、これで何とか間に合うか!?というところ。

Proプラン(16,800円 / 年)なら 毎月1200分の文字起こし時間、無制限(Unlimited)プラン(40,000円 / 年無制限プラン)なら文字起こし無制限。さらにスポット的な追加の文字起こし時間の購入もできるなど、用途・必要性によって柔軟に組み合わせることができます。

私の場合、導入前にメルマガ登録しておいたら、無料文字起こし600分のクーポンが貰えたのでこれでかなり持ちそうです!

もし僕が現役の大学生だったら、迷わず無制限プランで課金して全ての講義を録音し、最強の学習データベースを作っていたはずです!!
(Notionのような学割プランがあれば最高なんですが……!)

Plaud の素晴らしいサービスはデバイスを購入しなければ利用できません。まずは気になるデバイスをチェックしてみましょう!

証拠は「音」にあり。精度の秘密を解剖する

私も利用していますが、最近話題のNotebook LMも素晴らしいサービス(ベータ扱い)です。しかし、あちらは「音声そのもの」を保持してくれません。Plaudは「録音データそのもの」を資産として残せるのが強みだと考えています。

Plaudについては、確実に音声・録音データが残る倉庫としての役割とそのデータについての問い合わせができる音声の番人の役割を担ってもらい、音声データまたは文字起こしデータを、その他の資料やリンクとともに Notebook LM にまとめておく、という使い方もできるでしょう。

今回、いろいろ試していく中で少し面白いことに気づきました。

Plaudにアップロードされた音声はダウンロード(エクスポート)や再生が可能です。
この音声がダウンロードと再生とで異なるのです!

先ほど動画紹介した渋谷のセンター街での音声ですが、次のように違いが出ます。

  • Plaud Web からエクスポートした音声:環境ノイズなども含めて普通に録音したような音声で聞こえる
  • Plaud Web の画面で音声を再生した時:環境ノイズが綺麗に消え、人の声だけが抽出されたクリアな音声で聞こえる

ここから推測できるのは、Plaudが文字起こしを行う直前に「声を極限まで磨き上げる高度なノイズ除去(前処理)」をサーバー側で挟んでいる可能性、または、文字起こし結果を確認する際に主要な声にフォーカスできるようにしている、という可能性があります。

ノイズを落とした状態でクラウドに保持するのではなく、なるべくそのままデータとしては残しておき、確認作業などでは主要な音声にフォーカスできるようにするという Plaud の音声に対する気配りに感服しました!

どんな人に向いているのか?

最後に、ここまで紹介してきた Plaud NotePin S、および その他のPlaudのデバイスについて実際に使ってわかった「向き・不向き」をまとめます。

向かない用途

ただし、製品の良し悪しではなく、設計思想の違いから「こういう用途なら別の手段を選んだ方が幸せになれる」というケースもあります。

例えば、会社の規定などで「クラウドへのデータ保存が一切禁止されている(完全ローカル処理が必須)」という環境の方。Plaudはクラウド上の強力なAIを活用するサービスのため、会社が使用を許可していない限りクラウドへのアップロードができません。
Windows PCで文字起こしするのであれば、ソースネクスト社の「RecText AI 2」が完全ローカルでの文字起こしに対応しています。(しかも買い切り!)

また、「リアルタイムで字幕を表示させたい」という用途にも不向きです。Plaud NotePin S は「現場では確実な録音に徹し、後からAIを使って高度に整理・要約する」ことに特化したデバイスです。会話しながらその場で画面に文字を出したい場合は、リアルタイム性に特化したスマホアプリやPCサービスを使うのが正解です。

Plaud が向いている用途・人

Plaudが向いている用途や人(Plaudを使って欲しい人)は、 仕事やディープな趣味の分野で確実に録音し、精度の高い文字起こしをしたい方。また、そのデータを残したい方。およびそのデータを元にAIと対話をして深めていきたい方 です。

文字起こしが、月に300分まででOKであればプラン契約は不要というのも魅力的です!

まとめ

「PCで頑張ればできる」ことを「専用機に任せる」。 その結果手に入ったのは、単なるテキストではなく、「いつでも振り返れる、整理された知の資産」でした。(大げさではないと思います)

自前で環境を組む苦労をした経験があるからこそ、 または 苦労を知っているからこそ、言えます。
Plaud NotePin S への投資は、あなたの時間を劇的に増やす最強の「タイパ課金」になるはずです!

▼ スマホの裏に保持できて、マイクも多く、長時間録音できるスゴイヤツ!欲しいです!



  • この記事を書いた人

The そうじろう

モノ系ブロガー。2014年から「モノ好き。ブログ」を運営。製品レビュー歴は10年を超えます。長年とあるメーカーに勤務し製品設計・開発に従事してきた経験を活かし、独自の視点でその製品の良さ紹介しています。

-スマホ

PAGE TOP