文字起こし副業の始め方【AI活用で効率化・月3万円稼ぐ方法2026年版】

未分類

文字起こしの副業って、地味だけどちゃんと稼げるんですよ。

僕が文字起こしを始めたのは去年の夏ごろ。会社員をしながら平日の夜と土日を使って、3ヶ月目に月3万円を超えました。特に2026年4月時点ではAIツールとの組み合わせで作業効率が劇的に上がっているので、以前より稼ぎやすい環境だと感じています。

ただ、正直に言うと最初はかなりしんどかった。これから始めようという人に向けて、僕が実際に通ってきた道を包み隠さず書いてみます。

最初の案件で心が折れかけた話

忘れもしない、最初の案件はCrowdWorksで受けた「セミナー音声の文字起こし・3時間分」だった。報酬は12,000円。時給に換算したら悪くないなと思って飛びついたんですけど、これが甘かった。

3時間の音声に、まるまる8時間かかりました。

何が大変だったかというと、まず話者が5人いて誰が誰だかわからない。マイクから遠い人の声はほぼ聞き取れない。30秒の音声を聞いては巻き戻し、また聞いては巻き戻し、の繰り返し。夜中の2時まで粘って、翌日も仕事終わりに4時間。時給換算したら1,500円にもならなかった。

実際には、初心者がやりがちな失敗がここに詰まっていて、「音質の確認をしなかった」「話者の人数を把握していなかった」「再生速度の調整を知らなかった」と三拍子揃っていたわけです。正直、この1件目で辞めようかと本気で思いました。

でも2件目で「1対1のインタビュー音声・音質良好」という案件を選んだら、1時間の音声を3時間半で仕上げられた。案件選びでここまで変わるのかと驚いた経験が、続けるモチベーションになりました。

文字起こしの仕事内容と単価相場

音声データをテキストに変換する仕事です。主な案件タイプはこんな感じ。

インタビュー音声の文字起こし。 1時間分の音声で報酬は3,000〜8,000円が相場。内容の専門性が高いほど単価も上がる傾向にあります。1対1の対談形式が最もやりやすくて、初心者にはこのタイプをおすすめしたい。

セミナー・講演の書き起こし。 2時間程度の講演で1万円前後。専門用語が多い分、事前にキーワードリストをもらえることが多いですね。ただし質疑応答パートが含まれると難易度が跳ね上がる。

YouTube動画の字幕用テキスト作成。 最近急増している案件ジャンルです。10分動画で1,000〜2,000円程度。短い分サクサクこなせるけど、単価は低め。

会議議事録の作成。 企業の社内会議を文字に起こすパターン。守秘義務が厳しいぶん、単価は高めに設定されていることが多い。1時間音声で5,000〜10,000円。

案件タイプ別の単価相場(2026年4月時点)

案件タイプ 音声1時間あたり単価 難易度 初心者向き
インタビュー(1対1) 3,000〜6,000円 ★★☆☆☆
インタビュー(複数人) 5,000〜8,000円 ★★★★☆
セミナー・講演 4,000〜7,000円 ★★★☆☆
YouTube字幕 5,000〜12,000円(換算) ★★☆☆☆
会議議事録 5,000〜10,000円 ★★★★☆
医療・法律系 8,000〜15,000円 ★★★★★ ×

この表を見るとわかるように、専門性の高い案件ほど単価は上がる。ただし初心者がいきなり医療系に手を出すと地獄を見るので、まずはインタビュー系から始めるのが鉄板です。

AI文字起こしツール活用法

正直に告白すると、最初は手作業だけで文字起こしをしていました。1時間の音声に4〜5時間かかって、時給換算すると800円くらい。これじゃバイトの方がマシだなと何度も思いましたよ。

転機はWhisperを知ったこと。OpenAIが公開している音声認識AIで、精度がかなり高い。日本語でも体感85%くらいは正確に変換してくれます。

主要なAI文字起こしツール

Whisper(OpenAI)。 無料で使えるオープンソースの音声認識AI。ローカルPCで動かせるので音声データが外部に送信されない。これはクライアントへの説明がしやすい大きなメリット。ただし、自分のPCにインストールする必要があるので、最初のセットアップは少しハードルがある。YouTubeで「Whisper インストール」と検索すれば手順動画がたくさん出てくるので、そこまで困らないはず。

Notta。 月額1,200円からのクラウド型サービス。ブラウザ上で音声ファイルをアップロードするだけで文字起こしが完了する。Whisperよりも手軽だけど、音声をクラウドに上げるので守秘義務がある案件には使いにくい。僕は個人のYouTube字幕案件ではNottaを使っています。

CLOVA Note。 LINEが提供する無料の文字起こしアプリ。スマホでも使えて、話者分離機能がついている。複数人の会議音声を起こすときに重宝する。ただし、長時間音声の精度はWhisperに劣る印象がある。

Google Documentの音声入力。 意外と侮れない。リアルタイムで音声を流しながらGoogleドキュメントに書き起こす方法。無料だしセットアップ不要。ただし精度は他のツールに比べると落ちるので、あくまで補助的な使い方になる。

僕の実際の作業フロー

まずWhisperで自動文字起こし → 音声を聴きながら修正 → ケバ取り・整文。このやり方にしてから、1時間音声の処理が約2時間に短縮されました。作業時間が半分以下になったわけです。

具体的な手順を書くと、まずWhisperでテキストを生成して、それをGoogleドキュメントに貼り付ける。次に音声を1.2倍速で再生しながら、Whisperが間違えた部分を修正していく。最後にケバ取り(「えーと」「あのー」などの不要語の削除)と整文を行う。

ここで大事なのが、Whisperの出力をそのまま納品するのはNGだということ。AIの変換ミスは一定数あるし、句読点の打ち方や改行のタイミングはAIだけでは最適化できない。あくまで「下書き」として使って、人間が仕上げるというスタンスが正しい。

ただし注意点がある。クライアントによってはAI利用を禁止しているケースもあるので、事前確認は必須です。僕は提案文に「AIツールを活用した効率的な作業が可能です」と書いて了承をもらうようにしています。

タイピング速度と収入の関係

文字起こしで稼げる金額は、実はタイピング速度にかなり左右される。これ、当たり前のように聞こえるけど、具体的にどれくらい影響するかは意外と知られていない。

僕の経験から言うと、タイピング速度が上がると「修正作業」のスピードが圧倒的に変わる。AI文字起こしを使う前提でも、修正パートで手が速いかどうかで1案件あたり30分〜1時間の差が出る。月に12件こなすなら、6〜12時間の差になる。これはでかい。

目安として、e-typingのスコアで言うとこんな感じ。

  • スコア200以下: 文字起こしはかなりつらい。まずはタイピング練習から始めたほうがいい
  • スコア200〜300: AI活用前提でなんとかなるレベル。時給1,500〜2,000円くらい
  • スコア300〜400: 効率よく作業できる。時給2,500〜3,500円を狙える
  • スコア400以上: 上級者。専門案件と組み合わせれば時給4,000円超えも現実的

正直、タイピングの練習は地味だけど投資対効果が高い。僕はe-typingで毎日5分だけ練習を続けて、3ヶ月でスコアが230から310まで上がった。体感的にも明らかに作業が楽になったし、ミスタイプが減ると精神的なストレスも減る。

効率化のコツ

ここからは、僕が1年間やってきて「これで作業速度が上がった」と実感したテクニックをまとめます。

再生速度のコントロール。 音声プレーヤーの再生速度を0.8倍〜1.5倍の間で調整する。聞き取りやすい部分は1.3倍速、聞き取りにくい部分は0.8倍速。これだけで全体の作業時間が15%くらい縮まる。僕はVLCメディアプレーヤーを使っていて、ショートカットキーで速度変更している。

フットペダルの導入。 これは正直、コストがかかる(3,000〜5,000円)ので迷ったけど、買ってよかったと心から思っている。足で再生・停止・巻き戻しを操作できるので、両手がキーボードから離れない。作業効率が体感2割上がった。月に3万円稼ぐなら1〜2ヶ月で元が取れる。

辞書登録の活用。 よく出てくる専門用語や定型表現を辞書登録しておく。例えば「おせ」と打てば「お世話になっております」、「かぶ」と打てば「株式会社」と変換されるようにする。地味だけど、積み重なると大きな差になる。

テンプレートの作成。 納品フォーマットをテンプレート化しておくと、案件ごとにゼロから体裁を整える手間が省ける。僕はGoogleドキュメントで5パターンくらいテンプレートを用意している。

集中力の管理。 文字起こしは想像以上に集中力を使う作業なので、ポモドーロ・テクニック(25分作業→5分休憩)を取り入れるのがおすすめ。僕は45分作業→10分休憩のサイクルにしているけど、自分に合うリズムを見つけるのが大事。2時間ぶっ通しでやると、後半の精度がガタ落ちするのは経験済み。

案件の見極め。 これが実は一番大事かもしれない。音質が悪い案件、話者が多すぎる案件、極端に単価が低い案件は避ける。受注前にサンプル音声を確認させてもらうのは鉄則。僕は音質が悪い案件を安請け合いしたことが一度あって、3時間格闘して半分しか聞き取れず結局キャンセルになった苦い経験がある。

案件の探し方

CrowdWorks。 「文字起こし」で検索すると常時50件以上ヒットします。初心者歓迎の案件も多い。ただし単価が低めの案件も混在しているので、1時間音声あたり3,000円を下回るものは基本的にスルーしたほうがいい。

Lancers。 CrowdWorksと並行して使うのがおすすめ。僕は両方に登録して案件の選択肢を広げました。Lancersのほうが若干単価が高い印象があるけど、案件数はCrowdWorksのほうが多い。

coconala。 自分のスキルを出品する形式。「文字起こし1時間あたり○○円」と設定して待つスタイル。リピーターがつくと安定しますよ。最初はわざと相場より少し安めに設定して実績を作るのがコツ。5件くらい実績がたまったら相場に戻す。

直接営業。 ポッドキャスト配信者やYouTuberにDMで営業する方法。返信率は低いですが、継続案件につながりやすい。僕は10件送って2件受注できた経験があります。継続案件になると毎月安定して収入が入るので、精神的にもかなり楽になる。

月3万円達成のための作業量

目安をお伝えすると、AI活用前提で週に10時間ほどの作業で月3万円は十分狙えます。内訳としては1時間音声×週3本ペース。単価5,000円の案件を月12本こなせば6万円ですが、現実的には週2〜3本が無理のないラインだと思います。

ただ、最初の1ヶ月は実績がないので案件が取りにくい。僕の場合、1ヶ月目は8,000円、2ヶ月目は18,000円、3ヶ月目でようやく32,000円だった。焦らないことが大事で、最初は単価が低くても実績を積むことを優先したほうが結果的に早く稼げるようになる。

スキルアップで単価を上げるコツ

タッチタイピングの精度を上げる。 速さよりも正確さが重要。僕はe-typingで毎日5分練習して、ミスタイプが3割減りました。

専門分野を持つ。 医療・法律・ITなど専門用語がわかると単価1.5〜2倍は狙える。僕はIT系に絞ったことで平均単価が4,200円から6,800円に上がりました。専門分野を持つと「この人にお願いしたい」と指名が入るようになるので、案件獲得の安定感がまるで変わる。

素起こしと整文の使い分け。 クライアントが求める品質レベルを正確に把握することで、無駄な作業を減らせます。「素起こしでいい」と言われているのに丁寧に整文すると、時間だけ余計にかかって時給が下がる。逆に整文が求められているのに素起こしで出すとクレームになる。最初に納品サンプルを出して認識を合わせるのがベスト。

ポートフォリオを作る。 自分の実績をまとめたページを作っておくと、提案時の信頼度が段違い。僕はNotionで簡単なポートフォリオページを作って、プロフィール欄にリンクを貼っている。対応可能なジャンル、作業実績件数、平均納期を書いておくだけでも効果がある。


あわせて読みたい


クラウドワークス vs ランサーズ どっちがいい?2026年比較【初心者向け】
クラウドワークス vs ランサーズ どっちがいい?2026年比較について、初心者向けに始め方と稼ぎ方を詳しく解説します。

副業で使える便利ツール15選【無料〜格安で生産性を爆上げする方法2026年版】
副業に役立つ便利ツール15個を厳選紹介。無料〜格安で使えるタスク管理・請求書・デザインツールを網羅。

コメント

タイトルとURLをコピーしました