無料でテキストを抽出するWebツールは?【テキストマイニング】
- 作成日: 2025-04-16
- 更新日: 2025-07-08
- カテゴリ: その他
この記事では無料でテキストを抽出するツールである「テキストろ過機(テキストろかき)」について解説します。
このツールを使うと色々なシーンで特定のテキストを抽出することができます。
開発したのは当サイトで、以下のリンクから無料で使うことができます。
関連記事:
ブラウザから使える無料のテキストマイニングツールの紹介
HTMLからテキストを抽出する
HTMLのテキストから特定のテキストを抽出したい場合があると思います。
そういう場合はこのツールの「フィルター」から、「HTML抽出くん」を選択して「フィルターを追加」ボタンを押します。

そうするとフィルターに一覧に「HTML抽出くん」が追加されます。
「HTML抽出くん」に抽出したいHTMLのタグ名、ここでは「p」を入力します。

そしてフィルターの下のほうにある「テキストコンテンツ取得」にチェックを入れます。

あとは「入力」のテキストエリアに抽出したいHTMLテキストを入力します。
そして「テキストを濾過する」というボタンを押します。

そうすると「出力」エリアに指定したタグのテキストが抽出されて出力されます。

このように「HTML抽出くん」フィルターを使うと簡単にHTMLからテキストを抽出できます。
テキストからメールアドレスを抽出する
テキストからメールアドレスを抽出したい場合はフィルターの「抽出くん」を使います。
フィルターから「抽出くん」を追加します。「HTML抽出くん」は削除してください。
「抽出くん」の「正規表現テンプレート」から「メール」を選択します。

「入力」のテキストエリアに抽出したいテキストを入力します。
「テキストを濾過する」ボタンを押します。

するとメールアドレスだけが抽出されて出力されます。

テキストからURLや画像を抽出する
先ほどの「抽出くん」の「正規表現テンプレート」を「URL」にすると、テキストからURLを抽出できるようになります。
また、「正規表現テンプレート」を「画像」にすれば、画像のパスを抽出できます。
独自フィルターでCSVから2列目を抽出する
テキストろ過機では独自にフィルターを追加することができます。
ここではCSVテキストを解析して、2列目の値を出力する、ということをやってみます。
まず操作パネルの「全てクリアする」ボタンを押して状態をリセットします。

それから右側の「フィルター」からCSV用のフィルターを追加します。
「CSV分割くん」を選んで「フィルターを追加」ボタンを押します。

そして「CSV分割くん」を設定します。
「区切り文字」に半角のカンマ(, のことです)を入力します。
それから「出力書式」に「2列目の値は $2 です。」と入力します。

「CSV分割くん」はCSVの行を分割するフィルターです。
区切り文字にCSVの区切り文字を指定して、出力書式に出力方法を指定します。
「$2」というのは「2列目の値」という意味です。
「$1」は「1列目の値」になり、「$100」、つまり100列目まで指定することができます。
あとは適当に「入力」にCSVテキストを入力します。

「テキストを濾過する」ボタンを押してテキストをろ過します。

すると↑のようにCSVテキストから2列目が抽出されます。
テキストろ過機を作ってみて
テキストろ過機を作ってみた感想です。
実はこのツールは前身になるツールがありました。
それはPython製で、私が書いたライブラリです。
このライブラリも行単位でテキストをフィルタリングするライブラリで、けっこう色々な機能がありました。
このライブラリを使うとテキストを色々な形にフィルタリングすることができました。
しかし時は流れてこのツールはお蔵入りに。あまり使わないからですね。
ですがこのツールのスピリットは私の中に残っていました。
そしてこのサイトを作るにあたってコンテンツとしてツールを公開することにしました。
以前書いたそのPython製のツールを、一般の人にも使えるように世に出せないかと考えたわけです。
そこで一からツールを作り直して、テキストろ過機という形で公開するに至りました。
テキストろ過機を作ってみて良かったなと思います。
あまり使われてはいないんですが……。
しかしプログラマーなどが使うコマンドベースのフィルタリング処理を一般の人にも出来るようにしたのは、良い功績だと思います。
他に実装したい機能は?
テキストろ過機で他に実装したい機能ですか。
うーん、なんでしょうねぇ。
欲しいフィルターはあらかた実装しちゃったので、あとは何がいるんでしょうねぇ。
今のところフィルターは16個実装しています。
このフィルターを組み合わせれば色々なフィルタリングが出来ると思います。
アイデア次第で、その方法は数多いと言えそうです。
何をフィルターしたいかによりますよね。
たとえばCSVテキストだったら「CSV分割くん」フィルターでCSVの列を分割できます。
分割したらあとは「抽出くん」で特定のワードを抽出したり「分割くん」で特定の書式に整形したりします。
他に実装したい機能というと、あまり思い浮かばないですね。
かなり試行錯誤して実装をしたので、けっこう極まっていると思います。
なにか実装してほしい機能があれば「お問い合わせ」よりどうぞ。
テキスト処理と開発者
テキスト処理はプログラマーなどの開発者からすると基礎的な技術です。
端末からカタカタターンッ! とやってコマンドを打ち、テキストを整形します。
この時に開発者は「パイプ」という機能をよく使います。
パイプは、前のコマンドの出力を、次のコマンドの入力に繋げることを言います。
こうすることでコマンド(ソフトウェア)からコマンドへ、処理したテキストを伝搬させることができるわけですね。
テキストろ過器も、これを実現することができます。
フィルターを複数繋げることで、前の処理結果をそのまま加工することができるからです。
これはパイプと同じ機能です。
つまり、テキストろ過器は、パイプを一般ユーザーの人にも使えるようにしているわけですね。
プログラマーなどの開発者がよくやっているコマンドのパイプを、一般の人も使えると。
ということは! これはすなわち!
一般の人もプログラマーと同等のテキスト処理ができる!
ということになります(たぶん)。
JavaScript化できないのか?
テキストろ過器は今のところサーバー側に処理をしてもらう設計になっています。
これをJavaScriptでクライアント側で処理するように変更できないのか?
というところです。
結論としては出来ると思うんですが、今のところその実装をするメリットがあまりないです。
クライアント側で完結するようにすれば、よりセキュアになると思いますが、これはソースコードの流出のデメリットがあります。
テキストろ過器でやってるのは単純なテキスト置換とか正規表現判定とかなので、JavaScriptで換装することは出来ると思います。
利用者が増えてサーバーとの通信が増えて負荷が上がったら、JavaScript化は検討しようかなと、思っています。
よくある質問(FAQ)
よくある質問をまとめました。
Q. テキストろ過機は無料ですか?
A. はい、完全に無料で利用できます。ログインやインストールも不要で、ブラウザからすぐに使えます。
Q. スマホやタブレットでも使えますか?
A. スマホ・タブレットでも基本的には動作しますが、操作パネルが多いためパソコンでの使用を推奨しています。
Q. JavaScriptやプログラミングの知識は必要ですか?
A. いいえ。GUIベースの操作なので、特別なプログラミングの知識は必要ありません。基本的には選択と入力だけで使えます。ただ正規表現などは少し知識が必要なケースもあります。
Q. 送信したデータはどこかに保存されますか?
A. いいえ、データはサーバーに保存されることはありません。フィルター処理はサーバー側で行われますが、その際にデータをサーバー側に保存するということはありませんので安心してお使いいただけます。
Q. フィルターを自作したり、共有することはできますか?
A. フィルターは複数のフィルターアイテムを設定することで自作できます。フィルターは「フィルターのソースを見る」からソースを見ることができます。このソースを保存・共有することが可能です。
おわりに
今回紹介したテキストろ過機を使うとこのように簡単に抽出処理を行うことができます。
このツールには他にも色々な機能がありますので、ぜひ使ってみてください。