無料でテキストを抽出するWebツールは?【テキストマイニング】
- 作成日: 2025-04-16
- 更新日: 2025-06-20
- カテゴリ: その他
この記事では無料でテキストを抽出するツールである「テキスト濾過機(テキストろかき)」について解説します。
このツールを使うと色々なシーンで特定のテキストを抽出することができます。
開発したのは当サイトで、以下のリンクから無料で使うことができます。
関連記事:
ブラウザから使える無料のテキストマイニングツールの紹介
HTMLからテキストを抽出する
HTMLのテキストから特定のテキストを抽出したい場合があると思います。
そういう場合はこのツールの「フィルター」から、「HTML抽出くん」を選択して「フィルターを追加」ボタンを押します。

そうするとフィルターに一覧に「HTML抽出くん」が追加されます。
「HTML抽出くん」に抽出したいHTMLのタグ名、ここでは「p」を入力します。

そしてフィルターの下のほうにある「テキストコンテンツ取得」にチェックを入れます。

あとは「入力」のテキストエリアに抽出したいHTMLテキストを入力します。
そして「テキストを濾過する」というボタンを押します。

そうすると「出力」エリアに指定したタグのテキストが抽出されて出力されます。

このように「HTML抽出くん」フィルターを使うと簡単にHTMLからテキストを抽出できます。
テキストからメールアドレスを抽出する
テキストからメールアドレスを抽出したい場合はフィルターの「抽出くん」を使います。
フィルターから「抽出くん」を追加します。「HTML抽出くん」は削除してください。
「抽出くん」の「正規表現テンプレート」から「メール」を選択します。

「入力」のテキストエリアに抽出したいテキストを入力します。
「テキストを濾過する」ボタンを押します。

するとメールアドレスだけが抽出されて出力されます。

テキストからURLや画像を抽出する
先ほどの「抽出くん」の「正規表現テンプレート」を「URL」にすると、テキストからURLを抽出できるようになります。
また、「正規表現テンプレート」を「画像」にすれば、画像のパスを抽出できます。
独自フィルターでCSVから2列目を抽出する
テキスト濾過機では独自にフィルターを追加することができます。
ここではCSVテキストを解析して、2列目の値を出力する、ということをやってみます。
まず操作パネルの「全てクリアする」ボタンを押して状態をリセットします。

それから右側の「フィルター」からCSV用のフィルターを追加します。
「CSV分割くん」を選んで「フィルターを追加」ボタンを押します。

そして「CSV分割くん」を設定します。
「区切り文字」に半角のカンマ(, のことです)を入力します。
それから「出力書式」に「2列目の値は $2 です。」と入力します。

「CSV分割くん」はCSVの行を分割するフィルターです。
区切り文字にCSVの区切り文字を指定して、出力書式に出力方法を指定します。
「$2」というのは「2列目の値」という意味です。
「$1」は「1列目の値」になり、「$100」、つまり100列目まで指定することができます。
あとは適当に「入力」にCSVテキストを入力します。

「テキストを濾過する」ボタンを押してテキストをろ過します。

すると↑のようにCSVテキストから2列目が抽出されます。
テキスト濾過機を作ってみて
テキスト濾過機を作ってみた感想です。
実はこのツールは前身になるツールがありました。
それはPython製で、私が書いたライブラリです。
このライブラリも行単位でテキストをフィルタリングするライブラリで、けっこう色々な機能がありました。
このライブラリを使うとテキストを色々な形にフィルタリングすることができました。
しかし時は流れてこのツールはお蔵入りに。あまり使わないからですね。
ですがこのツールのスピリットは私の中に残っていました。
そしてこのサイトを作るにあたってコンテンツとしてツールを公開することにしました。
以前書いたそのPython製のツールを、一般の人にも使えるように世に出せないかと考えたわけです。
そこで一からツールを作り直して、テキスト濾過機という形で公開するに至りました。
テキスト濾過機を作ってみて良かったなと思います。
あまり使われてはいないんですが……。
しかしプログラマーなどが使うコマンドベースのフィルタリング処理を一般の人にも出来るようにしたのは、良い功績だと思います。
他に実装したい機能は?
テキスト濾過機で他に実装したい機能ですか。
うーん、なんでしょうねぇ。
欲しいフィルターはあらかた実装しちゃったので、あとは何がいるんでしょうねぇ。
今のところフィルターは16個実装しています。
このフィルターを組み合わせれば色々なフィルタリングが出来ると思います。
アイデア次第で、その方法は数多いと言えそうです。
何をフィルターしたいかによりますよね。
たとえばCSVテキストだったら「CSV分割くん」フィルターでCSVの列を分割できます。
分割したらあとは「抽出くん」で特定のワードを抽出したり「分割くん」で特定の書式に整形したりします。
他に実装したい機能というと、あまり思い浮かばないですね。
かなり試行錯誤して実装をしたので、けっこう極まっていると思います。
なにか実装してほしい機能があれば「お問い合わせ」よりどうぞ。
おわりに
今回紹介したテキスト濾過機を使うとこのように簡単に抽出処理を行うことができます。
このツールには他にも色々な機能がありますので、ぜひ使ってみてください。