ブラウザから使える無料のテキストマイニングツールの紹介
- 作成日: 2025-05-28
- 更新日: 2025-06-12
- カテゴリ: その他
無料のテキストマイニングツールをお探しでしょうか?
当サイトで公開しているツール「テキスト濾過機(ろかき)」を使えば、簡単にテキストマイニングが行えます。
この記事ではテキスト濾過機の使い方を解説していきます。
テキスト濾過機は以下のURLから使うことが可能です。
テキスト濾過機とは?
テキスト濾過機(ろかき)とはテキストマイニングをするためのツールです。
テキストから必要な情報を探し(マイニング)、それを出力します。
たとえば画像やリンク、特定のワード、あるいは正規表現を使った抽出などが行えます。
テキスト濾過機はブラウザから無料で使うことができるツールで、どなたでも使うことができます。
URLを抽出してみる
では実際にこのツールを使ってみたいと思います。
まずテキスト濾過機の「トップページ」を開きます。
ここではテキストからURLを抽出するということをやってみたいと思います。
左上の「操作パネル」からドロップダウンメニューを「URLの抽出」にします。

するとURLを抽出するためのフィルターが右側の「フィルター」欄に読み込まれます。
あとは左の「入力」エリアにマイニングしたいテキストを入力します。

テキストを入力したら「入力」の下の方にある「テキストを濾過する」ボタンをクリックします。
そうするとマイニングが開始されます。

マイニングが完了すると画面下の方にある「出力」エリアに結果が出力されます。

あとは出力結果をコピペしてご希望の何かに使えば仕事は完了です。
URLをHTMLのリンクにしてみる
このツールはテキストの中にあるURLをHTMLのリンク(aタグ)にすることもできます。

「操作パネル」のドロップダウンメニューを「URLをリンク化」にします。

あとは「テキストを濾過する」ボタンを押せば「出力」にリンク化されたURLが出力されます。
独自フィルターの追加: CSVをマイニングする
では独自フィルターを作ってCSVのマイニングにチャレンジしてみましょう。
まず操作パネルの「全てクリアする」ボタンを押して状態をリセットします。

それから右側にある「フィルター」から「CSV分割くん」を選択して「フィルターを追加」ボタンを押します。

あとは「CSV分割くん」の設定を行います。
「区切り文字」に半角のカンマ(,)を入力。
「出力書式」に「2列目の値は $2 です。」と入力します。

「CSV分割くん」は「区切り文字」で入力の行を分割して、その結果を「出力書式」で出力します。
書式には「$1」や「$2」などの変数を使うことができます。
「$1」は分割した行の一個目の字句、「$2」は二個目の字句です。
つまり「CSV分割くん」のこの設定は・・・
- 行をカンマ(,)で分割して、その2列目の値を「2列目の値はXです。」と出力する
という意味になります。
あとは「入力」に適当なCSVテキストを入力します。

「テキストを濾過する」ボタンを押すと「出力」に指定した出力書式で出力されます。

複数のフィルターを使った高度なマイニング
ではここからより高度なマイニングをしてみたいと思います。
テキストからメールアドレスを抽出します。
それで、「hoge.hoge」ドメインのメアドを除外し、結果を整列させて表示させる。
ということをしてみたいと思います。
使うフィルターは
- 抽出くん
- 除外くん
- ソートくん
の3つです。
フィルターを一度、操作パネルの「全てクリアする」ボタンでクリアします。
そして「フィルター」で「抽出くん」「除外くん」「ソートくん」の順番でフィルターを追加します。
「抽出くん」の「正規表現テンプレート」から「メール」を選択します。
そうすると「抽出くん」の「抽出するパターン」にメール用の正規表現がセットされます。

これはつまり、メールの正規表現にマッチする行を抽出する、という意味になります。
「除外くん」には「除外させる文字列」に「hoge.hoge」と入力します。
ここは除外したいメアドのドメインを入力します。

「ソートくん」の設定は特に必要ありません。
「ソートくん」は行をソートします。逆順にしたい場合は「逆順」にチェックを入れます。

あとは「入力」エリアに適当なテキストを入力します。

あとは「テキストを濾過する」ボタンを押します。
そうすると「出力」に結果が出力されます。

↑の画像を見ると「hoge.hoge」ドメインが除外されてるのがわかります。
また、「これはノイズです。」などのテキストも除外されていますね。
テキスト濾過機という名前について
このツールの名前は「テキスト濾過機(ろかき)」です。
実は「濾過機」という漢字が難しいので「ろ過機」にしておこうか悩んだことがあります。
「濾過」ってなかなか読めないですもんね。
色々な人に認知してもらうには、覚えやすい名前が良いと思うんですが・・・。
でもここはあえて「濾過機」でいってみようとなりました。
最初は読みづらいけど徐々に認知されていけば知る人ぞ知る、という感じになるのでは、という期待を込めています。
おわりに
今回はテキストマイニングツールの「テキスト濾過機」の紹介をしました。
当サイトで公開・開発しているツールです。
無料なのでよかったら使ってみてください。
では。
※本ツールは無料で提供されていますが、使用によって生じたいかなる損害についても、当方は責任を負いかねます。必ず自己責任でご利用ください。詳しくは利用規約をご確認ください。