ブラウザから使える無料のテキストマイニングツールの紹介
- 作成日: 2025-05-28
- 更新日: 2025-07-31
- カテゴリ: その他
無料のテキストマイニングツールをお探しでしょうか?
当サイトで公開しているツール「テキストろ過器(ろかき)」を使えば、簡単にテキストマイニングが行えます。
この記事ではテキストろ過器の使い方を解説していきます。
テキストろ過器は以下のURLから使うことが可能です。
テキストろ過器とは?
テキストろ過器(ろかき)とはテキストマイニングをするためのツールです。
テキストから必要な情報を探し(マイニング)、それを出力します。
たとえば画像やリンク、特定のワード、あるいは正規表現を使った抽出などが行えます。
テキストろ過器はブラウザから無料で使うことができるツールで、どなたでも使うことができます。
URLを抽出してみる
では実際にこのツールを使ってみたいと思います。
まずテキストろ過器の「トップページ」を開きます。
ここではテキストからURLを抽出するということをやってみたいと思います。
左上の「操作パネル」からドロップダウンメニューを「URLの抽出」にします。

するとURLを抽出するためのフィルターが右側の「フィルター」欄に読み込まれます。
あとは左の「入力」エリアにマイニングしたいテキストを入力します。

テキストを入力したら「入力」の下の方にある「テキストを濾過する」ボタンをクリックします。
そうするとマイニングが開始されます。

マイニングが完了すると画面下の方にある「出力」エリアに結果が出力されます。

あとは出力結果をコピペしてご希望の何かに使えば仕事は完了です。
URLをHTMLのリンクにしてみる
このツールはテキストの中にあるURLをHTMLのリンク(aタグ)にすることもできます。

「操作パネル」のドロップダウンメニューを「URLをリンク化」にします。

あとは「テキストを濾過する」ボタンを押せば「出力」にリンク化されたURLが出力されます。
独自フィルターの追加: CSVをマイニングする
では独自フィルターを作ってCSVのマイニングにチャレンジしてみましょう。
まず操作パネルの「全てクリアする」ボタンを押して状態をリセットします。

それから右側にある「フィルター」から「CSV分割くん」を選択して「フィルターを追加」ボタンを押します。

あとは「CSV分割くん」の設定を行います。
「区切り文字」に半角のカンマ(,)を入力。
「出力書式」に「2列目の値は $2 です。」と入力します。

「CSV分割くん」は「区切り文字」で入力の行を分割して、その結果を「出力書式」で出力します。
書式には「$1」や「$2」などの変数を使うことができます。
「$1」は分割した行の一個目の字句、「$2」は二個目の字句です。
つまり「CSV分割くん」のこの設定は・・・
- 行をカンマ(,)で分割して、その2列目の値を「2列目の値はXです。」と出力する
という意味になります。
あとは「入力」に適当なCSVテキストを入力します。

「テキストを濾過する」ボタンを押すと「出力」に指定した出力書式で出力されます。

複数のフィルターを使った高度なマイニング
ではここからより高度なマイニングをしてみたいと思います。
テキストからメールアドレスを抽出します。
それで、「hoge.hoge」ドメインのメアドを除外し、結果を整列させて表示させる。
ということをしてみたいと思います。
使うフィルターは
- 抽出くん
- 除外くん
- ソートくん
の3つです。
フィルターを一度、操作パネルの「全てクリアする」ボタンでクリアします。
そして「フィルター」で「抽出くん」「除外くん」「ソートくん」の順番でフィルターを追加します。
「抽出くん」の「正規表現テンプレート」から「メール」を選択します。
そうすると「抽出くん」の「抽出するパターン」にメール用の正規表現がセットされます。

これはつまり、メールの正規表現にマッチする行を抽出する、という意味になります。
「除外くん」には「除外させる文字列」に「hoge.hoge」と入力します。
ここは除外したいメアドのドメインを入力します。

「ソートくん」の設定は特に必要ありません。
「ソートくん」は行をソートします。逆順にしたい場合は「逆順」にチェックを入れます。

あとは「入力」エリアに適当なテキストを入力します。

あとは「テキストを濾過する」ボタンを押します。
そうすると「出力」に結果が出力されます。

↑の画像を見ると「hoge.hoge」ドメインが除外されてるのがわかります。
また、「これはノイズです。」などのテキストも除外されていますね。
テキストろ過器という名前について
テキストろ過器は最初は「テキスト濾過機」という名前でした。
しかし「濾過(ろか)」が難しいので、「ろ過」にして優しくした経緯があります。
名前は難しい漢字だと、それだけで損をするらしいです。
ですので、名前は出来るだけ簡単にして、人に覚えてもらいやすくするのが大事です。
って、テレビで統計が得意な女性が言ってました。
そうなんですね~。
複数のフィルターを組み合わせるという発想
テキストろ過器の、複数のフィルターを組み合わせるというアイデアは、どこからやってきたか。
これはプログラマーさんなどが使っているコマンドにヒントがあります。
コマンドとはソフトウェアのことで、黒い画面から使うソフトウェアを一般にコマンドと言います。
で、黒い画面には「パイプ」という機能があります。
パイプというのは、前のコマンドの出力を次のコマンドの入力に繋ぐ機能のことを言います。
こうすることでコマンドからコマンドへ処理したテキストを流すことができます。
テキストろ過器のフィルターを組み合わせる機能は、このパイプのアイデアを流用しています。
つまり一般ユーザーの人にもプログラマーが使っているパイプ機能を使えるようにしたわけですね。
ナイス!
UNIXから生まれたパイプ
テキストろ過器の設計のベースになっているものはパイプというUNIX発祥の機能です。
パイプはプロセスの入出力をシェル上で繋ぐもので、これを使うことでコマンドの出力を別のコマンドの入力に繋げることができます。
パイプはUNIXシェルの開発に関わったダグラス・マキルロイが考案しました。それをケン・トンプソンがUNIXにパイプとして実装したのが始まりです。
このパイプは現代でも現役で使われている非常に優れた仕組みでした。
テキストろ過器でもその設計を採用して開発しました。
パイプはコマンドの出力を別のコマンドの入力にできるんですよね。
この発想は面白いと思います。
管みたいなパイプがあって、そのパイプをコマンドの出入り口に繋げる感じですね。
たとえるなら、水道管から出る水をホースで人間の口に繋げる感じですね。
人間は鼻からその水を出して別の人間に繋げ・・・って汚いわ!!(ツッコミ
シェルスクリプトなどを書くとパイプの便利さがよくわかります。
スクリプトの中でコマンドを呼び出して、そのコマンドを別のコマンドに繋げるんですね。
コマンドは自作も出来ますので、他のコマンドに自分で作ったコマンドをパイプで組み込むこともできます。
コマンドなどのソフトウェアを作るときはstdinやstdoutなどの標準入出力を使って開発すると、そのコマンドをパイプに組み込むことができるようになります。
自分の開発をUNIX哲学に従わせる場合は、ツールなどはそういった方向で開発した方がいいでしょう。
おわりに
今回はテキストマイニングツールの「テキストろ過器」の紹介をしました。
当サイトで公開・開発しているツールです。
無料なのでよかったら使ってみてください。
では。
※本ツールは無料で提供されていますが、使用によって生じたいかなる損害についても、当方は責任を負いかねます。必ず自己責任でご利用ください。詳しくは利用規約をご確認ください。