【RPA実践】UiPathによるWebスクレイピングの方法

RPA

RPAという用語が世の中に出回ってから、大分経ちますが、企業にもかなり浸透し始めているようです。

今回は、RPAとは何か、簡単にご説明するとともに、実際に手を動かしながら、RPAを体験していただきたいと思います。
決して難しくありませんから、みなさんもぜひ、この機会にRPAへチャレンジしてみてくださいね!

RPA の定義
結論として、RPAとは「Robotic Process Automation(ロボティック・プロセス・オートメーション)」の略です。
念のため、Wikipedia を引用しますと・・・

 RPAとは?
ロボティック・プロセス・オートメーションとは、認知技術(ルールエンジン・機械学習・人工知能等)を活用した、主にホワイトカラー業務の効率化・自動化の取組みである。人間の補完として業務を遂行できることから、仮想知的労働者とも言われている。
など

よく勘違いされるのが、「AI(人工知能)」と「RPA」は同じでは無いの?と思われる人がいますが、全く違います。
簡単に言うと以下のようになります。

・「RPA」は、人間を行う「動作」を機械に覚えさせて高速で処理をさせる技術
一方、
・「Ai」は人間の脳を模倣し、自己学習する事を可能とした技術

と考える事が出来ると思います。

それでは、実際に具体的な手順を踏まえて、RPAを体験してみましょう!

RPAのインストール

RPAを行うためには、様々のソフトウェア会社から専用のソフトウェアが、無償・有償にて販売されています。
今回は、無償で利用が可能で比較的、操作が簡単な「UiPath」を使用します。
インストール方法はこちらを参照してください

Webスクレイピングの手順

それでは早速、Webスクレイピングの手順について、説明していきます。

UiPath Studio起動

はじめに、UiPah Studioを起動し、プロセスをクリックして、新しい空のプロセスで「任意の名前」を入力します。

次に、レコーディングをクリックします。

レコーディング > ウェブ

レコーディングの「下向き矢印」をクリックして、「ウェブ」を選択します。




ウェブページを開く

1.webスクレイピングを行うウェブページを開きます。
2.今回は「Yahoo!ニュース」の「おすすめの記事」を取り込んでみます。
3.まず「ブラウザーを開く」をクリックします。
※注意)なお、1日に何回も連続してスクレイピングを行うと、不正アクセスとみなされますので、くれぐれも1日に1回程度行うようにしてください。

ブラウザを開く

「ブラウザーを開く」をクリックします。

ウェブ画面の取り込み

ウェブページが以下のように、青くなります。
その後、ページの空いている適当な箇所を「クリック」します。
URLのアドレスが表示されるので、「OK」をクリックします。

※OKをクリックする

UiPath Studioでの表示

下記のように、ウェブの起動設定が完了しました。
ここで、ちゃんと設定されているか確認したい人は、画面上部の「実行」ボタンを押して、動作確認してみてくださいね。(実行前に、ブラウザは閉じておくように!)

待ち時間を登録

・UiPathで、ブラウザの自動起動をした直後に、すぐデータスクレイピングを行ってしまうと、エラーとなる場合があります(つまり、完全にブラウザが起動しないうちに、データスクレイピングを開始してしまうため)
・そこで、必ず、ブラウザーを起動後に、少し「待ち時間」を登録します。
・左側の「アクティビティ」より「待機」を選択します(※環境によっては、「wait」と表示されている可能性がありますので、ご注意ください)
・選択した、「待機」アクティビティを、右側の図の位置に挿入します。

待機時間を入力

「待機」を選択して、右側の「プロパティ」で、待機時間を「00:00:03」と入力します。
※半角数字で入力してくださいね。

データスクレイピングの実行

次に、UiPath Studioの「データスクレイピング」をクリックします。




要素の選択1(先頭の要素)

・対象のウェブページを開きます。
・取得ウィザードの要素選択画面で、「次へ」をクリックします。
・対象のウェブページの、先頭の要素(※ここでは、リンク先)をクリックします。

 

要素の選択2(最終の要素)

・次に、最終の要素を選択します
・取得ウィザード「第二の要素を選択」で、「次へ」をクリックします。

・記事の最終要素をクリックします。(※今回は、最終のリンク先をクリックします)

カラムを設定

・取り込みを行った場合の「カラム名(=フィールド名)」を設定します。
※テキストとURLのカラム名は、任意の名称を入力可能です。
・「テキストを取得」と、「URLを取得」のチェックボックスを「チェック」します。
・次へをクリックします。

データプレビュー

・データのプレビューが表示されます。
※ここで、表示がおかしい場合、何か手順が間違っている可能性があります。
・次に、終了をクリックします。

複数ページ対応

今回、「複数ページは取り込まない」ため、「いいえ」をクリックします。

構造化データを抽出 について

「構造化データを抽出」を選択して、スコープを「ウェブ」に変更します。

・スコープをウェブに変更

全て折りたたみ

一旦、見やすくするため、「全て折りたたみ」をクリックします。
データスクレイピングは以上で終了です。
次項で、スクレイピングで取り込んだデータを、Excelへ出力してみます。





一旦、このあたりで、全体の流れを復習してみましょう。
[box01 title=”全体の流れ(下図参照)”]1.Web画面を開く
2.3秒待つ
3.データスクレイピングを行う
4.Excel書き込み処理を行う
[/box01]

Excelの設定

Excelへ出力するには、はじめに、「アクティビティ」で「Excel application Scope」を選択します。
(下図参照)
データスクレイピングで、データを取得出来ても、そのデータを出力しなければ、活用できないですからね。
データスクレイピングと出力は「セット」と覚えましょう!

Excelの出力設定

下図のように、出力する「空のExcelファイル」を指定します。
「…」ボタンを使用して、ファイルの場所を指定してくださいね。

私の場合は以下のように、「C:\temp\TEST\data.xlsx」に保存しました。
エクセルのファイル名等は任意です。

全て展開

この時点で、一旦、「全て展開」をクリックします。

今まで記録された内容が全て「折りたたみ」から「全て展開」 されます。

Excelの書き込み設定

アクティビティより「Write Range」を選択します。
(※環境によっては、「範囲で書き込み」と表示される可能性もあります)
「Excel Application Scope」の「Do(実行)」へ、ドラッグドロップします。

DataTable(データテーブル)の指定

下図のように、DataTableを指定します。
※この「ExtractDataTable」は、先に説明した、データスクレイピングで、取得したデータを意味します。
下図のように、登録します。

完成!

これで、ようやく完成しました!
最後に、Uipath Studio の実行をクリックします。




Excelの結果確認1

上記で実行が正常に実行されると、
自動的にRPAがウェブページを開き、
自動的にデータを取得して、
自動的にExcelへの書き込み処理を行ってくれるはずです。

Excelの結果確認2

バッチリ、データを取得出来ています!

最後に

RPAの入門編、皆さんうまく出来ましたか?
やってみると、意外と簡単にできたのではないでしょうか?
今回は、webスクレイピングの最もシンプルな方法をご説明しましたが、RPAの凄さが少しでも実感出来たなら幸いです。
またホワイトカラーと相性が抜群に良いと言われるのも、納得ですよね。
RPAは、ウェブだけで無く、あらゆるソフトウェア、画像、データなど、様々なものをシームレスに結合し、自動化する技術です。
どのように、活用するかによって、とてつもない効率化を享受する事ができるのです。

今後も、RPAの活用術について、更に詳しく説明していきますので、ぜひ、お楽しみに。
それではまた次回まで。

最新情報をチェックしよう!

    RPAの最新記事8件

    >現役エンジニアによるエンジニア・ブロガー・アフィリエイターのためのサイト

    現役エンジニアによるエンジニア・ブロガー・アフィリエイターのためのサイト

    情報を必要としている全ての人たちのために有益となるサイトを目指しています。1記事毎、丁寧に分かりやすく完結に書くことを意識しています。皆様の一助になりますと幸いです。

    CTR IMG