Semalt – Webページをこする方法?

Beautiful Soupは、XMLおよびHTMLドキュメントから解析ツリーを作成してWebページをこするのに広く使用されているPythonライブラリです。ウェブスクレイピングは、ウェブサイトやページからデータを抽出する手法であり、データ分析や管理の分野で広く使用されています。ほとんどの場合、Pythonプログラミング言語はデータサイエンスの前提条件です。

Python 3には、データ管理プロジェクトに適用できるスクレイピングツールとモジュールがあります。現在Beautiful Soup 4として実行されているこのモジュールは、Python 3とPython 2.7の両方と互換性があります。 Beautiful Soup 4モジュールは、閉じられていないタグスープの解析ツリーを作成することもできます。このチュートリアルでは、ページをスクレイピングし、スクレイピングしたデータをCSVファイルに書き込む方法を学びます。

入門

はじめに、PCにサーバーまたはローカルベースのPythonコーディング環境をセットアップします。また、Beautiful Soup and Requestsモジュールをマシンにインストールする必要があります。両方のモジュールの操作に関する知識も必要な前提条件です。 HTMLのタグ付けと構造に精通していることも追加の利点です。

データを理解する

このコンテキストでは、National Gallery of Artの実際のデータを使用して、Beautiful Soup 4の使用方法を理解します。NationalGallery of Artは、約13,000人のアーティストによって行われる120,000個の作品で構成されています。アートは、米国ワシントンDCを拠点としています。

Beautiful SoupによるWebデータの抽出はそれほど複雑ではありません。たとえば、文字Zに注目する場合は、リストの名をマークしてメモします。この場合、最初の名前はZabaglia、Niccolaです。一貫性を保つために、ページ数とそのページの最後のアーティストの名前を示します。

リクエストとビューティフルスープライブラリをインポートする方法

ライブラリをインポートするには、Python 3プログラミング環境をアクティブにします。プログラミング環境と同じディレクトリにいることを確認してください。開始するには、次のコマンドを実行します。 my_env / bin / activate。

新しいファイルを作成し、Beautiful SoupおよびRequestsライブラリのインポートを開始します。リクエストライブラリを使用すると、Pythonプログラム内でHTTPを読み取り可能な形式で使用できます。一方、Beautiful Soupはページをすばやくこするように働きます。 bs4を使用してBeautiful Soupをインポートします。

Webページを収集して解析する方法

リクエストを使用すると、最初のページのURLが収集されます。最初のページのURLが可変ページに割り当てられます。リクエストからBeautifulSoupオブジェクトを作成し、Pythonのパーサーからオブジェクトを解析します。

このチュートリアルでは、リンクとアーティストの名前を収集することを目的としています。たとえば、アーティストの日付や国籍を収集できます。 Windowsユーザーの場合、アーティストの名を右クリックします。この場合、Zabaglia、Niccolaを使用します。 Mac OSユーザーの場合、「CTRL」をタップして名前をクリックします。画面にポップアップ表示される「要素の検査」メニューをクリックして、Web開発者のツールにアクセスします。アーティストの名前を印刷して、Beautiful Soupがすばやく木を解析できるようにします。

下部のリンクを削除する

Webページの下部のリンクを削除するには、要素を右クリックしてDOMを調べます。リンクがHTMLテーブルの下にあることを確認します。 Beautiful Soupを使用して、「分解メソッド」を使用して解析ツリーからタグを削除します。

タグからコンテンツをプルする方法

リンクタグ全体を印刷する必要はありません。BeautifulSoupを使用して、タグから素材を削除します。 Beautiful Soup 4を使用して、アーティストに関連付けられたURLをキャプチャすることもできます。

スクレイピングされたデータをCSVファイルにキャプチャする

CSVファイルを使用すると、データシートで主に使用される形式であるプレーンテキストで構造化データを保存できます。 Pythonでのプレーンテキストファイルの処理に関する知識が必要です。

Webデータ抽出は、ページをスクレイピングして情報を取得するために使用されます。あなたが情報を抽出しているウェブサイトに配慮してください。一部の動的Webサイトでは、サイトでのWebデータの抽出が制限されています。 Beautiful SoupとPython 3でページをこするのはとても簡単です。