カテゴリー: tech

  • jqを使ったJSONデータの柔軟な操作: ユーザーの属性値の動的変更

    jqを使ったJSONデータの柔軟な操作: ユーザーの属性値の動的変更

    はじめに

    jqはコマンドラインツールで、JSONデータをパースしたり操作したりするのに非常に便利です。今回は、特定のユーザーの属性(タグリスト)から特定の要素を削除する、という具体的なタスクを通じて、jqの使い方について解説します。

    JSONデータの説明

    まずは問題を理解するために、私たちが操作するJSONデータを見てみましょう。以下のような形式のデータです:

    {
    "data": {
    "users": [
    {
    "username": "Alice",
    "tags": "tag1, tag2"
    },
    {
    "username": "Bob",
    "tags": "tag2"
    },
    {
    "username": "Charlie"
    }
    ]
    }
    }

    このデータは、”data”というキーの中に、”users”という配列があります。各ユーザーは”username”と”tags”という2つの属性を持つことができます。

    目標の説明

    ここでの目標は、特定のユーザー(この例では”Alice”)のタグリストから特定のタグ(この例では”tag2″)を削除することです。このようなタスクは、例えば特定のユーザーのロールや権限、ステータスなどを更新する際によく遭遇します。

    jqコマンドの解説

    目標を達成するために、以下のようなjqコマンドを使用します。

    jq -r --arg username "Alice" --arg delete_tag "tag2" '
    .data.users |= map(
    if .username == $username then
    if .tags? | contains($delete_tag) then
    if .tags == $delete_tag then
    del(.tags)
    else
    .tags |= gsub($delete_tag + ", "; "")
    | .tags |= gsub(", " + $delete_tag; "")
    end
    else
    .
    end
    else
    .
    end
    )
    '
    users.json

    ここで”-r”オプションは、出力結果をraw形式(エスケープされていない形式)で出力することを指定します。

    “–arg username “Alice”” と “–arg delete_tag “tag2″” では、コマンド実行時にjqに変数を渡しています。これにより、このコマンドは特定のユーザー名と削除するタグを動的に指定できます。

    そして、”.data.users |= map(…)”では、全てのユーザー(.data.usersの配列)を一つずつ処理しています。この”map”関数は、配列の全ての要素に対して指定した処理(ここでは後続のif文全体)を適用します。

     

    jqコマンドの詳細

    ここで、このjqコマンドがどのように動作しているのかを詳しく見ていきましょう。

    まず、”if .username == $username then”という行では、現在処理しているユーザーのusernameが指定したusernameと一致するかどうかを確認します。もし一致すれば、そのユーザーに対して更なる処理(後続のif文)を行います。

    次に、”if .tags? | contains($delete_tag) then”という行では、現在処理しているユーザーがtags属性を持ち、その中に削除するタグが含まれているかを確認します。ここで、”?”演算子を使うことで、もしユーザーがtags属性を持っていなければエラーにせずにnullを返します。

    そして、もしユーザーが削除するタグだけを持っている場合(つまり、そのユーザーのtagsが削除するタグと全く同じである場合)、”if .tags == $delete_tag then del(.tags)”という部分でそのtags全体を削除します。

    もしユーザーが削除するタグを含むが、他にもタグを持っている場合(つまり、そのユーザーのtagsが削除するタグを含むカンマ区切りの文字列である場合)、

    .tags |= gsub($delete_tag + ", "; "")
    | .tags |= gsub(", " + $delete_tag; "")

    という部分で削除するタグを取り除きます。ここで、”gsub”関数は、第一引数の正規表現にマッチする全ての部分を第二引数に置き換えます。つまり、この行では、タグリストから削除するタグを取り除いています。

    まとめ

    以上が、jqを使ってJSONデータを操作する具体的な例です。この例を通じて、jqの強力さと柔軟性を理解していただけたと思います。JSONデータを操作する必要がある場合、是非jqをお試しください。

  • FlaskとQueueを用いたタスク管理の実装

    FlaskとQueueを用いたタスク管理の実装

    PythonのFlaskフレームワークは、その軽量さと拡張性から、さまざまなウェブアプリケーションで用いられています。今回はFlaskを使用したシステムで、Pythonの組み込みモジュールであるQueueを利用して、タスク管理を効率的に行う方法について解説します。

    この記事で取り扱う主要なテーマは以下の通りです:

    • PythonのQueueを使ったタスク管理
    • Queueとスレッドを組み合わせた非同期処理

    PythonのQueueを使ったタスク管理

    Pythonのqueue モジュールは、FIFO(First-In, First-Out)方式のキューを実装しており、スレッド間でデータの受け渡しを行う際に特に有用です。以下に具体的なコードを示します。

    import queue
    import threading
    # グローバルにキューを作成
    task_queue = queue.Queue()
    def worker():
    while True:
    task = task_queue.get()
    if task is None:
    break
    # ここでタスクを処理
    task_queue.task_done()
    # ワーカースレッドを作成し、実行
    worker_thread = threading.Thread(target=worker)
    worker_thread.start()
    @app.route('/task', methods=['POST'])
    def add_task():
    task_data = request.get_json()
    task_queue.put(task_data)
    return jsonify({'status': 'queued'})

    このコードでは、新たなタスクがPOSTリクエストとして/taskエンドポイントに送信されると、そのタスクはキューに追加されます。一方、バックグラウンドで実行されているワーカースレッドは、キューからタスクを取り出して処理を行います。

    Queueとスレッドを組み合わせた非同期処理

    Queueとスレッドを組み合わせることで、Flaskアプリケーションでの非同期タスク管理を実現できます。これにより、リクエストを迅速に受け付けつつ、時間のかかる処理をバックグラウンドで並行して実行することができます。

    この記事が皆さんのFlaskとPythonのプロジェクトに役立つことを願っています

  • FlaskとThreadを使った並行処理と排他制御の実装

    FlaskとThreadを使った並行処理と排他制御の実装

    PythonのFlaskフレームワークは、小規模なアプリケーションから大規模なエンタープライズアプリケーションまで幅広い用途で使用されています。今回は、Flaskを用いたウェブアプリケーションで、複数のリクエストが同時に来た場合でも、裏側で動く処理を1つに制限する方法を解説します。

    この記事で取り扱う主要なテーマは以下の通りです:

    • Pythonのスレッドを使った並行処理
    • 排他制御によるリソースへの同時アクセス制限

    スレッドを使った並行処理

    Python の threadingモジュールを用いることで、スレッドを利用した並行処理を実装することができます。以下に具体的なコードを示します。

    import threading
    # スレッドを使う処理は関数にまとめます
    def process_request(request_data):
    # リクエストに対する処理を記述
    pass
    @app.route('/exec', methods=['POST'])
    def exec():
    # POSTリクエストのデータを取得
    request_data = request.get_json()
    # 新たなスレッドを作成して関数を実行
    thread = threading.Thread(target=process_request, args=(request_data,))
    thread.start()
    # レスポンスを即時に返す
    return jsonify({'status': 'processing'})

    このコードでは、POSTリクエストが/execエンドポイントに送信されると、新たなスレッドが作成され、process_request関数がそのスレッド上で実行されます。この関数はリクエストのデータを処理し、その間、メインスレッドは次のリクエストを受け付ける準備をします。

    排他制御による同時アクセス制限

    一方、裏側で動く処理を1つに保つためには排他制御が必要です。PythonのthreadingモジュールのLockを用いることで、排他制御を実現できます。以下に具体的なコードを示します。

    lock = threading.Lock()
    def process_request(request_data):
    with lock:
    # リクエストに対する処理を記述
    pass

    このコードでは、lockオブジェクトを用いてwithステートメントの中の処理が排他的に実行されるようになります。すなわち、一度に一つのスレッドだけがこの処理を実行でき、他のスレッドはロックが解放されるまで待機する必要があります。

    これらの方法を組み合わせることで、Flaskでの並行リクエストの受け付けと裏側での処理の排他制御を実現することができます。これにより、アプリケーションのパフォーマンスと安定性を向上させることが可能になります。

    この記事が皆様のPythonとFlaskのプロジェクトに役立つことを願っています。

  • PostgreSQLのテーブル定義を確認する方法:コマンドラインとGUIクライアントの違い

    PostgreSQLのテーブル定義を確認する方法:コマンドラインとGUIクライアントの違い

    PostgreSQLデータベースを操作する際、テーブルの定義を確認する必要がしばしばあります。

    テーブルの列名やデータ型を把握することで、適切なSQLクエリを作成し、データ操作を正確に行うことができます。

    一般的に、PostgreSQLのコマンドラインツールであるpsqlを使用してテーブルの定義を確認することが多いです。コマンドは、指定したテーブルの列名、データ型、修飾子、そして列の説明を表示します。

    例えば、テーブル名がhoge_tableの場合、次のコマンドを使用します:

    \d hoge_table

    しかしながら、全てのデータベース操作がコマンドラインから行われるわけではありません。

    GUIベースのデータベースクライアントツールを使用することが一般的であり、その中でもTablePlusはその使いやすさと直感的なインターフェースで高く評価されています。

    しかし、TablePlusやその他のいくつかのGUIクライアントツールでは、psql特有の\dコマンドが使用できません。

    その場合、次のSQLクエリを使用してテーブルの構造を確認することができます

    SELECT column_name, data_type
    FROM information_schema.columns
    WHERE table_name = 'hoge_table';

    このクエリは、テーブルのすべてのカラム名とそのデータ型を表示します。この方法は標準的なSQLクエリであるため、多くのデータベース管理ツールで使用できます。

    データベースを操作する際には、使用しているツールの特性を理解し、それに応じた最適な操作方法を選択することが重要です。それによって効率的かつ正確なデータ操作を行うことが可能となります。この記事がその一助となれば幸いです。

  • ターミナル操作の効率化:cdコマンドを使った直前のディレクトリへの素早い移動方法

    ターミナル操作の効率化:cdコマンドを使った直前のディレクトリへの素早い移動方法

    はじめに

    日々の開発作業でコマンドラインからファイルシステムを操作することは非常に一般的です。ディレクトリを行き来する際、完全なパスを何度も入力したり、タブ補完を使ってパスを探すのは時間の無駄ですよね。この記事では、ZshやBashなどのシェルで使える、直前のディレクトリに瞬時に戻る方法を紹介します。

    コマンドラインでのナビゲーションの効率化

    コマンドラインでの作業は速度と効率が重要です。頻繁にディレクトリを行き来する作業は、キーボード入力の手間だけでなく、思考の中断も引き起こします。そこで、直前のディレクトリに素早く戻る方法が必要です。

    cd - コマンド:直前のディレクトリに戻る

    このコマンドは、直前にいたディレクトリに素早く戻るためのコマンドです。これを使用すると、前回までにいたディレクトリに戻ることができます。以下にその使い方を示します。

    この一行のコマンドは、bashや他の多くのシェルでも同様に機能します。

    まとめ

    ターミナルでの作業をより効率的に進めるために、cd - のようなシンプルなコマンドが非常に役立ちます。頻繁にディレクトリを行き来する作業を行っている場合、このコマンドは手間を大幅に削減し、作業の効率を向上させることができます。

     

  • Error response from daemon: Ports are not available: exposing port TCP 127.0.0.1:80 -> 0.0.0.0:0: not allowed as current user. You can enable privileged port mapping from Docker -> Settings… -> Advanced -> Enable privileged port mapping

    Error response from daemon: Ports are not available: exposing port TCP 127.0.0.1:80 -> 0.0.0.0:0: not allowed as current user. You can enable privileged port mapping from Docker -> Settings… -> Advanced -> Enable privileged port mapping

     

     ports:
    - ${LOCAL_IP}:80:80
    - ${LOCAL_IP}:443:443

    docker-compose で上記のように 80, 443 のような 1023 番以下のport をマッピングさせようとしたところ、エラーになることがあります。

    Error response from daemon: Ports are not available: exposing port TCP 127.0.0.1:80 -> 0.0.0.0:0: not allowed as current user.
    You can enable privileged port mapping from Docker -> Settings... -> Advanced -> Enable privileged port mapping

    一般的にエラー文言に従い、Dockerの設定から “Enable privileged port mapping” を有効にしましたが、エラーが解消されない状況に陥りました。

    この問題に直面したとき、Dockerの設定でCLIツールのインストール方法を変更することで回避できました。

    具体的には、Dockerの設定の “Advanced” タブから “Choose how to configure the installation of Docker’s CLI tools” を開き、その設定を “User” から “System” に変更しました。

     

    この変更により、Dockerはシステムレベルで動作するようになり、これにより特権ポートを使用するための必要な権限を得ることができるようになるようです。

    結果として、ポート80と443が正常に割り当てられるようになり、エラーは解消しました。

     

     

  • Warning: Failed to run dot.    Download dot graphvizVersion 2.26 or versions greater than 2.31

    Warning: Failed to run dot. Download dot graphvizVersion 2.26 or versions greater than 2.31

    この警告メッセージは、dot コマンドが利用できないか、または適切なバージョンがインストールされていないことを示しています。dot コマンドは Graphviz パッケージの一部です。

    エラーメッセージ

    状況としては、何らかのアプリケーションまたはスクリプトを実行しているときに次のような警告メッセージが表示されることがあります。

    Warning: Failed to run dot.
    Download dot graphvizVersion 2.26 or versions greater than 2.31
    from www.graphviz.org and make sure that dot is either in your path
    or point to where you installed Graphviz with the -gv option.
    Generated pages will not contain a diagramtic view of table relationships.

    このメッセージは、dot コマンドが利用できないか、または適切なバージョンがインストールされていないことを示しています。

    解決方法

    この問題は、Debian ベースの Linux ディストリビューション(Ubuntu、Debian など)でapt-get を使用して解決することができます。

    1.  リポジトリを更新

    システムのパッケージリストを更新して、最新の情報を取得します。

    sudo apt-get update

    2. Graphviz のインストール

    次に、Graphviz パッケージをインストールします。

    sudo apt-get install graphviz

    4. インストールの確認

    インストールが成功したかどうかを確認するため、dot コマンドのバージョンを確認します。

    dot -V

    これで、バージョン情報が表示されれば、Graphviz は正常にインストールされ、dot コマンドが利用可能な状態になっています。

     

  • PythonでSnowflakeの不要なログを抑制する

    PythonでSnowflakeの不要なログを抑制する

    Snowflake Pythonコネクタは標準のPythonロギングモジュールを使用しています。

    このため、ロギングレベルを変更することで出力されるメッセージの制御が可能です。

    ただし、ロギングレベルを変更することは、接続の状態に関する重要な情報が隠される可能性があります。

    そのため、この変更を行う前に、その意味を完全に理解し、接続が安全であることを確認する必要があります。

    以下に、Snowflakeのロギングレベルを変更する方法を示します。

    1. まず、snowflake.connectorをインポートするPythonモジュールで、コネクタのメソッドを呼び出す前に以下のコードを追加します。これにより、警告またはそれ以上のレベルのログのみが出力されます。
    import logging
    logging.getLogger('snowflake.connector').setLevel(logging.WARNING)
    1. 上記のソリューションでも、すべてのSnowflakeメッセージが消えない場合は、以下のコードを使用して、すべてのSnowflakeロガーをより高いレベルに設定できます。
    import logging
    for name in logging.Logger.manager.loggerDict.keys():
    if 'snowflake' in name:
    logging.getLogger(name).setLevel(logging.WARNING)
    logging.getLogger(name).propagate = False

    この変更により、以下のようなエラーメッセージが表示されなくなります。

    eventType: 'RevocationCheckFailure',
    eventSubType: 'OCSPResponseFailedToConnectCacheServer|OCSPResponseFetchException|OCSPResponseFetchException|OCSPResponseFetchException|OCSPResponseFetchException',
    sfcPeerHost: 'xxxxx.ap-northeast-1.privatelink.snowflakecomputing.com',
    certId: 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx',
    ocspRequestBase64: 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx',
    ocspResponderURL: 'http://o.ss2.us/',
    errorMessage: "254003: Could not fetch OCSP Response from server. Consider checking your whitelists : Exception - HTTPConnectionPool(host='ocsp.xxxxx.ap-northeast-1.privatelink.snowflakecomputing.com', port=80): Max retries exceeded with url: /retry/o.ss2.us/xxxxx+xxx= (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0xffff9c1ec190>: Failed to establish a new connection: [Errno -2] Name or service not known'))",
    insecureMode: False,
    failOpen: True,
    cacheEnabled: True,
    cacheHit: False

    このメッセージは、OCSP(Online Certificate Status Protocol)の検証が失敗した場合に出力されます。OCSPは、TLS接続の設定中に、接続先の証明書が有効であることを確認するためのプロトコルです。このメッセージが表示されるということは、SnowflakeコネクタがOCSP応答を取得できなかったことを示します。このような場合、接続が安全であることを確認した上で、ロギングレベルを変更することを検討してください。

    これらのステップを適用すると、Snowflake Pythonコネクタの不要なログ出力を抑制できます。ただし、これによりエラー情報が失われる可能性があるため、注意が必要です。常に接続が安全であることを確認し、必要に応じて適切なロギングレベルを選択してください。

  • AWS CloudWatch Logsからユーザーエージェントデータを分析し、OSとブラウザのシェアを視覚化する

    AWS CloudWatch Logsからユーザーエージェントデータを分析し、OSとブラウザのシェアを視覚化する

    イントロダクション:

    AWS CloudWatch Logsは、AWSリソース、アプリケーション、サービスのログデータを監視して保存するためのサービスです。

    この記事では、CloudWatch Logsからユーザーエージェントデータを収集し、PythonとGoogle スプレッドシートを使用してOSとブラウザのシェアを視覚化する方法を解説します。

    これはウェブサイトやアプリケーションのユーザー体験を最適化するために非常に有益です。

    手順1: CloudWatch Logsからログを取得する

    まず、CloudWatch Logsからユーザーエージェントデータを含むログを取得する必要があります。

    AWS Management Consoleにログインし、CloudWatch Logsのページに移動します。

    1. ロググループを選択し、ログストリームを開きます。

    2. クエリを使用してログデータをフィルターします。以下は、ユーザーエージェント情報を含むログエントリを抽出するサンプルクエリです。

    fields @timestamp, @message
    | parse @message /(?<ip>[\d\.]+) - - \[(?<timestamp>[^\]]+)\] "(?<http_method>[^"]+)" (?<status_code>[^ ]+) (?<size>[^ ]+) "(?<referrer>[^"]*)" "(?<user_agent>[^"]+)"/
    | stats count(*) by user_agent
    1. 上記のクエリをCloudWatch Logs Insightsのクエリエディタに貼り付け、実行します。

    2. 結果をCSVファイルとしてエクスポートします。

    手順2: Pythonを使用してログデータを解析する

    ログデータが得られたら、Pythonを使用して分析します。

    この記事では、user_agentsというPythonライブラリを使用します。

    このライブラリは、ユーザーエージェント文字列を解析して、デバイス、OS、ブラウザに関する情報を抽出するのに役立ちます。

    user_agents ライブラリをインストールします。

    pip install pyyaml ua-parser user-agents

    次に、以下のPythonスクリプトを使用して、ユーザーエージェント文字列からデバイス、OSバージョン、ブラウザ、ブラウザバージョンを抽出し、CSVファイルに出力します。

    import csv
    from user_agents import parse
    # ログファイルの読み込み
    with open('logs.csv', 'r') as file:
    logs = csv.DictReader(file)
    # 結果を保存するためのリスト
    results = []
    # 各ログエントリを処理
    for log in logs:
    user_agent = log['user_agent']
    count = log['count']
    # user_agents ライブラリでユーザーエージェント文字列を解析
    ua = parse(user_agent)
    device_type = 'Mobile' if ua.is_mobile else 'Tablet' if ua.is_tablet else 'PC'
    os = f"{ua.os.family} {ua.os.version_string}"
    browser = f"{ua.browser.family}"
    browser_version = f"{ua.browser.version_string}"
    # 結果をリストに追加
    results.append([device_type, os, browser, browser_version, count])
    # 結果を新しいCSVファイルに出力
    with open('parsed_logs.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Device', 'OS Version', 'Browser', 'Browser Version', 'Count'])
    writer.writerows(results)

    手順3: Google スプレッドシートでデータを視覚化する

    最後に、Google スプレッドシートでデータを視覚化します。

    1. Google スプレッドシートを開き、手順2で生成された parsed_logs.csv をインポートします。

    2. ピボットテーブルを作成します。これには、データ範囲を選択し、「データ」メニューから「ピボットテーブル」を作成します。

    3. ピボットテーブルエディターで、「行」に分析したいカテゴリ(例:Device, OS Version, Browser)を追加し、「値」に「Count」を追加して合計を計算します。

    4. ピボットテーブルのデータを選択し、「挿入」メニューから「グラフ」を選択して円グラフを作成します。これで、OSやブラウザのシェアを視覚化することができます。

    結論:

    CloudWatch Logsからのログデータ分析は、アプリケーションのパフォーマンスとユーザー体験を向上させるのに役立つ重要なステップです。

    このチュートリアルでは、Pythonのuser_agents ライブラリを使用してユーザーエージェントデータを解析し、Google スプレッドシートで視覚化する方法を紹介しました。

    この情報は、デバイスやブラウザの最適化、または特定のOSバージョン向けの機能開発に役立てれば幸いです。

  • Cognito 認証情報を活用した AWS Lambda の効果的なユーザー管理

    Cognito 認証情報を活用した AWS Lambda の効果的なユーザー管理

    導入

    現代のビジネス環境において、アプリケーションのセキュリティとユーザー管理は重要な柱です。AWS Lambda と Amazon Cognito を組み合わせることで、高度にスケーラブルでセキュアなサービスを効率よく構築できます。本記事では、Amazon Cognito で認証されたユーザーの情報を AWS Lambda で取得し、ビジネスプロセスに統合する方法に焦点を当てます。

    ビジネスの利点

    Amazon Cognito と AWS Lambda の組み合わせは、以下のビジネス上の利点を提供します。

    • セキュリティの強化: ユーザー認証情報を適切に処理することで、不正アクセスを防ぎます。
    • コスト効率: サーバーレスアーキテクチャを利用することで、リソースの利用に応じて課金され、余分なコストを削減します。
    • 拡張性: 需要に応じて自動的にスケールします。これにより、ビジネスが拡大してもパフォーマンスが維持されます。

    実装

    以下は、AWS Lambda 関数で Cognito の認証が通ったユーザーからメールアドレスを取得するステップバイステップのガイドです。

    ステップ1: IDトークンの取得

    まず、AWS Lambda 関数で HTTP リクエストのヘッダーから ID トークンを取得します。これは、Amazon Cognito によって発行された JWT(JSON Web Token)です。

    id_token = request.headers.get("x-amzn-oidc-data", "")

    ステップ2: トークンのデコード

    次に、JWT のペイロード部分をデコードします。JWT は3つの部分(ヘッダー、ペイロード、署名)で構成されており、ペイロードにはユーザー情報が含まれています。

    token_parts = id_token.split('.')
    payload_encoded = token_parts[1]
    padding_needed = 4 - len(payload_encoded) % 4
    payload_encoded += "=" * padding_needed
    payload_decoded = base64.b64decode(payload_encoded)
    payload_json = json.loads(payload_decoded.decode("utf-8"))

    ステップ3: メールアドレスの抽出

    最後に、デコードされたペイロードからメールアドレスを抽出します。

    email = payload_json['email']

    まとめ

    Amazon CognitoとAWS Lambdaを組み合わせることで、セキュアでスケーラブルなユーザー管理を実現し、ビジネスプロセスを効率化することができます。ユーザー認証情報の適切な処理は、アプリケーションのセキュリティを強化し、顧客の信頼を築く上で不可欠です。

    今回解説した方法を使用すると、簡潔にユーザーのメールアドレスを取得でき、これをビジネスロジックやユーザー通知など、さまざまな用途で活用することができます。