Azureで大量のデータをキューで処理する場合のボトルネックを調べてみた

リサーチデベロップメントのたかはしとし（ @doushiman_jp ）です。

好きな武器はランス、好きな鉄蟲糸技は昇天突きです（サンブレイク対応）

Azure で、関数A からServiceBus（ Queue Storage )を使って、関数B を呼び出したい場合があります。

キューの数が、10 とか100 くらいなら特に気にならないのですが、数千とか万単位のメッセージを発行しようとする場合、キューを処理するだけでも時間がかかるケースに直面したので、その辺を書こうと思います。

例として、下記のようなコードを組んでみました。

{
  name:hoge1
}

みたいなメッセージをエンキューするとします。

こんなデータを15,000件分用意して、書き込み用の処理B を呼び出すためのキューに一件ずつ込めてキューを発行します。

そしてそのキューを受け取った関数B は、受け取ったメッセージをDB に保存するという単純なものです。

エンキューのコードは、Microsoft様のドキュメント

docs.microsoft.com

をそのまま流用します。

const messages = [
　{ name: "Albert Einstein" },
　{ name: "Werner Heisenberg" },
　{ name: "Marie Curie" },
　// こんなデータを15000件用意
];

async function main() {
    const sbClient = new ServiceBusClient(connectionString);
    const sender = sbClient.createSender(queueName);
    try {
        let batch = await sender.createMessageBatch(); 
        for (let i = 0; i < messages.length; i++) {
            if (!batch.tryAddMessage(messages[i])) {         
                await sender.sendMessages(batch);
                batch = await sender.createMessageBatch();
                if (!batch.tryAddMessage(messages[i])) {
                    throw new Error("Message too big to fit in a batch");
                }
            }
        }
        await sender.sendMessages(batch);
        console.log(`Sent a batch of messages to the queue: ${queueName}`);
        await sender.close();
    } finally {
        await sbClient.close();
    }
}

messages を１件ずつbatch に込めてエンキューしているのですが、15,000件のデータを保存するまでに、処理Bはなんと63秒もかかってしまいました…（Functions のプランや設定により上下します）

おそらくですが、書き込みそのものよりは、キューを発行してデキューするあたりが障害になっているんじゃないかな〜という気配がします。

なので、メッセージ処理そのものを減らすために、メッセージを配列にしてまとめて発行することで、ボトルネックの解消を狙います。

messages を

const messages = [
  [
    { name: "Albert Einstein" },
    { name: "Werner Heisenberg" },
    { name: "Marie Curie" }
    // 1配列に100レコードほど格納
  ],
  [
    ………
  ],
  [
    ………
  ]
  // 100レコード格納された配列を150個用意
];