Cristiano Rodrigues for Unhacked

Posted on Feb 9

Async/Await por Debaixo do Capô: Entendendo I/O Assíncrono no .NET

#dotnet #csharp #async #performance

Windows (IOCP) | Linux (epoll/io_uring) | macOS (kqueue)

Introdução

Cada vez mais utilizamos async/await em nossas aplicações .NET, seja em APIs, processamento de arquivos ou comunicação com bancos de dados. Mas você já parou para pensar no que realmente acontece quando escrevemos await httpClient.GetAsync(url)?

Parece mágica: a thread é liberada enquanto esperamos a resposta do servidor, e quando os dados chegam, o código continua de onde parou. Porém, por trás dessa sintaxe elegante existe uma colaboração sofisticada entre o compilador C#, o runtime do .NET e o sistema operacional.

E aqui está um detalhe que muitos desenvolvedores desconhecem: cada plataforma oferece seu próprio mecanismo de I/O assíncrono. O Windows usa IOCP (I/O Completion Ports), o Linux usa epoll ou o mais moderno io_uring, e o macOS usa kqueue. O .NET abstrai essas diferenças, permitindo que o mesmo código rode eficientemente em qualquer plataforma.

Neste artigo vamos explorar em profundidade como todas essas peças se encaixam, desde o nível do hardware até a sintaxe do C#.

O Problema: Por Que I/O é Diferente

Para entender a necessidade do async, precisamos primeiro entender a natureza fundamental do I/O. Quando seu programa precisa ler dados do disco ou da rede, acontece algo muito diferente de uma operação de CPU.

CPU vs I/O: Escalas de Tempo

Uma CPU moderna executa bilhões de instruções por segundo. Um acesso à memória RAM leva cerca de 100 nanosegundos. Mas um acesso ao disco SSD leva cerca de 100 microssegundos (1000x mais lento), e uma chamada de rede pode levar 100 milissegundos (1.000.000x mais lento que a RAM).

Operação	Latência Típica	Ciclos CPU desperdiçados
Acesso à RAM	~100 ns	~300 ciclos
SSD (NVMe)	~100 μs	~300.000 ciclos
HDD	~10 ms	~30.000.000 ciclos
Rede local	~1 ms	~3.000.000 ciclos
Rede intercontinental	~100 ms	~300.000.000 ciclos

Vejam os números da tabela acima. Se uma thread fica bloqueada esperando I/O, ela está desperdiçando tempo que poderia ser usado para processar outras requisições. Imagine um servidor web com 10.000 conexões simultâneas: criar 10.000 threads bloqueadas consumiria cerca de 10GB de RAM apenas em stacks de thread. Isso não escala.

O Modelo Síncrono e Suas Limitações

No modelo síncrono tradicional, quando você chama File.ReadAllBytes(path), a thread fica bloqueada até o I/O completar. O kernel coloca a thread em estado de espera, o hardware trabalha, e quando termina, a thread é acordada. Durante todo esse tempo, a thread está ocupando recursos sem fazer nada útil.

Então qual é a solução? I/O assíncrono: iniciar a operação, liberar a thread imediatamente, e ser notificado quando completar. Cada sistema operacional implementa isso de forma diferente, e é isso que vamos explorar agora.

Windows: I/O Completion Ports (IOCP)

O Windows oferece o mecanismo mais maduro para I/O assíncrono: I/O Completion Ports (IOCP). Introduzido no Windows NT 3.5 em 1993, foi refinado ao longo de décadas e é a base de servidores de alta performance como IIS e SQL Server.

Arquitetura do IOCP

Mas como o IOCP funciona na prática? Ele opera como uma fila de notificações gerenciada pelo kernel. Quando uma operação de I/O completa, o kernel coloca uma notificação nessa fila. Um pequeno pool de threads fica esperando por notificações e as processa conforme chegam.

A beleza desse modelo é que você pode ter 10.000 operações de I/O pendentes sendo atendidas por apenas 20-50 threads. Cada thread processa uma notificação, executa o callback apropriado, e volta a esperar a próxima notificação.

As APIs do Windows

Para entender como isso funciona no nível do sistema, vejamos as principais APIs envolvidas:

// Criar uma porta de completion
HANDLE hPort = CreateIoCompletionPort(
    INVALID_HANDLE_VALUE, NULL, 0, 0);

// Associar um handle de arquivo à porta
CreateIoCompletionPort(hFile, hPort, completionKey, 0);

// Iniciar leitura assíncrona
ReadFile(hFile, buffer, size, NULL, &overlapped);

// Esperar por completions
GetQueuedCompletionStatus(hPort, &bytes, &key, &ov, INFINITE);

Quando você chama ReadFile() em modo assíncrono com uma estrutura OVERLAPPED, a função retorna imediatamente com ERROR_IO_PENDING. Isso indica que a operação foi iniciada e você será notificado quando completar.

O Fluxo Completo no Windows

Vamos acompanhar passo a passo o que acontece quando executamos await File.ReadAllBytesAsync(path) no Windows:

1. Thread 5 (sua thread): Chama ReadAllBytesAsync → FileStream abre arquivo com FILE_FLAG_OVERLAPPED → Chama ReadFile nativo → Retorna ERROR_IO_PENDING → await suspende o método → Thread 5 retorna ao ThreadPool e fica livre para outras tarefas

2. Hardware (durante 50ms): Controlador do disco recebe comando via DMA → Lê setores do SSD → Transfere bytes para buffer na RAM via DMA → Dispara interrupção para CPU

3. Kernel: Processa interrupção → Encontra a estrutura OVERLAPPED associada → Posta notificação na porta IOCP

4. Thread 8 (IOCP): GetQueuedCompletionStatus retorna → Task é completada com SetResult(bytes) → Continuação é agendada → MoveNext() é chamado → Seu código continua após o await

O ponto crucial aqui é que a Thread 5 nunca ficou esperando. Durante os 50ms de I/O, ela processou outras requisições.

Linux: epoll e io_uring

O Linux oferece duas abordagens principais para I/O assíncrono. O epoll, introduzido em 2002, é amplamente utilizado e otimizado para sockets e pipes. Já o io_uring, introduzido em 2019, representa uma revolução na forma como o Linux lida com I/O assíncrono.

epoll: O Mecanismo Clássico

O epoll usa um modelo readiness-based (baseado em prontidão), diferente do modelo completion-based do IOCP. Isso significa que o epoll avisa quando um file descriptor está pronto para leitura/escrita, não quando a operação completou.

// Criar instância epoll
int epfd = epoll_create1(0);

// Registrar interesse em um socket
struct epoll_event ev;
ev.events = EPOLLIN | EPOLLET;  // Edge-triggered
ev.data.fd = sockfd;
epoll_ctl(epfd, EPOLL_CTL_ADD, sockfd, &ev);

// Esperar eventos
struct epoll_event events[MAX_EVENTS];
int n = epoll_wait(epfd, events, MAX_EVENTS, -1);

// Processar eventos
for (int i = 0; i < n; i++) {
    if (events[i].events & EPOLLIN) {
        read(events[i].data.fd, buf, sizeof(buf));
    }
}

Uma limitação importante do epoll é que ele não funciona bem com arquivos regulares. Arquivos em disco sempre reportam "pronto" porque o kernel não pode prever se a leitura vai bloquear. Por isso, para I/O de arquivo, o .NET usa threads de trabalho que fazem a operação bloqueante em background.

io_uring: A Nova Era

Introduzido no Linux 5.1 (2019), o io_uring representa uma mudança de paradigma. Ele usa um par de ring buffers em memória compartilhada entre user space e kernel space, permitindo submeter e receber completions sem fazer syscalls para cada operação.

A arquitetura do io_uring consiste em duas filas circulares: Submission Queue (SQ), onde a aplicação coloca requisições de I/O, e Completion Queue (CQ), onde o kernel coloca os resultados. Ambas ficam em memória mapeada, evitando cópias e syscalls.

// Inicializar io_uring
struct io_uring ring;
io_uring_queue_init(256, &ring, 0);

// Preparar requisição de leitura
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_read(sqe, fd, buf, size, offset);
sqe->user_data = (uint64_t)callback_context;

// Submeter
io_uring_submit(&ring);

// Coletar completion
struct io_uring_cqe *cqe;
io_uring_wait_cqe(&ring, &cqe);
int bytes_read = cqe->res;
void *ctx = (void*)cqe->user_data;
io_uring_cqe_seen(&ring, cqe);

O io_uring traz várias vantagens significativas: funciona com arquivos, sockets, e praticamente qualquer operação de I/O; suporta operações encadeadas (linked operations); permite batching de múltiplas operações em uma única syscall; e pode operar em modo "polled" para latência ultra-baixa.

O .NET 6+ pode usar io_uring através de bibliotecas como IoUring.Transport para Kestrel. A integração nativa ainda está em desenvolvimento, mas já demonstra ganhos significativos de performance.

macOS/BSD: kqueue

O kqueue, introduzido no FreeBSD 4.1 em 2000 e adotado pelo macOS, é um mecanismo elegante e versátil. Assim como o epoll, ele usa um modelo readiness-based, mas com uma interface mais flexível que pode monitorar muito mais do que apenas file descriptors.

Arquitetura e Versatilidade

O kqueue pode monitorar: sockets e pipes (via EVFILT_READ/WRITE), mudanças no filesystem (via EVFILT_VNODE), processos filhos (via EVFILT_PROC), sinais (via EVFILT_SIGNAL), e timers de alta resolução (via EVFILT_TIMER).

// Criar kqueue
int kq = kqueue();

// Registrar interesse em um socket
struct kevent ev;
EV_SET(&ev, sockfd, EVFILT_READ, EV_ADD | EV_ENABLE, 0, 0, NULL);
kevent(kq, &ev, 1, NULL, 0, NULL);

// Esperar eventos
struct kevent events[MAX_EVENTS];
int n = kevent(kq, NULL, 0, events, MAX_EVENTS, NULL);

// Processar eventos
for (int i = 0; i < n; i++) {
    int fd = events[i].ident;
    int bytes_available = events[i].data;  // Quantos bytes prontos!
    // ...
}

Uma vantagem interessante do kqueue é que o campo data do evento indica quantos bytes estão disponíveis para leitura. Isso permite alocar buffers do tamanho exato necessário.

Assim como o epoll, o kqueue não oferece I/O assíncrono verdadeiro para arquivos regulares. O .NET usa a mesma estratégia de threads de trabalho para compensar essa limitação.

Comparação entre Plataformas

Agora que entendemos cada mecanismo, vamos comparar suas características:

Aspecto	Windows IOCP	Linux epoll	macOS kqueue
Introduzido	1993 (NT 3.5)	2002 (Linux 2.5)	2000 (FreeBSD 4.1)
Modelo	Completion-based	Readiness-based	Readiness-based
Sockets	Excelente	Excelente	Excelente
Arquivos	Excelente	Limitado*	Limitado*
Timers	Via threadpool	Via timerfd	Nativo
Sinais	N/A	Via signalfd	Nativo

Nota: Para I/O de arquivo verdadeiramente assíncrono no Linux, use io_uring (Linux 5.1+). No macOS, I/O de arquivo usa threads de trabalho em background.

Juntando Todas as Peças

Agora que entendemos os mecanismos de cada plataforma, vamos ver como um simples await File.ReadAllBytesAsync() funciona em cada uma delas.

No Windows (IOCP)

1. Thread 5: ReadAllBytesAsync → FileStream com FILE_FLAG_OVERLAPPED → ReadFile → ERROR_IO_PENDING → await suspende → Thread 5 volta ao pool

2. Hardware: DMA transfere bytes → interrupção

3. Kernel: Processa interrupção → posta no IOCP

4. Thread 8 (IOCP): GetQueuedCompletionStatus retorna → completa Task → MoveNext() → código continua

No Linux (io_uring)

1. Thread 5: Prepara SQE → io_uring_submit → await suspende → Thread 5 volta ao pool

2. Hardware: DMA transfere → interrupção

3. Kernel: Posta CQE no io_uring

4. Thread do pool: io_uring_wait_cqe retorna → completa Task → continuação executa

No macOS (kqueue para sockets)

1. Thread 5: Registra kevent com EVFILT_READ → await suspende → Thread 5 volta ao pool

2. Kernel: Detecta dados chegaram → marca kevent como pronto

3. Thread do pool: kevent() retorna → lê dados → completa Task → continuação executa

O ponto crucial em todos os casos: A Thread 5 nunca ficou esperando. Ela processou outras requisições enquanto o I/O acontecia.

Como o .NET Abstrai as Diferenças

O .NET precisa fornecer uma API unificada que funcione em todas as plataformas. Internamente, ele detecta o sistema operacional e usa a implementação apropriada.

No Windows: O ThreadPool é integrado nativamente com IOCP. Threads do pool podem alternar entre executar work items e processar I/O completions.

No Linux: O .NET usa uma classe interna chamada SocketAsyncEngine que gerencia um epoll por processo. Para sockets, é assíncrono de verdade. Para arquivos, usa threads de trabalho.

No macOS: Similar ao Linux, usa kqueue para sockets e threads de trabalho para arquivos.

O ThreadPool no .NET mantém dois tipos de threads: Worker Threads (para Task.Run, continuations, etc.) e I/O Threads (para callbacks de IOCP no Windows, ou equivalentes em outras plataformas).

O Compilador e as State Machines

Quando você escreve um método async, o compilador C# faz uma transformação complexa. Ele converte seu método em uma classe que implementa IAsyncStateMachine. Esse é o recurso que permite "pausar" e "continuar" a execução.

O Que o Compilador Gera

Considere este código simples:

public async Task<string> BuscarDadosAsync(string url)
{
    var cliente = new HttpClient();
    var resposta = await cliente.GetStringAsync(url);
    return resposta.ToUpper();
}

O compilador transforma isso em algo parecido com:

private struct BuscarDadosAsyncStateMachine : IAsyncStateMachine
{
    public int state;
    public AsyncTaskMethodBuilder<string> builder;
    public string url;
    private HttpClient cliente;
    private string resposta;
    private TaskAwaiter<string> awaiter;

    public void MoveNext()
    {
        switch (state)
        {
            case -1: // Início
                cliente = new HttpClient();
                awaiter = cliente.GetStringAsync(url).GetAwaiter();
                if (!awaiter.IsCompleted)
                {
                    state = 0;
                    builder.AwaitUnsafeOnCompleted(ref awaiter, ref this);
                    return; // Libera a thread
                }
                goto case 0;
            case 0:
                resposta = awaiter.GetResult();
                builder.SetResult(resposta.ToUpper());
                return;
        }
    }
}

Vejam o que acontece: as variáveis locais viraram campos da struct. O método foi quebrado em estados (switch). Cada await é um ponto onde o método pode "pausar".

Quando o awaiter não está completo, a state machine registra o callback (via AwaitUnsafeOnCompleted) e faz return. Esse return é o que libera a thread. Quando o I/O completa, MoveNext() é chamado novamente, o switch vai para o estado correto, e a execução continua.

Boas Práticas: O Que Fazer e O Que Evitar

Agora que entendemos como async funciona internamente, podemos apreciar melhor por que certas práticas são recomendadas.

1. Nunca use .Result ou .Wait()

❌ EVITE:

var dados = httpClient.GetStringAsync(url).Result; // Deadlock!

✅ CORRETO:

var dados = await httpClient.GetStringAsync(url);

Chamar .Result ou .Wait() bloqueia a thread atual esperando a Task completar. Se você está em um contexto com SynchronizationContext (como ASP.NET clássico ou WPF), a continuação precisa rodar nessa mesma thread, mas ela está bloqueada esperando. Deadlock.

2. Evite async-over-sync

❌ EVITE:

await Task.Run(() => File.ReadAllBytes(path)); // Thread bloqueada

✅ CORRETO:

await File.ReadAllBytesAsync(path); // Async de verdade

Task.Run com código síncrono apenas move o bloqueio para outra thread. Você não ganha nada, só desloca o problema.

3. Use ConfigureAwait(false) em bibliotecas

❌ EVITE:

// Biblioteca capturando contexto desnecessariamente
public async Task<T> GetAsync<T>(string url)
{
    var response = await _httpClient.GetAsync(url);
    // ...
}

✅ CORRETO:

public async Task<T> GetAsync<T>(string url)
{
    var response = await _httpClient.GetAsync(url)
        .ConfigureAwait(false);
    // ...
}

Em bibliotecas, você não precisa voltar ao contexto original. ConfigureAwait(false) permite que a continuação rode em qualquer thread, evitando overhead e possíveis deadlocks.

4. Evite async void (exceto event handlers)

❌ EVITE:

public async void ProcessarEmBackground() // Exceções perdidas!
{
    await Task.Delay(1000);
    throw new Exception("Ninguém vai ver isso");
}

✅ CORRETO:

public async Task ProcessarEmBackgroundAsync()
{
    await Task.Delay(1000);
    throw new Exception("Vai propagar corretamente");
}

EXCEÇÃO (event handlers):

private async void btnSalvar_Click(object sender, EventArgs e)
{
    await SalvarAsync(); // OK, é um event handler
}

async void é "fire and forget": exceções não podem ser capturadas e vão derrubar o processo. Use apenas em event handlers, onde a assinatura exige void.

5. Sempre suporte CancellationToken

❌ EVITE:

public async Task<List<Produto>> BuscarProdutosAsync()
{
    // Operação que não pode ser cancelada
}

✅ CORRETO:

public async Task<List<Produto>> BuscarProdutosAsync(
    CancellationToken ct = default)
{
    var response = await _httpClient.GetAsync(url, ct);
    ct.ThrowIfCancellationRequested();
    // ...
}

CancellationToken permite cancelar operações quando não são mais necessárias. Isso é essencial para timeout de requisições HTTP, shutdown gracioso da aplicação, e cancelamento por parte do usuário.

6. Use Task.WhenAll para operações paralelas

❌ EVITE (sequencial: ~530ms):

var vendas = await BuscarVendasAsync();      // 200ms
var clientes = await BuscarClientesAsync();  // 150ms
var estoque = await BuscarEstoqueAsync();    // 180ms

✅ CORRETO (paralelo: ~200ms):

var vendasTask = BuscarVendasAsync();
var clientesTask = BuscarClientesAsync();
var estoqueTask = BuscarEstoqueAsync();

await Task.WhenAll(vendasTask, clientesTask, estoqueTask);

var vendas = vendasTask.Result;    // Já completou
var clientes = clientesTask.Result;
var estoque = estoqueTask.Result;

Quando você tem múltiplas operações independentes, inicie todas antes de aguardar qualquer uma. Task.WhenAll permite que executem em paralelo.

Diagnóstico e Troubleshooting

Entender async é importante também para diagnosticar problemas. Vejamos algumas técnicas úteis.

Monitorando o ThreadPool

ThreadPool.GetAvailableThreads(out int workerAvail, out int ioAvail);
ThreadPool.GetMaxThreads(out int workerMax, out int ioMax);

var workerBusy = workerMax - workerAvail;
var ioBusy = ioMax - ioAvail;

Console.WriteLine($"Workers ocupados: {workerBusy}");
Console.WriteLine($"I/O threads ocupadas: {ioBusy}");

Se você vê muitos workers ocupados durante operações de I/O, provavelmente há código bloqueante onde deveria ser async.

Sinais de Problemas

Wall Time alto com CPU baixo: Indica I/O síncrono bloqueando threads. O tempo total é alto, mas a CPU fica ociosa esperando I/O.

ThreadPool starvation: Threads esgotadas, novas tarefas ficam na fila. Sintoma comum de sync-over-async.

Thread count crescente: O runtime cria threads para compensar as bloqueadas. Consumo de memória aumenta progressivamente.

Deadlocks com .Result/.Wait(): Aplicação trava completamente em certos cenários. Comum em código legado misturado com async.

Conclusão

O async/await no .NET abstrai elegantemente as complexidades do I/O assíncrono em cada plataforma. O Windows com IOCP, o Linux com epoll/io_uring, e o macOS com kqueue oferecem diferentes abordagens, mas o .NET nos permite escrever código que funciona em todas elas.

Entender como esses mecanismos funcionam por baixo do capô nos ajuda a escrever código mais eficiente, diagnosticar problemas de performance, escolher as APIs corretas para cada situação, e aproveitar ao máximo o I/O assíncrono verdadeiro.

O exemplo foi extenso, mas importante para demonstrar a profundidade do assunto. Convido você a realizar seus próprios testes, explorar o código do .NET no GitHub, e compartilhar suas descobertas.

Até a próxima!

DEV Community

Async/Await por Debaixo do Capô: Entendendo I/O Assíncrono no .NET

Introdução

O Problema: Por Que I/O é Diferente

CPU vs I/O: Escalas de Tempo

O Modelo Síncrono e Suas Limitações

Windows: I/O Completion Ports (IOCP)

Arquitetura do IOCP

As APIs do Windows

O Fluxo Completo no Windows

Linux: epoll e io_uring

epoll: O Mecanismo Clássico

io_uring: A Nova Era

macOS/BSD: kqueue

Arquitetura e Versatilidade

Comparação entre Plataformas

Juntando Todas as Peças

No Windows (IOCP)

No Linux (io_uring)

No macOS (kqueue para sockets)

Como o .NET Abstrai as Diferenças

O Compilador e as State Machines

O Que o Compilador Gera

Boas Práticas: O Que Fazer e O Que Evitar

1. Nunca use .Result ou .Wait()

2. Evite async-over-sync

3. Use ConfigureAwait(false) em bibliotecas

4. Evite async void (exceto event handlers)

5. Sempre suporte CancellationToken

6. Use Task.WhenAll para operações paralelas

Diagnóstico e Troubleshooting

Monitorando o ThreadPool

Sinais de Problemas

Conclusão

Referências

Top comments (0)