A maior parte do tempo de vida de um sistema de software se dá em seu uso, e não no design ou na implementação. Então, por que a sabedoria convencional insiste que os engenheiros de software devam se concentrar principalmente nas fases de design e de desenvolvimento dos sistemas computacionais de larga escala? Nesta coletânea de dissertações e artigos, membros essenciais da equipe de SRE (Site Reliability Engineering - Engenharia de Confiabilidade) do Google explicam como e por que seu comprometimento com todo o ciclo de vida tem permitido que a empresa desenvolva, implante, monitore e mantenha alguns dos maiores sistemas de software do mundo com sucesso. Você conhecerá os princípios e as práticas que possibilitam aos engenheiros do Google deixar os sistemas mais escaláveis, confiáveis e eficientes - lições que podem ser diretamente aplicáveis à sua empresa. Este livro está dividido em quatro partes: - Introdução: Saiba o que é SRE e por que ela difere das práticas convencionais do mercado de TI. - Princípios: Analise os padrões, os comportamentos e as áreas de preocupação que influenciam o trabalho de um SRE (Site Reliability Engineer - Engenheiro de Confiabilidade). - Práticas: Entenda a teoria e a prática do trabalho cotidiano de um SRE: desenvolver e operar sistemas computacionais distribuídos de grande porte. - Gerenciamento: Explore as melhores práticas do Google para treinamento, comunicação e reuniões, que poderão ser usadas pela sua empresa.