Awesome

How they SRE

</br>

Introduction

How They SRE How They SRE is a curated knowledge repository of Site Reliability Engineering (SRE) best practices, tools, techniques, and culture adopted by leading technology or tech-savvy organizations.

Numerous organizations frequently share their insights and expertise, encompassing best practices, tools, and techniques that shape their engineering culture. They do this through various public platforms such as engineering blogs, conferences, and meetups. This repository compiles and presents content gathered from these sources.

Topics

Site Reliability Engineering
Hiring and Building SRE teams
SRE Culture
DevOps
Monitoring & Observability
Alerting
Incident Response & Post-Mortem
On-Call
Testing in Production
Chaos Engineering
Automation
Performance
Platform Engineering

Organizations

<details> <summary>Achievers</summary>

Blog Posts

</details> <details> <summary>Airbnb</summary>

Blog Posts

</details> <details> <summary>Algolia</summary>

Blog Posts

</details> <details> <summary>Alibaba Cloud</summary>

Blog Posts

</details> <details> <summary>Asana</summary>

Blog Posts

</details> <details> <summary>ASOS</summary>

Blog Posts

</details> <details> <summary>Atlassian</summary>

Blog Posts

</details> <details> <summary>BackMarket</summary>

Blog Posts

How Back Market SREs prepared for Black Friday

</details> <details> <summary>Baidu</summary>

Videos

</details> <details> <summary>Basecamp</summary>

Blog Posts

Books

Shape Up

</details> <details> <summary>Bloomberg</summary>

Videos

</details> <details> <summary>Booking.com</summary>

Blog Posts

Videos

</details> <details> <summary>Capital One</summary>

Blog Posts

Major incidents & analysis reports

Videos

</details> <details> <summary>Coinbase</summary>

Blog Posts

Open Sourcing Coinbase’s Secure Deployment Pipeline

</details> <details> <summary>DAZN</summary>

Blog Posts

Site Reliability at DAZN

</details> <details> <summary>DBS</summary>

Blog Posts

Videos

SREcon Conversations Asia/Pacific with Koon Seng Lim, DBS

</details> <details> <summary>DeepSource</summary>

Blog Posts

</details> <details> <summary>Dream11</summary>

Blog Posts

</details> <details> <summary>Dropbox</summary>

Blog Posts

Videos

Service Discovery Challenges at Scale

</details> <details> <summary>eBay</summary>

Blog Posts

Video

Madaari: Ordering for the Monkeys

</details> <details> <summary>Epic Games</summary>

Video

AWS re:Invent 2018: Epic Games Uses AWS to Deliver Fortnite to 200 Million Players

</details> <details> <summary>Etsy</summary>

Blog Posts

Videos

</details> <details> <summary>Expedia</summary>

Blog Posts

</details> <details> <summary>Fastly</summary>

Videos

</details> <details> <summary>G-Research</summary>

Blog Posts

</details> <details> <summary>Getaround</summary>

Blog Posts

</details> <details> <summary>GitHub</summary>

Blog Posts

Major incidents & analysis reports

Videos

One on One SRE

</details> <details> <summary>GitLab</summary>

Blog Posts

</details> <details> <summary>GoCardless</summary>

Blog Posts

Major incidents & analysis reports

</details> <details> <summary>GoDaddy</summary>

Blog Posts

</details> <details> <summary>Gojek</summary>

Blog Posts

</details> <details> <summary>Goldman Sachs</summary>

Blog Posts

</details> <details> <summary>Google</summary>

Blog Posts

Videos

</details> <details> <summary>Grab</summary>

Blog Posts

</details> <details> <summary>Grammarly</summary>

Blog Posts

</details> <details> <summary>Gusto</summary>

Blog Posts

</details> <details> <summary>Halodoc</summary>

Blog Posts

Site Reliability Engineering for Native mobile apps

</details> <details> <summary>Heroku</summary>

Blog Posts

</details> <details> <summary>IBM</summary>

Blog Posts

</details> <details> <summary>Indeed</summary>

Blog Posts

Videos

Are We Getting Better Yet? Progress Toward Safer Operations

</details> <details> <summary>Indeed</summary>

Blog Posts

SRE Playbook - Practical Guide

</details> <details> <summary>Khan Academy</summary>

Blog Posts

</details> <details> <summary>LinkedIn</summary>

Blog Posts

Videos

Tools

On-Call

</details> <details> <summary>Loggi</summary>

Blog Posts

</details> <details> <summary>Loveholidays</summary>

Blog Posts

</details> <details> <summary>Macquarie</summary>

Blog Posts

</details> <details> <summary>Mattermost</summary>

Blog Posts

</details> <details> <summary>Meituan (美团)</summary>

Blog Posts

The development and practice of SRE in the cloud (云端的SRE发展与实践)

</details> <details> <summary>Mercari</summary>

Blog Posts

</details> <details> <summary>Meta</summary>

Blog Posts

Videos

</details> <details> <summary>Microsoft</summary>

Videos

</details> <details> <summary>MIRO</summary>

Blog Posts

</details> <details> <summary>Monzo</summary>

Blog Posts

Videos

Eventually Consistent Service Discovery

Tools

Response

</details> <details> <summary>Netflix</summary>

Blog Posts

Major incidents & analysis reports

Post-mortem of October 22, 2012 AWS degradation

Videos

Podcasts

Ryan Kitchens on Learning from Incidents at Netflix, the Role of SRE, and Sociotechnical Systems

Tools

Dispatch

</details> <details> <summary>New Relic</summary>

Blog Posts

</details> <details> <summary>Nubank</summary>

Blog Posts

</details> <details> <summary>OpenAI</summary>

Blog Posts

</details> <details> <summary>PayPal</summary>

Blog Posts

Videos

</details> <details> <summary>Picnic</summary>

Blog Posts

</details> <details> <summary>Pinterest</summary>

Blog Posts

Videos

</details> <details> <summary>Postman</summary>

Blog Posts

Learn how your Kubernetes clusters respond to failure using Gremlin and Grafana

</details> <details> <summary>Prezi</summary>

Blog Posts

</details> <details> <summary>Red Hat</summary>

Blog Posts

</details> <details> <summary>Riot Games</summary>

Blog Posts

</details> <details> <summary>Salesforce</summary>

Blog Posts

</details> <details> <summary>Schibsted Media</summary>

Blog Posts

Reliability engineering for some of top 10 sites in Scandinavia

</details> <details> <summary>Scribd</summary>

Blog Posts

</details> <details> <summary>Shopify</summary>

Blog Posts

Videos

</details> <details> <summary>Sky Betting and Gaming</summary>

Blog Posts

</details> <details> <summary>Slack</summary>

Blog Posts

Videos

</details> <details> <summary>Slalom Build</summary>

Blog Posts

</details> <details> <summary>Soundcloud</summary>

Blog Posts

</details> <details> <summary>Spotify</summary>

Blog Posts

Videos

Tracing, Fast and Slow: Digging into and Improving Your Web Service's Performance

</details> <details> <summary>Squarespace</summary>

Blog Posts

Under the Hood: Ensuring Site Reliability

Videos

</details> <details> <summary>Stack Overflow</summary>

Blog Posts

Videos

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

</details> <details> <summary>Strava</summary>

Blog Posts

</details> <details> <summary>Stripe</summary>

Blog Posts

Videos

</details> <details> <summary>Target</summary>

Blog Posts

</details> <details> <summary>Teads</summary>

Blog Posts

Scaling your on-duty team

</details> <details> <summary>Tinder</summary>

Blog Posts

</details> <details> <summary>Tokopedia</summary>

Blog Posts

</details> <details> <summary>Trivago</summary>

Blog Posts

How To Get Fooled By Metrics

</details> <details> <summary>Twilio</summary>

Blog Posts

Twilio SRE Gameday Template

</details> <details> <summary>Twitter</summary>

Blog Posts

</details> <details> <summary>Uber</summary>

Blog Posts

Videos

</details> <details> <summary>Udemy</summary>

Blog Posts

</details> <details> <summary>upGrad</summary>

Blog Posts

</details> <details> <summary>VGW</summary>

Blog Posts

The SRE Incident Response game

Videos

Level Up Your Incident Response With Gameplay

</details> <details> <summary>Wikimedia Foundation</summary>

Videos

</details> <details> <summary>Wix</summary>

Blog Posts

</details> <details> <summary>Yelp</summary>

Blog Posts

The process: Implementing Yelp’s failover strategy

Videos

Yelp - What I Wish I Knew before Going On-Call

</details> <details> <summary>Zalando</summary>

Blog Posts

</details> <details> <summary>Zerodha</summary>

Blog Posts

</details> <details> <summary>Zomato</summary>

Blog Posts

Huddle Diaries – DevOps and Data Platform

</details>

SRECon Mix Playlist

Videos

Resources

Books

Events

Other Resources

Awesome Lists

SRE Resources from various organizations

Incidents & postmortems

Newsletters

Credits

Inspired by Howtheytest from Abhijeet Vaikar
The list of organizations is referred from my other repo awesome-engineering
Banner image Cartoon vector created by vectorjuice - www.freepik.com

Other How They... repos

Contributors

Contribute

Contributions welcome! Read the contribution guidelines first.

Stargazers Over Time

License

To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.

If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.