Blog

Zálohování petabajtů tak trochu jinak

Zálohujeme na pevné disky a i s vadnými bloky. Rozepsali jsme o tom proč tento způsob zálohování používáme a o úspěšnosti obnově dat z těchto disků po několika letech.

CDN Cache 2.0

Za posledních několik let se nám výrazně změnil typ souborů v naší CDN a podle toho jsme museli cachování náležitě upravit.

Aptly - self-hosted debian repozitáře

Při správě serverů nejspíš každý v jeden moment dojde do momentu, kdy potřebuje distribuovat vlastní nástroje, které mu usnadní život.

Správa šablon v zabbixu

K monitoringu serverů používáme zabbix. Základní šablony nám ale úplně nevyhovují a musíme do nich dělat nějaké změny.

Nové servery připojujeme jen pomocí 10Gbps

Všechny nové servery nově připojujeme jen pomocí 10/25/40 nebo 100 gigabitového ethernetu a přestáváme používat 1Gbps.

BlueFS spillover detected on X OSD(s)

Ukážeme si, jak rozšířit oddíly bluestore block.db a jak migrovat data po přetečení dat do pomalé databáze (od Ceph v14.1.0 a výše).

ERR_ECH_FALLBACK_CERTIFICATE_INVALID

Dnes jsme z jednoho webu dostávali v Chrome chybu ERR_ECH_FALLBACK_CERTIFICATE_INVALID.

Předěláváme management síť

Došly nám IPv4 adresy v management síti a rozhodli jsme se celou tuto část sítě předělat, abychom vyřešili i další problémy, které se za posledních pár let nasbíraly.

Test: AMD Ryzen 7900 + MC13-LE0

Už dlouho přemýšlíme, jak upgradovat naší výpočetní farmu. Připravili jsme si prototyp s CPU AMD Ryzen 7900 a výsledky nás mile překvapily.

Likvidace poškozených disků

Likvidaci poškozených disků nepodceňujeme, neboť si uvědomujeme, že při nesprávném způsobu jejich likvidace by se mohla citlivá data dostat do nepovolaných rukou.

1+ PB Ceph v 1/2 racku

Začali jsme stavět další ceph. Tentokrát se snažíme dostat 1+ PB dat do poloviny racku.

Rack design

Stavíme racky tak, že jsou plné odshora dolů. Sepsali jsme všechny parametry a omezení, na které si při návrhu dáváme pozor, abychom to celé udrželi maximálně jednoduché a při servisu minimalizovali možnost výpadku.

DDOS - HTTP Flood

DDOS útoky se staly běžnou součástí našeho života. Občas se ale objeví zajímavé kousky, o kterých si myslíme, že stojí napsat. Tentokrát si popíšeme, jak funguje jeden operující na našem území.

CDN Cache

Budování CDN je náročné. My jsme našli několik triků, jak si infrastrukturu usnadnit a zároveň dodat zákazníkovi službu, která naplňuje jeho potřeby.

Masterless puppet

Puppet používáme na správu stovek serverů už nějakou dobu. Celkem dlouho nám ale trvalo než jsme našli konfiguraci, která by byla dostatečně jednoduchá.

IPv6 IPXE chainloading

V našem skladu často testujeme i starší servery bez podpory IPv6 UEFI bootu. Navíc v nich nemáme ani karty s iPXE. Pro tyto případy používáme IPXE chainloading.

NAT64 - Zkušenosti s Taygou

Abychom zpřístupnili obsah dostupný pouze v IPv4 sítích našim serverům, které mají pouze IPv6 adresu, museli jsme implementovat jeden z přechodových mechanismů. V současné době k tomuto používáme software Tayga implementující NAT64.

iPXE - Vlastní bootovací firmware síťové karty

O využítí IPv6 PXE bootu jsme psali na našem blogu již několikrát. Starším serverům bez podpory UEFI IPv6 bootu jsme přidali podporu pomocí iPXE flashnutého do PCI-E síťové karty.

Dedikované vs sdílené instance aplikací

Je u SaaS lepší dělat jednu velkou instanci, kterou budou používat všichni zákazníci, nebo každému zákazníkovi vytvořit vlastní instanci? Připravili jsme malé srovnání, jak to vidíme my.

IPv6 only DNS64 server

Některé (převážně starší) aplikace a knihovny mají problém s pouze IPv6 prostředím, pokud od DNS dostanou odpověď na dotaz typu A. Na našich DNS64 serverech jsme tedy začali zahazovat všechny A požadavky.

MySQL Fulltext - zpomalení vyhledávání

Není úplně běžné používat MySQL pro fulltextové vyhledávání, ale jsou menší projekty, kde to bohatě stačí. Setkali jsme se ale se situací, kdy v průběhu času došlo k výraznému zpomalení vyhledávání.

E-mailová kampaň pro 1 000 000 příjemců

Black Friday je důležitý okamžit pro většinu eshopů. Jeden z našich zákazníků se na nás obrátil s požadavek na asistenci při rozeslání přes 1 000 000 emailů.

Nefunkční připojení k IPv4 lookbacku v IPv6 síti

Tento týden jsme řešili zajímavý problém, kdy se aplikace nedokázala připojit k memcached naslouchajícímu na IPv4 loopbacku.

IPv6 UEFI PXE - duplicitní odpovědi

Kvůli duplicitním odpovědím od DHCPv6 serveru nám odmítaly některé servery bootovat přes IPv6 po síti.

Ceph

Před půl rokem jsme se rozhodli podívat se na ceph jakožto storage technologii pro naší video CDN. Dnes už v něm máme uloženo téměř 2PB dat a v migraci dat dále pokračujeme.

Supermicro IPMI v IPv6 only síti

Supermicro IPMI management nepodporuje RMCP přes IPv6.

Výpadek služeb v datacentru Tower - 12.08.2019

Incident report k výpadku služeb dne 12.08.2019, který postihl celou naší infrastrukturu v lokalitě DC Tower.

Prototyp deduplikace záloh virtuálních serverů

Zajímalo nás, kolik bychom mohli ušetřit místa, kdybychom deduplikovali zálohy zákaznických virtuálních serverů.

Vliv frekvence procesoru na rychlosti webu

U jednoho zákaznického serveru jsme vyměnili v serveru 1.7GHz procesor za 3.3GHz a docílili jsme tím zásadního zrychlení webu.

IPv6 only síť - změna k lepšímu

V druhém pokračování blog postu o IPv6 se podíváme na to, jak nám IPv6 pomohla zjednodušit infrastrukturu.

IPv6 only síť - stav před IPv6

O IPv6 jsme se malými krůčky začali zajímat v době, kdy google hlásil, že skrz IPv6 proudí 15% jeho veřejného provozu. Dnes (google hlásí 28%) je IPv6 naším primárním protokolem a IPv4 používáme jen v místech, kde je to nezbytně nutné.