Come funziona Outbreak Tracker
Architettura del tracker: estrazione AI da feed RSS, geolocalizzazione, deduplicazione semantica, integrazione bollettini ufficiali. Open source, CC-BY-4.0.
- Chi mantiene il tracker?
- Il tracker è mantenuto da Valerio Dolci come progetto indipendente. Non è collegato a OMS, ECDC o nessuna istituzione sanitaria. Lo scopo è informativo e di trasparenza: confrontare i numeri ufficiali con quelli amplificati dai media, senza sensazionalismo.
- Come vengono raccolti i dati?
- Pipeline cron 6h: (1) fetch da ~30 feed RSS sanitari (OMS, ECDC, RKI, RIVM, CDC, ISS, media internazionali); (2) filter URL già visti (30gg storia); (3) extract via Claude CLI (Anthropic) in JSON strutturato; (4) geocode via Nominatim con cache; (5) merge + deduplicazione lessicale; (6) dedup semantico via agente LLM Sonnet; (7) render mappa + og-image; (8) deploy rsync. Tutto in locale su Mac Mini M4.
- Quali fonti sono considerate autoritative?
- I numeri ufficiali (
totalsin snapshots) sono accettati SOLO da:who,ecdc,national_health(es. RKI, RIVM, ISS, CDC). I media (italiani e internazionali) contribuiscono al counter media ma non al totale ufficiale. Tassonomia completa su about. - Come gestite la privacy delle vittime?
- Solo paese di residenza. Niente nomi, iniziali, età esatte (solo intervalli), foto, dettagli personali. Ogni caso ha un ID anonimo
cs-NNNcon narrative anchors descrittivi privi di PII. Il privacy_guard nella pipeline blocca PII rilevati. GDPR-compliant. - Posso accedere ai dati grezzi?
- Sì. Tutti i JSON pubblici sono esposti via API CC-BY-4.0:
events.json,snapshots.json,case_registry.json,timeline.json,sentiment.json. Endpoint:https://outbreak-monitor.com/api/v1/<file>. - Posso incorporare il tracker nel mio sito?
- Sì, c'è un embed widget in iframe. 1 riga di codice, self-contained, parametri lingua/tema/compact. Esempi e snippet sulla pagina API.
- È open source?
- Il codice della pipeline è in via di rilascio. Il dataset è già pubblico CC-BY-4.0. Per richieste di accesso anticipato al codice: [email protected].
How Outbreak Tracker works
Tracker architecture: AI extraction from RSS feeds, geolocation, semantic deduplication, official bulletin integration. Open source, CC-BY-4.0.
- Who maintains the tracker?
- The tracker is maintained by Valerio Dolci as an independent project. It is not affiliated with WHO, ECDC or any health institution. The purpose is informational and transparency: comparing official numbers with media-amplified ones, without sensationalism.
- How is data collected?
- 6h cron pipeline: (1) fetch from ~30 health RSS feeds (WHO, ECDC, RKI, RIVM, CDC, ISS, international media); (2) filter already-seen URLs (30d history); (3) extract via Claude CLI (Anthropic) into structured JSON; (4) geocode via Nominatim with cache; (5) merge + lexical deduplication; (6) semantic dedup via Sonnet LLM agent; (7) render map + og-image; (8) deploy rsync. All locally on Mac Mini M4.
- Which sources are considered authoritative?
- Official numbers (
totalsin snapshots) are accepted ONLY from:who,ecdc,national_health(e.g. RKI, RIVM, ISS, CDC). Media (Italian and international) contribute to the media counter but not to the official total. Complete taxonomy on about. - How do you handle victim privacy?
- Country of residence only. No names, initials, exact ages (only ranges), photos, personal details. Each case has an anonymous ID
cs-NNNwith descriptive narrative anchors free of PII. The privacy_guard in the pipeline blocks detected PII. GDPR-compliant. - Can I access the raw data?
- Yes. All public JSONs are exposed via CC-BY-4.0 API:
events.json,snapshots.json,case_registry.json,timeline.json,sentiment.json. Endpoint:https://outbreak-monitor.com/api/v1/<file>. - Can I embed the tracker on my site?
- Yes, there is an embed widget in iframe. 1 line of code, self-contained, with lang/theme/compact parameters. Examples and snippets on the API page.
- Is it open source?
- Pipeline code is being released. Dataset is already public CC-BY-4.0. For early access requests to the code: [email protected].