Der Einsatz moderner Technologien in der Medizin wird immer häufiger. Papier-Patientenkarten sind nicht mehr im Umlauf und werden durch elektronische Datenspeicher ersetzt. Der Prozess der Digitalisierung des Gesundheitswesens ist im Gange! In welchen Bereichen? Die Antwort auf diese Frage finden Sie später in diesem Artikel.
Wie funktionieren Krankenhaus-IT-Systeme?
Man muss niemanden davon überzeugen, wie wichtig Gesundheit ist. Der Gesundheitszustand hängt weitgehend von uns selbst ab. Und was, wenn die Gesundheit zu versagen beginnt? Dann kommen Ärzte zu Hilfe – dank ihres Wissens und ihrer Erfahrung können wir uns erholen.
An der Prophylaxe oder Behandlung sind auch andere Personen und Elemente beteiligt, ohne die es nicht so gut funktionieren würde.
Täglich gehen Tausende von Patienten in medizinische Einrichtungen und Krankenhäuser. Man muss die Krankheit oder ihre Komplikationen erkennen, Empfehlungen für die weitere Behandlung abgeben und Hinweise zum Umgang mit möglichen Nebenwirkungen von Medikamenten usw. geben. Am Ende gehen alle diese Informationen elektronisch an das IT-System. Ein solches System verbessert den Behandlungsprozess, der viel effektiver wird. Das medizinische Wissen über einen bestimmten Patienten wird an einem Ort gesammelt, sodass es in den folgenden Jahren von nachfolgenden Spezialisten verwendet werden kann.
Die medizinische Industrie verwendet Daten in vielen Formaten und Mengen. Dies ist eine große Herausforderung für ihre Verarbeitung. Ein Kunde aus den USA kam mit einem solchen Problem zu uns. Jeden Tag erhielt er riesige Mengen von Dateien, die an die Zentraleinheit des Unternehmens geschickt wurden. Sie enthielten verschiedene Arten von Interviews mit Patienten, die von Ärzten durchgeführt wurden, sowie Patientengeschichten, die täglich von medizinischem Personal und Datenmanagern verwendet werden mussten. Eine weitere Schwierigkeit war die Tatsache, dass jedem autorisierten Mitarbeiter riesige Daten in Echtzeit zur Verfügung stehen mussten.
Arbeit mit Kunden – Anforderungen.
Die Aufgabe für unser Team war nicht einfach. Wir mussten Daten aus mehreren Quellen abrufen, transformieren und dann in ein anderes System laden. Es war eine Art Datenintegration, bei der Daten aus medizinischen Einrichtungen an das Petabyte-Data-Warehouse gesendet werden sollten. Das Verständnis der Daten und des gesamten Verarbeitungsprozesses war dabei ein zentraler Aspekt.
Bei der Implementierung dieser Lösung war es auch sehr hilfreich, die Funktionalität der Software zu verstehen und sich über die vom Kunden erwarteten Ergebnisse zu informieren. Bei der Arbeit mit riesigen Datenmengen war das Schlüsselelement, solche Techniken und Werkzeuge so auszuwählen, dass der Verarbeitungsprozess so kurz wie möglich war. Effizienz war hier von entscheidender Bedeutung, da sich das Fehlen in negativen Gefühlen des Endbenutzers und in der Folge seiner schlechten Meinung über das System niederschlagen würde.
Ein weiterer sehr wichtiger Aspekt war das Sammeln von Informationen über alle unerwünschten Verhaltensweisen und falschen Daten. In diesem Fall waren die Anforderungen des Kunden sehr klar definiert. Er erwartete, dass wir eine bestimmte ETL-Software verwenden – ein Open-Source-Tool namens Talend Open Studio für Data Integration.
Was ist der ETL-Prozess?
Die ETL-Abkürzung stammt aus dem Englischen und bedeutet Extraktion, Transformation und Laden von Daten. Während des gesamten Datenmigrationsprozesses findet immer eine Validierung dieser Daten statt, wodurch diese Abkürzung für ETLV manchmal vervollständigt wird.
Der erste Schritt in einem solchen Prozess besteht darin, Daten vom Quellsystem oder von vielen solchen Systemen zu erhalten. Dann – um diese Daten in das nächste, bereits vorhandene Zielsystem zu laden, müssen die Daten in das entsprechende Format transformiert, die entsprechenden Filter angewendet und Geschäftsregeln implementiert werden. Im gesamten Prozess gibt es auch eine Datenbereinigung, die nicht in der Transformationsphase durchgeführt werden muss – viel häufiger wird eine solche Operation vor der Datenextraktion oder sogar nach dem Laden durchgeführt, was viel seltener vorkommt.
In der Praxis wird auch die Software, mit der diese Daten in Geschäftsinformationen umgewandelt werden, als ETL bezeichnet.
Was ist Talend Open Studio?
Talend Open Studio ist eine Open Source-Software-Integrationsplattform, mit der komplexe Daten in Informationen umgewandelt werden können, die für die Verantwortlichen für geschäftliche Probleme verständlich sind. Dieses einfache und intuitive Tool ist in den USA weit verbreitet. Es kann leicht mit den Produkten anderer Big Player auf diesem Markt konkurrieren. Wichtig ist, dass Talend hervorragend mit Cloud-basierten Data Warehouses von Giganten wie Microsoft Azure und Amazon Web Services zusammenarbeitet.
Die Grundfunktionen von Talend sind:
- Über 900 fertige Komponenten zum Verbinden verschiedener Datenquellen – RDBMS, Excel, SaaS Big Data sowie zum Verbinden mit Apps und Technologien wie SAP, CRM, Dropbox;
- Metadaten Repository zur Vereinfachung der Verbindungsverwaltung;
- Automatische Konvertierung von Aufgaben in Java Code;
- Intuitive Übergänge und eine ziemlich große Community.
„Talendierter“ Datenfluss in der AWS-Cloud
Das beschriebene Projekt war zweifellos eines der größten Projekte bei Transition Technologies PSC, das sich auf die Verwendung von Talend Open Studio konzentrierte. Damit alles reibungslos und zuverlässig funktioniert, haben wir in der Vorbereitungsphase viel Wert auf die Infrastruktur gelegt.
Die Wahl fiel auf Amazon Web Services. Als Storage verwendeten wir Amazon S3 (Simple Storage Service) – vor allem aufgrund seiner enormen Fähigkeiten. Keine Kapazitätsbeschränkungen, leichte Zugänglichkeit und vor allem eine lange Lebensdauer der Datenaufzeichnung sind nur einige davon. Die Popularität dieses Dienstes zeigt sich darin, dass er der Hauptstorage für Giganten wie Netflix oder Dropbox ist. Hier sammelten die ETL Prozesse JSON Dateien, die im nächsten Schritt das Data Warehouse versorgten.
Ein Data Warehouse ist eine spezifische Datenbank, die Daten aus vielen Quellen integriert. Seine Ressourcen werden meist zyklisch mit Daten aus Produktionssystemen gespeist. Unser Data Warehouse basierte auf dem Amazon Redshift-Service. Dies ist eine sehr beliebte Lösung, die von über 15.000 Kunden auf der ganzen Welt verwendet wird, einschließlich McDonalds oder Philips. Der Hauptvorteil von Redshift ist zweifellos die Leistungsfähigkeit und Skalierbarkeit. Obwohl dies keine reguläre relationale Datenbank ist, verwenden wir eine Standard SQL Query. Nur bei der Analyse großer Datenmengen stellen wir fest, wie effektiv und schnell Abfragen in Amazon Redshift sind. Was wichtig ist: es gibt keine Indizes und die Methode zum Speichern von Daten ist spaltenweise. Jede Spalte kann eine andere Komprimierungsmethode haben, wodurch die Kosten weiter reduziert und Speicherplatz gespart werden.
Amazon Redshift bildet zusammen mit S3 ein großartiges Tandem zum Speichern von Daten. Sie arbeiten effizient mit Talend zusammen, das über integrierte Komponenten für solche Dienste verfügt. Einer der Hauptvorteile der Amazon Web Services Cloud sind praktisch unbegrenzte Ressourcen. Bei Bedarf kann man die Kapazität in wenigen Minuten erweitern. Oft ist es zu Beginn des Projekts sehr schwierig zu bestimmen, welche Festplattenkapazität benötigt wird. Leider erfordern herkömmliche „on premises“ Lösungen eine solche Erklärung von uns. Die Cloud gibt uns diesbezüglich Freiheit und ermöglicht sogar Konfigurationen, die die Datenbank automatisch vergrößern, wenn unsere Anforderungen steigen.
Ein weiterer Vorteil ist die Gewissheit, dass die von uns gespeicherten Daten nicht verloren gehen. Amazon S3 hat im Laufe des Jahres eine Garantie der Haltbarkeit von Aufzeichnungen von 99,999999999%. Das bedeutet, wenn wir 10 Millionen Objekte lagern, besteht die Gefahr, dass wir alle 10.000 Jahre einen verlieren.
Ein weiterer wichtiger Vorteil der Cloud ist, dass man auf einfache Weise sicherstellen kann, dass die gesetzlichen Bestimmungen eingehalten werden. Durch das Speichern von Daten in der Amazon-Cloud können wir auswählen, wo sie sich befinden sollen. Durch das Speichern von Daten in der Amazon-Cloud können wir auswählen, wo sie sich befinden sollen. Wir können sie in einer der Regionen der Europäischen Union (z. B. Deutschland oder Irland) platzieren. Dadurch können wir sicher sein, dass wir das Datenschutzgesetz einhalten. Wenn sich unser Hauptsitz in Europa befindet, gewinnen wir außerdem das Vertrauen, dass der Zugriff auf Daten viel schneller sein wird. Für den Kunden von TT PSC war die Wahl des Speicherorts für die Datenspeicherung in den USA eindeutig; optimal in Bezug auf Kosten und Wartezeit.
Es ist anzumerken, dass die Kosten und die Verfügbarkeit von Cloud Diensten in Abhängigkeit von den Regionen variieren, in denen sie gehostet werden. Beispielsweise ist Amazon S3 in der Region North Virginia fast doppelt so günstig wie derselbe Dienst in der Region Sao Paulo.
Die Vorteile der Cloud sind weitaus größer. Aus der Sicht des Developers ist jedoch die intuitive und effiziente Nutzung der in AWS verfügbaren Ressourcen das wichtigste.
Zusammenfassend ist festzuhalten, dass das für unseren ausländischen Kunden durchgeführte Projekt erfolgreich abgeschlossen wurde, seine Bedürfnisse vollständig erfüllt und bestehende Probleme gelöst wurden. Die Arbeit am Projekt (unter Verwendung der zuvor beschriebenen Tools) aus der Sicht des Developers war wiederum ein Vergnügen.
Denken Sie darüber nach, Prozesse in Ihrem Unternehmen zu digitalisieren? Nehmen Sie unbedingt Kontakt mit uns auf!