06. Juni 2023
m³
M³ Minds Mastering Machine am 10. und 11. Mai 2023
Auf der zweitägigen Minds Mastering Machines (m³) am 10. und 11. Mai 2023 war Accso als Goldsponsor mit Vortrag, Messestand und 5 Teilnehmer:innen vertreten. Die m³ ist eine Industriekonferenz für Data Scientists und Machine Learning Engineers. Abseits der Vorträge zu Modellentwicklung gab es dieses Mal einige Beiträge zum aktuellen Hypethema Large Language Models (LLMs) und deren Anwendungen wie ChatGPT, aber auch einen starken Fokus auf ML Ops. ML Ops beschreibt die Übertragung von DevOps-Prinzipien auf Entwicklung und Betrieb von KI-Lösungen. In mehreren Vorträgen wurden dabei Best Practices und Erfahrungen zu ML Ops geteilt, sowie unterschiedliche Plattformen von AWS SageMaker bis Telekom Data Science Platform diskutiert.
Accso-Vortrag
Am ersten Tag der m³ hielten Dr. Xenija Neufeld und Valentin Kuhn einen Vortrag über flexible Architekturen für ML-Anwendungen. Dabei beschrieben sie als Ausgangspunkt einen Proof of Concept für eine ML-Anwendung, die aus Zeit- und Kostengründen als Monolith entwickelt wurde. Im Vortrag wurden Lösungsstrategien und Zielarchitekturen vorgestellt, um diese monolithische Architektur im Sinne der Übersichtlichkeit und einfacheren Wartbarkeit in kleinere Komponenten oder sogar einzelne Services aufzubrechen.
Large Language Models
Eingeleitet wurde die Konferenz mit einer kritischen Betrachtung von KI-Systemen. Anne Lauscher von der Uni Hamburg hatte sich mit der Fragestellung nach der „Wahrheit“ bei der Verwendung einer Conversational AI beschäftigt. In dem Vortrag wurde aufgezeigt, wie stark Modelle wie GPT auch Vorurteile befeuern können. Es habe sich gezeigt, dass auch in einer so modernen Technologie veraltete Ansichten, Rollen, Vorstellungen einer Beziehung und auch ethnische Diskriminierung nicht ganz auszuschließen sind. Deswegen sei es wichtig, dass ein so intelligent wirkendes Tool nicht als allwissend betrachtet wird, sondern dass man sich kritisch damit auseinandersetzt und stets daran arbeitet, solche Schwächen auszumerzen.
Trotz dessen kann ein darauf aufbauendes Tool wie ChatGPT ein hilfreicher Assistent für die Allgemeinheit sein. Problematisch ist dabei nur, dass ein solches Modell nur von einem Anbieter betrieben werden kann, der über ausreichend Rechenkapazitäten verfügt.
In dem Vortrag „Ein Sprachmodell für die Westentasche“ von Christian Winkler wurde uns gezeigt, wie man ein LLM auf seiner eigenen Hardware zum Laufen bekommt. Dabei ging es nicht um eine Desktop PC Power Maschine, sondern um ein Gerät, das zu heutigen Zeiten fast jeder besitzt: ein Smartphone! Das Verfahren, welches verwendet wurde, um das Model auf eine für ein Smartphone verarbeitbare Größe zu bekommen, nennt sich Quantization. Dabei werden die Gewichte eines Modells im Grunde auf einen kleineren Datentyp gerundet, wodurch sich die Größe des Modells reduziert und somit auch der Rechenaufwand sinkt.
Dies kann ein immenser Vorteil sein, wenn man bedenkt, dass sich die Betriebskosten von ChatGPT auf 700 000$ pro Tag belaufen sollen.
Vorgeführt wurde das Verfahren zur Modellkomprimierung und Inbetriebnahme auf einem Smartphone anhand des öffentlich zugänglichen Modells LLaMa. Der daraus resultierende mobile Assistent kann zwar von großem Nutzen sein und man muss seine Fragen nicht mehr mit einem Anbieter wie OpenAI teilen. Dafür geht bei dem Quantizationprozess ein Teil der Präzision verloren und die Berechnung einer Antwort dauert mehrere Minuten, während der Akku des Endgeräts stark belastet wird.
Neben den Keynotes haben sich auch noch viele weitere Vorträge mit dem Thema LLMs beschäftigt. Dabei wurde zum Einen gezeigt, wie man mit dem OpenSource Framework Haystack eine Pipeline aufbauen kann, um bspw. unternehmensspezifische Daten einem LLM bereitzustellen, welches diese für die Beantwortung von Fragen verwendet.
Ebenso kann ein solches Modell eine Gefahr für ein Unternehmen sein und das nicht nur aus Wettbewerbssicht. So wurde anhand von ChatGPT gezeigt, wie man mit den richtigen Fragen erklärt bekommen kann, auf welche Art man die Sicherheitslücken eines Online-Shops ausnutzen kann.
Auch die Modellkomprimierung wurde in einem weiteren Vortrag nochmal aufgegriffen. Vorgestellt wurden drei Verfahren: Pruning, Knowledge Distillation und Quantization. Durch die Anwendung dieser Verfahren kann die Trainings- und Inferenzzeit als auch die Modellgröße verringert werden. Damit reduziert sich auch der Stromverbrauch. Außerdem wurde das Open-Source Tool „Intel Neural Compressor“ vorgestellt, welches neben vielen weiteren Optimierungs- und Komprimierungsverfahren auch die genannten drei bereitstellt. Zusätzlich soll das Tool auch die Laufzeit der Modelle auf CPUs optimieren. Der Einsatz des „Intel Neural Compressors“ ist insofern kritisch zu betrachten, dass man sich mit der Verwendung dieses Tools in die Abhängigkeit von Intel Hardware begibt.
Darüber hinaus wurde am Ende des ersten Konferenztages ein Vortrag mittels “PowerPoint Ghostwriter” sehr eindrucksvoll auto-generiert – inklusive Folien und Sprechervideo. Dabei wurden zusätzlich zum generierten Text noch Sprachsynthese und Deep Fakes hinzugezogen, um Teile der Präsentation komplett zu automatisieren.
Eine Welt neben LLMs:
Large Language Models waren nicht das einzige Thema, dass in den Vorträgen behandelt wurde. In einigen Vorträgen wurden auch andere Felder des Maschinellen Lernens betrachtet. Der Detailgrad hierbei variierte zwischen einem spezifischen Vergleich von den Data Frame Libraries Pandas und Polars bis hin zu der Betrachtung einer automatisierten Erkennung von gefälschten Kfz-Schadensbildern.
Feuer mit Feuer bekämpfen:
In dem Vortrag zur Erkennung von gefälschten Kfz-Schadensbildern wurden die Zuhörer nochmal auf die Problematik von schnell voranschreitenden Generativen Neuronalen Netzen hingewiesen. Denn so wie Kfz-Schäden auf Bildern mithilfe von Convolutional Neural Networks erkannt werden können und automatisch eine Schadenssumme berechnet wird, so könnten auch gefälschte Schadensbilder generiert werden und Schadensersatzzahlungen unberechtigt ausgezahlt werden. Für eine Versicherung beinhaltet das ein enormes Risikopotential. Deswegen ist es umso wichtiger, dass solche Betrugsversuche auch automatisiert erkannt werden können, da dies für das menschliche Auge nicht ersichtlich ist. Man könnte vor diesem Hintergrund von einem Konkurrenzkampf der KI-Entwicklung sprechen.
Bärenkampf?!?
In dem Vergleich von Pandas gegen Polars geht es zwar nicht um ein
Simulationsmodell zur Bestimmung des Ausgangs eines hypothetischen
Kampfes von Polarbären gegen Pandabären, aber trotzdem ging es ganz
schön zur Sache.
Verglichen wurden die Dataframe Libraries Pandas v1, Pandas v2 und
Polars. Vorgestellt wurden zuerst die Schwachpunkte der ersten Version
von Pandas. Folgend wurde gezeigt, wie diese von den Nachfolgern Pandas
v2 und Polars ausgeglichen werden. Eine wichtige Änderung, die bei
beiden Nachfolgern zum Einsatz kam, ist die Einführung von Apache Arrow.
Apache Arrow macht Datenzugriffe wesentlich effizienter und vor allem
schneller. Neben ineffizienten Datenzugriffen wurden noch viele weitere
Defizite behandelt, welche für diesen Beitrag aber zu tief gehen.
Résumé
Während all dieser interessanten Vorträge konnten unsere teilnehmenden Accsonaut:innen neues Wissen sammeln, sowie sich in Gesprächen und beim abendlichen Flammkuchen mit anderen Teilnehmer:innen vernetzen. Der daraus resultierende Einblick in die einzelnen Geschäftsfelder, in denen KI eingesetzt wird und auch die eher forschungsorientierten Vorträge haben den Teilnehmenden einen erweiterten Blick auf die Einsatzmöglichkeiten von Künstlicher Intelligenz gegeben.