Този уъркшоп запознава участниците с основните принципи при тестването на машинно-обучителни системи и оценката на AI модели от QA перспектива. Чрез интерактивни и практически упражнения ще изследваме:

  • производителността на машинно-обучени класификационни модели,
  • рисковете, свързани с bias и fairness,
  • структурирани методи за валидиране на резултатите от генеративни AI модели.

В уъркшопа се използват интуитивни, визуални инструменти, като не се изискват задълбочени програмни умения. Участниците ще проведат и структурирано A/B тестване на водещи езикови модели (например Llama2, Mistral), за да откриват халюцинации, пристрастия и грешки в разсъжденията  като по този начин се изгражда мост между традиционния QA и prompt engineering.

Какво ще научиш?

  • Да разбираш фундаментите на QA при машинно-обучителни и AI системи
  • Да обучиш и оцениш прост ML класификационен модел с реални данни
  • Да интерпретираш метрики като accuracy, precision, recall и F1 score 
  • Да идентифицираш как предразсъдъци (bias) в тренировъчните данни може да повлияят върху реални решения (например при одобрение на кредити)
  • Да проектираш exploratory и метаморфни тестове за AI модели
  • Да изпълняваш A/B тестване и промпт-базирана валидация на LLM модели (напр. ChatGPT, Mistral, Llama2)
  • Да прилагаш структурирани QA чек листи за оценка на халюцинации, edge cases и качеството на отговорите, генерирани от AI
  • Да използваш peer review и рубрик-базирана оценка за тестване на способността на LLM моделите да правят самооценка
  • Да прилагаш структурирани QA техники, включително принципи, съгласувани с ISTQB, при практическото тестване на AI системи

За да се гарантира персонално внимание и активно участие на всеки, местата са строго ограничени до 40 участници.

За кого е подходящ този Workshop?

  • QA инженери с малък или нулев опит в AI/ML тестване, които искат да усвоят основите на оценяването на ML модели и LLM чрез достъпни, структурирани техники без писане на код.
  • QA специалисти, които вече тестват ML или LLM системи, но искат да структурират, стандартизират и надградят подхода си към evaluation процеса.
  • Team Leads и QA Managers, които планират въвеждане или развитие на QA практики за AI проекти и имат нужда от ясна рамка за качество и надеждност.

Workshop-ът може да е полезен и за:

  • Програмисти и технически специалисти, които работят по AI функционалности и искат да разберат как се оценява качеството и надеждността на моделите — без да се изисква писане на код по време на workshop-а.
  • Product Managers, Business Analysts и други роли, ангажирани с AI проекти, които искат практична рамка за оценяване и вземане на информирани решения относно AI решения.

Минимални технически изисквания: базова компютърна грамотност, интерес към AI/ML.

Тулове и настройки, които ще използваме:

Weka – инструмент с графичен интерфейс за обучение и оценка на ML модели

Google Teachable Machine – платформа за създаване на класификатори на база изображения и звук

ChatGPT / Gemini / Claude – за оценка чрез prompt-и и A/B тестване

VS Code / Markdown Editors – за prompt engineering и писане на рубрики/критерии

• LM Studio (локално)

Подготовка:

Преди уъркшопа участниците ще получат детайлни инструкции как да подготвят всички акаунти и интеграции.