Thoughts: Favorite tweets

Friday, May 9, 2025

Favorite tweets

Remember reinforcement fine-tuning? We’ve been working away at it since last December, and it’s available today with OpenAI o4-mini! RFT uses chain-of-thought reasoning and task-specific grading to improve model performance—especially useful for complex domains. Take https://t.co/7V8Oxlfa2L https://t.co/zmCzz7rE7J
— OpenAI Developers (@OpenAIDevs) May 8, 2025

from Twitter https://twitter.com/OpenAIDevs

May 08, 2025 at 05:30PM
via IFTTT

No comments:

Post a Comment

Subscribe to: Post Comments (Atom)