- The AI Product Report
- Posts
- Browse.AI - Le scraping de données est devenu beaucoup plus simple
Browse.AI - Le scraping de données est devenu beaucoup plus simple
La vedette de la semaine dernière fait son grand retour!
Pour ceux qui sont nouveaux ici, il s'agit d'une newsletter hebdomadaire dans laquelle je mets en évidence des produits d'IA nouveaux et innovants qui méritent d'être explorés.
Bonjour!
Bon vendredi ! Nous sommes de retour pour un autre numéro de 2024.
Dans l’édition de cette semaine:
Produit de la semaine
Aidez-nous à rendre le rapport IA magique!
D'autres événements liés à l'IA se sont produits (le dernier numéro de Wondercraft.ai de la semaine dernière !)
Mon coup de coeur lecture
PRODUIT DE LA SEMAINE
After testing dozens of new AI products this week. Here’s my top pick.
Après avoir testé des dizaines de nouveaux produits d’IA cette semaine, voici ma découverte préférée.
Le produit choisi cette semaine est Browse.AI, une plateforme assez intelligente qui permet en grande partie de rendre le moissonnage/scraping (lire : effectuer la collecte de données à partir de diverses sources en ligne, listes, résultats de recherche, etc...) beaucoup plus fluide. Une question m’est restée lors de l'évaluation de ce produit:
Est-ce un meilleur marteau? Ou un tout nouvel outil? En réalité, Browse.AI joue les deux rôles.
Grâce à son backend basé sur l'IA, Browse AI vous permet de créer sans effort des automatisations personnalisées pour extraire PUIS surveiller les données de n'importe quel site Web, le tout sans une seule ligne de code. Que vous soyez un chercheur de marché, un passionné de startup ou un membre d'une grande entreprise, cet outil est votre passerelle pour libérer le vaste potentiel du Web. Des robots prédéfinis qui répondent aux cas d'utilisation courants à la flexibilité de créer votre propre solution à l'aide d'une extension de navigateur, Browse AI rend le processus simple, rapide et incroyablement efficace.
Je suis tout simplement étonné de voir à quel point le scraping de données est devenu un jeu d'enfant par rapport à son passé complexe. Fini le temps des processus fastidieux et des casse-têtes de codage sans fin. Maintenant, avec seulement quelques clics et quelques outils astucieux, je peux aller aussi loin avec une fraction de la sueur.
Pour commencer, j'ai ajouté la vidéo de présentation d'une minute ici, alors jetez-y un œil :
Browse AI propose deux types principaux de technologie de scraping sans code. Tout d'abord, les utilisateurs peuvent collecter de manière statique des données actuelles via une exécution ponctuelle de leurs points de données marqués (terme technique : attributs). Ensuite, les utilisateurs peuvent commencer à suivre l'évolution de leur source de données souhaitée au fil du temps avec des fonctionnalités de surveillance progressive.
Lors des tests sur le terrain, il a vraiment fonctionné aussi simplement que le montre la vidéo, démontrant une certaine robustesse à certains des essais que je lui ai soumis.
La mise en route de cet outil a été aussi simple que 1-2-3:
Vous installez une extension de navigateur qui permet à l'enregistreur de navigation de faire son travail
Comme dans la vidéo, vous mettez en évidence les points de données que vous souhaitez collecter sur un site Web (Limitation ici à la robustesse : le texte visible à l'écran qui est couvert par une protection contre la copie invisible n'est pas chargeable. Pas même via une combinaison de correspondance URL HTML-à-légende OCR)
puis vous confirmez votre choix et attendez les exports
En commençant par un tutoriel Lifehacker, j'ai mis la main sur tous les liens utiles des ressources mentionnées sur la page, et j'étais sur la bonne voie en 5 minutes environ, de l'installation aux résultats.
La conception de l'expérience utilisateur (UX) dans son ensemble était simple à parcourir, pardonnant les erreurs de l'utilisateur et clairement conçue pour guider les utilisateurs de manière intuitive tout au long du processus. Cette intention se traduit par des instructions claires, des commentaires sur les actions et la minimisation des erreurs de l'utilisateur grâce à une conception d'interface réfléchie. C'est comme avoir un guide étape par étape pour vous remettre sur la bonne voie si vous vous égarez ou faites une erreur, et vous garantit de toujours savoir quoi faire ensuite. Ce type de conception UX m'a permis de me sentir soutenu et en confiance lors de mes interactions avec le produit.
Un incontournable de la conversation Browse.ai – Des pré-construits en masse
L’équipe de Browse.ai a misé gros sur les pré-construits ! J’ai été agréablement surpris par le volume considérable de sites bien connus qui étaient entièrement prêts à être utilisés sans lever le petit doigt. La gamme de pré-construits était également assez exhaustive, car il y avait une gamme de « modèles » allant de:
Outils de recrutement (Glassdoor, Indeed et autres)
Sites informatifs
Sites de découverte (résultats Redfin pour la recherche immobilière)
E-commerce (Amazon pour la découverte de produits)
Sites de communiqués de presse
Et croyez-moi, il y en avait bien d'autres. Voyez par vous-mêmes mon passage, le volume est stupéfiant:
En faisant défiler la liste jusqu'à la fin, j'ai modifié le clip et l'ai exécuté à une vitesse 2x pour en faire un GIF
Pour me faciliter la vie en produisant du contenu de qualité, je me suis dit : « Attendez une minute, je peux utiliser cela pour créer une liste brute mais détaillée de produits alimentés par l'IA, et je peux ajouter cette liste à mes autres pour une révision et une exploration ultérieures ! » … c'est ce que j'ai fait avec le Product Hunt pré-construit.
Comme vous pouvez le voir ci-dessous, les résultats des tâches modélisées ont fourni un certain nombre d'attributs utiles prêts à être consommés, qu'ils soient humains ou robotisés - car, oui, ce SaaS se connecte à la proche et chère plateforme Zapier. Les paramètres par défaut partout ont donné 9 champs comme les classements par défaut, les titres de produits, les descriptions, les notes d'évaluation, les URL de détails de produits, etc.
Réflexions à long terme
L’avenir de ce produit SaaS est plutôt prometteur, mais les événements récents présentent un deuxième aspect de sa proposition de valeur : une note de risque en raison de son rôle dans la collecte en gros de données Internet par des créateurs de modèles d’IA qui s’approvisionnent en données de formation auprès de sources privées en ligne. Je suis personnellement de plus en plus curieux de savoir comment ce produit va évoluer et comment son équipe de direction va gérer la pression mondiale croissante autour de l’utilisation (ou dans ce cas, de l’activation de l’utilisation programmatique) de contenu propriétaire. Bien que ce contenu soit destiné à la consultation publique, il finit souvent par être exploité pour la formation de modèles d’IA.
Cette situation souligne les défis permanents auxquels sont confrontés les régulateurs et les normalisateurs du secteur pour établir un cadre éthique généralisable pour la collecte de données Internet qui soit au moins quelque peu déterministe, plutôt que d’être si élevé qu’il frôlerait l’inutilité. Comme nous pouvons le voir dans l’actualité de la semaine se terminant en janvier 2024 (lire le récapitulatif ci-dessous !), les complexités et les débats entourant l’utilisation éthique des données Internet pour le développement de l’IA sont loin d’être résolus.
AUTRES NOUVELLES D'IA
Autres actualités et lancements de produits notables de cette semaine
Attention aux rayons des magasins, l'IA s'attaque à vos planogrammes - Ce nouveau produit lancé par Hivery vise à améliorer les capacités de planification des magasins pour afficher les bons produits au bon endroit, avec pour objectif final d'optimiser probablement les marges.
ChatGPT est officiellement sous enquête par l'organisation italienne de la protection des données et de la vie privée. OpenAI dispose de 30 jours à compter du 29 janvier 2024 pour répondre à l'organisme italien, bien que sa déclaration d'ouverture dans son rapport semble tout à fait neutre : « Nous voulons que notre IA apprenne à connaître le monde, pas les individus privés. Nous travaillons activement à réduire les données personnelles dans la formation de nos systèmes comme ChatGPT, qui rejette également les demandes d'informations privées ou sensibles sur les personnes". Plus de détails…
Oh, et oui, Service Now et IBM deviennent publiquement amis de l'IA. Le fait que deux géants du secteur des infrastructures de services travaillent ensemble est tout simplement très logique.
Retour sur les Levées et Fusions:
On en parlait la semaine dernière encore! Wondercraft a levé 3 millions de dollars en Seed round pour s'implanter encore plus dans le paysage médiatique des créateurs indépendants ?
Kore.ai a obtenu un financement massif de 150 millions de dollars pour améliorer sa technologie d'IA conversationnelle pour les entreprises, illustrant une croissance significative dans le secteur de l'IA
La nouvelle startup d'IA de Rob Bearden : Sema4.ai, une startup d'IA dirigée par l'ancien PDG de Cloudera, Rob Bearden, a levé 30,5 millions de dollars, visant à révolutionner le travail en entreprise avec l'IA open source et l'acquisition de la société d'automatisation Robocorp
Cloudwerx acquiert Lightfold : Cloudwerx a réalisé une acquisition stratégique de Lightfold, renforçant ainsi ses capacités en matière d'IA et de solutions de données
La solution d'approvisionnement en IA de Berlin a obtenu un financement ! Succès de financement pour Akirolabs : Akirolabs a obtenu un financement de 4,6 millions de dollars, marquant une étape importante dans son parcours de croissance
WHAT I'M (still) READING
Si vous êtes arrivé jusqu’ici, vous avez un bonus : voici quelques conseils gratuits pour créer une politique d’utilisation éthique de l’IA pour votre équipe ou votre entreprise. Cet article est assez succinct, mais il constitue une base solide pour établir une politique privée sur le sujet. Ethical use policy surrounding AI
"La curiosité est, dans les esprits grands et généreux, la première et la dernière passion.”- Samuel Johnson
Confessions: je continue de lire le même livre que celui de la semaine dernière en raison de sa richesse en informations. Il me faut un peu plus de temps que prévu pour le digérer 😅. Solving Product a été un fantastique voyage à travers les fondamentaux et a suscité de nombreuses réflexions sur la manière dont je peux apporter le plus de valeur possible partout où je travaille. Je tiens à vous faire comprendre que ce livre est plus qu'une simple lecture unique ; c'est une ressource complète qui exige une boucle de « Lecture-> Réflexion-> Notes mentales » pour vraiment bénéficier de sa richesse de connaissances.
Restez en bonne santé et à la semaine prochaine.
-✌🏽 Sam
P.S. Vous souhaitez que je vous donne une rétroaction privée sur un produit que vous êtes en train de créer ? Envoyez-moi un e-mail : [email protected]
Reply